論文の概要: ARMADA: Attribute-Based Multimodal Data Augmentation
- arxiv url: http://arxiv.org/abs/2408.10086v1
- Date: Mon, 19 Aug 2024 15:27:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 15:43:09.840024
- Title: ARMADA: Attribute-Based Multimodal Data Augmentation
- Title(参考訳): ARMADA: 属性ベースのマルチモーダルデータ拡張
- Authors: Xiaomeng Jin, Jeonghwan Kim, Yu Zhou, Kuan-Hao Huang, Te-Lin Wu, Nanyun Peng, Heng Ji,
- Abstract要約: Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
- 参考スコア(独自算出の注目度): 93.05614922383822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Multimodal Language Models (MLMs), the cost of manually annotating high-quality image-text pair data for fine-tuning and alignment is extremely high. While existing multimodal data augmentation frameworks propose ways to augment image-text pairs, they either suffer from semantic inconsistency between texts and images, or generate unrealistic images, causing knowledge gap with real world examples. To address these issues, we propose Attribute-based Multimodal Data Augmentation (ARMADA), a novel multimodal data augmentation method via knowledge-guided manipulation of visual attributes of the mentioned entities. Specifically, we extract entities and their visual attributes from the original text data, then search for alternative values for the visual attributes under the guidance of knowledge bases (KBs) and large language models (LLMs). We then utilize an image-editing model to edit the images with the extracted attributes. ARMADA is a novel multimodal data generation framework that: (i) extracts knowledge-grounded attributes from symbolic KBs for semantically consistent yet distinctive image-text pair generation, (ii) generates visually similar images of disparate categories using neighboring entities in the KB hierarchy, and (iii) uses the commonsense knowledge of LLMs to modulate auxiliary visual attributes such as backgrounds for more robust representation of original entities. Our empirical results over four downstream tasks demonstrate the efficacy of our framework to produce high-quality data and enhance the model performance. This also highlights the need to leverage external knowledge proxies for enhanced interpretability and real-world grounding.
- Abstract(参考訳): マルチモーダル言語モデル(MLM)では、微調整とアライメントのための高品質な画像テキストペアデータを手作業でアノテートするコストが非常に高い。
既存のマルチモーダルデータ拡張フレームワークは、画像とテキストのペアを拡大する方法を提案するが、それらはテキストと画像間のセマンティックな不整合に悩まされるか、非現実的な画像を生成し、現実世界の例と知識のギャップを生じさせる。
これらの課題に対処するために,提案するエンティティの視覚的属性の知識誘導操作による新しいマルチモーダルデータ拡張手法であるAttribute-based Multimodal Data Augmentation (ARMADA)を提案する。
具体的には、元のテキストデータからエンティティとそれらの視覚属性を抽出し、知識ベース(KB)と大規模言語モデル(LLM)の指導のもと、視覚属性の代替値を求める。
次に、画像編集モデルを用いて、抽出した属性で画像を編集する。
ARMADAは、以下の新しいマルチモーダルデータ生成フレームワークである。
i) 意味的に一貫性はあるが特徴のある画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
(II)KB階層内の隣り合うエンティティを用いて、異なるカテゴリの視覚的に類似した画像を生成し、
(iii) LLMのコモンセンス知識を用いて、背景などの補助的な視覚特性を調整し、元のエンティティをより堅牢に表現する。
4つの下流タスクに対する実験結果から,高品質なデータ生成とモデル性能向上のためのフレームワークの有効性が示された。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Generating Faithful and Salient Text from Multimodal Data [24.866158772311522]
混合モーダルデータから忠実で健全なテキストを生成するためのフレームワークを開発する。
画像のモダリティから幻覚的特徴と非塩分的特徴を識別するために、小さな視覚評論家モデルを訓練する。
2つのデータセットの実験により、我々のフレームワークは、忠実度と正当性の両方においてLMMの生成品質を改善することが示された。
論文 参考訳(メタデータ) (2024-09-06T00:59:10Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [32.57246173437492]
本研究は,MLLMにおけるきめ細かい画像認識を強化するために,Img-Diffという新しいデータセットを提案する。
類似画像間のオブジェクト差を解析することにより、マッチングと異なるコンポーネントの両方を識別するモデルに挑戦する。
我々は、安定拡散XLモデルと高度な画像編集技術を用いて、オブジェクト置換をハイライトする類似画像のペアを作成する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking [17.847936914174543]
マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。
我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。
本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:15:50Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。