論文の概要: Aligning Large Multi-Modal Model with Robust Instruction Tuning
- arxiv url: http://arxiv.org/abs/2306.14565v1
- Date: Mon, 26 Jun 2023 10:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 14:05:46.032850
- Title: Aligning Large Multi-Modal Model with Robust Instruction Tuning
- Title(参考訳): ロバスト命令チューニングによる大規模マルチモーダルモデルの調整
- Authors: Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan
Wang
- Abstract要約: 本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
我々のデータセットは、GPT4が生成した120kの視覚命令で構成されており、16の視覚・言語タスクをオープンエンドの指示と回答でカバーしている。
LMMによる幻覚を効果的に測定するために,GAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
- 参考スコア(独自算出の注目度): 70.00006772808264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the promising progress in multi-modal tasks, current large
multi-modal models (LMM) are prone to hallucinating inconsistent descriptions
with respect to the associated image and human instructions. This paper
addresses this issue by introducing the first large and diverse visual
instruction tuning dataset, named Large-scale Robust Visual (LRV)-Instruction.
Our dataset consists of 120k visual instructions generated by GPT4, covering 16
vision-and-language tasks with open-ended instructions and answers. Unlike
existing studies that primarily focus on positive instruction samples, we
design LRV-Instruction to include both positive and negative instructions for
more robust visual instruction tuning. Our negative instructions are designed
at two semantic levels: (i) Nonexistent Element Manipulation and (ii) Existent
Element Manipulation. To efficiently measure the hallucination generated by
LMMs, we propose GPT4-Assisted Visual Instruction Evaluation (GAVIE), a novel
approach to evaluate visual instruction tuning without the need for
human-annotated groundtruth answers and can adapt to diverse instruction
formats. We conduct comprehensive experiments to investigate the hallucination
of LMMs. Our results demonstrate that existing LMMs exhibit significant
hallucination when presented with our negative instructions, particularly with
Existent Element Manipulation instructions. Moreover, by finetuning MiniGPT4 on
LRV-Instruction, we successfully mitigate hallucination while improving
performance on public datasets using less training data compared to
state-of-the-art methods. Additionally, we observed that a balanced ratio of
positive and negative instances in the training data leads to a more robust
model. Our project link is available at https://fuxiaoliu.github.io/LRV/.
- Abstract(参考訳): マルチモーダルタスクの有望な進歩にもかかわらず、現在の大規模マルチモーダルモデル(LMM)は、関連する画像と人間の指示に関して一貫性のない記述を幻覚させる傾向にある。
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的命令チューニングデータセットを導入することでこの問題に対処する。
我々のデータセットは、GPT4が生成した120kの視覚命令で構成されており、16の視覚・言語タスクをオープンエンド命令と回答でカバーしている。
主に正の命令サンプルに焦点を当てた既存の研究とは異なり、我々は、より堅牢な視覚的命令チューニングのための正と負の両方の命令を含むLRV-インストラクションを設計する。
私たちの否定的な指示は2つの意味レベルで設計されます。
一 存在しない要素の操作及び操作
(II)既存の要素操作
LMMが生み出す幻覚を効果的に測定するために,人間の注釈を付さずに視覚指導のチューニングを評価する新しい手法であるGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
われわれはLMMの幻覚を調査するための総合的な実験を行った。
以上の結果から,既存のLMMは負の指示,特に既存要素操作命令で有意な幻覚を示すことが明らかとなった。
さらに, LRV-InstructionでMiniGPT4を微調整することにより, 従来の手法に比べてトレーニングデータが少なく, 公開データセットの性能を向上しながら幻覚を緩和することに成功した。
さらに,トレーニングデータにおける正のインスタンスと負のインスタンスのバランスの取れた比率が,より堅牢なモデルにつながることを観測した。
プロジェクトリンクはhttps://fuxiaoliu.github.io/lrv/で閲覧できます。
関連論文リスト
- MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。
提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文 参考訳(メタデータ) (2024-07-22T17:55:22Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - To See is to Believe: Prompting GPT-4V for Better Visual Instruction
Tuning [82.34463739289892]
LVIS-Instruct4Vには220Kの視覚的アライメントとコンテキスト認識の命令が含まれている。
LLaVA-InstructをLVIS-Instruct4Vに置き換えることで、最も難しいLMMベンチマークでLLaVAよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-13T18:59:31Z) - What Makes for Good Visual Instructions? Synthesizing Complex Visual
Reasoning Instructions for Visual Instruction Tuning [115.19451843294154]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上のためのビジュアルインストラクションチューニング
本稿では,高品質な視覚的推論命令を自動生成するための体系的アプローチを提案する。
我々のデータセットは、MME-CognitionにおけるMiniGPT-4とBLIP-2の性能をそれぞれ32.6%、28.8%向上させるなど、比較したMLLMの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-11-02T15:36:12Z) - LLM4Vis: Explainable Visualization Recommendation using ChatGPT [21.875548217393927]
そこで我々は,ChatGPTをベースとした新しい手法を提案する。
提案手法は,特徴記述,実演例選択,説明生成,実演例構築,推論ステップを含む。
論文 参考訳(メタデータ) (2023-10-11T16:51:46Z) - What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。
支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。
GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文 参考訳(メタデータ) (2023-05-20T16:11:26Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。