論文の概要: Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning
- arxiv url: http://arxiv.org/abs/2306.14565v4
- Date: Tue, 19 Mar 2024 22:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 22:57:10.504890
- Title: Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning
- Title(参考訳): ロバスト・インストラクション・チューニングによる大規模マルチモーダルモデルにおける幻覚の緩和
- Authors: Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang,
- Abstract要約: 本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
- 参考スコア(独自算出の注目度): 92.85265959892115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the promising progress in multi-modal tasks, current large multi-modal models (LMMs) are prone to hallucinating inconsistent descriptions with respect to the associated image and human instructions. This paper addresses this issue by introducing the first large and diverse visual instruction tuning dataset, named Large-scale Robust Visual (LRV)-Instruction. Our dataset comprises 400k visual instructions generated by GPT4, covering 16 vision-and-language tasks with open-ended instructions and answers. Unlike existing studies that primarily focus on positive instruction samples, we design LRV-Instruction to include both positive and negative instructions for more robust visual instruction tuning. Our negative instructions are designed at three semantic levels: (i) Nonexistent Object Manipulation, (ii) Existent Object Manipulation and (iii) Knowledge Manipulation. To efficiently measure the hallucination generated by LMMs, we propose GPT4-Assisted Visual Instruction Evaluation (GAVIE), a stable approach to evaluate visual instruction tuning like human experts. GAVIE does not require human-annotated groundtruth answers and can adapt to diverse instruction formats. We conduct comprehensive experiments to investigate the hallucination of LMMs. Our results demonstrate existing LMMs exhibit significant hallucinations when presented with our negative instructions, particularly Existent Object and Knowledge Manipulation instructions. Moreover, we successfully mitigate hallucination by finetuning MiniGPT4 and mPLUG-Owl on LRV-Instruction while improving performance on several public datasets compared to state-of-the-art methods. Additionally, we observed that a balanced ratio of positive and negative instances in the training data leads to a more robust model. Code and data are available at https://github.com/FuxiaoLiu/LRV-Instruction.
- Abstract(参考訳): マルチモーダルタスクの有望な進歩にもかかわらず、現在の大規模マルチモーダルモデル(LMM)は、関連する画像や人間の指示に関して一貫性のない記述を幻覚させる傾向にある。
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的命令チューニングデータセットを導入することでこの問題に対処する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
主に正の命令サンプルに焦点を当てた既存の研究とは異なり、我々は、より堅牢な視覚的命令チューニングのための正と負の両方の命令を含むLRV-インストラクションを設計する。
私たちの否定的な指示は3つの意味レベルで設計されます。
(i)現存しないオブジェクト操作
(二)既存の物体の操作及び操作
(三)知識操作
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
GAVIEは人間による注釈付き基礎回答を必要とせず、多様な命令形式に適応することができる。
われわれはLMMの幻覚を調査するための総合的な実験を行った。
以上の結果から,既存のLMMには負の指示,特に既存のオブジェクトと知識操作の指示が提示されている。
さらに, LRV-InstructionにおけるMiniGPT4とmPLUG-Owlの微調整により幻覚の緩和を実現し, 最先端の手法と比較していくつかの公開データセットの性能向上を実現した。
さらに、トレーニングデータにおける正と負のインスタンスのバランスの取れた比率は、より堅牢なモデルにつながることを観察した。
コードとデータはhttps://github.com/FuxiaoLiu/LRV-Instruction.comで公開されている。
関連論文リスト
- MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。
提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文 参考訳(メタデータ) (2024-07-22T17:55:22Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - To See is to Believe: Prompting GPT-4V for Better Visual Instruction
Tuning [82.34463739289892]
LVIS-Instruct4Vには220Kの視覚的アライメントとコンテキスト認識の命令が含まれている。
LLaVA-InstructをLVIS-Instruct4Vに置き換えることで、最も難しいLMMベンチマークでLLaVAよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-13T18:59:31Z) - What Makes for Good Visual Instructions? Synthesizing Complex Visual
Reasoning Instructions for Visual Instruction Tuning [115.19451843294154]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上のためのビジュアルインストラクションチューニング
本稿では,高品質な視覚的推論命令を自動生成するための体系的アプローチを提案する。
我々のデータセットは、MME-CognitionにおけるMiniGPT-4とBLIP-2の性能をそれぞれ32.6%、28.8%向上させるなど、比較したMLLMの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-11-02T15:36:12Z) - LLM4Vis: Explainable Visualization Recommendation using ChatGPT [21.875548217393927]
そこで我々は,ChatGPTをベースとした新しい手法を提案する。
提案手法は,特徴記述,実演例選択,説明生成,実演例構築,推論ステップを含む。
論文 参考訳(メタデータ) (2023-10-11T16:51:46Z) - What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。
支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。
GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文 参考訳(メタデータ) (2023-05-20T16:11:26Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。