論文の概要: Mitigating Dialogue Hallucination for Large Multi-modal Models via Adversarial Instruction Tuning
- arxiv url: http://arxiv.org/abs/2403.10492v1
- Date: Fri, 15 Mar 2024 17:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 16:01:36.221097
- Title: Mitigating Dialogue Hallucination for Large Multi-modal Models via Adversarial Instruction Tuning
- Title(参考訳): 逆命令チューニングによる大規模マルチモーダルモデルに対する対話幻覚の緩和
- Authors: Dongmin Park, Zhaofang Qian, Guangxing Han, Ser-Nam Lim,
- Abstract要約: 大規模マルチモーダルモデル(LMM)の幻覚は,汎用アシスタントの信頼性を高めるために重要である。
本稿では,従来のユーザ・システム対話によって,このようなLMMの幻覚が著しく悪化することを示す。
幻覚対話を付加したマルチモーダル命令追従データセット上でLMMを頑健に微調整するAdversarial Instruction Tuningを提案する。
- 参考スコア(独自算出の注目度): 45.07281499878865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mitigating hallucinations of Large Multi-modal Models(LMMs) is crucial to enhance their reliability for general-purpose assistants. This paper shows that such hallucinations of LMMs can be significantly exacerbated by preceding user-system dialogues. To precisely measure this, we first present an evaluation benchmark by extending popular multi-modal benchmark datasets with prepended hallucinatory dialogues generated by our novel Adversarial Question Generator, which can automatically generate image-related yet adversarial dialogues by adopting adversarial attacks on LMMs. On our benchmark, the zero-shot performance of state-of-the-art LMMs dropped significantly for both the VQA and Captioning tasks. Next, we further reveal this hallucination is mainly due to the prediction bias toward preceding dialogues rather than visual content. To reduce this bias, we propose Adversarial Instruction Tuning that robustly fine-tunes LMMs on augmented multi-modal instruction-following datasets with hallucinatory dialogues. Extensive experiments show that our proposed approach successfully reduces dialogue hallucination while maintaining or even improving performance.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の幻覚の緩和は,汎用アシスタントの信頼性向上に不可欠である。
本稿では,従来のユーザ・システム対話によって,このようなLMMの幻覚が著しく悪化することを示す。
これを正確に測定するために、我々はまず、LMMに対する敵対的攻撃を採用することで、画像関連であるが敵対的対話を自動生成できる新しいAdversarial Question Generatorによって生成された幻覚的対話を用いて、人気のあるマルチモーダル・ベンチマーク・データセットを拡張して評価ベンチマークを提示する。
我々のベンチマークでは、最先端のLMMのゼロショット性能はVQAタスクとCaptioningタスクの両方で著しく低下した。
次に、この幻覚は、視覚コンテンツよりも先行する対話に対する予測バイアスが主な原因であることを示す。
このバイアスを軽減するために,幻覚対話付きマルチモーダル命令追従データセットに頑健な微調整を施したAdversarial Instruction Tuningを提案する。
広汎な実験により,提案手法は性能の維持や改善を図りながら,対話幻覚の低減に成功していることがわかった。
関連論文リスト
- Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2024-03-27T16:04:47Z) - What if...?: Counterfactual Inception to Mitigate Hallucination Effects in Large Multimodal Models [50.97705264224828]
本稿では,LMMに反現実的思考を埋め込む新しい手法である反現実的インセプションを紹介する。
この人間ライクな推論機構をLMMに適用することにより、幻覚効果を低減し、モデルの信頼性を向上させることを目指している。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language
Models [63.973142426228016]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - CIEM: Contrastive Instruction Evaluation Method for Better Instruction
Tuning [8.217445461627797]
VLM(Vision-Language Models)は、下流のアプリケーションで、例えば存在しないエンティティをキャプションするときに、誤った知覚情報を生成する。
幻覚現象に対処するため,CIEM(Contrastive Instruction Evaluation Method)とCIT(Contrastive Instruction Tuning)を導入する。
既存のVLMに共通する幻覚問題,幻覚現象に対処する現在の指導訓練データセットの障害,およびCIEMおよび公開データセットよりもCIT調整VLMの方が優れていることを指摘する。
論文 参考訳(メタデータ) (2023-09-05T15:06:37Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - Contrastive Learning Reduces Hallucination in Conversations [76.55116206021346]
そこで我々はMixCLという対照的な学習手法を提案する。
LMの暗黙的知識抽出過程を明示的に最適化するために、新しい混合コントラスト目的を提案する。
我々は、MixCLが最先端KBベースのアプローチに匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2022-12-20T16:26:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。