論文の概要: CIEM: Contrastive Instruction Evaluation Method for Better Instruction
Tuning
- arxiv url: http://arxiv.org/abs/2309.02301v2
- Date: Fri, 24 Nov 2023 07:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 03:27:22.539368
- Title: CIEM: Contrastive Instruction Evaluation Method for Better Instruction
Tuning
- Title(参考訳): CIEM:より良いインストラクションチューニングのためのコントラストインストラクション評価方法
- Authors: Hongyu Hu, Jiyuan Zhang, Minyi Zhao, Zhenbang Sun
- Abstract要約: VLM(Vision-Language Models)は、下流のアプリケーションで、例えば存在しないエンティティをキャプションするときに、誤った知覚情報を生成する。
幻覚現象に対処するため,CIEM(Contrastive Instruction Evaluation Method)とCIT(Contrastive Instruction Tuning)を導入する。
既存のVLMに共通する幻覚問題,幻覚現象に対処する現在の指導訓練データセットの障害,およびCIEMおよび公開データセットよりもCIT調整VLMの方が優れていることを指摘する。
- 参考スコア(独自算出の注目度): 8.217445461627797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, the research on Large Vision-Language Models (LVLMs) has been
significantly promoted thanks to the success of Large Language Models (LLM).
Nevertheless, these Vision-Language Models (VLMs) are suffering from the
drawback of hallucination -- due to insufficient understanding of vision and
language modalities, VLMs may generate incorrect perception information when
doing downstream applications, for example, captioning a non-existent entity.
To address the hallucination phenomenon, on the one hand, we introduce a
Contrastive Instruction Evaluation Method (CIEM), which is an automatic
pipeline that leverages an annotated image-text dataset coupled with an LLM to
generate factual/contrastive question-answer pairs for the evaluation of the
hallucination of VLMs. On the other hand, based on CIEM, we further propose a
new instruction tuning method called CIT (the abbreviation of Contrastive
Instruction Tuning) to alleviate the hallucination of VLMs by automatically
producing high-quality factual/contrastive question-answer pairs and
corresponding justifications for model tuning. Through extensive experiments on
CIEM and CIT, we pinpoint the hallucination issues commonly present in existing
VLMs, the disability of the current instruction-tuning dataset to handle the
hallucination phenomenon and the superiority of CIT-tuned VLMs over both CIEM
and public datasets.
- Abstract(参考訳): 近年,LVLM (Large Vision-Language Models) の研究は,LLM (Large Language Models) の成功により大きく進められている。
しかしながら、これらの視覚・言語モデル(VLM)は幻覚の欠点に悩まされている -- 視覚と言語モダリティの理解が不十分なため、VLMは下流のアプリケーション(例えば存在しないエンティティをキャプションする)を行う際に誤った知覚情報を生成する可能性がある。
一方、幻覚現象に対処するために、LLMと結合した注釈付き画像テキストデータセットを利用して、VLMの幻覚評価のための事実/対照的な質問応答ペアを生成する自動パイプラインであるContrastive Instruction Evaluation Method (CIEM)を導入する。
一方,CIEMに基づくCIT(Contrastive Instruction Tuningの略)は,高品質な事実/対照的な質問応答ペアを自動生成し,モデルチューニングの正当性を改善することで,VLMの幻覚を緩和する。
CIEMとCITに関する広範な実験を通じて、既存のVLMに共通する幻覚問題、幻覚現象を扱うための現在の命令チューニングデータセットの障害、およびCIEMとパブリックデータセットの両方に対してCITチューニングされたVLMの優位性を指摘した。
関連論文リスト
- CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。
これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文 参考訳(メタデータ) (2024-11-19T18:27:31Z) - Bridging the Visual Gap: Fine-Tuning Multimodal Models with Knowledge-Adapted Captions [31.637204677787576]
我々は、モデルの既存の知識と視覚的理解でトレーニングデータを自動的に適応するデータ中心のアプローチである、知識適応(KnowAda)ファインチューニングを導入する。
KnowAdaは、高い記述性を維持しながら幻覚を最小限にする。
以上の結果から,KnowAdaは自動測定と人的評価の両方において,様々なベースラインを上回ります。
論文 参考訳(メタデータ) (2024-11-13T20:50:04Z) - Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL)
本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文 参考訳(メタデータ) (2024-10-16T00:15:40Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。
提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文 参考訳(メタデータ) (2024-02-28T16:57:22Z) - Mitigating Object Hallucination in Large Vision-Language Models via
Classifier-Free Guidance [56.04768229686853]
LVLM(Large Vision-Language Models)は、画像中の既存の物体を幻覚させる傾向がある。
私たちはclassifieR-Free guIdaNcE (MARINE)を介してMitigating HallucinAtionと呼ばれるフレームワークを導入する。
MARINEはトレーニングフリーかつAPIフリーであり、生成プロセス中のオブジェクト幻覚を効果的かつ効率的に低減することができる。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。