論文の概要: Less is More: Mitigating Multimodal Hallucination from an EOS Decision
Perspective
- arxiv url: http://arxiv.org/abs/2402.14545v1
- Date: Thu, 22 Feb 2024 13:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:03:50.256667
- Title: Less is More: Mitigating Multimodal Hallucination from an EOS Decision
Perspective
- Title(参考訳): less is more: eosによるマルチモーダル幻覚の緩和
- Authors: Zihao Yue, Liang Zhang, Qin Jin
- Abstract要約: 大規模なマルチモーダルモデル(LMM)は、視覚的な入力に存在しないコンテンツを生成するため、しばしば多モーダル幻覚に悩まされる。
本稿では,モデルが生成をタイムリーに終了する能力を阻害する,過度に詳細なトレーニングデータについて検討する。
生成したテキストと画像を比較し,シーケンス全体の完全性を評価する。
- 参考スコア(独自算出の注目度): 62.284452344672125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) often suffer from multimodal hallucinations,
wherein they may create content that is not present in the visual inputs. In
this paper, we explore a new angle of this issue: overly detailed training data
hinders the model's ability to timely terminate generation, leading to
continued outputs beyond visual perception limits. By investigating how the
model decides to terminate generation with EOS, the special end-of-sentence
token, we find that the model assesses the completeness of the entire sequence
by comparing the generated text with the image. This observation suggests that
the model possesses an inherent potential of making proper EOS decisions based
on its visual perception to avoid overly lengthy outputs. To take advantage of
such potential, we explore two methods to mitigate multimodal hallucinations: a
training objective that enables the model to reduce hallucinations by learning
from regular instruction data, and a data filtering strategy to prevent harmful
training data from exacerbating model hallucinations. Both methods
significantly improve the hallucination performance of LMMs, without requiring
any additional data or knowledge.
- Abstract(参考訳): 大規模なマルチモーダルモデル(LMM)は、視覚的な入力に存在しないコンテンツを生成するため、しばしば多モーダル幻覚に悩まされる。
本稿では,この問題の新たなアングルを探究する:過度に詳細なトレーニングデータにより,モデルが生成をタイムリーに終了する能力が損なわれ,視覚的知覚限界を超えて出力が継続する。
特殊な終末トークンであるEOSを用いて、モデルがどのように生成を終了させるかを調べることで、生成したテキストと画像を比較してシーケンス全体の完全性を評価する。
この観察は、モデルが過度に長い出力を避けるために、その視覚的知覚に基づいて適切なEOS決定を行う固有の可能性を持っていることを示唆している。
このような可能性を活用するために,モデルが正規指導データから学習することで幻覚を減らすことができる訓練目標と,有害な訓練データがモデル幻覚を悪化させるのを防ぐためのデータフィルタリング戦略の2つの手法を検討する。
どちらの手法も追加のデータや知識を必要とせずにLMMの幻覚性能を大幅に向上させる。
関連論文リスト
- From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Prescribing the Right Remedy: Mitigating Hallucinations in Large Vision-Language Models via Targeted Instruction Tuning [15.156359255401812]
そこで本研究では,異なるモデルの幻覚特異性に合わせたDFTGという命令データ生成フレームワークを提案する。
幻覚ベンチマークによる実験結果から,本手法で生成した目標命令データの方が,従来よりも幻覚の緩和に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-04-16T07:14:32Z) - Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。
モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。
本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - OPERA: Alleviating Hallucination in Multi-Modal Large Language Models
via Over-Trust Penalty and Retrospection-Allocation [124.9008419182485]
OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。
私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。
この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
論文 参考訳(メタデータ) (2023-11-29T18:57:07Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。