論文の概要: Image Tokens Matter: Mitigating Hallucination in Discrete Tokenizer-based Large Vision-Language Models via Latent Editing
- arxiv url: http://arxiv.org/abs/2505.21547v1
- Date: Sat, 24 May 2025 22:36:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.148897
- Title: Image Tokens Matter: Mitigating Hallucination in Discrete Tokenizer-based Large Vision-Language Models via Latent Editing
- Title(参考訳): Image Tokens Matter: ラテント編集による離散トケナイザに基づく大規模視線モデルにおける幻覚の軽減
- Authors: Weixing Wang, Zifeng Ding, Jindong Gu, Rui Cao, Christoph Meinel, Gerard de Melo, Haojin Yang,
- Abstract要約: LVLM(Large Vision-Language Models)は、視覚入力を有限のトークン集合に符号化することで、マルチモーダル表現を統一する。
これらのモデルは、まだ存在しないオブジェクトを幻覚させる。
生成中の潜像埋め込みを変更することで、視覚的に欠落したトークンの影響を抑える幻覚緩和法を提案する。
- 参考スコア(独自算出の注目度): 39.969451863788464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) with discrete image tokenizers unify multimodal representations by encoding visual inputs into a finite set of tokens. Despite their effectiveness, we find that these models still hallucinate non-existent objects. We hypothesize that this may be due to visual priors induced during training: When certain image tokens frequently co-occur in the same spatial regions and represent shared objects, they become strongly associated with the verbalizations of those objects. As a result, the model may hallucinate by evoking visually absent tokens that often co-occur with present ones. To test this assumption, we construct a co-occurrence graph of image tokens using a segmentation dataset and employ a Graph Neural Network (GNN) with contrastive learning followed by a clustering method to group tokens that frequently co-occur in similar visual contexts. We find that hallucinations predominantly correspond to clusters whose tokens dominate the input, and more specifically, that the visually absent tokens in those clusters show much higher correlation with hallucinated objects compared to tokens present in the image. Based on this observation, we propose a hallucination mitigation method that suppresses the influence of visually absent tokens by modifying latent image embeddings during generation. Experiments show our method reduces hallucinations while preserving expressivity. Code is available at https://github.com/weixingW/CGC-VTD/tree/main
- Abstract(参考訳): 離散画像トークン化器を備えたLVLM(Large Vision-Language Models)は、視覚入力を有限のトークン集合に符号化することで、マルチモーダル表現を統一する。
その効果にもかかわらず、これらのモデルはまだ存在しない物体を幻覚させる。
特定の画像トークンが同じ空間領域で頻繁に共起し、共有オブジェクトを表す場合、それらはそれらのオブジェクトの言語化と強く関連している。
結果として、現在のものと共起することが多い視覚的に欠落したトークンを誘発することによって、モデルが幻覚する可能性がある。
この仮定を検証するために、セグメンテーションデータセットを用いて画像トークンの共起グラフを構築し、対比学習を伴うグラフニューラルネットワーク(GNN)と、類似した視覚的文脈で頻繁に共起するトークンをクラスタリングするクラスタリング手法を用いる。
幻覚は、主にトークンが入力を支配しているクラスタに対応しており、より具体的には、これらのクラスタ内の視覚的に欠落しているトークンは、画像中のトークンよりも幻覚されたオブジェクトとの相関がはるかに高いことが分かる。
そこで本研究では,視覚不在トークンの影響を抑える幻覚緩和法を提案する。
実験により,表現性を保ちながら幻覚を低減できることが示された。
コードはhttps://github.com/weixingW/CGC-VTD/tree/mainで入手できる。
関連論文リスト
- Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding [33.33247964758369]
我々は,トークンインタラクションプロセスから直接適切なコンテキスト情報を抽出できると主張している。
復号化戦略における因果推論に着想を得て、因果マスクを活用してマルチモーダルトークン間の情報伝達を確立することを提案する。
FarSightは汎用的なプラグ・アンド・プレイ・デコード方式で,外部トークンからの注意干渉を低減する。
論文 参考訳(メタデータ) (2025-05-22T13:19:57Z) - TARAC: Mitigating Hallucination in LVLMs via Temporal Attention Real-time Accumulative Connection [6.006482486396196]
本稿では,画像トークンに対する注意の低下による幻覚を軽減するために,時間的注意リアルタイム累積接続(TARAC)を提案する。
我々は、複数のモデルとデータセットにまたがってTARACを評価し、我々のアプローチが幻覚を著しく軽減することを示した。
論文 参考訳(メタデータ) (2025-04-05T07:57:11Z) - Exploring Causes and Mitigation of Hallucinations in Large Vision Language Models [24.241691571850403]
Large Vision-Language Models (LVLM)は、画像エンコーダとLarge Language Models (LLM)を統合し、マルチモーダル入力を処理し、複雑な視覚タスクを実行する。
それらはしばしば、既存のオブジェクトや属性を記述することによって幻覚を生じさせ、その信頼性を損なう。
本研究では、画像キャプションにおける幻覚パターンを分析し、生成過程における全てのトークンが画像入力の影響を受けないことを示す。
論文 参考訳(メタデータ) (2025-02-24T05:00:52Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。
RoPEは、広く採用されている位置依存モデリング設計である。
簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:54:53Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。
サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。
サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z) - OPERA: Alleviating Hallucination in Multi-Modal Large Language Models
via Over-Trust Penalty and Retrospection-Allocation [124.9008419182485]
OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。
私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。
この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
論文 参考訳(メタデータ) (2023-11-29T18:57:07Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。