論文の概要: CLAIM: Mitigating Multilingual Object Hallucination in Large Vision-Language Models with Cross-Lingual Attention Intervention
- arxiv url: http://arxiv.org/abs/2506.11073v1
- Date: Tue, 03 Jun 2025 11:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.548382
- Title: CLAIM: Mitigating Multilingual Object Hallucination in Large Vision-Language Models with Cross-Lingual Attention Intervention
- Title(参考訳): CLAIM:多言語物体の幻覚を言語間干渉を用いた大規模視覚言語モデルで緩和する
- Authors: Zekai Ye, Qiming Li, Xiaocheng Feng, Libo Qin, Yichong Huang, Baohang Li, Kui Jiang, Yang Xiang, Zhirui Zhang, Yunfei Lu, Duyu Tang, Dandan Tu, Bing Qin,
- Abstract要約: LVLM(Large Vision-Language Models)は、印象的なマルチモーダル能力を示したが、多言語オブジェクト幻覚の傾向は残っていない。
LVLMにおける多言語オブジェクト幻覚(CLAIM)の緩和のための言語横断的注意介入を提案する。
- 参考スコア(独自算出の注目度): 56.08815340137881
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated impressive multimodal abilities but remain prone to multilingual object hallucination, with a higher likelihood of generating responses inconsistent with the visual input when utilizing queries in non-English languages compared to English. Most existing approaches to address these rely on pretraining or fine-tuning, which are resource-intensive. In this paper, inspired by observing the disparities in cross-modal attention patterns across languages, we propose Cross-Lingual Attention Intervention for Mitigating multilingual object hallucination (CLAIM) in LVLMs, a novel near training-free method by aligning attention patterns. CLAIM first identifies language-specific cross-modal attention heads, then estimates language shift vectors from English to the target language, and finally intervenes in the attention outputs during inference to facilitate cross-lingual visual perception capability alignment. Extensive experiments demonstrate that CLAIM achieves an average improvement of 13.56% (up to 30% in Spanish) on the POPE and 21.75% on the hallucination subsets of the MME benchmark across various languages. Further analysis reveals that multilingual attention divergence is most prominent in intermediate layers, highlighting their critical role in multilingual scenarios.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、印象的なマルチモーダル能力を示すが、英語と比較して非英語のクエリを利用する場合、視覚入力と矛盾する応答を生成する可能性が高くなる。
これらの問題に対処する既存のアプローチは、リソース集約的な事前学習や微調整に依存している。
本稿では,言語間の相互注意パターンの相違から着想を得て,LVLMにおける多言語オブジェクト幻覚(CLAIM)の緩和のための言語横断注意介入を提案する。
CLAIMはまず、言語固有のモーダルなアテンションヘッドを特定し、次に、英語から対象言語への言語シフトベクターを推定し、最後に、推論中のアテンションアウトプットに介入して、言語間視覚知覚能力アライメントを促進する。
大規模な実験により、CLAIMはPOPEで13.56%(スペイン語で30%)、MMEベンチマークの幻覚サブセットで21.75%の改善を達成した。
さらなる分析により、多言語的注意分散は中間層において最も顕著であり、多言語的シナリオにおけるそれらの重要な役割を強調していることが明らかとなった。
関連論文リスト
- The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2025-06-11T16:00:54Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Cross-lingual QA: A Key to Unlocking In-context Cross-lingual Performance [2.371686365695081]
クロスランガルQAは、質問と回答の部分のみを翻訳し、翻訳コストを削減できる言語間プロンプト手法である。
4つのタイプ的多言語ベンチマークの実験により、クロスランガルQAはモデルに効果的に刺激を与え、クロスランガルの知識を引き出すことを示した。
本研究は,言語間実例を用いたオープンソースMLLMの高速化により,モデルスケールの増大に伴い,性能が向上することを示す。
論文 参考訳(メタデータ) (2023-05-24T15:14:49Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - Learning Multilingual Representation for Natural Language Understanding
with Enhanced Cross-Lingual Supervision [42.724921817550516]
そこで本稿では,MAの代替として,DA(Decomposed attention)というネットワークを提案する。
DAは言語内注意(IA)と言語間注意(CA)から構成されており、それぞれ言語内および言語間監督をモデル化している。
様々な言語間自然言語理解タスクの実験により、提案したアーキテクチャと学習戦略がモデルの言語間移動性を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-09T16:12:13Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。