論文の概要: MCA-LLaVA: Manhattan Causal Attention for Reducing Hallucination in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.09184v2
- Date: Wed, 23 Jul 2025 02:46:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 14:06:49.682979
- Title: MCA-LLaVA: Manhattan Causal Attention for Reducing Hallucination in Large Vision-Language Models
- Title(参考訳): MCA-LLaVA:大型視覚言語モデルにおける幻覚軽減のためのマンハッタンの因果注意
- Authors: Qiyan Zhao, Xiaofeng Zhang, Yiheng Li, Yun Xing, Xiaosong Yuan, Feilong Tang, Sinan Fan, Xuhang Chen, Xuyao Zhang, Dahan Wang,
- Abstract要約: 幻覚はLVLM(Large Vision Language Models)において重要な課題となる
重要な要因として特定されたマルチモーダル特徴の不一致。
MCA-LLaVAは位置モデリングのための画像トークンの1次元配列順序と2次元空間位置を統合する。
- 参考スコア(独自算出の注目度): 25.406556604989607
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Hallucinations pose a significant challenge in Large Vision Language Models (LVLMs), with misalignment between multimodal features identified as a key contributing factor. This paper reveals the negative impact of the long-term decay in Rotary Position Encoding (RoPE), used for positional modeling in LVLMs, on multimodal alignment. Concretely, under long-term decay, instruction tokens exhibit uneven perception of image tokens located at different positions within the two-dimensional space: prioritizing image tokens from the bottom-right region since in the one-dimensional sequence, these tokens are positionally closer to the instruction tokens. This biased perception leads to insufficient image-instruction interaction and suboptimal multimodal alignment. We refer to this phenomenon as image alignment bias. To enhance instruction's perception of image tokens at different spatial locations, we propose MCA-LLaVA, based on Manhattan distance, which extends the long-term decay to a two-dimensional, multi-directional spatial decay. MCA-LLaVA integrates the one-dimensional sequence order and two-dimensional spatial position of image tokens for positional modeling, mitigating hallucinations by alleviating image alignment bias. Experimental results of MCA-LLaVA across various hallucination and general benchmarks demonstrate its effectiveness and generality. The code can be accessed in https://github.com/ErikZ719/MCA-LLaVA.
- Abstract(参考訳): 幻覚はLVLM(Large Vision Language Models)において重要な課題であり、重要な要因として認識されるマルチモーダル特徴の相違がある。
本稿では,ロータリー位置符号化(RoPE)における長期劣化がマルチモーダルアライメントに与える影響を明らかにする。
具体的には、長期の減衰下では、命令トークンは2次元空間内の異なる位置に位置する画像トークンの不均一な認識を示す。
この偏見は、イメージ・インストラクションの相互作用が不十分で、準最適マルチモーダルアライメントに繋がる。
この現象を画像アライメントバイアスと呼ぶ。
異なる空間位置における画像トークンに対する指示の知覚を高めるために,マンハッタン距離に基づくMCA-LLaVAを提案する。
MCA-LLaVAは、画像アライメントバイアスを緩和して幻覚を緩和する位置モデリングのために、画像トークンの1次元配列順序と2次元空間位置を統合する。
MCA-LLaVAの幻覚および一般ベンチマークによる実験結果は,その有効性と汎用性を示している。
コードはhttps://github.com/ErikZ719/MCA-LLaVAでアクセスできる。
関連論文リスト
- CoMemo: LVLMs Need Image Context with Image Memory [51.681858871027345]
CoMemoは、Contextイメージパスとイメージメモリパスを組み合わせてビジュアル処理を行うデュアルパスアーキテクチャである。
2次元空間認識を維持するためにサムネイルに基づく位置アグリゲーションを利用する新しい位置符号化機構であるRoPE-DHRを導入する。
論文 参考訳(メタデータ) (2025-06-06T17:59:06Z) - Image Tokens Matter: Mitigating Hallucination in Discrete Tokenizer-based Large Vision-Language Models via Latent Editing [39.969451863788464]
LVLM(Large Vision-Language Models)は、視覚入力を有限のトークン集合に符号化することで、マルチモーダル表現を統一する。
これらのモデルは、まだ存在しないオブジェクトを幻覚させる。
生成中の潜像埋め込みを変更することで、視覚的に欠落したトークンの影響を抑える幻覚緩和法を提案する。
論文 参考訳(メタデータ) (2025-05-24T22:36:15Z) - Circle-RoPE: Cone-like Decoupled Rotary Positional Embedding for Large Vision-Language Models [35.471513870514585]
ロータリー位置埋め込み(RoPE)は,大規模言語モデルにおいて相対位置情報を符号化する手法として広く採用されている。
RoPEの変種はテキストトークンインデックスと画像トークン間の相対的な位置依存を強制し、急激なアライメントを引き起こす。
画像トークンインデックスを円軌道に写し、テキストトークンインデックスの直線経路にマッピングし、円錐状構造を形成する新しい符号化方式であるCircle-RoPEを導入する。
論文 参考訳(メタデータ) (2025-05-22T09:05:01Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Mitigating Object Hallucinations in Large Vision-Language Models via Attention Calibration [22.39558434131574]
LVLM(Large Vision-Language Models)は、視覚的コンテンツと実際に一致しない応答を生成する。
我々は、単一の意味のない入力画像からバイアスを推定する、トレーニング不要なソリューションUniform Attention (UAC)を導入する。
また、画像中のオブジェクトがどこにあっても一貫した出力を強制する、微調整ソリューションであるDynamic Attention (DAC)を導入します。
論文 参考訳(メタデータ) (2025-02-04T03:27:38Z) - Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。
RoPEは、広く採用されている位置依存モデリング設計である。
簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:54:53Z) - SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。
マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。
我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文 参考訳(メタデータ) (2023-12-16T08:23:43Z) - Siamese Image Modeling for Self-Supervised Vision Representation
Learning [73.78790119050056]
自己教師付き学習(SSL)は、さまざまな下流視覚タスクにおいて優れたパフォーマンスを提供している。
2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。
本稿では,拡張ビューの濃密な表現を予測できるSiamese Image Modeling (SIM)を提案する。
論文 参考訳(メタデータ) (2022-06-02T17:59:58Z) - KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative
Spatial Encoding of Keypoints [28.234772596912165]
スパースビューから高忠実度体積アバターをモデル化するための高効率なアプローチを提案する。
鍵となるアイデアの1つは、スパース3Dキーポイントを介して相対空間の3D情報を符号化することである。
実験の結果,先行作業における誤りの大部分は,空間符号化の不適切な選択に起因することがわかった。
論文 参考訳(メタデータ) (2022-05-10T15:57:03Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。