論文の概要: Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2603.07048v1
- Date: Sat, 07 Mar 2026 05:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.706629
- Title: Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation
- Title(参考訳): 振り返りとフォース:マルチイメージ・ハロシン化緩和のためのクロスイメージ・アテンション・キャリブレーションと注意優先学習
- Authors: Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、マルチイメージタスクにおいて幻覚を起こす傾向がある。
本稿では,クロスイメージ・アテンション・キャリブレーションと優先学習を含む構造化幻覚緩和フレームワークを提案する。
- 参考スコア(独自算出の注目度): 48.06125338526647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large vision-language models (LVLMs) have demonstrated remarkable capabilities, they are prone to hallucinations in multi-image tasks. We attribute this issue to limitations in existing attention mechanisms and insufficient cross-image modeling. Inspired by this, we propose a structured hallucination mitigation framework involving Cross-Image Attention calibration and Preference Learning (CAPL). CAPL explicitly enhances inter-image interactions at the architectural level while reinforcing reliance on genuine cross-image evidence during training, thereby improving the model's perception and modeling of cross-image associations. Specifically, we (i) introduce a selectable image token interaction attention mechanism to establish fine-grained cross-image entity alignment and information flow; (ii) design a cross-image modeling-based preference optimization strategy that contrasts reasoning outcomes under full inter-image interaction and those obtained when images are mutually invisible, encouraging the model to ground its predictions in authentic visual evidence and mitigating erroneous inferences driven by textual priors. Experimental results demonstrate that CAPL consistently improves performance across multiple model architectures, achieving stable gains on both multi-image hallucination and general benchmarks. Notably, performance on single-image visual tasks remains stable or slightly improves, indicating strong generalization capability.
- Abstract(参考訳): 大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが, マルチイメージタスクでは幻覚を起こす傾向がある。
この問題は、既存の注意機構と不十分なクロスイメージモデリングの限界に起因している。
そこで本研究では,Cross-Image Attention calibration and Preference Learning (CAPL)による幻覚緩和フレームワークを提案する。
CAPLは、トレーニング中の真のクロスイメージエビデンスに依存しつつ、アーキテクチャレベルでのインターイメージインタラクションを明示的に強化し、クロスイメージアソシエーションの知覚とモデリングを改善する。
具体的には
一 微粒なクロスイメージエンティティアライメント及び情報フローを確立するための選択可能な画像トークンインタラクションアテンション機構を導入すること。
二 画像間相互作用における推論結果と画像が相互に見えない場合に得られる結果とを対比して、画像間相互作用に基づく選好最適化戦略を設計し、真正な視覚的エビデンスで予測を下方修正し、テキストの先行によって引き起こされた誤推論を緩和する。
実験結果から、CAPLは複数のモデルアーキテクチャにおける性能を一貫して改善し、マルチイメージ幻覚と一般的なベンチマークの両方で安定したゲインを達成することが示された。
特に、シングルイメージの視覚タスクのパフォーマンスは安定あるいはわずかに改善され、強力な一般化能力を示している。
関連論文リスト
- Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation [81.40978077888693]
対照的に、CLIP(Contrastive Language- Image Pre-training)は、下流のパフォーマンスにおいて重要なボトルネックとなっている。
近年のソリューションでは、拡散モデルを用いて、CLIP視覚トークンに画像再構成を条件付けることで表現を強化する。
我々は、より包括的な視覚表現を追求するために、コントラスト信号を拡散に基づく再構成に統合する。
論文 参考訳(メタデータ) (2026-03-05T04:45:49Z) - Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching [31.42132290162457]
IMD (Image Feature Matching with a Pre-trained Diffusion model) と呼ばれる新しいフレームワークを2つのパーツで導入する。
グローバルセマンティクスを重視したコントラッシブラーニングに基づく基礎モデルを用いた支配的なソリューションとは異なり、生成的拡散モデルを統合する。
提案したIMMは,評価されたベンチマークにおいて新たな最先端性を確立し,IMIMの優れた12%の改善は,この手法の誤認識を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2025-07-14T14:28:15Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - Multi-Head Attention Driven Dynamic Visual-Semantic Embedding for Enhanced Image-Text Matching [0.8611782340880084]
本研究は,MH-CVSE (Multi-Headed Consensus-Aware Visual-Semantic Embedding) を用いた視覚的セマンティック埋め込みモデルを提案する。
本モデルでは,コンセンサスを意識した視覚的セマンティック埋め込みモデル(CVSE)に基づくマルチヘッド自己認識機構を導入し,複数のサブ空間の情報を並列に取得する。
損失関数設計においては、MH-CVSEモデルは、損失値自体に応じて動的に重量を調整するために動的重量調整戦略を採用する。
論文 参考訳(メタデータ) (2024-12-26T11:46:22Z) - ARNet: Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Bridging Synthetic and Real Images: a Transferable and Multiple
Consistency aided Fundus Image Enhancement Framework [61.74188977009786]
画像強調とドメイン適応を同時に行うために,エンドツーエンドの教師支援フレームワークを提案する。
また,教師ネットワークと学生ネットワークのバックボーンとして,マルチステージ型マルチアテンション・ガイド・エンハンスメント・ネットワーク(MAGE-Net)を提案する。
論文 参考訳(メタデータ) (2023-02-23T06:16:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。