論文の概要: Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow
- arxiv url: http://arxiv.org/abs/2509.21789v1
- Date: Fri, 26 Sep 2025 02:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.136594
- Title: Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow
- Title(参考訳): 視覚多エージェントシステム:ビジュアルフローによる幻覚雪球の緩和
- Authors: Xinlei Yu, Chengming Xu, Guibin Zhang, Yongbo He, Zhangquan Chen, Zhucun Xue, Jiangning Zhang, Yue Liao, Xiaobin Hu, Yu-Gang Jiang, Shuicheng Yan,
- Abstract要約: 視覚言語モデル (VLM) を利用したマルチエージェントシステム (MAS) は, 難易度の高いタスクを実現するが, 新たな障害項である視覚幻覚スノーボールに悩まされる。
本研究では,視覚的注意配分の低減に関して,幻覚雪球の本質に関する詳細な知見を提供する。
選択した視覚的リレートークンをベースとしたビジュアルフローとエージェント間メッセージを中継する軽量なプラグアンドプレイ緩和パラダイムであるViFを提案し,このパターンを増幅するために注目位置を適用した。
- 参考スコア(独自算出の注目度): 99.54291580187817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Agent System (MAS) powered by Visual Language Models (VLMs) enables challenging tasks but suffers from a novel failure term, multi-agent visual hallucination snowballing, where hallucinations are seeded in a single agent and amplified by following ones due to the over-reliance on textual flow to relay visual information. Through turn-, layer-, and token-wise attention analyses, we provide detailed insights into the essence of hallucination snowballing regarding the reduction of visual attention allocation. It leads us to identify a subset of vision tokens with a unimodal attention peak in middle layers that best preserve visual evidence but gradually diminish in deeper agent turns, resulting in the visual hallucination snowballing in MAS. Thus, we propose ViF, a lightweight, plug-and-play mitigation paradigm that relays inter-agent messages with Visual Flow powered by the selected visual relay tokens and applies attention reallocation to amplify this pattern. The experiment results demonstrate that our method markedly reduces hallucination snowballing, consistently improving the performance across eight benchmarks based on four common MAS structures and ten base models. The source code will be available at: https://github.com/YU-deep/ViF.git.
- Abstract(参考訳): 視覚言語モデル (VLM) を利用したマルチエージェントシステム (MAS) は, 難易度の高いタスクを実現できるが, 視覚情報を伝達するためのテキストフローの過度な信頼性のため, 単一のエージェントで幻覚をシードし, 後続のエージェントによって増幅する, 新たな障害項であるマルチエージェント視覚幻覚スノーボール (multi-agent visual hallucination snowballing) に悩まされる。
旋回, 層状, トークン的注意分析を通じて, 視覚的注意配分の低減に関する幻覚的雪玉形成の本質について, 詳細な知見を提供する。
視覚トークンのサブセットを中層で一様注意ピークで識別し、視覚的証拠を最もよく保存するが、より深いエージェントターンでは徐々に減少し、MASでは視覚幻覚の雪玉が生じる。
そこで本稿では,選択した視覚的リレートークンをベースとして,エージェント間メッセージをビジュアルフローで中継する,軽量なプラグアンドプレイ緩和パラダイムであるViFを提案する。
実験の結果,本手法は,4つの共通MAS構造と10つのベースモデルに基づく8つのベンチマークで連続的に性能を向上し,ハロゲン化雪を著しく低減することが示された。
ソースコードは、https://github.com/YU-deep/ViF.git.comで入手できる。
関連論文リスト
- Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。
RoPEは、広く採用されている位置依存モデリング設計である。
簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:54:53Z) - From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models [33.19894606649144]
視覚情報を人間の言語で理解する手法は進歩しているが、LVLM(Large Vision-Language Models)は多モード幻覚に悩まされている。
生成した幻覚に遭遇する際のLVLMの挙動を評価するためのMMHalballというフレームワークを提案する。
本稿では,LVLMの出力分布を残差視覚入力から導出した値で修正する,Residual Visual Decodingと呼ばれるトレーニング不要な手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T03:04:11Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。