論文の概要: Qwen Look Again: Guiding Vision-Language Reasoning Models to Re-attention Visual Information
- arxiv url: http://arxiv.org/abs/2505.23558v1
- Date: Thu, 29 May 2025 15:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.945849
- Title: Qwen Look Again: Guiding Vision-Language Reasoning Models to Re-attention Visual Information
- Title(参考訳): Qwenが再び見る - 視覚言語推論モデルによる視覚情報の再認識
- Authors: Xu Chu, Xinrong Chen, Guanyu Wang, Zhijie Tan, Kui Huang, Wenyu Lv, Tong Mo, Weiping Li,
- Abstract要約: 長い推論は視覚的トークンを希釈し、視覚的情報の注意を減らし、幻覚を引き起こす可能性がある。
Qwen-LookAgain (Qwen-LA) は新たな視覚テキスト反映プロセスで、推論中にモデルが再認識されるように誘導する。
- 参考スコア(独自算出の注目度): 13.94596271015724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference time scaling drives extended reasoning to enhance the performance of Vision-Language Models (VLMs), thus forming powerful Vision-Language Reasoning Models (VLRMs). However, long reasoning dilutes visual tokens, causing visual information to receive less attention and may trigger hallucinations. Although introducing text-only reflection processes shows promise in language models, we demonstrate that it is insufficient to suppress hallucinations in VLMs. To address this issue, we introduce Qwen-LookAgain (Qwen-LA), a novel VLRM designed to mitigate hallucinations by incorporating a vision-text reflection process that guides the model to re-attention visual information during reasoning. We first propose a reinforcement learning method Balanced Reflective Policy Optimization (BRPO), which guides the model to decide when to generate vision-text reflection on its own and balance the number and length of reflections. Then, we formally prove that VLRMs lose attention to visual tokens as reasoning progresses, and demonstrate that supplementing visual information during reflection enhances visual attention. Therefore, during training and inference, Visual Token COPY and Visual Token ROUTE are introduced to force the model to re-attention visual information at the visual level, addressing the limitations of text-only reflection. Experiments on multiple visual QA datasets and hallucination metrics indicate that Qwen-LA achieves leading accuracy performance while reducing hallucinations. Our code is available at: https://github.com/Liar406/Look_Again.
- Abstract(参考訳): 推論時間スケーリングは、Vision-Language Models (VLM) の性能を高めるために拡張推論を駆動し、強力なVision-Language Reasoning Models (VLRMs) を形成する。
しかし、長い推論は視覚的なトークンを希薄にし、視覚的な情報への注意を減らし、幻覚を引き起こす可能性がある。
テキストのみのリフレクションプロセスを導入することは言語モデルにおいて有望であるが、VLMの幻覚を抑えるには不十分であることを示す。
この問題に対処するために,本論文では,視覚テキストのリフレクションプロセスを導入して幻覚を緩和する新しいVLRMであるQwen-LookAgain(Qwen-LA)を紹介する。
本稿ではまず,自己の視覚テキストをいつ生成するかをモデルに導出し,反射数と長さのバランスをとるための強化学習手法であるBa balanced Reflective Policy Optimization (BRPO)を提案する。
そして,VLRMが推論の進行に伴って視覚トークンへの注意を失うことを正式に証明し,反射による視覚情報の補足が視覚的注意を高めることを示す。
そのため、トレーニングと推論の間、テキストのみのリフレクションの限界に対処するため、Visual Token COPYとVisual Token ROUTEが導入された。
複数の視覚的QAデータセットと幻覚測定値の実験は、Qwen-LAが幻覚を減少させながら、高い精度のパフォーマンスを達成することを示している。
私たちのコードは、https://github.com/Liar406/Look_Again.comで利用可能です。
関連論文リスト
- Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Through the Magnifying Glass: Adaptive Perception Magnification for Hallucination-Free VLM Decoding [12.82009632507056]
既存の視覚言語モデル(VLM)はしばしば視覚幻覚に悩まされ、生成した応答は視覚入力に基づかない不正確さを含む。
本稿では、注意に基づいて関連した視覚トークンを反復的に分離し、対応する領域を拡大する新しい視覚的復号法であるパーセプション・マグニファイア(PM)を提案する。
論文 参考訳(メタデータ) (2025-03-13T09:14:11Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - FiVL: A Framework for Improved Vision-Language Alignment through the Lens of Training, Evaluation and Explainability [10.184567639685321]
本稿では,LVLMを学習するための新しいデータセット構築手法であるFiVLを紹介する。
本稿では,モデルがイメージを実体的証拠として用いる能力を評価するためのベンチマークを示す。
視覚による幻覚を説明できる最強の視覚言語アライメントで注目頭を特定する。
論文 参考訳(メタデータ) (2024-12-19T09:24:10Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。