論文の概要: Unbiased Visual Reasoning with Controlled Visual Inputs
- arxiv url: http://arxiv.org/abs/2512.22183v1
- Date: Fri, 19 Dec 2025 18:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-04 08:45:17.107364
- Title: Unbiased Visual Reasoning with Controlled Visual Inputs
- Title(参考訳): 制御された視覚入力を用いたアンバイアス型視覚推論
- Authors: Zhaonan Li, Shijie Lu, Fei Wang, Jacob Dineen, Xiao Ye, Zhikun Xu, Siyi Liu, Young Min Cho, Bangzheng Li, Daniel Chang, Kenny Nguyen, Qizheng Yang, Muhao Chen, Ben Zhou,
- Abstract要約: VISTAは、明示的な情報のボトルネックを通じて、推論から認識を分離するフレームワークである。
凍結したVLMセンサは、短い客観的な知覚クエリに制限される。
テキストのみのLLM推論器は、各質問を分解し、クエリを計画し、自然言語で視覚的な事実を集約する。
- 参考スコア(独自算出の注目度): 28.155426761798022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end Vision-language Models (VLMs) often answer visual questions by exploiting spurious correlations instead of causal visual evidence, and can become more shortcut-prone when fine-tuned. We introduce VISTA (Visual-Information Separation for Text-based Analysis), a modular framework that decouples perception from reasoning via an explicit information bottleneck. A frozen VLM sensor is restricted to short, objective perception queries, while a text-only LLM reasoner decomposes each question, plans queries, and aggregates visual facts in natural language. This controlled interface defines a reward-aligned environment for training unbiased visual reasoning with reinforcement learning. Instantiated with Qwen2.5-VL and Llama3.2-Vision sensors, and trained with GRPO from only 641 curated multi-step questions, VISTA significantly improves robustness to real-world spurious correlations on SpuriVerse (+16.29% with Qwen-2.5-VL-7B and +6.77% with Llama-3.2-Vision-11B), while remaining competitive on MMVP and a balanced SeedBench subset. VISTA transfers robustly across unseen VLM sensors and is able to recognize and recover from VLM perception failures. Human analysis further shows that VISTA's reasoning traces are more neutral, less reliant on spurious attributes, and more explicitly grounded in visual evidence than end-to-end VLM baselines.
- Abstract(参考訳): VLM(End-to-end Vision-Language Models)は、因果的な視覚的証拠の代わりに突発的な相関を利用して視覚的な疑問に答えることが多い。
VISTA(Visual-Information separation for Text-based Analysis)は,情報ボトルネックによって知覚を推論から切り離すモジュラーフレームワークである。
凍結されたVLMセンサは、短い客観的な知覚クエリに制限され、テキストのみのLLM推論器は、各質問を分解し、クエリを計画し、自然言語で視覚的な事実を集約する。
この制御されたインタフェースは、強化学習による偏見のない視覚的推論を訓練するための報酬整合環境を定義する。
Qwen2.5-VLとLlama3.2-Visionセンサーで実証され、GRPOで641のキュレートされた多段階の質問から訓練され、VISTAはSpuriVerse(Qwen-2.5-VL-7Bで+16.29%、Llama-3.2-Vision-11Bで+6.77%)上の実世界のスプリアス相関に対する堅牢性を著しく改善した。
VISTAは、見えないVLMセンサー間で堅牢に転送し、VLMの認識障害を認識して回復することができる。
人間の分析により、VISTAの推論の痕跡はより中立的であり、刺激的な属性に依存せず、視覚的証拠がエンドツーエンドのVLMベースラインよりも明確に根ざしていることが示されている。
関連論文リスト
- More Than the Final Answer: Improving Visual Extraction and Logical Consistency in Vision-Language Models [74.10138874771852]
RLVR上で視覚知覚とテキスト推論を別々に改善する分離されたフレームワークであるPeRL-VL(Perception and Reasoning Learning for Vision-Language Models)を提案する。
知覚のために、PeRL-VLはVLMに基づく説明報酬を導入し、モデルの自己生成した画像記述を忠実さと満足度で評価する。
推論のために、PeRL-VLは論理に富んだチェーン・オブ・シントデータに関するテキストのみの推論SFTステージを追加し、コヒーレンスと論理的一貫性を視覚と独立に強化する。
論文 参考訳(メタデータ) (2025-12-13T23:06:18Z) - Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs [76.47326680870783]
VISTA-Gymは視覚言語モデル(VLM)におけるツール統合視覚推論能力のインセンティブ化のためのトレーニング環境である。
VISTA-Gymはビジュアルツールの標準化されたインタフェースで様々な実世界のマルチモーダル推論タスクを統合する。
VISTA-R1-8Bは、11の公開推論集約VQAベンチマークにおいて、同様のサイズで最先端のベースラインを9.51%-18.72%上回ることを示す。
論文 参考訳(メタデータ) (2025-11-24T22:58:26Z) - Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens [54.18057944158818]
Chain-of-Visual-Thought (COVT)は、ビジョンランゲージモデル(VLM)が連続的な視覚トークンを通じて推論できるようにするフレームワークである。
約20枚のトークンからなる小さな予算の中で、COVTは軽量ビジョンの専門家から知識を抽出する。
トレーニング中、COVTを持つVLMは視覚トークンを自動回帰予測し、密集した監視信号を再構築する。
論文 参考訳(メタデータ) (2025-11-24T18:55:19Z) - CoRGI: Verified Chain-of-Thought Reasoning with Post-hoc Visual Grounding [1.6257248483123767]
textbfCoRGI(textbfChain textbffof textbfReasoning with textbfGrounded textbfInsights)は、チェーンオブ思考出力のポストホック検証により、推論信頼性を高めるフレームワークである。
論文 参考訳(メタデータ) (2025-08-01T07:17:12Z) - Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs [9.406760867809124]
本稿では,視覚入力構造を用いた拡張推論(VISER)を提案する。
VISERは、低レベルの空間構造を持つ視覚入力を増強する、シンプルで効果的な方法である。
私たちは、コアの視覚的推論タスクに対して、実質的なパフォーマンス改善を実証的に示します。
論文 参考訳(メタデータ) (2025-06-27T11:44:40Z) - PARC: A Quantitative Framework Uncovering the Symmetries within Vision Language Models [17.522361689805724]
視覚言語モデル(VLM)は、ユーザーが作成したテキストプロンプトと視覚入力に応答する。
VLMがこの不安定性を様々なプロンプトに継承するかどうかを判断することが重要である。
本稿では, PARC (Prompt Analysis via Reliability and agnostic) について紹介する。
論文 参考訳(メタデータ) (2025-06-03T19:42:32Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。