論文の概要: ViThinker: Active Vision-Language Reasoning via Dynamic Perceptual Querying
- arxiv url: http://arxiv.org/abs/2602.02873v1
- Date: Mon, 02 Feb 2026 22:29:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.115473
- Title: ViThinker: Active Vision-Language Reasoning via Dynamic Perceptual Querying
- Title(参考訳): ViThinker:動的知覚クエリによるアクティブビジョンランゲージ推論
- Authors: Weihang You, Qingchan Zhu, David Liu, Yi Pan, Geng Yuan, Hanqi Jiang,
- Abstract要約: ViThinkerは、要求に応じて専門家による視覚的特徴を合成するきっかけとなる意思決定トークンを視覚言語モデルが自律的に生成することを可能にするフレームワークである。
ViThinkerは、トレーニング中に視覚専門家の能力を内部化し、外部ツールコールなしで推論中に生成的なメンタルシミュレーションを実行する。
- 参考スコア(独自算出の注目度): 15.728211622542267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) reasoning excels in language models but struggles in vision-language models due to premature visual-to-text conversion that discards continuous information such as geometry and spatial layout. While recent methods enhance CoT through static enumeration or attention-based selection, they remain passive, i.e., processing pre-computed inputs rather than actively seeking task-relevant details. Inspired by human active perception, we introduce ViThinker, a framework that enables vision-language models to autonomously generate decision (query) tokens triggering the synthesis of expert-aligned visual features on demand. ViThinker internalizes vision-expert capabilities during training, performing generative mental simulation during inference without external tool calls. Through a two-stage curriculum: first distilling frozen experts into model parameters, then learning task-driven querying via sparsity penalties, i.e., ViThinker discovers minimal sufficient perception for each reasoning step. Evaluations across vision-centric benchmarks demonstrate consistent improvements, validating that active query generation outperforms passive approaches in both perceptual grounding and reasoning accuracy.
- Abstract(参考訳): CoT (Chain-of-Thought) は言語モデルに優れているが、幾何学や空間的レイアウトといった連続的な情報を捨てる早すぎる視覚・テキスト変換のために視覚言語モデルに苦慮している。
最近の手法では静的列挙やアテンションベースの選択によってCoTを強化しているが、タスク関連の詳細を積極的に探すのではなく、事前に計算された入力を処理する。
人間の能動的知覚にインスパイアされたViThinkerは、視覚言語モデルによる意思決定(クエリ)トークンの自動生成を可能にするフレームワークで、要求に応じて専門家による視覚的特徴を合成する。
ViThinkerは、トレーニング中に視覚専門家の能力を内部化し、外部ツールコールなしで推論中に生成的なメンタルシミュレーションを実行する。
まず、凍結した専門家をモデルパラメータに蒸留し、次にスパーシティ・ペナルティを通じてタスク駆動クエリを学習することで、ViThinkerは各推論ステップに対して最小限の十分な認識を発見できる。
視覚中心のベンチマークによる評価は、一貫した改善を示し、アクティブクエリ生成が知覚的グラウンドと推論の正確性の両方においてパッシブアプローチより優れていることを検証している。
関連論文リスト
- LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning [25.571546214219747]
学生モデルは、基本的に異なる視覚領域に通いながら、教師のテキスト出力を模倣することが多い。
静的な埋め込みではなく、潜在的な視覚的思考を整列させるフレームワークであるLaViTを提案する。
LaViTは視覚的グラウンディングを大幅に強化し、複雑な推論タスクで+16.9%のゲインを達成した。
論文 参考訳(メタデータ) (2026-01-15T07:14:24Z) - Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space [46.05748768260013]
テスト時間動的マルチモーダル遅延推論フレームワークを提案する。
信頼誘導の潜在ポリシー勾配最適化を、詳細な推論のために潜在シンクトークンに採用する。
7つのマルチモーダル推論ベンチマークと様々なモデルアーキテクチャによる実験により、DMLRは推論性能と知覚性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-12-14T10:07:45Z) - ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model [61.29164681694533]
ViPERは、自己評価と自己予測を通じて反復的な進化を可能にするように設計されたセルフブートストラッピングフレームワークである。
Qwen-Viperは、汎用性を維持しながら、さまざまな視覚言語シナリオにおける優れたパフォーマンスを一貫して示す。
論文 参考訳(メタデータ) (2025-10-28T10:42:57Z) - Think Twice to See More: Iterative Visual Reasoning in Medical VLMs [21.083636394814217]
私たちは、人間の専門家の反復的推論プロセスをエミュレートするフレームワークViTARを紹介します。
ViTARは、医療画像をインタラクティブなオブジェクトとして扱い、モデルが多段階の視覚的推論を行えるようにする。
論文 参考訳(メタデータ) (2025-10-11T06:39:57Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Intention-Guided Cognitive Reasoning for Egocentric Long-Term Action Anticipation [52.6091162517921]
INSIGHTは、エゴセントリックなアクション予測のための2段階のフレームワークである。
最初の段階では、INSIGHTは手動オブジェクトの相互作用領域から意味的にリッチな特徴を抽出することに焦点を当てている。
第2段階では、明示的な認知的推論をシミュレートする強化学習ベースのモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-03T12:52:27Z) - ViRAC: A Vision-Reasoning Agent Head Movement Control Framework in Arbitrary Virtual Environments [0.13654846342364302]
本稿では,大規模モデルの常識的知識と推論能力を活用するViRACを提案する。
ViRACは最近の最先端技術よりも自然でコンテキスト対応の頭部回転を生成する。
論文 参考訳(メタデータ) (2025-02-14T09:46:43Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。