論文の概要: Active Reasoning Vision-Language Models via Sequential Experimental Design
- arxiv url: http://arxiv.org/abs/2605.01345v1
- Date: Sat, 02 May 2026 09:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.718115
- Title: Active Reasoning Vision-Language Models via Sequential Experimental Design
- Title(参考訳): 逐次実験設計によるアクティブ推論ビジョンランゲージモデル
- Authors: Anjie Liu, Ziqin Gong, Yan Song, Yuxiang Chen, Xiaolong Liu, Hengtong Lu, Kaike Zhang, Chen Wei,
- Abstract要約: 広い視野で見れば、複雑な推論に必要なきめ細かい詳細を犠牲にしている。
アクティブビジョンと情報収集という古典的なパラダイムにインスパイアされた私たちは、この制限をシーケンシャルな意思決定プロセスとして克服する枠組みを定めています。
本稿では、複数の視覚ツールを備えたエージェントに対して、S-BOED目標の実用的なインスタンス化として、トレーニングフリー推論戦略を提案する。
- 参考スコア(独自算出の注目度): 13.176235969327594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual perception in modern Vision-Language Models (VLMs) is constrained by a fundamental perceptual bandwidth bottleneck: a broad field of view inevitably sacrifices the fine-grained details necessary for complex reasoning. Inspired by the classical paradigms of active vision and information foraging, we frame overcoming this limitation as a sequential decision-making process. We formalise this process through the lens of the sequential Bayesian optimal experimental design (S-BOED) problem. While exact Bayesian inference is intractable in continuous gigapixel spaces, we derive principled yet tractable approximations that balance spatial coverage against resolution. To validate this framework, we present a training-free inference strategy as a practical instantiation of the S-BOED objective for agents equipped with multiple vision tools. Designed as a flexible template, this strategy accommodates arbitrary optimisation algorithms, ranging from efficient greedy sampling to look-ahead planning, to approximate the optimal design. Empirical evaluations on gigapixel-level benchmarks demonstrate that our approach further boosts the performance of state-of-the-art models, significantly outperforming standard baselines and effectively narrowing the gap towards human-annotated oracles.
- Abstract(参考訳): 現代の視覚言語モデル(VLM)における視覚的知覚は、基本的な知覚的帯域幅のボトルネックによって制約される: 広い視野は必然的に複雑な推論に必要な細かな詳細を犠牲にする。
アクティブビジョンと情報収集という古典的なパラダイムにインスパイアされた私たちは、この制限をシーケンシャルな意思決定プロセスとして克服する枠組みを定めています。
我々はこの過程を連続ベイズ最適設計(S-BOED)問題のレンズを通して定式化する。
連続したギガピクセル空間では、正確にベイズ推定は難解であるが、我々は、空間被覆と分解とのバランスを保ちながら、難解な近似を導出した。
この枠組みを検証するため、複数の視覚ツールを備えたエージェントに対して、S-BOED目標の実用的なインスタンス化として、トレーニング不要推論戦略を提案する。
フレキシブルテンプレートとして設計されたこの戦略は、効率的なグリーディサンプリングからルックアヘッド計画まで、任意の最適化アルゴリズムに対応し、最適設計を近似する。
ギガピクセルレベルのベンチマークに関する実証的な評価は、我々のアプローチが最先端モデルの性能をさらに向上させ、標準ベースラインを著しく上回り、人間アノテーションによるオークルへのギャップを効果的に狭めていることを示している。
関連論文リスト
- VisPCO: Visual Token Pruning Configuration Optimization via Budget-Aware Pareto-Frontier Learning for Vision-Language Models [74.05545957865228]
視覚言語モデル(VLM)における高解像度画像とビデオフレームの処理による2次計算成長を効果的に緩和する視覚トークンプルーニング法
パレート構成最適化問題として視覚トークンプルーニングを定式化して最適構成を自動的に識別する新しいフレームワークを提案する。
提案手法では, Augmented Lagrangian 法を用いて, 勾配に基づく探索を可能にするために, 連続緩和とストレートスルー推定を用いる。
論文 参考訳(メタデータ) (2026-04-16T16:21:05Z) - Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models [65.4947731385794]
基礎画像中心モデルであるInsight-Vから進化した統合多エージェント視覚推論フレームワークを提案する。
空間的時間的推論を強化し、評価ロバスト性を向上させる2つの新しいアルゴリズムST-GRPOとJ-GRPOを導入する。
LLaVA-NeXTやQwen2.5-VLといったベースモデルの実験は、挑戦的な画像とビデオの推論ベンチマーク間で大きなパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2026-03-18T15:28:07Z) - Function-Space Empirical Bayes Regularisation with Large Vision-Language Model Priors [12.285161219785294]
VLM-FS-EBは、新しい関数空間経験的ベイズ正規化フレームワークである。
提案手法は予測性能を継続的に改善し,信頼性の高い不確実性推定値が得られることを示す。
論文 参考訳(メタデータ) (2026-02-03T05:24:11Z) - Towards a Golden Classifier-Free Guidance Path via Foresight Fixed Point Iterations [12.366757123129402]
我々は、条件付きガイダンスを固定点反復として再設定する統一的な視点を提案する。
本稿では,早期拡散段階における長期サブプロブレムの解決を優先するForesight Guidance(FSG)を紹介する。
我々の研究は、条件付きガイダンスのための新しい視点を提供し、適応設計の可能性を解き放つ。
論文 参考訳(メタデータ) (2025-10-24T14:39:07Z) - Infusing fine-grained visual knowledge to Vision-Language Models [5.487134463783365]
大規模コントラスト学習による視覚・言語モデル(VLM)の作成
本稿では,VLMの広義マルチモーダル知識の細粒度ドメイン適応と保持の最適バランスを実現するための微調整手法を提案する。
特に微調整時にテキストデータや元のテキストエンコーダを使わずに、視覚的テキストアライメントを維持する。
論文 参考訳(メタデータ) (2025-08-16T19:12:09Z) - Interpretable Reward Modeling with Active Concept Bottlenecks [54.00085739303773]
本稿では,解釈可能な嗜好学習を可能にする報酬モデリングフレームワークであるConcept Bottleneck Reward Models (CB-RM)を紹介する。
不透明報酬関数に依存する標準的なRLHF法とは異なり、CB-RMは報酬予測を人間の解釈可能な概念に分解する。
我々は,最も情報性の高い概念ラベルを動的に取得する能動的学習戦略を定式化する。
論文 参考訳(メタデータ) (2025-07-07T06:26:04Z) - Branch, or Layer? Zeroth-Order Optimization for Continual Learning of Vision-Language Models [44.27801276966812]
本稿では、視覚言語連続学習(VLCL)のためのゼロ次最適化(ZO)の体系的探索を開拓する。
まず,VLCLにおけるNuive full-ZO導入の不適合性について検討した。
我々は、浅層と深層表現の不均一な学習力学を活かして、ZOとFOをネットワーク層にインターリーブする階層最適化パラダイムを開発した。
論文 参考訳(メタデータ) (2025-06-14T08:59:19Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - LSSInst: Improving Geometric Modeling in LSS-Based BEV Perception with Instance Representation [10.434754671492723]
本稿では,BEVおよびインスタンス表現をタンデムに組み込んだ2段階物体検出器であるLSSInstを提案する。
提案した検出器は、既存のLSSベースのBEVネットワークに柔軟に統合可能な、きめ細かいピクセルレベルの特徴を利用する。
提案するフレームワークは,高性能な一般化能力と性能を備え,ベルやホイッスルを使わずに,現代のLSSベースのBEV認識手法の性能を向上させる。
論文 参考訳(メタデータ) (2024-11-09T13:03:54Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。