論文の概要: Agentic Reasoning for Robust Vision Systems via Increased Test-Time Compute
- arxiv url: http://arxiv.org/abs/2509.16343v1
- Date: Fri, 19 Sep 2025 18:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.74403
- Title: Agentic Reasoning for Robust Vision Systems via Increased Test-Time Compute
- Title(参考訳): テスト時間計算によるロバストビジョンシステムのエージェント推論
- Authors: Chung-En, Yu, Brian Jalaian, Nathaniel D. Bastian,
- Abstract要約: トレーニング不要なエージェント推論フレームワークである textbfVisual Reasoning Agent (VRA) を提案する。
VRAは、市販のビジョン言語モデルをEmphThink--Critique--Actループでラップする。
これは、挑戦的なビジュアル推論ベンチマークにおいて、最大40%の絶対精度を得る。
- 参考スコア(独自算出の注目度): 6.379609905305444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing trustworthy intelligent vision systems for high-stakes domains, \emph{e.g.}, remote sensing and medical diagnosis, demands broad robustness without costly retraining. We propose \textbf{Visual Reasoning Agent (VRA)}, a training-free, agentic reasoning framework that wraps off-the-shelf vision-language models \emph{and} pure vision systems in a \emph{Think--Critique--Act} loop. While VRA incurs significant additional test-time computation, it achieves up to 40\% absolute accuracy gains on challenging visual reasoning benchmarks. Future work will optimize query routing and early stopping to reduce inference overhead while preserving reliability in vision tasks.
- Abstract(参考訳): 高精細領域のための信頼性の高いインテリジェントな視覚システムの開発,<emph{e g },リモートセンシングと医療診断は,コストのかかる再トレーニングを伴わずに幅広い堅牢性を要求する。
本稿では,既製の視覚言語モデルである「emph{and}純視覚システム」を,「emph{Think--Critique--Act}ループ」でラップする学習自由エージェント推論フレームワークである「textbf{Visual Reasoning Agent(VRA)」を提案する。
VRAは、テストタイムの計算を著しく増やすが、挑戦的なビジュアル推論ベンチマークでは、絶対精度が最大40%向上する。
今後の作業は、クエリルーティングの最適化と早期停止による推論オーバーヘッドの削減と、ビジョンタスクの信頼性の確保だ。
関連論文リスト
- Quality Text, Robust Vision: The Role of Language in Enhancing Visual Robustness of Vision-Language Models [17.259725776748482]
頑健な微調整のための既存の敵の訓練手法は、視覚的堅牢性を高める上での言語の役割を概ね見落としている。
本研究では,QT-AFT(Quality Text-guided Adversarial Fine-Tuning)を提案する。
QT-AFTは、16のゼロショットデータセットで評価された、最先端のゼロショット対向ロバスト性とクリーンな精度を達成する。
論文 参考訳(メタデータ) (2025-07-22T06:13:30Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving [28.378854340190973]
VLM(Vision-Language Models)は、自律走行を約束するが、幻覚、非効率な推論、限られた実世界の検証は、正確な知覚と堅牢なステップバイステップ推論を妨げる。
我々は、Chain-of-Thought(CoT)推論と、自律運転タスクのための動的エージェントスタイルのツール呼び出しを統合する、先駆的な統合フレームワークであるAgentThinkを紹介する。
論文 参考訳(メタデータ) (2025-05-21T09:27:43Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Leveraging Retrieval-Augmented Tags for Large Vision-Language Understanding in Complex Scenes [0.0]
Vision-Aware Retrieval-Augmented Prompting (VRAP)は、大規模ビジョンランゲージモデルを強化するジェネレーティブアプローチである。
VRAPは、微細な推論とマルチモーダル理解において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-16T02:52:19Z) - Visual Agents as Fast and Slow Thinkers [88.1404921693082]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。
FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。
モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文 参考訳(メタデータ) (2024-08-16T17:44:02Z) - VATLD: A Visual Analytics System to Assess, Understand and Improve
Traffic Light Detection [15.36267013724161]
本稿では,自律運転アプリケーションにおける交通信号検知器の精度とロバスト性を評価・理解・改善する視覚分析システム,VATLDを提案する。
歪んだ表現学習は、人間に親しみやすい視覚的要約で人間の認知を強化するために、データ意味を抽出する。
また、視覚分析システムであるVATLDによる様々な性能改善戦略の有効性を実証し、自律運転における安全クリティカルな応用の実践的意義を示す。
論文 参考訳(メタデータ) (2020-09-27T22:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。