論文の概要: Artemis: Structured Visual Reasoning for Perception Policy Learning
- arxiv url: http://arxiv.org/abs/2512.01988v1
- Date: Mon, 01 Dec 2025 18:45:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.02746
- Title: Artemis: Structured Visual Reasoning for Perception Policy Learning
- Title(参考訳): Artemis: 知覚ポリシー学習のための構造化ビジュアル推論
- Authors: Wei Tang, Yanpeng Sun, Shan Zhang, Xiaofan Li, Piotr Koniusz, Wei Li, Na Zhao, Zechao Li,
- Abstract要約: 経験的観察は、純粋に言語的な中間的推論が知覚タスクのパフォーマンスを低下させることを示している。
本稿では,構造化提案に基づく推論を行う認知政治学習フレームワークであるArtemisを紹介する。
- 参考スコア(独自算出の注目度): 64.57381337070616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent reinforcement-learning frameworks for visual perception policy have begun to incorporate intermediate reasoning chains expressed in natural language. Empirical observations indicate that such purely linguistic intermediate reasoning often reduces performance on perception tasks. We argue that the core issue lies not in reasoning per se but in the form of reasoning: while these chains perform semantic reasoning in an unstructured linguistic space, visual perception requires reasoning in a spatial and object-centric space. In response, we introduce Artemis, a perception-policy learning framework that performs structured proposal-based reasoning, where each intermediate step is represented as a (label, bounding-box) pair capturing a verifiable visual state. This design enables explicit tracking of intermediate states, direct supervision for proposal quality, and avoids ambiguity introduced by language-based reasoning. Artemis is built on Qwen2.5-VL-3B, achieves strong performance on grounding and detection task and exhibits substantial generalization to counting and geometric-perception tasks. The consistent improvements across these diverse settings confirm that aligning reasoning with spatial representations enhances perception-policy learning. Owing to its strengthened visual reasoning, Artemis also achieves competitive performance on general MLLM benchmarks, illustrating that spatially grounded reasoning provides a principled route toward scalable and general perception policies.
- Abstract(参考訳): 近年、視覚認知政策のための強化学習フレームワークは、自然言語で表現される中間的推論連鎖を取り入れ始めている。
経験的観察は、そのような純粋言語的な中間推論が知覚タスクの性能を低下させることを示している。
これらの連鎖は非構造化言語空間において意味論的推論を行うが、視覚的知覚は空間的および対象中心の空間において推論を必要とする。
提案手法を構造化し,各中間ステップを検証可能な視覚状態を取得する(ラベル,バウンディングボックス)ペアとして表現する。
この設計により、中間状態の明示的な追跡、提案品質の直接監視、言語に基づく推論による曖昧さの回避が可能となる。
アルテミスはQwen2.5-VL-3B上に構築され、接地および検出タスクに強い性能を発揮し、数え上げおよび幾何知覚タスクへのかなりの一般化を示す。
これらの多様な設定における一貫した改善により、空間的表現と推論の整合性は、知覚と政治の学習を促進することが確認される。
視覚的推論の強化により、Artemisは一般的なMLLMベンチマーク上での競合性能も達成し、空間的に基底付けられた推論がスケーラブルで一般的な認識ポリシーへの原則的な経路を提供することを示した。
関連論文リスト
- From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models [66.36007274540113]
MLLM(Multimodal Large Language Models)は、物理的世界に対する深い人間的な理解と相互作用を達成するための試みである。
情報取得(知覚)や推論(認知)を行う際、しばしば浅く不整合な統合を示す。
この調査では、新しい統合分析フレームワーク「知覚から認知へ」を紹介した。
論文 参考訳(メタデータ) (2025-09-29T18:25:40Z) - Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.27548620675748]
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。
本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。
次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
論文 参考訳(メタデータ) (2025-08-24T11:01:51Z) - Emergent Communication for Rules Reasoning [38.24159397787027]
エージェントが高レベルのルールを推論し伝達することを奨励する認知指向環境であるReasoning Gameを提案する。
実験結果から,Reasoning Gameでは,意味論的に安定かつ構成的な言語が出現し,推論問題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-11-08T05:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。