論文の概要: Ego to World: Collaborative Spatial Reasoning in Embodied Systems via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.14811v1
- Date: Mon, 16 Mar 2026 04:27:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.051603
- Title: Ego to World: Collaborative Spatial Reasoning in Embodied Systems via Reinforcement Learning
- Title(参考訳): Ego to World:強化学習による身体システムにおける協調的空間推論
- Authors: Heng Zhou, Li Kang, Yiran Qin, Xiufeng Song, Ao Yu, Zilu Zhang, Haoming Song, Kaixin Xu, Yuchen Fan, Dongzhan Zhou, Xiaohong Liu, Ruimao Zhang, Philip Torr, Lei Bai, Zhenfei Yin,
- Abstract要約: 本稿では,3つのタスクにまたがる異種視点を融合する視覚言語モデルの能力を評価するEgo-to-Worldベンチマークを提案する。
我々は,2段階のフレームワークであるCoRLを提案し,チェイン・オブ・ソート(Chain-of-Thought)を教師付き微調整と強化学習を組み合わせた。
我々は、CoRLが、推論と知覚グラウンドのメトリクスの両方において、強力なプロプライエタリおよびオープンソースベースラインを一貫して超越していることを示します。
- 参考スコア(独自算出の注目度): 61.753025885751036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the world from distributed, partial viewpoints is a fundamental challenge for embodied multi-agent systems. Each agent perceives the environment through an ego-centric view that is often limited by occlusion and ambiguity. To study this problem, we introduce the Ego-to-World (E2W) benchmark, which evaluates a vision-language model's ability to fuse heterogeneous viewpoints across three tasks: (i) global counting, (ii) relational location reasoning, and (iii) action-oriented grasping that requires predicting view-specific image coordinates. To address this setting, we propose CoRL, a two-stage framework that combines Chain-of-Thought supervised fine-tuning with reinforcement learning using Group-Relative Policy Optimization. Its core component, the Cross-View Spatial Reward (CVSR), provides dense task-aligned feedback by linking reasoning steps to visual evidence, ensuring coherent cross-view entity resolution, and guiding the model toward correct final predictions. Experiments on E2W show that CoRL consistently surpasses strong proprietary and open-source baselines on both reasoning and perception-grounding metrics, while ablations further confirm the necessity of each CVSR component. Beyond that, CoRL generalizes to external spatial reasoning benchmarks and enables effective real-world multi-robot manipulation with calibrated multi-camera rigs, demonstrating cross-view localization and successful grasp-and-place execution. Together, E2W and CoRL provide a principled foundation for learning world-centric scene understanding from distributed, ego-centric observations, advancing collaborative embodied AI.
- Abstract(参考訳): 分散された部分的な視点から世界を理解することは、マルチエージェントシステムを具現化する上での根本的な課題である。
それぞれのエージェントはエゴ中心の視点を通じて環境を知覚するが、それはしばしば隠蔽と曖昧さによって制限される。
この問題を解決するために,3つのタスクにまたがる異種視点を融合する視覚言語モデルの能力を評価するEgo-to-World(E2W)ベンチマークを導入する。
(i)グローバルカウント
(二)関係位置推論、及び
三 ビュー固有の画像座標の予測を必要とするアクション指向の把握。
そこで本研究では,CoRLを提案する。この2段階のフレームワークは,Chain-of-Thoughtの教師付き微調整と,グループ相対的ポリシー最適化を用いた強化学習を組み合わせたものだ。
その中核となるコンポーネントであるCross-View Spatial Reward (CVSR)は、推論ステップを視覚的エビデンスにリンクし、コヒーレントなクロスビューエンティティ解決を確保し、最終的な予測に向けてモデルを導くことによって、密集したタスク整合性フィードバックを提供する。
E2Wの実験では、CoRLは推論と知覚グラウンドの測定の両方において、強力なプロプライエタリなベースラインとオープンソースベースラインを一貫して上回り、Ablationsは各CVSRコンポーネントの必要性をさらに確認している。
さらに、CoRLは外部空間推論ベンチマークに一般化し、キャリブレーションされたマルチカメラリグによる効果的な実世界のマルチロボット操作を可能にする。
E2WとCoRLは共に、分散されたエゴ中心の観察から世界中心のシーン理解を学ぶための原則的な基盤を提供する。
関連論文リスト
- Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - Keep it SymPL: Symbolic Projective Layout for Allocentric Spatial Reasoning in Vision-Language Models [5.961445903498366]
我々は、VLMがうまく扱える象徴的な形式にアロセントリックな推論を再構成するフレームワーク、Projective Layout (SymPL)を紹介した。
実験により、この改革により、同心性タスクと自我性タスクの両方のパフォーマンスが大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-02-22T10:18:54Z) - RegionReasoner: Region-Grounded Multi-Round Visual Reasoning [69.75509909581133]
RegionReasonerは視覚的推論のための強化学習フレームワークである。
これは、それぞれの推論トレースに対応する参照境界ボックスを明示的に引用することを要求することによって、根拠付き推論を強制する。
RegionReasonerは、基礎となる忠実さとグローバルなセマンティックアライメントを組み合わせた構造化された報酬で最適化されている。
論文 参考訳(メタデータ) (2026-02-03T16:52:16Z) - Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion [31.189038928192648]
Co2Sは半教師付きRSセグメンテーションフレームワークで、ビジョン言語モデルと自己教師型モデルとを融合する。
テキスト埋め込みと学習可能なクエリを利用した,明示的でシンプルなセマンティックコガイダンス機構が導入された。
6つの一般的なデータセットに対する実験は,提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2025-12-28T18:24:19Z) - A Tale of Two Experts: Cooperative Learning for Source-Free Unsupervised Domain Adaptation [59.88864205383671]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、ソースデータにアクセスすることなく、ターゲットドメインにソース学習モデルを適用するという現実的な課題に対処する。
既存のSFUDA手法は、ソースモデルの予測のみを利用するか、大きなマルチモーダルモデルを微調整する。
本稿では、補完的な洞察と対象データの潜在構造を利用するためのエキスパート協調学習(EXCL)を提案する。
論文 参考訳(メタデータ) (2025-09-26T11:39:50Z) - HOID-R1: Reinforcement Learning for Open-World Human-Object Interaction Detection Reasoning with Multimodal Large Language Model [13.82578761807402]
HOID-R1は,チェーン・オブ・シント(CoT)とグループ相対的ポリシー最適化のファインチューニングを統合した最初のHOI検出フレームワークである。
CoT推論における幻覚を軽減するために,CoT出力を監督するMLLM-as-a-judge機構を導入する。
実験により、HOID-R1はHOI検出ベンチマークの最先端性能を達成し、新しいシナリオへのオープンワールドの一般化における既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-08-15T09:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。