論文の概要: Look, Zoom, Understand: The Robotic Eyeball for Embodied Perception
- arxiv url: http://arxiv.org/abs/2511.15279v1
- Date: Wed, 19 Nov 2025 09:42:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.737082
- Title: Look, Zoom, Understand: The Robotic Eyeball for Embodied Perception
- Title(参考訳): 見ろ、ズーム、見ろ! 身体認識のためのロボット眼球
- Authors: Jiashu Yang, Yifan Han, Yucheng Xie, Ning Guo, Wenzhao Lian,
- Abstract要約: 既存のビジョンモデルと固定RGB-Dカメラシステムは、細かな詳細取得で広域範囲を調整できない。
本研究では,アクティブな視覚知覚のためのロボット眼球であるEyeVLAを提案する。
- 参考スコア(独自算出の注目度): 8.542874528320004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In embodied AI perception systems, visual perception should be active: the goal is not to passively process static images, but to actively acquire more informative data within pixel and spatial budget constraints. Existing vision models and fixed RGB-D camera systems fundamentally fail to reconcile wide-area coverage with fine-grained detail acquisition, severely limiting their efficacy in open-world robotic applications. To address this issue, we propose EyeVLA, a robotic eyeball for active visual perception that can take proactive actions based on instructions, enabling clear observation of fine-grained target objects and detailed information across a wide spatial extent. EyeVLA discretizes action behaviors into action tokens and integrates them with vision-language models (VLMs) that possess strong open-world understanding capabilities, enabling joint modeling of vision, language, and actions within a single autoregressive sequence. By using the 2D bounding box coordinates to guide the reasoning chain and applying reinforcement learning to refine the viewpoint selection policy, we transfer the open-world scene understanding capability of the VLM to a vision language action (VLA) policy using only minimal real-world data. Experiments show that our system efficiently performs instructed scenes in real-world environments and actively acquires more accurate visual information through instruction-driven actions of rotation and zoom, thereby achieving strong environmental perception capabilities. EyeVLA introduces a novel robotic vision system that leverages detailed and spatially rich, large-scale embodied data, and actively acquires highly informative visual observations for downstream embodied tasks.
- Abstract(参考訳): 目標は、静的画像を受動的に処理するのではなく、ピクセルや空間予算の制約の中でより情報的なデータを積極的に取得することである。
既存のビジョンモデルと固定RGB-Dカメラシステムは、網羅範囲を細部まで細部まで絞り込むことができず、オープンワールドのロボティクスアプリケーションにおいてその効果を著しく制限している。
この問題に対処するために,ロボット眼球を用いた視覚認識用眼球システムEyeVLAを提案する。
EyeVLAはアクションの振る舞いをアクショントークンに識別し、強力なオープンワールド理解能力を持つ視覚言語モデル(VLM)と統合し、単一の自己回帰シーケンス内の視覚、言語、行動の合同モデリングを可能にする。
2Dバウンディングボックス座標を用いて推論連鎖を導出し、強化学習を適用して視点選択ポリシーを洗練させることにより、VLMのオープンワールドシーン理解能力を、最小の実世界データのみを用いて視覚言語行動(VLA)ポリシーに転送する。
実験により,本システムは実環境下での指導シーンを効率よく実行し,回転・ズームの指示駆動動作により,より正確な視覚情報を積極的に取得し,環境認識能力の向上を図っている。
EyeVLAは、細密で空間的に豊かな大規模なエンボディドデータを活用する新しいロボットビジョンシステムを導入し、下流のエンボディドタスクに対して、高度に情報的な視覚的観察を積極的に取得する。
関連論文リスト
- PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments [36.84821207878773]
マルチモーダル大言語モデル(MLLM)における視覚的推論は、主に静的で完全に観測可能な設定で研究されている。
AVR(Active Visual Reasoning)タスクを導入し、視覚的推論を部分的に観察可能で対話的な環境に拡張する。
推論と情報収集の効率性の両方を評価するために,複数ラウンドの対話型環境を特徴とするベンチマークを提案する。
論文 参考訳(メタデータ) (2025-10-24T02:59:00Z) - ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver [35.25196177784228]
本稿では,暗黙的な基礎パラダイムを持つ再構成型VLAモデルReconVLAを提案する。
拡散変換器は、モデルの視覚出力に基づいて画像の視線領域を再構成する。
このプロセスにより、VLAモデルはきめ細かい表現を学習し、視覚的注意を正確に割り当てる。
論文 参考訳(メタデータ) (2025-08-14T04:20:19Z) - Learning to See and Act: Task-Aware View Planning for Robotic Manipulation [88.37482534484627]
Task-Aware View Planning (TAVP)は、アクティブなビュープランニングとタスク固有の表現学習を統合するために設計されたフレームワークである。
提案したTAVPモデルは、最先端の固定ビューアプローチよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-08-07T09:21:20Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。