論文の概要: ROI-Driven Foveated Attention for Unified Egocentric Representations in Vision-Language-Action Systems
- arxiv url: http://arxiv.org/abs/2603.20668v1
- Date: Sat, 21 Mar 2026 05:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.028854
- Title: ROI-Driven Foveated Attention for Unified Egocentric Representations in Vision-Language-Action Systems
- Title(参考訳): ビジョン・ランゲージ・アクション・システムにおける統一型エゴセントリック表現に対するROI駆動型定位注意
- Authors: Xinhai Sun, Xiang Shi, Menglin Zou, Wenlong Huang,
- Abstract要約: 本稿では,エゴセントリックな幾何学的データ表現を導入した,関心の領域駆動型エンジニアリングワークフローを提案する。
フルフレームを直接ダウンサンプリングするのとは異なり、ROIはリサイズする前に元のイメージからトリミングされ、高いローカル情報密度が保たれる。
我々は、エゴセントリックROIがスケーラブルなコレクションとクロスボディラーニングのための実践的なデータ抽象化として機能すると主張している。
- 参考スコア(独自算出の注目度): 5.767510583332972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of embodied AI systems is increasingly constrained by the availability and structure of physical interaction data. Despite recent advances in vision-language-action (VLA) models, current pipelines suffer from high data collection cost, limited cross-embodiment alignment, and poor transfer from internet-scale visual data to robot control. We propose a region-of-interest (ROI) driven engineering workflow that introduces an egocentric, geometry-grounded data representation. By projecting end-effector poses via forward kinematics (FK) into a single external camera, we derive movement-aligned hand-centric ROIs without requiring wrist-mounted cameras or multi-view systems. Unlike directly downsampling the full frame, ROI is cropped from the original image before resizing, preserving high local information density for contact-critical regions while retaining global context. We present a reproducible pipeline covering calibration, synchronization, ROI generation, deterministic boundary handling, and metadata governance. The resulting representation is embodiment-aligned and viewpoint-normalized, enabling data reuse across heterogeneous robots. We argue that egocentric ROI serves as a practical data abstraction for scalable collection and cross-embodiment learning, bridging internet-scale perception and robot-specific control.
- Abstract(参考訳): 具体化されたAIシステムの開発は、物理的相互作用データの可用性と構造にますます制約されている。
近年のヴィジュアル・ランゲージ・アクション(VLA)モデルの発展にもかかわらず、現在のパイプラインは高いデータ収集コスト、限られたクロス・エボディメント・アライメント、インターネットスケールの視覚データからロボット制御への移動に悩まされている。
我々は、エゴセントリックで幾何学的なデータ表現を導入した、関心の領域(ROI)駆動のエンジニアリングワークフローを提案する。
プロジェクション・エフェクターのポーズをフォワード・キネマティクス(FK)で1台の外部カメラに投影することで、手首にカメラやマルチビューシステムを必要としない移動型手中心ROIを導出する。
全フレームを直接ダウンサンプリングするのとは異なり、ROIはリサイズ前に元のイメージからトリミングされ、グローバルなコンテキストを維持しながら、コンタクトクリティカルな領域に対して高いローカル情報密度を保持する。
本稿では、キャリブレーション、同期、ROI生成、決定論的境界処理、メタデータガバナンスをカバーする再現可能なパイプラインを提案する。
結果として得られる表現は、具体的整合性と視点正規化であり、異種ロボット間のデータの再利用を可能にする。
我々は、エゴセントリックROIが、スケーラブルな収集とクロスボデーメント学習、インターネットスケールの知覚のブリッジング、ロボット固有の制御のための実践的なデータ抽象化として機能すると主張している。
関連論文リスト
- CeRLP: A Cross-embodiment Robot Local Planning Framework for Visual Navigation [12.047848283467019]
汎用視覚ナビゲーションのためのクロス・エボディメント・ロボット・ローカル・プランニング(CeRLP)フレームワークを提案する。
CeRLPは、視覚情報を統一された幾何学的定式化に抽象化し、異種ロボットに適用する。
シミュレーション環境での実験では、CeRLPは比較法よりも優れていた。
論文 参考訳(メタデータ) (2026-03-20T03:17:18Z) - RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset [48.645870795753105]
ロボットのためのロバスト自動データ取得(RADAR)について紹介する。
RADARは完全に自律的でクローズドループのデータ生成エンジンで、収集サイクルから人間の介入を完全に取り除きます。
シミュレーションでは、複雑な長期タスクにおいて、最大90%の成功率を達成する。
論文 参考訳(メタデータ) (2026-03-12T11:18:52Z) - Future Optical Flow Prediction Improves Robot Control & Video Generation [100.87884718953099]
本稿では,VLM(Vision-Language Model)と拡散アーキテクチャを組み合わせた新しい光フロー予測モデルFOFPredを紹介する。
我々のモデルは、高度にスケーラブルだが非構造化のソースである、Webスケールの人間活動データに基づいて訓練されている。
言語駆動設定下でのロボット操作とビデオ生成による評価は、FOFPredのクロスドメインの汎用性を確立する。
論文 参考訳(メタデータ) (2026-01-15T18:49:48Z) - R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation [55.26713167507132]
本稿では,エンボディ空間の構築と解釈を行う生成ロボティクス基礎モデルを提案する。
EnerVerseは、自己回帰的ビデオ拡散フレームワークを使用して、命令から将来のエンボディドスペースを予測する。
本稿では,生成モデルと4次元ガウススプラッティングを組み合わせたデータエンジンパイプラインであるEnerVerse-Dについて述べる。
論文 参考訳(メタデータ) (2025-01-03T17:00:33Z) - Distributed NeRF Learning for Collaborative Multi-Robot Perception [16.353043979615496]
マルチエージェントシステムは、環境のより包括的なマッピング、より高速なカバレッジ、耐障害性の向上を提供することができる。
本稿では,RGB画像からニューラルレイディアンス場(NeRF)を総合的に学習してシーンを表現できる協調型マルチエージェント認識システムを提案する。
本手法の有効性は,挑戦的な実世界のシーンを含むデータセットに対する広範な実験を通して示す。
論文 参考訳(メタデータ) (2024-09-30T13:45:50Z) - Graph Neural Networks for Multi-Robot Active Information Acquisition [15.900385823366117]
基礎となるグラフを通して通信する移動ロボットのチームは、興味のある現象を表す隠れた状態を推定する。
既存のアプローチはスケーラブルではないか、動的現象に対処できないか、あるいは通信グラフの変化に対して堅牢でないかのどちらかです。
本稿では,グラフ表現上に情報を集約し,逐次決定を分散的に行う情報対応グラフブロックネットワーク(I-GBNet)を提案する。
論文 参考訳(メタデータ) (2022-09-24T21:45:06Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。