論文の概要: ROCKET-2: Steering Visuomotor Policy via Cross-View Goal Alignment
- arxiv url: http://arxiv.org/abs/2503.02505v1
- Date: Tue, 04 Mar 2025 11:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:58.498854
- Title: ROCKET-2: Steering Visuomotor Policy via Cross-View Goal Alignment
- Title(参考訳): ROCKET-2:クロスビューゴールアライメントによるビジュモータ政策の運営
- Authors: Shaofei Cai, Zhancun Mu, Anji Liu, Yitao Liang,
- Abstract要約: カメラビューからセグメント化マスクを用いてターゲットオブジェクトを指定可能な,新たなクロスビューゴールアライメントフレームワークを提案する。
ROCKET-2は、人間のカメラビューから直接目標を解釈し、より優れた人間とエージェントのインタラクションを実現することができることを示す。
- 参考スコア(独自算出の注目度): 14.716240745164974
- License:
- Abstract: We aim to develop a goal specification method that is semantically clear, spatially sensitive, and intuitive for human users to guide agent interactions in embodied environments. Specifically, we propose a novel cross-view goal alignment framework that allows users to specify target objects using segmentation masks from their own camera views rather than the agent's observations. We highlight that behavior cloning alone fails to align the agent's behavior with human intent when the human and agent camera views differ significantly. To address this, we introduce two auxiliary objectives: cross-view consistency loss and target visibility loss, which explicitly enhance the agent's spatial reasoning ability. According to this, we develop ROCKET-2, a state-of-the-art agent trained in Minecraft, achieving an improvement in the efficiency of inference 3x to 6x. We show ROCKET-2 can directly interpret goals from human camera views for the first time, paving the way for better human-agent interaction.
- Abstract(参考訳): 具体的環境下でのエージェントインタラクションのガイドを行うために, 意味的, 空間的, 直感的な目標仕様法を開発することを目的としている。
具体的には、エージェントの観察ではなく、自身のカメラビューからセグメンテーションマスクを用いてターゲットオブジェクトを指定できる、新しいクロスビューゴールアライメントフレームワークを提案する。
我々は,人間とエージェントカメラの視点が著しく異なる場合,行動クローニングだけではエージェントの行動と人間の意図とを一致させることができないことを強調した。
これを解決するために,クロスビュー整合性損失と目標視認性損失という2つの補助的目的を導入し,エージェントの空間的推論能力を明確に向上させる。
そこで我々は,Minecraftで訓練された最先端エージェントであるROCKET-2を開発し,推論の効率を3倍から6倍に向上させた。
ROCKET-2は、人間のカメラビューから直接目標を解釈し、より優れた人間とエージェントのインタラクションを実現することができることを示す。
関連論文リスト
- CordViP: Correspondence-based Visuomotor Policy for Dexterous Manipulation in Real-World [20.52894595103719]
CordViPは、オブジェクトのロバストな6Dポーズ推定とロボットのプロプリセプションを活用することで、通信を構築し、学習する新しいフレームワークである。
提案手法は,実世界の4つのタスクにおいて,平均90%の成功率で異常な操作能力を示す。
論文 参考訳(メタデータ) (2025-02-12T14:41:14Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - ViPLO: Vision Transformer based Pose-Conditioned Self-Loop Graph for
Human-Object Interaction Detection [20.983998911754792]
2段階のHuman-Object Interaction (HOI)検出器は1段階法よりも性能が低い。
これらの問題を解決するために視覚変換器を用いたPose-Conditioned Self-Loop Graph (ViPLO)を提案する。
ViPLOは2つの公開ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-04-17T09:44:54Z) - Object-Centric Scene Representations using Active Inference [4.298360054690217]
シーンとその成分オブジェクトを生の知覚データから表現することは、ロボットが環境と対話できるコア機能である。
本稿では,エージェントがオブジェクトカテゴリを推論できる階層型オブジェクト中心生成モデルを活用する,シーン理解のための新しいアプローチを提案する。
また,アクティブな視覚エージェントの動作を評価するために,対象対象の視点を考慮し,最適な視点を見出す必要がある新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-02-07T06:45:19Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Effective Actor-centric Human-object Interaction Detection [20.564689533862524]
画像中の人間と物体の相互作用を検出する新しいアクター中心のフレームワークを提案する。
提案手法は,挑戦的なV-COCOとHICO-DETベンチマークの最先端化を実現する。
論文 参考訳(メタデータ) (2022-02-24T10:24:44Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - Traffic Agent Trajectory Prediction Using Social Convolution and
Attention Mechanism [57.68557165836806]
本稿では,自律走行車周辺における標的エージェントの軌道予測モデルを提案する。
対象エージェントの履歴トラジェクトリをアテンションマスクとしてエンコードし、ターゲットエージェントとその周辺エージェント間の対話関係をエンコードするソーシャルマップを構築する。
提案手法の有効性を検証するため,提案手法を公開データセット上の複数の手法と比較し,20%の誤差低減を実現した。
論文 参考訳(メタデータ) (2020-07-06T03:48:08Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。