Fugu-MT 論文翻訳(概要): ROCKET-2: Steering Visuomotor Policy via Cross-View Goal Alignment

論文の概要: ROCKET-2: Steering Visuomotor Policy via Cross-View Goal Alignment

arxiv url: http://arxiv.org/abs/2503.02505v1
Date: Tue, 04 Mar 2025 11:16:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:39.493624
Title: ROCKET-2: Steering Visuomotor Policy via Cross-View Goal Alignment
Title（参考訳）: ROCKET-2:クロスビューゴールアライメントによるビジュモータ政策の運営
Authors: Shaofei Cai, Zhancun Mu, Anji Liu, Yitao Liang,
Abstract要約: カメラビューからセグメント化マスクを用いてターゲットオブジェクトを指定可能な,新たなクロスビューゴールアライメントフレームワークを提案する。 ROCKET-2は、人間のカメラビューから直接目標を解釈し、より優れた人間とエージェントのインタラクションを実現することができることを示す。
参考スコア（独自算出の注目度）: 14.716240745164974
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We aim to develop a goal specification method that is semantically clear, spatially sensitive, and intuitive for human users to guide agent interactions in embodied environments. Specifically, we propose a novel cross-view goal alignment framework that allows users to specify target objects using segmentation masks from their own camera views rather than the agent's observations. We highlight that behavior cloning alone fails to align the agent's behavior with human intent when the human and agent camera views differ significantly. To address this, we introduce two auxiliary objectives: cross-view consistency loss and target visibility loss, which explicitly enhance the agent's spatial reasoning ability. According to this, we develop ROCKET-2, a state-of-the-art agent trained in Minecraft, achieving an improvement in the efficiency of inference 3x to 6x. We show ROCKET-2 can directly interpret goals from human camera views for the first time, paving the way for better human-agent interaction.
Abstract（参考訳）: 具体的環境下でのエージェントインタラクションのガイドを行うために, 意味的, 空間的, 直感的な目標仕様法を開発することを目的としている。具体的には、エージェントの観察ではなく、自身のカメラビューからセグメンテーションマスクを用いてターゲットオブジェクトを指定できる、新しいクロスビューゴールアライメントフレームワークを提案する。我々は,人間とエージェントカメラの視点が著しく異なる場合,行動クローニングだけではエージェントの行動と人間の意図とを一致させることができないことを強調した。これを解決するために,クロスビュー整合性損失と目標視認性損失という2つの補助的目的を導入し,エージェントの空間的推論能力を明確に向上させる。そこで我々は,Minecraftで訓練された最先端エージェントであるROCKET-2を開発し,推論の効率を3倍から6倍に向上させた。 ROCKET-2は、人間のカメラビューから直接目標を解釈し、より優れた人間とエージェントのインタラクションを実現することができることを示す。

関連論文リスト

AnchorDP3: 3D Affordance Guided Sparse Diffusion Policy for Robotic Manipulation [8.603450327406879]
AnchorDP3は、デュアルアームロボット操作のための拡散ポリシーフレームワークである。大規模で手続き的に生成されたシミュレーションデータに基づいて訓練される。 RoboTwinベンチマークの平均成功率は98.7%に達する。
論文参考訳（メタデータ） (2025-06-24T03:03:26Z)
HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文参考訳（メタデータ） (2025-06-02T12:08:08Z)
FunGraph: Functionality Aware 3D Scene Graphs for Language-Prompted Scene Interaction [1.8124328823188356]
我々は、より細かな解像度でオブジェクトを検出し、保存することに集中し、価格関連部品に焦点をあてる。現在利用可能な3Dリソースを活用して、2Dデータを生成し、検出器をトレーニングし、標準の3Dシーングラフ生成パイプラインを拡張するために使用します。
論文参考訳（メタデータ） (2025-03-10T23:13:35Z)
CordViP: Correspondence-based Visuomotor Policy for Dexterous Manipulation in Real-World [20.52894595103719]
CordViPは、オブジェクトのロバストな6Dポーズ推定とロボットのプロプリセプションを活用することで、通信を構築し、学習する新しいフレームワークである。提案手法は,実世界の4つのタスクにおいて,平均90%の成功率で異常な操作能力を示す。
論文参考訳（メタデータ） (2025-02-12T14:41:14Z)
Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [57.942404069484134]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文参考訳（メタデータ） (2024-09-24T17:59:56Z)
Improving Zero-Shot ObjectNav with Generative Communication [60.84730028539513]
ゼロショットObjectNavの改良手法を提案する。私たちのアプローチは、接地エージェントが制限され、時には障害のあるビューを持つ可能性があることを考慮に入れています。
論文参考訳（メタデータ） (2024-08-03T22:55:26Z)
WANDR: Intention-guided Human Motion Generation [67.07028110459787]
我々は,アバターの初期ポーズとゴールの3D位置を取り,ゴール位置にエンドエフェクタ(抵抗)を配置する自然な人間の動きを生成するデータ駆動モデルであるWADRを紹介する。インテンションはエージェントをゴールに誘導し、サブゴールやモーションパス全体を定義することなく、新しい状況にインタラクティブに世代を適応させる。提案手法を広範に評価し,3次元目標に到達した自然および長期の動作と,見当たらない目標位置を生成できることを実証する。
論文参考訳（メタデータ） (2024-04-23T10:20:17Z)
Disentangled Interaction Representation for One-Stage Human-Object Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文参考訳（メタデータ） (2023-12-04T08:02:59Z)
HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文参考訳（メタデータ） (2023-08-20T04:12:50Z)
ViPLO: Vision Transformer based Pose-Conditioned Self-Loop Graph for Human-Object Interaction Detection [20.983998911754792]
2段階のHuman-Object Interaction (HOI)検出器は1段階法よりも性能が低い。これらの問題を解決するために視覚変換器を用いたPose-Conditioned Self-Loop Graph (ViPLO)を提案する。 ViPLOは2つの公開ベンチマークで最先端の結果を達成する。
論文参考訳（メタデータ） (2023-04-17T09:44:54Z)
Object-Centric Scene Representations using Active Inference [4.298360054690217]
シーンとその成分オブジェクトを生の知覚データから表現することは、ロボットが環境と対話できるコア機能である。本稿では,エージェントがオブジェクトカテゴリを推論できる階層型オブジェクト中心生成モデルを活用する,シーン理解のための新しいアプローチを提案する。また,アクティブな視覚エージェントの動作を評価するために,対象対象の視点を考慮し,最適な視点を見出す必要がある新しいベンチマークを提案する。
論文参考訳（メタデータ） (2023-02-07T06:45:19Z)
Self-Supervised Object Goal Navigation with In-Situ Finetuning [110.6053241629366]
この研究は、探検を通じて世界の自己監督モデルを構築するエージェントを構築する。 ObjectNavエージェントのすべてのコンポーネントをトレーニングできる強力なセルフスーパービジョンのソースを特定します。我々は,エージェントが実世界で競争力を発揮し,シミュレーションを行うことを示す。
論文参考訳（メタデータ） (2022-12-09T03:41:40Z)
Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文参考訳（メタデータ） (2022-03-15T17:59:01Z)
Effective Actor-centric Human-object Interaction Detection [20.564689533862524]
画像中の人間と物体の相互作用を検出する新しいアクター中心のフレームワークを提案する。提案手法は,挑戦的なV-COCOとHICO-DETベンチマークの最先端化を実現する。
論文参考訳（メタデータ） (2022-02-24T10:24:44Z)
Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。 SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文参考訳（メタデータ） (2021-08-19T09:40:50Z)
Learning Affordance Landscapes for Interaction Exploration in 3D Environments [101.90004767771897]
エージェントは環境の仕組みを習得できなければならない。相互作用探索のための強化学習手法を提案する。 AI2-iTHORで私たちのアイデアを実証します。
論文参考訳（メタデータ） (2020-08-21T00:29:36Z)
Traffic Agent Trajectory Prediction Using Social Convolution and Attention Mechanism [57.68557165836806]
本稿では,自律走行車周辺における標的エージェントの軌道予測モデルを提案する。対象エージェントの履歴トラジェクトリをアテンションマスクとしてエンコードし、ターゲットエージェントとその周辺エージェント間の対話関係をエンコードするソーシャルマップを構築する。提案手法の有効性を検証するため,提案手法を公開データセット上の複数の手法と比較し,20%の誤差低減を実現した。
論文参考訳（メタデータ） (2020-07-06T03:48:08Z)
Improving Target-driven Visual Navigation with Attention on 3D Spatial Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。 AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2020-04-29T08:46:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。