Fugu-MT 論文翻訳(概要): InterACT: Inter-dependency Aware Action Chunking with Hierarchical Attention Transformers for Bimanual Manipulation

論文の概要: InterACT: Inter-dependency Aware Action Chunking with Hierarchical Attention Transformers for Bimanual Manipulation

arxiv url: http://arxiv.org/abs/2409.07914v2
Date: Mon, 16 Sep 2024 03:34:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 12:21:17.125818
Title: InterACT: Inter-dependency Aware Action Chunking with Hierarchical Attention Transformers for Bimanual Manipulation
Title（参考訳）: InterACT:双方向マニピュレーションのための階層型アテンショントランスを用いた相互依存型アクションチャンキング
Authors: Andrew Lee, Ian Chuang, Ling-Yuan Chen, Iman Soltani,
Abstract要約: 両手操作のための新しい模倣学習フレームワークであるInterACTを提案する。 InterACTは、双腕関節状態と視覚入力の間の依存性を捉えるために階層的注意を統合している。
参考スコア（独自算出の注目度）: 1.4835219023165949
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present InterACT: Inter-dependency aware Action Chunking with Hierarchical Attention Transformers, a novel imitation learning framework for bimanual manipulation that integrates hierarchical attention to capture inter-dependencies between dual-arm joint states and visual inputs. InterACT consists of a Hierarchical Attention Encoder and a Multi-arm Decoder, both designed to enhance information aggregation and coordination. The encoder processes multi-modal inputs through segment-wise and cross-segment attention mechanisms, while the decoder leverages synchronization blocks to refine individual action predictions, providing the counterpart's prediction as context. Our experiments on a variety of simulated and real-world bimanual manipulation tasks demonstrate that InterACT significantly outperforms existing methods. Detailed ablation studies validate the contributions of key components of our work, including the impact of CLS tokens, cross-segment encoders, and synchronization blocks.
Abstract（参考訳）: 両腕関節状態と視覚入力の相互依存性を捉えるために階層的注意を組み込んだバイマチュラルな操作のための新しい模倣学習フレームワークである階層的注意変換を用いた相互依存認識型アクションチャンキングを提案する。 InterACTは階層型アテンションエンコーダとマルチアームデコーダで構成される。エンコーダはセグメントワイドおよびクロスセグメントアテンション機構を通じてマルチモーダル入力を処理し、デコーダは同期ブロックを利用して個々のアクション予測を洗練し、相手の予測をコンテキストとして提供する。シミュレーションおよび実世界の実世界の双方向操作タスクに関する実験は、InterACTが既存の手法よりも大幅に優れていることを示す。詳細なアブレーション研究は、CLSトークン、クロスセグメントエンコーダ、同期ブロックの影響を含む、我々の研究の重要なコンポーネントの貢献を検証する。

関連論文リスト

Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文参考訳（メタデータ） (2025-06-02T17:57:06Z)
Separate to Collaborate: Dual-Stream Diffusion Model for Coordinated Piano Hand Motion Synthesis [20.922897975281316]
音声入力からピアノ演奏のための同期手ジェスチャーを生成するためのデュアルストリームニューラルフレームワークを提案する。ハンドコーディネートな非対称アテンション機構は、非対称な手特有の特徴を強調するために対称(共通モード)ノイズを抑制する。
論文参考訳（メタデータ） (2025-04-14T05:17:41Z)
Learning Bimanual Manipulation via Action Chunking and Inter-Arm Coordination with Transformers [4.119006369973485]
両腕の調整と効率性、特に同期行動に重点を置いています。協調行動を予測する新しい模倣学習アーキテクチャを提案する。本モデルでは,比較において高い成功率を示し,両手操作のポリシー学習に適したアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-03-18T05:20:34Z)
Rethinking Bimanual Robotic Manipulation: Learning with Decoupled Interaction Framework [51.39847596489193]
バイオマチックなロボット操作は、ロボティクスコミュニティにおいて、新しくて重要なトピックである。本稿では,バイマニュアル操作における異なるタスクの特徴を考察した,疎結合なインタラクションフレームワークを提案する。我々のフレームワークは,SOTA法よりも23.5%向上し,優れた性能を実現している。
論文参考訳（メタデータ） (2025-03-12T09:28:41Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
EAGER: Two-Stream Generative Recommender with Behavior-Semantic Collaboration [63.112790050749695]
本稿では,行動情報と意味情報の両方をシームレスに統合する新しい生成推薦フレームワークであるEAGERを紹介する。 EAGERの有効性を4つの公開ベンチマークで検証し,既存手法と比較して優れた性能を示した。
論文参考訳（メタデータ） (2024-06-20T06:21:56Z)
Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文参考訳（メタデータ） (2023-05-17T14:30:11Z)
Automatic Interaction and Activity Recognition from Videos of Human Manual Demonstrations with Application to Anomaly Detection [0.0]
本稿では、シーングラフを利用して、動きパターンとコンテキストを同時に処理しながら、画像シーケンスから重要な相互作用特徴を抽出する。イベントベースの自動ビデオセグメンテーションとクラスタリングを導入し、同様のイベントをグループ化して、監視されたアクティビティが正しく実行されるかどうかを検出する。
論文参考訳（メタデータ） (2023-04-19T16:15:23Z)
Object Discovery from Motion-Guided Tokens [50.988525184497334]
自動エンコーダ表現学習フレームワークを、モーションガイダンスと中間レベルの特徴トークン化により強化する。我々のアプローチは、解釈可能なオブジェクト固有の中間レベルの特徴の出現を可能にする。
論文参考訳（メタデータ） (2023-03-27T19:14:00Z)
CLAS: Coordinating Multi-Robot Manipulation with Central Latent Action Spaces [9.578169216444813]
本稿では,異なるエージェント間で共有される学習された潜在行動空間を通じて,マルチロボット操作を協調する手法を提案する。シミュレーションされたマルチロボット操作タスクにおいて本手法を検証し,サンプル効率と学習性能の観点から,従来のベースラインよりも改善したことを示す。
論文参考訳（メタデータ） (2022-11-28T23:20:47Z)
Context-Aware Interaction Network for Question Matching [51.76812857301819]
本研究では,二つのシーケンスを整合させ,それらの意味関係を推定する文脈認識インタラクションネットワーク(coin)を提案する。具体的には,(1)コンテキスト情報を効果的に統合するためのコンテキスト対応のクロスアテンション機構,(2)整列表現を柔軟に補間するゲート融合層を備える。
論文参考訳（メタデータ） (2021-04-17T05:03:56Z)
Pedestrian Behavior Prediction via Multitask Learning and Categorical Interaction Modeling [13.936894582450734]
マルチモーダルデータに頼って歩行者の軌跡や行動を同時に予測するマルチタスク学習フレームワークを提案する。本モデルでは, トラジェクティブと動作予測を最大22%, 6%向上させる。
論文参考訳（メタデータ） (2020-12-06T15:57:11Z)
Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文参考訳（メタデータ） (2020-03-09T17:05:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。