論文の概要: InterACT: Inter-dependency Aware Action Chunking with Hierarchical Attention Transformers for Bimanual Manipulation
- arxiv url: http://arxiv.org/abs/2409.07914v2
- Date: Mon, 16 Sep 2024 03:34:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 12:21:17.125818
- Title: InterACT: Inter-dependency Aware Action Chunking with Hierarchical Attention Transformers for Bimanual Manipulation
- Title(参考訳): InterACT:双方向マニピュレーションのための階層型アテンショントランスを用いた相互依存型アクションチャンキング
- Authors: Andrew Lee, Ian Chuang, Ling-Yuan Chen, Iman Soltani,
- Abstract要約: 両手操作のための新しい模倣学習フレームワークであるInterACTを提案する。
InterACTは、双腕関節状態と視覚入力の間の依存性を捉えるために階層的注意を統合している。
- 参考スコア(独自算出の注目度): 1.4835219023165949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present InterACT: Inter-dependency aware Action Chunking with Hierarchical Attention Transformers, a novel imitation learning framework for bimanual manipulation that integrates hierarchical attention to capture inter-dependencies between dual-arm joint states and visual inputs. InterACT consists of a Hierarchical Attention Encoder and a Multi-arm Decoder, both designed to enhance information aggregation and coordination. The encoder processes multi-modal inputs through segment-wise and cross-segment attention mechanisms, while the decoder leverages synchronization blocks to refine individual action predictions, providing the counterpart's prediction as context. Our experiments on a variety of simulated and real-world bimanual manipulation tasks demonstrate that InterACT significantly outperforms existing methods. Detailed ablation studies validate the contributions of key components of our work, including the impact of CLS tokens, cross-segment encoders, and synchronization blocks.
- Abstract(参考訳): 両腕関節状態と視覚入力の相互依存性を捉えるために階層的注意を組み込んだバイマチュラルな操作のための新しい模倣学習フレームワークである階層的注意変換を用いた相互依存認識型アクションチャンキングを提案する。
InterACTは階層型アテンションエンコーダとマルチアームデコーダで構成される。
エンコーダはセグメントワイドおよびクロスセグメントアテンション機構を通じてマルチモーダル入力を処理し、デコーダは同期ブロックを利用して個々のアクション予測を洗練し、相手の予測をコンテキストとして提供する。
シミュレーションおよび実世界の実世界の双方向操作タスクに関する実験は、InterACTが既存の手法よりも大幅に優れていることを示す。
詳細なアブレーション研究は、CLSトークン、クロスセグメントエンコーダ、同期ブロックの影響を含む、我々の研究の重要なコンポーネントの貢献を検証する。
関連論文リスト
- Correlated Attention in Transformers for Multivariate Time Series [22.542109523780333]
本稿では,特徴量依存を効率的に捕捉し,既存のトランスフォーマーのエンコーダブロックにシームレスに統合できる新しいアテンション機構を提案する。
特に、関連性のある注意は、特徴チャネルを横断して、クエリとキー間の相互共分散行列をラグ値で計算し、サブシリーズレベルで選択的に表現を集約する。
このアーキテクチャは、瞬時だけでなく、ラタグされた相互相関の発見と表現の学習を容易にすると同時に、本質的に時系列の自動相関をキャプチャする。
論文 参考訳(メタデータ) (2023-11-20T17:35:44Z) - Multi-scale Target-Aware Framework for Constrained Image Splicing
Detection and Localization [11.803255600587308]
統合パイプラインにおける特徴抽出と相関マッチングを結合するマルチスケールなターゲット認識フレームワークを提案する。
提案手法は,関連パッチの協調学習を効果的に促進し,特徴学習と相関マッチングの相互促進を行う。
我々の実験では、統一パイプラインを用いたモデルが、いくつかのベンチマークデータセット上で最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-08-18T07:38:30Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Object Discovery from Motion-Guided Tokens [50.988525184497334]
自動エンコーダ表現学習フレームワークを、モーションガイダンスと中間レベルの特徴トークン化により強化する。
我々のアプローチは、解釈可能なオブジェクト固有の中間レベルの特徴の出現を可能にする。
論文 参考訳(メタデータ) (2023-03-27T19:14:00Z) - Cross-stitching Text and Knowledge Graph Encoders for Distantly
Supervised Relation Extraction [30.274065305756057]
テキストと知識グラフ(KG)に見られる相補的情報を活用するために,遠隔教師付き関係抽出のためのバイエンコーダアーキテクチャを設計する
本稿では,テキストエンコーダとKGエンコーダのクロススティッチ機構による完全なインタラクションを実現するクロススティッチバイエンコーダを提案する。
論文 参考訳(メタデータ) (2022-11-02T19:01:26Z) - Decoder Fusion RNN: Context and Interaction Aware Decoders for
Trajectory Prediction [53.473846742702854]
本稿では,動き予測のための反復的,注意に基づくアプローチを提案する。
Decoder Fusion RNN (DF-RNN) は、リカレント動作エンコーダ、エージェント間マルチヘッドアテンションモジュール、コンテキスト認識デコーダで構成される。
提案手法の有効性をArgoverseモーション予測データセットで検証し,その性能を公開ベンチマークで示す。
論文 参考訳(メタデータ) (2021-08-12T15:53:37Z) - FINet: Dual Branches Feature Interaction for Partial-to-Partial Point
Cloud Registration [31.014309817116175]
FINetは,複数段階の入力を関連づける情報を有効化・強化する機能を備えた,機能間相互作用に基づく構造である。
実験により,本手法は従来の手法に比べて精度が高く,頑健性も高いことが示された。
論文 参考訳(メタデータ) (2021-06-07T10:15:02Z) - Context-Aware Interaction Network for Question Matching [51.76812857301819]
本研究では,二つのシーケンスを整合させ,それらの意味関係を推定する文脈認識インタラクションネットワーク(coin)を提案する。
具体的には,(1)コンテキスト情報を効果的に統合するためのコンテキスト対応のクロスアテンション機構,(2)整列表現を柔軟に補間するゲート融合層を備える。
論文 参考訳(メタデータ) (2021-04-17T05:03:56Z) - Cross-Supervised Joint-Event-Extraction with Heterogeneous Information
Networks [61.950353376870154]
Joint-event- Extractは、トリガとエンティティのタグからなるタグセットを備えたシーケンスからシーケンスまでのラベリングタスクである。
トリガやエンティティの抽出を交互に監督するクロススーパーバイザードメカニズム(CSM)を提案する。
我々の手法は、エンティティとトリガー抽出の両方において最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2020-10-13T11:51:17Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。