論文の概要: Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling
- arxiv url: http://arxiv.org/abs/2408.17355v2
- Date: Mon, 21 Oct 2024 17:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:14:03.352097
- Title: Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling
- Title(参考訳): 双方向デコーディング:クローズドループ再サンプリングによるアクションチャンキングの改善
- Authors: Yuejiang Liu, Jubayer Ibn Hamid, Annie Xie, Yoonho Lee, Maximilian Du, Chelsea Finn,
- Abstract要約: 双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 51.38330727868982
- License:
- Abstract: Predicting and executing a sequence of actions without intermediate replanning, known as action chunking, is increasingly used in robot learning from human demonstrations. Yet, its reported effects on the learned policy are inconsistent: some studies find it crucial for achieving strong results, while others observe decreased performance. In this paper, we first dissect how action chunking impacts the divergence between a learner and a demonstrator. We find that action chunking allows the learner to better capture the temporal dependencies in demonstrations but at the cost of reduced reactivity in stochastic environments. To address this tradeoff, we propose Bidirectional Decoding (BID), a test-time inference algorithm that bridges action chunking with closed-loop operations. BID samples multiple predictions at each time step and searches for the optimal one based on two criteria: (i) backward coherence, which favors samples that align with previous decisions; (ii) forward contrast, which seeks samples of high likelihood for future plans. By coupling decisions within and across action chunks, BID promotes consistency over time while maintaining reactivity to unexpected changes. Experimental results show that BID boosts the performance of two state-of-the-art generative policies across seven simulation benchmarks and two real-world tasks. Code and videos are available at https://bid-robot.github.io.
- Abstract(参考訳): アクションチャンキング(英: action chunking)は、人間のデモからロボット学習において、中間的なリプランなしに一連のアクションを予測および実行することである。
しかし、学習方針に対する報告された影響は矛盾している。強い結果を達成するのに不可欠であるとする研究もある一方で、性能の低下を観察する研究もある。
本稿では,まず,アクションチャンキングが学習者と実証者の間の分岐にどのように影響するかを明らかにする。
アクションチャンキングにより、学習者は実演における時間的依存をよりよく把握できるが、確率的環境における反応性の低下を犠牲にすることができる。
このトレードオフに対処するために,動作チャンキングをクローズドループ操作でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
BIDは、各ステップで複数の予測をサンプリングし、2つの基準に基づいて最適な予測を探索する。
一 過去の決定に沿うサンプルを好む後方整合性
(二)今後の計画に高い可能性のサンプルを求める前方コントラスト。
アクションチャンク内の意思決定を結合することにより、BIDは予期しない変更に対する反応性を維持しながら、時間の経過とともに一貫性を促進する。
実験結果から,BIDは7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって,最先端の2つの生成ポリシーの性能を向上させることが示された。
コードとビデオはhttps://bid-robot.github.io.comで公開されている。
関連論文リスト
- Exploring the Performance of Continuous-Time Dynamic Link Prediction Algorithms [14.82820088479196]
ダイナミックリンク予測(DLP)は、進化するネットワークにおける将来のリンクの予測に対処する。
本研究では,このような総合的な評価を行うためのツールをコントリビュートする。
評価時に使用可能な陰性サンプリング手法の網羅的な分類法について述べる。
論文 参考訳(メタデータ) (2024-05-27T14:03:28Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Regularizing Second-Order Influences for Continual Learning [39.16131410356833]
継続的な学習は、それまでの知識を破滅的に忘れることなく、非定常的なデータストリームで学習することを目的としている。
一般的なリプレイベースのメソッドは、見たデータを保持する小さなバッファーでリハーサルすることで、この問題に対処する。
我々は、影響関数に基づいて構築されたフレームワーク内での逐次選択ステップの相互作用を識別する。
論文 参考訳(メタデータ) (2023-04-20T09:30:35Z) - Open Set Action Recognition via Multi-Label Evidential Learning [25.15753429188536]
MULE(MUlti-Label Evidential Learning)を用いたオープンセット行動認識と新規性検出のための新しい手法を提案する。
我々のBeta Evidential Neural Networkは、アクター-コンテキスト-オブジェクト関係表現に基づくベータ密度によるマルチアクション不確かさを推定する。
提案手法は,シングル/マルチアクタ,シングル/マルチアクション設定において有望な性能を実現する。
論文 参考訳(メタデータ) (2023-02-27T18:34:18Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Benchmarking Deep Models for Salient Object Detection [67.07247772280212]
汎用SALOD(General SALient Object Detection)ベンチマークを構築し,複数のSOD手法の総合的な比較を行った。
以上の実験では、既存の損失関数は、通常いくつかの指標に特化しているが、他の指標には劣る結果が報告されている。
我々は,深層ネットワークに画素レベルと画像レベルの両方の監視信号を統合することにより,より識別的な特徴を学習するためのエッジ・アウェア・ロス(EA)を提案する。
論文 参考訳(メタデータ) (2022-02-07T03:43:16Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。