Fugu-MT 論文翻訳(概要): Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling

論文の概要: Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling

arxiv url: http://arxiv.org/abs/2408.17355v2
Date: Mon, 21 Oct 2024 17:27:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 03:57:28.119628
Title: Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling
Title（参考訳）: 双方向デコーディング:クローズドループ再サンプリングによるアクションチャンキングの改善
Authors: Yuejiang Liu, Jubayer Ibn Hamid, Annie Xie, Yoonho Lee, Maximilian Du, Chelsea Finn,
Abstract要約: 双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。 BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
参考スコア（独自算出の注目度）: 51.38330727868982
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Predicting and executing a sequence of actions without intermediate replanning, known as action chunking, is increasingly used in robot learning from human demonstrations. Yet, its reported effects on the learned policy are inconsistent: some studies find it crucial for achieving strong results, while others observe decreased performance. In this paper, we first dissect how action chunking impacts the divergence between a learner and a demonstrator. We find that action chunking allows the learner to better capture the temporal dependencies in demonstrations but at the cost of reduced reactivity in stochastic environments. To address this tradeoff, we propose Bidirectional Decoding (BID), a test-time inference algorithm that bridges action chunking with closed-loop operations. BID samples multiple predictions at each time step and searches for the optimal one based on two criteria: (i) backward coherence, which favors samples that align with previous decisions; (ii) forward contrast, which seeks samples of high likelihood for future plans. By coupling decisions within and across action chunks, BID promotes consistency over time while maintaining reactivity to unexpected changes. Experimental results show that BID boosts the performance of two state-of-the-art generative policies across seven simulation benchmarks and two real-world tasks. Code and videos are available at https://bid-robot.github.io.
Abstract（参考訳）: アクションチャンキング(英: action chunking)は、人間のデモからロボット学習において、中間的なリプランなしに一連のアクションを予測および実行することである。しかし、学習方針に対する報告された影響は矛盾している。強い結果を達成するのに不可欠であるとする研究もある一方で、性能の低下を観察する研究もある。本稿では,まず,アクションチャンキングが学習者と実証者の間の分岐にどのように影響するかを明らかにする。アクションチャンキングにより、学習者は実演における時間的依存をよりよく把握できるが、確率的環境における反応性の低下を犠牲にすることができる。このトレードオフに対処するために,動作チャンキングをクローズドループ操作でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。 BIDは、各ステップで複数の予測をサンプリングし、2つの基準に基づいて最適な予測を探索する。一過去の決定に沿うサンプルを好む後方整合性 (二)今後の計画に高い可能性のサンプルを求める前方コントラスト。アクションチャンク内の意思決定を結合することにより、BIDは予期しない変更に対する反応性を維持しながら、時間の経過とともに一貫性を促進する。実験結果から,BIDは7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって,最先端の2つの生成ポリシーの性能を向上させることが示された。コードとビデオはhttps://bid-robot.github.io.comで公開されている。

関連論文リスト

Post-Training and Test-Time Scaling of Generative Agent Behavior Models for Interactive Autonomous Driving [3.8612647047433217]
グループ相対行動最適化は、行動リアリズムを維持しながら安全性を40%以上改善する。 Warm-Kは、動き選択における一貫性と多様性のバランスをとる温かいスタートのTop-Kサンプリング戦略である。
論文参考訳（メタデータ） (2025-12-15T12:18:50Z)
Self-Guided Action Diffusion [53.38661283705301]
自己誘導的行動拡散は、拡散に基づくポリシーに適した双方向デコーディングのより効率的な変種である。本手法は,従来の動的タスクよりも最大70%高い成功率を達成する。
論文参考訳（メタデータ） (2025-08-17T00:39:15Z)
Exploring the Performance of Continuous-Time Dynamic Link Prediction Algorithms [14.82820088479196]
ダイナミックリンク予測(DLP)は、進化するネットワークにおける将来のリンクの予測に対処する。本研究では,このような総合的な評価を行うためのツールをコントリビュートする。評価時に使用可能な陰性サンプリング手法の網羅的な分類法について述べる。
論文参考訳（メタデータ） (2024-05-27T14:03:28Z)
Regularizing Second-Order Influences for Continual Learning [39.16131410356833]
継続的な学習は、それまでの知識を破滅的に忘れることなく、非定常的なデータストリームで学習することを目的としている。一般的なリプレイベースのメソッドは、見たデータを保持する小さなバッファーでリハーサルすることで、この問題に対処する。我々は、影響関数に基づいて構築されたフレームワーク内での逐次選択ステップの相互作用を識別する。
論文参考訳（メタデータ） (2023-04-20T09:30:35Z)
Active Learning with Effective Scoring Functions for Semi-Supervised Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。本稿では,AL-STALという効果的な能動学習手法を提案する。実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文参考訳（メタデータ） (2022-08-31T13:39:38Z)
ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文参考訳（メタデータ） (2022-07-14T17:46:37Z)
Value-Consistent Representation Learning for Data-Efficient Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文参考訳（メタデータ） (2022-06-25T03:02:25Z)
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。 IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-07T17:16:52Z)
Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文参考訳（メタデータ） (2022-03-31T05:13:50Z)
Benchmarking Deep Models for Salient Object Detection [67.07247772280212]
汎用SALOD(General SALient Object Detection)ベンチマークを構築し,複数のSOD手法の総合的な比較を行った。以上の実験では、既存の損失関数は、通常いくつかの指標に特化しているが、他の指標には劣る結果が報告されている。我々は,深層ネットワークに画素レベルと画像レベルの両方の監視信号を統合することにより,より識別的な特徴を学習するためのエッジ・アウェア・ロス(EA)を提案する。
論文参考訳（メタデータ） (2022-02-07T03:43:16Z)
Deterministic and Discriminative Imitation (D2-Imitation): Revisiting Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文参考訳（メタデータ） (2021-12-11T19:36:19Z)
Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文参考訳（メタデータ） (2021-08-15T02:21:01Z)
Utilizing Skipped Frames in Action Repeats via Pseudo-Actions [13.985534521589253]
多くの深層強化学習では、エージェントがアクションを取ると、次のアクション決定点まで状態を観察しずに、事前定義された回数で同じアクションを繰り返します。訓練データの量は、反復する行動の間隔に逆比例するので、トレーニングのサンプル効率に悪影響を及ぼす可能性がある。疑似アクションの概念を導入してこの問題を緩和する,シンプルだが効果的なアプローチを提案する。
論文参考訳（メタデータ） (2021-05-07T02:43:44Z)
Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文参考訳（メタデータ） (2021-01-20T11:48:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。