論文の概要: Improving Generative Behavior Cloning via Self-Guidance and Adaptive Chunking
- arxiv url: http://arxiv.org/abs/2510.12392v1
- Date: Tue, 14 Oct 2025 11:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.290386
- Title: Improving Generative Behavior Cloning via Self-Guidance and Adaptive Chunking
- Title(参考訳): 自己ガイドと適応チャンキングによる生成行動のクローン化
- Authors: Junhyuk So, Chiwoong Lee, Shinyoung Lee, Jungseul Ok, Eunhyeok Park,
- Abstract要約: ジェネレーティブ・ビヘイビア・クローン(Generative Behavior Cloning)は、ロボット学習のためのシンプルで効果的なフレームワークである。
拡散政策の一貫性と反応性を高めるための2つの新しい手法を提案する。
提案手法は,多種多様なシミュレーションおよび実世界のロボット操作タスクにおいて,GBCの性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 29.920087317401396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Behavior Cloning (GBC) is a simple yet effective framework for robot learning, particularly in multi-task settings. Recent GBC methods often employ diffusion policies with open-loop (OL) control, where actions are generated via a diffusion process and executed in multi-step chunks without replanning. While this approach has demonstrated strong success rates and generalization, its inherent stochasticity can result in erroneous action sampling, occasionally leading to unexpected task failures. Moreover, OL control suffers from delayed responses, which can degrade performance in noisy or dynamic environments. To address these limitations, we propose two novel techniques to enhance the consistency and reactivity of diffusion policies: (1) self-guidance, which improves action fidelity by leveraging past observations and implicitly promoting future-aware behavior; and (2) adaptive chunking, which selectively updates action sequences when the benefits of reactivity outweigh the need for temporal consistency. Extensive experiments show that our approach substantially improves GBC performance across a wide range of simulated and real-world robotic manipulation tasks. Our code is available at https://github.com/junhyukso/SGAC
- Abstract(参考訳): Generative Behavior Cloning(GBC)は、ロボット学習、特にマルチタスク設定において、シンプルだが効果的なフレームワークである。
近年のGBC法では、オープンループ(OL)制御による拡散ポリシーが採用されている。
このアプローチは強い成功率と一般化を示しているが、その固有の確率性は誤ったアクションサンプリングをもたらし、時には予期せぬタスク失敗につながることがある。
さらに、OL制御は遅延応答に悩まされ、ノイズや動的環境のパフォーマンスが低下する可能性がある。
これらの制約に対処するため,(1)過去の観察を活用・暗黙的に将来の行動を促進することで行動忠実性を向上させる自己誘導,(2)反応の利点が時間的整合性よりも高い場合に行動系列を選択的に更新する適応的チャンキングという,拡散政策の一貫性と反応性を高める2つの新しい手法を提案する。
大規模な実験により,本手法は多種多様なシミュレーションおよび実世界のロボット操作タスクにおいて,GBCの性能を大幅に向上させることが示された。
私たちのコードはhttps://github.com/junhyukso/SGACで利用可能です。
関連論文リスト
- Self-Guided Action Diffusion [53.38661283705301]
自己誘導的行動拡散は、拡散に基づくポリシーに適した双方向デコーディングのより効率的な変種である。
本手法は,従来の動的タスクよりも最大70%高い成功率を達成する。
論文 参考訳(メタデータ) (2025-08-17T00:39:15Z) - Offline Learning of Controllable Diverse Behaviors [19.0544729496907]
イミテーションラーニング(IL)技術は、特定のタスクで人間の行動を再現することを目的としている。
時間的一貫性と制御性に基づく新しい手法を提案する。
我々は,タスクや環境の多様さに対して,最先端の手法との比較を行った。
論文 参考訳(メタデータ) (2025-04-25T08:16:56Z) - Generative Predictive Control: Flow Matching Policies for Dynamic and Difficult-to-Demonstrate Tasks [11.780987653813792]
高速な動的タスクのための教師付き学習フレームワークである生成予測制御を導入する。
トレーニングされたフローマッチングポリシが,時間的整合性を維持し,高周波フィードバックを可能にするため,推論時にどのようにウォームスタートするかを示す。
論文 参考訳(メタデータ) (2025-02-19T03:33:01Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。