論文の概要: BPP: Long-Context Robot Imitation Learning by Focusing on Key History Frames
- arxiv url: http://arxiv.org/abs/2602.15010v1
- Date: Mon, 16 Feb 2026 18:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.634733
- Title: BPP: Long-Context Robot Imitation Learning by Focusing on Key History Frames
- Title(参考訳): BPP:キーヒストリフレームに着目した長期ロボット模倣学習
- Authors: Max Sobol Mark, Jacky Liang, Maria Attarian, Chuyuan Fu, Debidatta Dwibedi, Dhruv Shah, Aviral Kumar,
- Abstract要約: 最高のパフォーマンスのロボットポリシーは、通常、現在の観察にのみ条件を定め、それらのタスクの適用性を制限する。
我々は、なぜポリシーが急激な相関関係にひっかかるのかを分析し、この問題はトレーニング中に起こりうる歴史の空間を限定的にカバーすることに起因することを見出した。
これらの知見に触発され,視覚言語モデルによって検出される意味の最小セットを条件付けるアプローチとして,Big Picture Policies (BPP)を提案する。
- 参考スコア(独自算出の注目度): 27.70479413079641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many robot tasks require attending to the history of past observations. For example, finding an item in a room requires remembering which places have already been searched. However, the best-performing robot policies typically condition only on the current observation, limiting their applicability to such tasks. Naively conditioning on past observations often fails due to spurious correlations: policies latch onto incidental features of training histories that do not generalize to out-of-distribution trajectories upon deployment. We analyze why policies latch onto these spurious correlations and find that this problem stems from limited coverage over the space of possible histories during training, which grows exponentially with horizon. Existing regularization techniques provide inconsistent benefits across tasks, as they do not fundamentally address this coverage problem. Motivated by these findings, we propose Big Picture Policies (BPP), an approach that conditions on a minimal set of meaningful keyframes detected by a vision-language model. By projecting diverse rollouts onto a compact set of task-relevant events, BPP substantially reduces distribution shift between training and deployment, without sacrificing expressivity. We evaluate BPP on four challenging real-world manipulation tasks and three simulation tasks, all requiring history conditioning. BPP achieves 70% higher success rates than the best comparison on real-world evaluations.
- Abstract(参考訳): 多くのロボットタスクは過去の観測の歴史に参画する必要がある。
例えば、部屋にあるアイテムを見つけるには、どの場所が既に検索されているかを記憶する必要がある。
しかしながら、最高のパフォーマンスのロボットポリシーは、通常、現在の観察にのみ条件を定め、それらのタスクの適用性を制限する。
政策は、展開時にアウト・オブ・ディストリビューション・トラジェクトリに一般化しない訓練履歴の偶発的な特徴にラップする。
これらの急激な相関関係に政策が組み込まれている理由を分析し、この問題はトレーニング中に可能な歴史の空間を限定的にカバーすることによるものであり、地平線とともに指数関数的に成長することを示している。
既存の正規化技術は、このカバレッジ問題に根本的な対処を行わないため、タスク間で一貫性のない利点を提供する。
これらの知見に触発されて、視覚言語モデルによって検出される意味のあるキーフレームの最小セットに条件を付けるアプローチであるBig Picture Policies (BPP)を提案する。
タスク関連イベントのコンパクトなセットに多様なロールアウトを投影することにより、BPPは、表現性を犠牲にすることなく、トレーニングとデプロイメントの間の分散シフトを大幅に削減する。
実世界操作に挑戦する4つのタスクと3つのシミュレーションタスクにおいて,BPPを評価する。
BPPは実世界評価の最良の比較よりも70%高い成功率を達成する。
関連論文リスト
- Exploiting Policy Idling for Dexterous Manipulation [19.909895138745345]
本研究では, アイドリング行動の検出可能性を活用して, 探索と政策改善を通知する方法について検討する。
PIP(Pause-induced Perturbations)は,検出したアイドリング状態に摂動を適用したアプローチである。
シミュレーションされた2つのアームタスクにおいて、この単純なアプローチはテスト時間性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2025-08-21T15:52:45Z) - Learning Long-Context Diffusion Policies via Past-Token Prediction [48.86967836229684]
本稿では,過去の情報の保持を明示的に規則化する代替手法を提案する。
本稿では,過去の行動トークンの予測方法を学ぶための補助的タスクである過去トークン予測について紹介する。
4つの実世界と6つのシミュレートされたタスクを対象とした実験により,提案手法は長文拡散政策の性能を3倍に向上し,政策訓練を10倍以上高速化することを示した。
論文 参考訳(メタデータ) (2025-05-14T17:00:47Z) - STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning [8.860366821983211]
STRAPは、トレーニング済みの視覚基盤モデルと動的時間ワープを利用して、大規模なトレーニングコーパスからトラジェクトリのサブシーケンスを堅牢に検索する技術である。
本研究では、事前学習された視覚基盤モデルと動的時間ワープを活用して、大規模学習コーパスからのトラジェクトリのサブシーケンスをロバストに検索するSTRAPを提案する。
論文 参考訳(メタデータ) (2024-12-19T18:54:06Z) - P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.08478298711789]
Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。
自然言語命令は明示的なタスクプランニングを欠くことが多い。
タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
論文 参考訳(メタデータ) (2024-09-17T15:29:34Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。