論文の概要: Behavioral Exploration: Learning to Explore via In-Context Adaptation
- arxiv url: http://arxiv.org/abs/2507.09041v1
- Date: Fri, 11 Jul 2025 21:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.169242
- Title: Behavioral Exploration: Learning to Explore via In-Context Adaptation
- Title(参考訳): 行動探索: 文脈適応による探索の学習
- Authors: Andrew Wagenmaker, Zhiyuan Zhou, Sergey Levine,
- Abstract要約: 我々は、過去の観察の文脈で条件付けられた専門家の行動を予測し、専門家の行動がこの文脈とどのように関係しているかを測定するために、長期コンテキスト生成モデルを訓練する。
これにより、モデルが専門家の振る舞いを模倣するだけでなく、過去の相互作用の歴史を文脈に反映することで、これまで選択されたものと異なる専門家の振る舞いを選択することができる。
本手法は実環境におけるロボット操作作業だけでなく,シミュレーションロコモーションと操作設定の両方において有効であることを示す。
- 参考スコア(独自算出の注目度): 53.92981562916783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing autonomous agents that quickly explore an environment and adapt their behavior online is a canonical challenge in robotics and machine learning. While humans are able to achieve such fast online exploration and adaptation, often acquiring new information and skills in only a handful of interactions, existing algorithmic approaches tend to rely on random exploration and slow, gradient-based behavior updates. How can we endow autonomous agents with such capabilities on par with humans? Taking inspiration from recent progress on both in-context learning and large-scale behavioral cloning, in this work we propose behavioral exploration: training agents to internalize what it means to explore and adapt in-context over the space of ``expert'' behaviors. To achieve this, given access to a dataset of expert demonstrations, we train a long-context generative model to predict expert actions conditioned on a context of past observations and a measure of how ``exploratory'' the expert's behaviors are relative to this context. This enables the model to not only mimic the behavior of an expert, but also, by feeding its past history of interactions into its context, to select different expert behaviors than what have been previously selected, thereby allowing for fast online adaptation and targeted, ``expert-like'' exploration. We demonstrate the effectiveness of our method in both simulated locomotion and manipulation settings, as well as on real-world robotic manipulation tasks, illustrating its ability to learn adaptive, exploratory behavior.
- Abstract(参考訳): 環境を素早く探索し、彼らの行動にオンラインで適応する自律エージェントの開発は、ロボット工学と機械学習における標準的な課題である。
人間はこのような高速なオンライン探索と適応を達成でき、少数のインタラクションで新しい情報やスキルを得ることが多いが、既存のアルゴリズムアプローチはランダムな探索と緩やかな勾配に基づく行動更新に依存する傾向にある。
人間と同等の能力を持つ自律型エージェントをどうやって提供できるのか?
本研究は,文脈内学習と大規模行動クローンの両面での最近の進歩から着想を得て,行動探索(institutizational exploration)を提案する。
これを達成するために、専門家によるデモンストレーションのデータセットへのアクセスを前提として、過去の観察状況と専門家の行動が、どのようにして「探索的」であるかの尺度に基づいて、専門家の行動を予測するために、長いコンテキスト生成モデルを訓練する。
これにより、モデルが専門家の振る舞いを模倣するだけでなく、過去のインタラクション履歴をそのコンテキストに反映して、これまで選択されたものと異なる専門家の振る舞いを選択することで、高速なオンライン適応と‘専門家的’探索を可能にする。
本手法は実世界のロボット操作作業にも応用でき,適応的,探索的動作の学習能力を示す。
関連論文リスト
- Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach [23.52028824411467]
本研究では,物理ロボットを用いた実環境におけるヌンペプソデスのナビゲーションエピソードに関する大規模実験を行った。
エンドツーエンドのトレーニングから生じる推論のタイプを分析します。
本稿では,エージェントが学習した値関数が長期計画に関連があることをポストホック分析で示す。
論文 参考訳(メタデータ) (2025-03-11T11:16:47Z) - Life, uh, Finds a Way: Systematic Neural Search [2.163881720692685]
エージェントの動作に迅速に適応して、設定における継続的な問題を解決するという課題に取り組みます。
深層強化学習に焦点をあてる代わりに,探索手順の物理的表現としての視聴行動を提案する。
本稿では,行動実行とグラフの突然変異の間の厳密なフィードバックループを調節することにより,行動の暗黙的な列挙を行うアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2024-10-02T09:06:54Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Leveraging Human Feedback to Evolve and Discover Novel Emergent
Behaviors in Robot Swarms [14.404339094377319]
我々は、人間の入力を活用して、特定のマルチエージェントシステムから現れる可能性のある集団行動の分類を自動で発見することを目指している。
提案手法は,Swarm集団行動に対する類似性空間を学習することにより,ユーザの嗜好に適応する。
我々は,2つのロボット能力モデルを用いたシミュレーションにおいて,本手法が従来よりも豊かな創発的行動の集合を常に発見できることを検証した。
論文 参考訳(メタデータ) (2023-04-25T15:18:06Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Chain of Thought Imitation with Procedure Cloning [129.62135987416164]
本稿では,一連の専門家計算を模倣するために,教師付きシーケンス予測を適用したプロシージャクローニングを提案する。
本研究では、専門家の行動の中間計算を模倣することで、プロシージャのクローン化により、未知の環境構成に顕著な一般化を示すポリシーを学習できることを示す。
論文 参考訳(メタデータ) (2022-05-22T13:14:09Z) - Learning Complex Spatial Behaviours in ABM: An Experimental
Observational Study [0.0]
本稿では,創発的エージェント行動の生成にReinforcement Learningを適用する方法について検討する。
一連のシミュレーションを行ない, エージェントが実世界の知的適応行動の特性を示す方法として, プロクサマルポリシー最適化アルゴリズムを用いて訓練されたことを実証した。
論文 参考訳(メタデータ) (2022-01-04T11:56:11Z) - Hierarchical Affordance Discovery using Intrinsic Motivation [69.9674326582747]
本研究では,移動ロボットの価格学習を支援するために,本質的なモチベーションを用いたアルゴリズムを提案する。
このアルゴリズムは、事前にプログラムされたアクションなしで、相互に関連のある価格を自律的に発見し、学習し、適応することができる。
一度学習すると、これらの余裕はアルゴリズムによって様々な困難を伴うタスクを実行するために一連のアクションを計画するために使われる。
論文 参考訳(メタデータ) (2020-09-23T07:18:21Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。