論文の概要: Consistent Zero-Shot Imitation with Contrastive Goal Inference
- arxiv url: http://arxiv.org/abs/2510.17059v1
- Date: Mon, 20 Oct 2025 00:28:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.270878
- Title: Consistent Zero-Shot Imitation with Contrastive Goal Inference
- Title(参考訳): コントラスト的ゴール推論を用いた一貫したゼロショット模倣
- Authors: Kathryn Wantlin, Chongyi Zheng, Benjamin Eysenbach,
- Abstract要約: 現実世界のインタラクションに展開されるエンボディエージェントの前提条件は、インタラクションによるトレーニングであるべきだ。
本研究の主な貢献は,対話型エージェントを自己指導型で事前学習する方法である。
- 参考スコア(独自算出の注目度): 30.726311787096435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the same way that generative models today conduct most of their training in a self-supervised fashion, how can agentic models conduct their training in a self-supervised fashion, interactively exploring, learning, and preparing to quickly adapt to new tasks? A prerequisite for embodied agents deployed in real world interactions ought to be training with interaction, yet today's most successful AI models (e.g., VLMs, LLMs) are trained without an explicit notion of action. The problem of pure exploration (which assumes no data as input) is well studied in the reinforcement learning literature and provides agents with a wide array of experiences, yet it fails to prepare them for rapid adaptation to new tasks. Today's language and vision models are trained on data provided by humans, which provides a strong inductive bias for the sorts of tasks that the model will have to solve (e.g., modeling chords in a song, phrases in a sonnet, sentences in a medical record). However, when they are prompted to solve a new task, there is a faulty tacit assumption that humans spend most of their time in the most rewarding states. The key contribution of our paper is a method for pre-training interactive agents in a self-supervised fashion, so that they can instantly mimic human demonstrations. Our method treats goals (i.e., observations) as the atomic construct. During training, our method automatically proposes goals and practices reaching them, building off prior work in reinforcement learning exploration. During evaluation, our method solves an (amortized) inverse reinforcement learning problem to explain demonstrations as optimal goal-reaching behavior. Experiments on standard benchmarks (not designed for goal-reaching) show that our approach outperforms prior methods for zero-shot imitation.
- Abstract(参考訳): 現在の生成モデルが自己監督的な方法でトレーニングのほとんどを行うのと同じように、エージェントモデルはどのように自己監督的な方法でトレーニングを実行し、インタラクティブに探索し、学習し、新しいタスクに迅速に適応する準備をすればよいか?
現実世界のインタラクションにデプロイされる実施エージェントの前提条件は、インタラクションによるトレーニングであるべきだが、今日の最も成功したAIモデル(例えば、VLM、LLM)は、明示的なアクションの概念なしでトレーニングされている。
純粋探索(入力としてデータを必要としない)の問題は、強化学習の文献でよく研究されており、エージェントに幅広い経験を提供するが、新しいタスクに迅速に適応するための準備に失敗する。
今日の言語とビジョンモデルは、人間が提供したデータに基づいてトレーニングされており、モデルが解決しなければならないタスク(例えば、歌のコード、ソネットのフレーズ、医療記録の文)に対して、強力な帰納的バイアスを提供する。
しかし、新しいタスクを解くよう促されると、人間がほとんどの時間を最も報酬のある状態で過ごすという誤った暗黙の仮定が生まれます。
本論文の重要な貢献は,対話型エージェントを自己指導型で事前学習することで,人間の実演を即座に模倣できるようにすることである。
我々の方法は目標(すなわち観察)を原子構造として扱う。
訓練中,本手法は目標と実践を自動的に提案し,強化学習探索における先行作業を構築した。
評価中,提案手法は,実演を最適な目標獲得行動として説明するために,逆強化学習問題を解く。
標準ベンチマーク(目標達成のために設計されていない)の実験は、我々のアプローチがゼロショット模倣の先行手法より優れていることを示している。
関連論文リスト
- Text-Aware Diffusion for Policy Learning [8.32790576855495]
本研究では、事前訓練された凍結されたテキスト条件付き拡散モデルを用いて、高密度ゼロショット報酬信号をテキスト整合ポリシー学習に利用する、政策学習用テキスト認識拡散(TADPoLe)を提案する。
TADPoLe は,Humanoid と Dog の両環境において,自然言語によって規定される新たな目標達成と連続的な移動行動の政策を学習可能であることを示す。
論文 参考訳(メタデータ) (2024-07-02T03:08:20Z) - Action Inference by Maximising Evidence: Zero-Shot Imitation from
Observation with World Models [9.583751440005118]
我々は,この行動を世界モデルを用いて再現するために,エビデンスを最大化する行動推論(AIME)を提案する。
AIMEは、2つの異なるフェーズから構成されており、第1フェーズでは、エージェントが過去の経験から世界モデルを学び、ELBOを最大化することで自身の身体を理解する。
第2フェーズでは、エージェントは、新しいタスクを実行する専門家の観察のみのデモンストレーションを受け、専門家の行動を模倣しようとする。
本手法は実演後の世界モデルや環境とのオンラインインタラクションのさらなる訓練を必要としないという意味で「ゼロショット」である。
論文 参考訳(メタデータ) (2023-12-04T16:43:36Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - The Effectiveness of World Models for Continual Reinforcement Learning [19.796589322975017]
選択的な経験リプレイ手法がパフォーマンス, 忘れ, 移動に与える影響について検討する。
Continual-Dreamerはサンプル効率が高く、MinigridおよびMinihackベンチマーク上で、最先端のタスク非依存の継続的強化学習手法より優れています。
論文 参考訳(メタデータ) (2022-11-29T05:56:51Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。