論文の概要: Training a Generally Curious Agent
- arxiv url: http://arxiv.org/abs/2502.17543v1
- Date: Mon, 24 Feb 2025 18:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:44.969079
- Title: Training a Generally Curious Agent
- Title(参考訳): 総合的キュラスエージェントの訓練
- Authors: Fahim Tajwar, Yiding Jiang, Abitha Thankaraj, Sumaita Sadia Rahman, J Zico Kolter, Jeff Schneider, Ruslan Salakhutdinov,
- Abstract要約: PAPRIKAは,言語モデルによる一般的な意思決定機能の開発を可能にする微調整手法である。
PAPRIKAで微調整されたモデルは、学習した意思決定能力を全く見えないタスクに効果的に移行できることを示す実験結果が得られた。
これらの結果は、新しいシーケンシャルな意思決定問題を自律的に解決できるAIシステムへの有望な道のりを示唆している。
- 参考スコア(独自算出の注目度): 86.84089201249104
- License:
- Abstract: Efficient exploration is essential for intelligent systems interacting with their environment, but existing language models often fall short in scenarios that require strategic information gathering. In this paper, we present PAPRIKA, a fine-tuning approach that enables language models to develop general decision-making capabilities that are not confined to particular environments. By training on synthetic interaction data from different tasks that require diverse strategies, PAPRIKA teaches models to explore and adapt their behavior on a new task based on environment feedback in-context without more gradient updates. Experimental results show that models fine-tuned with PAPRIKA can effectively transfer their learned decision-making capabilities to entirely unseen tasks without additional training. Unlike traditional training, our approach's primary bottleneck lies in sampling useful interaction data instead of model updates. To improve sample efficiency, we propose a curriculum learning strategy that prioritizes sampling trajectories from tasks with high learning potential. These results suggest a promising path towards AI systems that can autonomously solve novel sequential decision-making problems that require interactions with the external world.
- Abstract(参考訳): 効率的な探索は、環境と相互作用するインテリジェントシステムにとって不可欠であるが、既存の言語モデルは、戦略的情報収集を必要とするシナリオにおいて不足することが多い。
本稿では,特定の環境に限定されない汎用的な意思決定能力を言語モデルで開発するための微調整手法であるPAPRIKAを提案する。
多様な戦略を必要とするさまざまなタスクから合成インタラクションデータをトレーニングすることにより、PAPRIKAは、より勾配の更新を伴わずに、環境フィードバックに基づく新しいタスクにおいて、その振る舞いを探索し、適応するようにモデルに教える。
実験結果から, PAPRIKAで微調整したモデルでは, 学習した意思決定能力を, 余分な訓練を伴わずに, 全く見つからないタスクに効果的に移行できることが示唆された。
従来のトレーニングとは異なり、私たちのアプローチの主なボトルネックは、モデル更新ではなく、有用なインタラクションデータをサンプリングすることにあります。
サンプル効率を向上させるために,学習可能性の高いタスクから抽出されたトラジェクトリを優先するカリキュラム学習戦略を提案する。
これらの結果は、外部との対話を必要とする新しいシーケンシャルな意思決定問題を自律的に解決できるAIシステムへの有望な道のりを示唆している。
関連論文リスト
- Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Investigating the role of model-based learning in exploration and
transfer [11.652741003589027]
本稿では,モデルベースエージェントの文脈における伝達学習について検討する。
モデルベースアプローチは,移動学習におけるモデルフリーベースラインよりも優れていることがわかった。
本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-02-08T11:49:58Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Double Meta-Learning for Data Efficient Policy Optimization in
Non-Stationary Environments [12.45281856559346]
我々は、マルチタスク学習問題とみなすことができる非定常環境の学習モデルに興味を持っている。
モデルなし強化学習アルゴリズムは、広範囲なサンプリングを犠牲にしてマルチタスク学習において優れた性能を達成することができる。
モデルベースのアプローチは最もデータ効率のよい学習アルゴリズムの1つだが、それでも複雑なタスクやモデルの不確実性に苦慮している。
論文 参考訳(メタデータ) (2020-11-21T03:19:35Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Pre-trained Word Embeddings for Goal-conditional Transfer Learning in
Reinforcement Learning [0.0]
本稿では,事前訓練されたタスク非依存言語モデルによって,目標条件付きRLエージェントをより効率的にする方法について述べる。
私たちは、異なる関連するタスク間の伝達学習を容易にすることで、これを実現します。
論文 参考訳(メタデータ) (2020-07-10T06:42:00Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。