論文の概要: Aligning Agents like Large Language Models
- arxiv url: http://arxiv.org/abs/2406.04208v1
- Date: Thu, 6 Jun 2024 16:05:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 14:10:28.845014
- Title: Aligning Agents like Large Language Models
- Title(参考訳): 大規模言語モデルのようなエージェントの調整
- Authors: Adam Jelley, Yuhan Cao, Dave Bignell, Sam Devlin, Tabish Rashid,
- Abstract要約: 高次元感覚情報から複雑な3D環境下での行動訓練は困難である。
我々は、模倣学習エージェントの望ましくない振る舞いと、不整合大言語モデル(LLM)の不整合応答の類似性を描く。
トレーニングエージェントにこのアプローチをうまく適用するための洞察とアドバイスを提供しながら、希望するモードを一貫して実行できるようにエージェントを調整できることを実証する。
- 参考スコア(独自算出の注目度): 8.873319874424167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training agents to behave as desired in complex 3D environments from high-dimensional sensory information is challenging. Imitation learning from diverse human behavior provides a scalable approach for training an agent with a sensible behavioral prior, but such an agent may not perform the specific behaviors of interest when deployed. To address this issue, we draw an analogy between the undesirable behaviors of imitation learning agents and the unhelpful responses of unaligned large language models (LLMs). We then investigate how the procedure for aligning LLMs can be applied to aligning agents in a 3D environment from pixels. For our analysis, we utilize an academically illustrative part of a modern console game in which the human behavior distribution is multi-modal, but we want our agent to imitate a single mode of this behavior. We demonstrate that we can align our agent to consistently perform the desired mode, while providing insights and advice for successfully applying this approach to training agents. Project webpage at https://adamjelley.github.io/aligning-agents-like-llms .
- Abstract(参考訳): 高次元感覚情報から複雑な3D環境下での行動訓練は困難である。
多様な人間の行動からの模倣学習は、合理的な行動規範を持つエージェントを訓練するためのスケーラブルなアプローチを提供するが、そのようなエージェントは、デプロイ時に特定の行動を実行することはできない。
この問題に対処するために、模倣学習エージェントの望ましくない振る舞いと、不整合大言語モデル(LLM)の不整合応答とを類似させる。
次に,LLMの整列処理を画素から3次元環境下での整列処理に適用する方法について検討する。
分析では,人間の行動分布が多モードである現代のゲーム機ゲームにおいて,学術的に説明的な部分を利用するが,エージェントは,この動作の単一モードを模倣することを望んでいる。
トレーニングエージェントにこのアプローチをうまく適用するための洞察とアドバイスを提供しながら、希望するモードを一貫して実行できるようにエージェントを調整できることを実証する。
プロジェクトWebページはhttps://adamjelley.github.io/aligning-agents-like-llms。
関連論文リスト
- AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z) - Understanding Your Agent: Leveraging Large Language Models for Behavior
Explanation [7.647395374489533]
本研究では,状態や行動の観察のみに基づいて,エージェントの行動に関する自然言語説明を生成する手法を提案する。
提案手法は,人間ドメインの専門家が作成したものと同じくらい役立つ説明を生成する。
論文 参考訳(メタデータ) (2023-11-29T20:16:23Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - Behavioral Cloning via Search in Video PreTraining Latent Space [0.13999481573773073]
専門家のデモンストレーションのデータセット上での探索問題として制御問題を定式化する。
我々は,ビデオPreTrainingモデルの潜在表現において,BASALT MineRLデータセットの近接探索を行う。
エージェントは、エージェントの状態表現とデータセットから選択された専門家軌跡との距離が分岐しない限り、専門家軌跡からのアクションをコピーする。
論文 参考訳(メタデータ) (2022-12-27T00:20:37Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Variational Autoencoders for Opponent Modeling in Multi-Agent Systems [9.405879323049659]
マルチエージェントシステムは、共有環境における複数のエージェントの相互作用から生じる複雑な振る舞いを示す。
本研究は,マルチエージェントシステムにおけるエージェントの制御に関心を持ち,ポリシーを定めているエージェントとのインタラクションをうまく学習する。
他のエージェント(反対者)の振る舞いをモデル化することは、システム内のエージェントの相互作用を理解するのに不可欠である。
論文 参考訳(メタデータ) (2020-01-29T13:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。