論文の概要: Large Language Models as Agents in Two-Player Games
- arxiv url: http://arxiv.org/abs/2402.08078v1
- Date: Mon, 12 Feb 2024 21:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 17:30:33.019495
- Title: Large Language Models as Agents in Two-Player Games
- Title(参考訳): 2人プレイゲームにおけるエージェントとしての大規模言語モデル
- Authors: Yang Liu, Peng Sun, Hang Li
- Abstract要約: 本稿では,大規模言語モデル(LLM)の学習手法と,2人プレイヤゲームにおけるエージェント開発戦略の並列性について述べる。
本稿では,言語ゲームにおけるエージェント学習の観点から,LLM学習プロセスの再概念化を提案する。
- 参考スコア(独自算出の注目度): 12.303405412105187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By formally defining the training processes of large language models (LLMs),
which usually encompasses pre-training, supervised fine-tuning, and
reinforcement learning with human feedback, within a single and unified machine
learning paradigm, we can glean pivotal insights for advancing LLM
technologies. This position paper delineates the parallels between the training
methods of LLMs and the strategies employed for the development of agents in
two-player games, as studied in game theory, reinforcement learning, and
multi-agent systems. We propose a re-conceptualization of LLM learning
processes in terms of agent learning in language-based games. This framework
unveils innovative perspectives on the successes and challenges in LLM
development, offering a fresh understanding of addressing alignment issues
among other strategic considerations. Furthermore, our two-player game approach
sheds light on novel data preparation and machine learning techniques for
training LLMs.
- Abstract(参考訳): 通常、人間のフィードバックによる事前学習、微調整、強化学習を含む大規模言語モデル(LLM)のトレーニングプロセスを、単一かつ統一された機械学習パラダイム内で正式に定義することにより、LLM技術の進歩において重要な洞察を導き出すことができる。
本研究は,ゲーム理論,強化学習,マルチエージェントシステムなどにおいて,llmの訓練方法と,2人プレイゲームにおけるエージェント開発戦略の類似性を明らかにするものである。
本稿では,言語ゲームにおけるエージェント学習の観点から,LLM学習プロセスの再概念化を提案する。
このフレームワークは、llm開発の成功と課題に関する革新的な視点を明らかにし、他の戦略的考慮事項の中でアライメント問題に対処する新しい理解を提供する。
さらに,LLMの学習のための新しいデータ準備と機械学習技術に光を当てている。
関連論文リスト
- A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - Exploring the landscape of large language models: Foundations, techniques, and challenges [8.042562891309414]
この記事では、コンテキスト内学習の力学と微調整アプローチのスペクトルについて光を当てている。
革新的な強化学習フレームワークを通じて、LLMが人間の好みとより緊密に連携する方法について検討する。
LLMデプロイメントの倫理的側面は議論され、マインドフルで責任あるアプリケーションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-18T08:01:20Z) - Language Model Evolution: An Iterated Learning Perspective [27.63295869974611]
我々は,Large Language Models (LLMs) の行動と人間の文化の進化の類似性を描いている。
我々のアプローチは、人間の文化進化においてどのように微妙なバイアスが拡大されるかを解明するベイズ的枠組みである反復学習(IL)を活用することである。
本稿では,ベイジアン・イルフレームワークにおけるエージェントの行動の特徴を概説する。
論文 参考訳(メタデータ) (2024-04-04T02:01:25Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - Understanding LLMs: A Comprehensive Overview from Training to Inference [52.70748499554532]
大規模言語モデルの低コストなトレーニングと展開は、将来の開発トレンドを表している。
トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。
推論の面では、モデル圧縮、並列計算、メモリスケジューリング、構造最適化などのトピックを取り上げている。
論文 参考訳(メタデータ) (2024-01-04T02:43:57Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Building Open-Ended Embodied Agent via Language-Policy Bidirectional
Adaptation [40.82919989450566]
LLM(Large Language Models)と強化学習(Reinforcement Learning, RL)を統合するための具体的エージェントの構築は、人間とAIのインタラクションに革命をもたらした。
既存の研究は、オープン・エンディネスの要件を満たす上で、課題に直面している。
我々は,人間の指示を計画の目標に翻訳するための事前学習 LLM の微調整と,意思決定の方針としての目標条件付きトレーニングの2段階からなる協調学習フレームワーク OpenPAL を提案する。
論文 参考訳(メタデータ) (2023-12-12T11:06:07Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。