論文の概要: Large Language Models as Agents in Two-Player Games
- arxiv url: http://arxiv.org/abs/2402.08078v1
- Date: Mon, 12 Feb 2024 21:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 17:30:33.019495
- Title: Large Language Models as Agents in Two-Player Games
- Title(参考訳): 2人プレイゲームにおけるエージェントとしての大規模言語モデル
- Authors: Yang Liu, Peng Sun, Hang Li
- Abstract要約: 本稿では,大規模言語モデル(LLM)の学習手法と,2人プレイヤゲームにおけるエージェント開発戦略の並列性について述べる。
本稿では,言語ゲームにおけるエージェント学習の観点から,LLM学習プロセスの再概念化を提案する。
- 参考スコア(独自算出の注目度): 12.303405412105187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By formally defining the training processes of large language models (LLMs),
which usually encompasses pre-training, supervised fine-tuning, and
reinforcement learning with human feedback, within a single and unified machine
learning paradigm, we can glean pivotal insights for advancing LLM
technologies. This position paper delineates the parallels between the training
methods of LLMs and the strategies employed for the development of agents in
two-player games, as studied in game theory, reinforcement learning, and
multi-agent systems. We propose a re-conceptualization of LLM learning
processes in terms of agent learning in language-based games. This framework
unveils innovative perspectives on the successes and challenges in LLM
development, offering a fresh understanding of addressing alignment issues
among other strategic considerations. Furthermore, our two-player game approach
sheds light on novel data preparation and machine learning techniques for
training LLMs.
- Abstract(参考訳): 通常、人間のフィードバックによる事前学習、微調整、強化学習を含む大規模言語モデル(LLM)のトレーニングプロセスを、単一かつ統一された機械学習パラダイム内で正式に定義することにより、LLM技術の進歩において重要な洞察を導き出すことができる。
本研究は,ゲーム理論,強化学習,マルチエージェントシステムなどにおいて,llmの訓練方法と,2人プレイゲームにおけるエージェント開発戦略の類似性を明らかにするものである。
本稿では,言語ゲームにおけるエージェント学習の観点から,LLM学習プロセスの再概念化を提案する。
このフレームワークは、llm開発の成功と課題に関する革新的な視点を明らかにし、他の戦略的考慮事項の中でアライメント問題に対処する新しい理解を提供する。
さらに,LLMの学習のための新しいデータ準備と機械学習技術に光を当てている。
関連論文リスト
- LLM-PySC2: Starcraft II learning environment for Large Language Models [16.918044347226104]
本稿では,Large Language Models(LLM)に基づく意思決定手法の開発を支援する新しい環境を提案する。
この環境はStarCraft IIのアクションスペース、マルチモーダルな観察インタフェース、構造化されたゲーム知識データベースを提供する最初のものである。
論文 参考訳(メタデータ) (2024-11-08T06:04:22Z) - Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search [32.657454056329875]
LLMを利用したマルチエージェントゲームのための新しいスキル獲得手法STRATEGISTを提案する。
本手法はモンテカルロ木探索による自己再生シミュレーションにより品質フィードバックを収集する。
ゲームにおけるアクションプランニングと対話生成の両面において,我々の手法をどのように利用できるかを紹介する。
論文 参考訳(メタデータ) (2024-08-20T08:22:04Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。
1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。
マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Exploring the landscape of large language models: Foundations, techniques, and challenges [8.042562891309414]
この記事では、コンテキスト内学習の力学と微調整アプローチのスペクトルについて光を当てている。
革新的な強化学習フレームワークを通じて、LLMが人間の好みとより緊密に連携する方法について検討する。
LLMデプロイメントの倫理的側面は議論され、マインドフルで責任あるアプリケーションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-18T08:01:20Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - Understanding LLMs: A Comprehensive Overview from Training to Inference [52.70748499554532]
大規模言語モデルの低コストなトレーニングと展開は、将来の開発トレンドを表している。
トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。
推論の面では、モデル圧縮、並列計算、メモリスケジューリング、構造最適化などのトピックを取り上げている。
論文 参考訳(メタデータ) (2024-01-04T02:43:57Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。