Fugu-MT 論文翻訳(概要): Large Language Models as Agents in Two-Player Games

論文の概要: Large Language Models as Agents in Two-Player Games

arxiv url: http://arxiv.org/abs/2402.08078v1
Date: Mon, 12 Feb 2024 21:44:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 17:30:33.019495
Title: Large Language Models as Agents in Two-Player Games
Title（参考訳）: 2人プレイゲームにおけるエージェントとしての大規模言語モデル
Authors: Yang Liu, Peng Sun, Hang Li
Abstract要約: 本稿では,大規模言語モデル(LLM)の学習手法と,2人プレイヤゲームにおけるエージェント開発戦略の並列性について述べる。本稿では,言語ゲームにおけるエージェント学習の観点から,LLM学習プロセスの再概念化を提案する。
参考スコア（独自算出の注目度）: 12.303405412105187
License: http://creativecommons.org/licenses/by/4.0/
Abstract: By formally defining the training processes of large language models (LLMs), which usually encompasses pre-training, supervised fine-tuning, and reinforcement learning with human feedback, within a single and unified machine learning paradigm, we can glean pivotal insights for advancing LLM technologies. This position paper delineates the parallels between the training methods of LLMs and the strategies employed for the development of agents in two-player games, as studied in game theory, reinforcement learning, and multi-agent systems. We propose a re-conceptualization of LLM learning processes in terms of agent learning in language-based games. This framework unveils innovative perspectives on the successes and challenges in LLM development, offering a fresh understanding of addressing alignment issues among other strategic considerations. Furthermore, our two-player game approach sheds light on novel data preparation and machine learning techniques for training LLMs.
Abstract（参考訳）: 通常、人間のフィードバックによる事前学習、微調整、強化学習を含む大規模言語モデル(LLM)のトレーニングプロセスを、単一かつ統一された機械学習パラダイム内で正式に定義することにより、LLM技術の進歩において重要な洞察を導き出すことができる。本研究は,ゲーム理論,強化学習,マルチエージェントシステムなどにおいて,llmの訓練方法と,2人プレイゲームにおけるエージェント開発戦略の類似性を明らかにするものである。本稿では,言語ゲームにおけるエージェント学習の観点から,LLM学習プロセスの再概念化を提案する。このフレームワークは、llm開発の成功と課題に関する革新的な視点を明らかにし、他の戦略的考慮事項の中でアライメント問題に対処する新しい理解を提供する。さらに,LLMの学習のための新しいデータ準備と機械学習技術に光を当てている。

関連論文リスト

Advancing Compositional LLM Reasoning with Structured Task Relations in Interactive Multimodal Communications [42.945657927971]
本稿では,無線ネットワーク上での単一合成LLMを用いて,多様なIMAを実現する新しいパラダイムを提案する。最初の課題に取り組むために、我々はILMを案内する新しい方法であるContextLoRAを提案し、IMA間のリッチな構造化コンテキストを学習する。 3つのベンチマークの実験は、提案されたContextLoRAとContextGearの優位性を示している。
論文参考訳（メタデータ） (2025-07-28T09:33:12Z)
Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。誤差ステップの反射や補正を含む自己反射軌道を合成する。実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文参考訳（メタデータ） (2025-05-26T14:11:12Z)
Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective [35.898734823687576]
本稿では,メタ学習の観点から,大規模言語モデル(LLM)の推論能力を理解するためのフレームワークを提案する。我々は,個別のタスクとして扱われる質問に対して,メタラーニング・セットアップとして推論タスクのトレーニングプロセスを定式化する。我々の研究は、確立したメタ学習技術によってこれらのモデルを改善するための実践的な洞察を提供する。
論文参考訳（メタデータ） (2025-05-26T10:52:17Z)
LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
LLM-PySC2: Starcraft II learning environment for Large Language Models [16.918044347226104]
本稿では,Large Language Models(LLM)に基づく意思決定手法の開発を支援する新しい環境を提案する。この環境はStarCraft IIのアクションスペース、マルチモーダルな観察インタフェース、構造化されたゲーム知識データベースを提供する最初のものである。
論文参考訳（メタデータ） (2024-11-08T06:04:22Z)
Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search [32.657454056329875]
LLMを利用したマルチエージェントゲームのための新しいスキル獲得手法STRATEGISTを提案する。本手法はモンテカルロ木探索による自己再生シミュレーションにより品質フィードバックを収集する。ゲームにおけるアクションプランニングと対話生成の両面において,我々の手法をどのように利用できるかを紹介する。
論文参考訳（メタデータ） (2024-08-20T08:22:04Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。 1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
Exploring the landscape of large language models: Foundations, techniques, and challenges [8.042562891309414]
この記事では、コンテキスト内学習の力学と微調整アプローチのスペクトルについて光を当てている。革新的な強化学習フレームワークを通じて、LLMが人間の好みとより緊密に連携する方法について検討する。 LLMデプロイメントの倫理的側面は議論され、マインドフルで責任あるアプリケーションの必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-04-18T08:01:20Z)
Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。本稿では,LLMの連続学習に関する最近の研究について述べる。
論文参考訳（メタデータ） (2024-02-02T12:34:09Z)
Understanding LLMs: A Comprehensive Overview from Training to Inference [52.70748499554532]
大規模言語モデルの低コストなトレーニングと展開は、将来の開発トレンドを表している。トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。推論の面では、モデル圧縮、並列計算、メモリスケジューリング、構造最適化などのトピックを取り上げている。
論文参考訳（メタデータ） (2024-01-04T02:43:57Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文参考訳（メタデータ） (2023-11-30T03:59:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。