論文の概要: LLMs as Agentic Cooperative Players in Multiplayer UNO
- arxiv url: http://arxiv.org/abs/2509.09867v1
- Date: Thu, 11 Sep 2025 21:42:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.92951
- Title: LLMs as Agentic Cooperative Players in Multiplayer UNO
- Title(参考訳): マルチプレイヤーUNOにおけるエージェント協調選手としてのLLM
- Authors: Yago Romano Matinez, Jesse Roberts,
- Abstract要約: RLCard ゲーム環境において,デコーダのみの LLM をエージェントとして参加させるツールを構築した。
小型(1Bパラメータ)から大型(70Bパラメータ)までのモデルを評価し,モデルスケールがパフォーマンスに与える影響について検討する。
- 参考スコア(独自算出の注目度): 2.1843439591862333
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: LLMs promise to assist humans -- not just by answering questions, but by offering useful guidance across a wide range of tasks. But how far does that assistance go? Can a large language model based agent actually help someone accomplish their goal as an active participant? We test this question by engaging an LLM in UNO, a turn-based card game, asking it not to win but instead help another player to do so. We built a tool that allows decoder-only LLMs to participate as agents within the RLCard game environment. These models receive full game-state information and respond using simple text prompts under two distinct prompting strategies. We evaluate models ranging from small (1B parameters) to large (70B parameters) and explore how model scale impacts performance. We find that while all models were able to successfully outperform a random baseline when playing UNO, few were able to significantly aid another player.
- Abstract(参考訳): LLMは、質問に答えるだけでなく、幅広いタスクに有用なガイダンスを提供することによって、人間を助けることを約束している。
しかし、その支援はどこまで続くのか?
大規模言語モデルに基づくエージェントは、アクティブな参加者としての目標達成を支援することができるのだろうか?
我々は、ターンベースのカードゲームであるUNOでLLMをエンゲージして、勝たないように求め、代わりに他のプレイヤーがそれを行うのを助けることで、この問題をテストする。
RLCard ゲーム環境において,デコーダのみの LLM がエージェントとして参加するためのツールを構築した。
これらのモデルはゲーム状態の情報を受け取り、2つの異なるプロンプト戦略の下で単純なテキストプロンプトを使用して応答する。
小型(1Bパラメータ)から大型(70Bパラメータ)までのモデルを評価し,モデルスケールがパフォーマンスに与える影響について検討する。
UNOをプレイすると、すべてのモデルがランダムなベースラインを達成できたが、他のプレイヤーを大いに助けることはできなかった。
関連論文リスト
- Should You Use Your Large Language Model to Explore or Exploit? [55.562545113247666]
探索・探索トレードオフに直面した意思決定エージェントを支援するために,大規模言語モデルの能力を評価する。
現在のLLMは、しばしば利用に苦労するが、小規模タスクのパフォーマンスを大幅に改善するために、コンテキスト内緩和が用いられる可能性がある。
論文 参考訳(メタデータ) (2025-01-31T23:42:53Z) - LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents [10.632179121247466]
LLMエージェントを用いた一般的なゲームテストフレームワークを提案し、広くプレイされている戦略ゲームであるWordleとSlay the Spireでテストする。
LLMは平均的な人間プレイヤーほど動作しないかもしれないが、単純で汎用的なプロンプト技術によって誘導される場合、人間のプレイヤーが示す困難さと統計的に有意で強い相関関係を示す。
このことから, LLM は開発過程におけるゲーム難易度測定に有効である可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-01T18:40:43Z) - Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information [36.11862095329315]
大規模言語モデル(LLM)は、不完全な情報で単純なゲームを扱うことに成功している。
本研究では,オープンソースのLLMとAPIベースのLLMが獲得した知識を,洗練されたテキストベースのゲームに適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-08-05T15:36:46Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - Improving Language Model Negotiation with Self-Play and In-Context
Learning from AI Feedback [97.54519989641388]
交渉ゲームにおいて,複数大言語モデル(LLM)が,遊び,振り返り,批判によって自律的に互いに改善できるかどうかを検討する。
私たちが考慮している言語モデルのサブセットだけが、AIフィードバックから自己プレイし、取引価格を改善することができます。
論文 参考訳(メタデータ) (2023-05-17T11:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。