論文の概要: UNO Arena for Evaluating Sequential Decision-Making Capability of Large Language Models
- arxiv url: http://arxiv.org/abs/2406.16382v1
- Date: Mon, 24 Jun 2024 07:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 15:43:33.525127
- Title: UNO Arena for Evaluating Sequential Decision-Making Capability of Large Language Models
- Title(参考訳): UNOアリーナによる大規模言語モデルの逐次決定-生成能力の評価
- Authors: Zhanyue Qin, Haochuan Wang, Deyuan Liu, Ziyang Song, Cunhang Fan, Zhao Lv, Jinlin Wu, Zhen Lei, Zhiying Tu, Dianhui Chu, Xiaoyan Yu, Dianbo Sui,
- Abstract要約: 逐次意思決定とは、初期決定がその後の決定に影響を及ぼす環境のダイナミクスを考慮に入れたアルゴリズムを指す。
タスク間の強力な機能を示す大きな言語モデル(LLM)によって、私たちは次のように問うざるを得ない。
我々は,LLMの逐次意思決定能力を評価するためにUNOアリーナを提案し,なぜUNOを選択するのかを詳細に説明する。
- 参考スコア(独自算出の注目度): 23.1274341939566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential decision-making refers to algorithms that take into account the dynamics of the environment, where early decisions affect subsequent decisions. With large language models (LLMs) demonstrating powerful capabilities between tasks, we can't help but ask: Can Current LLMs Effectively Make Sequential Decisions? In order to answer this question, we propose the UNO Arena based on the card game UNO to evaluate the sequential decision-making capability of LLMs and explain in detail why we choose UNO. In UNO Arena, We evaluate the sequential decision-making capability of LLMs dynamically with novel metrics based Monte Carlo methods. We set up random players, DQN-based reinforcement learning players, and LLM players (e.g. GPT-4, Gemini-pro) for comparison testing. Furthermore, in order to improve the sequential decision-making capability of LLMs, we propose the TUTRI player, which can involves having LLMs reflect their own actions wtih the summary of game history and the game strategy. Numerous experiments demonstrate that the TUTRI player achieves a notable breakthrough in the performance of sequential decision-making compared to the vanilla LLM player.
- Abstract(参考訳): 逐次意思決定とは、初期決定がその後の決定に影響を及ぼす環境のダイナミクスを考慮に入れたアルゴリズムを指す。
タスク間の強力な機能を示す大きな言語モデル(LLM)によって、私たちは次のように問うざるを得ない。
この疑問に答えるために,カードゲームUNOに基づくUNOアリーナを提案し,LCMの逐次意思決定能力を評価し,なぜUNOを選択するのかを詳細に説明する。
UNOアリーナでは,モンテカルロ法を用いてLCMの逐次意思決定能力を動的に評価する。
ランダムプレイヤー,DQNに基づく強化学習者,およびLLMプレイヤー(例えばGPT-4, Gemini-pro)を比較試験のために設定した。
さらに, LLMの逐次意思決定能力を向上させるために, ゲーム履歴とゲーム戦略を要約して, LLMの動作を反映させるTUTRIプレイヤーを提案する。
多くの実験により、TUTRIプレイヤーは、バニラLSMプレイヤーと比較して、シーケンシャルな意思決定のパフォーマンスにおいて顕著なブレークスルーを達成することが示されている。
関連論文リスト
- Beyond Numeric Awards: In-Context Dueling Bandits with LLM Agents [25.825941077332182]
文脈内意思決定は、人工知能の重要な能力である。
本稿では,Dueling Bandits (DB) の文脈における意思決定者としてのLarge Language Models (LLMs) の性能について検討する。
論文 参考訳(メタデータ) (2024-07-02T02:18:14Z) - Efficient Sequential Decision Making with Large Language Models [19.083642464977224]
本稿では,大規模言語モデル(LLM)の成功を逐次意思決定に拡張することに焦点を当てる。
既存の取り組みは、 (i) 意思決定のための再訓練または微調整 LLM または (ii) 事前訓練された LLM の設計プロンプトのいずれかである。
本稿では,オンラインモデル選択アルゴリズムを活用してLLMエージェントを逐次意思決定に効率的に組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:13:22Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Character is Destiny: Can Large Language Models Simulate Persona-Driven Decisions in Role-Playing? [59.0123596591807]
ペルソナ駆動意思決定における大規模言語モデルの能力のベンチマークを行う。
高品質な小説において, LLM が先行する物語の登場人物の判断を予測できるかどうかを考察する。
その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は十分にあることが示された。
論文 参考訳(メタデータ) (2024-04-18T12:40:59Z) - Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - PALR: Personalization Aware LLMs for Recommendation [7.407353565043918]
PALRは、ユーザ履歴の振る舞い(クリック、購入、評価など)と大きな言語モデル(LLM)を組み合わせることで、ユーザの好むアイテムを生成することを目的としている。
我々のソリューションは、様々なシーケンシャルなレコメンデーションタスクにおいて最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-12T17:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。