論文の概要: Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models
- arxiv url: http://arxiv.org/abs/2310.20499v1
- Date: Tue, 31 Oct 2023 14:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 14:44:30.365409
- Title: Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models
- Title(参考訳): 単語推測ゲームを活用した大規模言語モデルの知能評価
- Authors: Tian Liang and Zhiwei He and Jen-tes Huang and Wenxuan Wang and
Wenxiang Jiao and Rui Wang and Yujiu Yang and Zhaopeng Tu and Shuming Shi and
Xing Wang
- Abstract要約: この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
- 参考スコア(独自算出の注目度): 99.12570557319975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The automatic evaluation of LLM-based agent intelligence is critical in
developing advanced LLM-based agents. Although considerable effort has been
devoted to developing human-annotated evaluation datasets, such as AlpacaEval,
existing techniques are costly, time-consuming, and lack adaptability. In this
paper, inspired by the popular language game ``Who is Spy'', we propose to use
the word guessing game to assess the intelligence performance of LLMs. Given a
word, the LLM is asked to describe the word and determine its identity (spy or
not) based on its and other players' descriptions. Ideally, an advanced agent
should possess the ability to accurately describe a given word using an
aggressive description while concurrently maximizing confusion in the
conservative description, enhancing its participation in the game. To this end,
we first develop DEEP to evaluate LLMs' expression and disguising abilities.
DEEP requires LLM to describe a word in aggressive and conservative modes. We
then introduce SpyGame, an interactive multi-agent framework designed to assess
LLMs' intelligence through participation in a competitive language-based board
game. Incorporating multi-agent interaction, SpyGame requires the target LLM to
possess linguistic skills and strategic thinking, providing a more
comprehensive evaluation of LLMs' human-like cognitive abilities and
adaptability in complex communication situations. The proposed evaluation
framework is very easy to implement. We collected words from multiple sources,
domains, and languages and used the proposed evaluation framework to conduct
experiments. Extensive experiments demonstrate that the proposed DEEP and
SpyGame effectively evaluate the capabilities of various LLMs, capturing their
ability to adapt to novel situations and engage in strategic communication.
- Abstract(参考訳): LLMに基づくエージェントインテリジェンスの自動評価は、高度なLCMベースのエージェントを開発する上で重要である。
alpacaevalのような人間による評価データセットの開発にかなりの労力が費やされてきたが、既存の技術はコストがかかり、時間がかかり、適応性が欠如している。
本稿では,人気のある言語ゲーム ‘Who is Spy'' にヒントを得て,LLMのインテリジェンス性能を評価するために,単語推測ゲームを提案する。
単語が与えられた後、LLMは単語の説明を依頼され、その単語とそのプレイヤーの記述に基づいてその同一性を決定する。
理想的には、高度なエージェントは、攻撃的な記述を用いて特定の単語を正確に記述し、保守的な記述における混乱を同時に最大化し、ゲームへの参加を高める能力を有するべきである。
そこで我々はまず,LEMの表現と機能低下を評価するためにDEEPを開発した。
DEEPは、攻撃的で保守的なモードで単語を記述することを要求する。
次に,LLMのインテリジェンスを評価するための対話型マルチエージェントフレームワークであるSpyGameを紹介した。
マルチエージェントインタラクションを取り入れたSpyGameは、言語スキルと戦略的思考を目標とするLLMに要求し、複雑なコミュニケーション状況におけるLLMの人間的な認知能力と適応性をより包括的に評価する。
提案された評価フレームワークの実装は非常に簡単である。
複数のソース,ドメイン,言語から単語を収集し,提案した評価フレームワークを用いて実験を行った。
大規模な実験により,提案したDEEPとSpyGameは,様々なLLMの能力を評価し,新たな状況に適応し,戦略的コミュニケーションを行う能力を示した。
関連論文リスト
- Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash [6.65572931991284]
大きな言語モデル(LLM)は複雑なタスクや対話的な環境において印象的な機能を示している。
本稿では, LLMの創造性と論理的推論の両面を評価するために, Balderdash を利用したシミュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:42:48Z) - Who is Undercover? Guiding LLMs to Explore Multi-Perspective Team Tactic in the Game [3.8284679578037246]
We use the language logic game Who is Undercover?' as a experimental platform to propose the Multi-Perspective Team Tactic (MPTT) framework。
MPTTは、LLMの人間的な言語表現ロジック、多次元思考、複雑なシナリオにおける自己認識の育成を目的としている。
予備的な結果は、MPTTとWIUが組み合わさって、LLMの認知能力を活用して、現実社会をシミュレートできる意思決定フレームワークを作成することを示している。
論文 参考訳(メタデータ) (2024-10-20T06:41:31Z) - Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information [36.11862095329315]
大規模言語モデル(LLM)は、不完全な情報で単純なゲームを扱うことに成功している。
本研究では,オープンソースのLLMとAPIベースのLLMが獲得した知識を,洗練されたテキストベースのゲームに適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-08-05T15:36:46Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Language Model-In-The-Loop: Data Optimal Approach to Learn-To-Recommend
Actions in Text Games [16.281640651021434]
大きな言語モデル(LLM)は、言語理解ベンチマークにおいて優れたパフォーマンスを示している。
LLMは、テキストゲームのパフォーマンスを改善するためのアクション候補レコメンデーションに、LDM -- GPT-2 -- の言語的先行性を活用する。
CalMは、注釈付き人間のゲームプレイでGPT-2を適応させ、テキストベースのゲームの学習中にLLMを固定し続ける。
論文 参考訳(メタデータ) (2023-11-13T19:12:49Z) - Language Agents with Reinforcement Learning for Strategic Play in the
Werewolf Game [40.438765131992525]
我々は、柔軟な言語行動を生成し、強力な意思決定能力を有する戦略的言語エージェントを開発する。
言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。
実験により,我々のエージェントは本態性バイアスを克服し,Werewolfゲームにおいて既存のLSMベースのエージェントより優れていることが示された。
論文 参考訳(メタデータ) (2023-10-29T09:02:57Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。