Fugu-MT 論文翻訳(概要): Clembench: Using Game Play to Evaluate Chat-Optimized Language Models as Conversational Agents

論文の概要: Clembench: Using Game Play to Evaluate Chat-Optimized Language Models as Conversational Agents

arxiv url: http://arxiv.org/abs/2305.13455v3
Date: Thu, 23 Nov 2023 15:47:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 04:18:31.986100
Title: Clembench: Using Game Play to Evaluate Chat-Optimized Language Models as Conversational Agents
Title（参考訳）: Clembench: チャット最適化言語モデルを会話エージェントとして評価するためにゲームプレイを使用する
Authors: Kranti Chalamalasetti and Jana G\"otze and Sherzod Hakimov and Brielen Madureira and Philipp Sadler and David Schlangen
Abstract要約: 近年の研究では,「言語理解エージェント」の体系的評価手法が提案されている。制約のあるゲームライクな設定に公開することで、大規模言語モデルを有意義に評価できるだろうか? 概念実証として,現在のチャット最適化LDMがゲームプレイの指示に従うことができる範囲において,5つのインタラクション設定について検討する。
参考スコア（独自算出の注目度）: 20.202525145391093
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent work has proposed a methodology for the systematic evaluation of "Situated Language Understanding Agents"-agents that operate in rich linguistic and non-linguistic contexts-through testing them in carefully constructed interactive settings. Other recent work has argued that Large Language Models (LLMs), if suitably set up, can be understood as (simulators of) such agents. A connection suggests itself, which this paper explores: Can LLMs be evaluated meaningfully by exposing them to constrained game-like settings that are built to challenge specific capabilities? As a proof of concept, this paper investigates five interaction settings, showing that current chat-optimised LLMs are, to an extent, capable to follow game-play instructions. Both this capability and the quality of the game play, measured by how well the objectives of the different games are met, follows the development cycle, with newer models performing better. The metrics even for the comparatively simple example games are far from being saturated, suggesting that the proposed instrument will remain to have diagnostic value. Our general framework for implementing and evaluating games with LLMs is available at https://github.com/clembench .
Abstract（参考訳）: 近年,豊かな言語的・非言語的文脈で行動する「言語理解エージェント(situated language understanding agents)」-エイジェントを,注意深く構築された対話的環境でテストすることで体系的に評価する手法が提案されている。その他の最近の研究は、もし適切に設定されたとしても、Large Language Models (LLMs) はそのようなエージェント(シミュレーション)として理解できると主張している。 LLMは、特定の機能に挑戦するために構築された制約付きゲームライクな設定に公開することで、有意義に評価することができますか? そこで本研究では,現在のチャット最適化LDMがゲームプレイの指示に従うことができる程度に,5つのインタラクション設定について検討する。この能力とゲームプレイの品質は、異なるゲームの目的がどの程度うまく満たされているかによって測定され、開発サイクルに従って、より新しいモデルのパフォーマンスが向上する。比較的単純な例のゲームでもメトリクスは飽和していないため、提案された機器は診断値を持つことになる。 LLMを使ったゲームの実装と評価のための一般的なフレームワークは、https://github.com/clembench で公開されています。

関連論文リスト

V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
V-MAGEはMLLMの視覚的推論能力を評価するために設計されたゲームベースの評価フレームワークである。 V-MAGEを用いて主要なMLLMを評価し,視覚的知覚と推論において重要な課題を明らかにする。
論文参考訳（メタデータ） (2025-04-08T15:43:01Z)
Exploring Large Language Models for Word Games:Who is the Spy? [0.0]
本研究では,大言語モデル(LLM)がワードゲームに効果的に関与できるかを考察する。我々は,ロールワードの推測やアイデンティティの曖昧化といったタスクにおいて,LLMの優れたパフォーマンスを実現するためのChain-of-Thought(CoT)ベースのスケジューリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-19T14:13:02Z)
RPGBENCH: Evaluating Large Language Models as Role-Playing Game Engines [34.002194150560086]
本稿では,大言語モデル (LLM) をテキストベースのロールプレイングゲーム (RPG) エンジンとして評価するための最初のベンチマークであるRPGBenchを紹介する。 RPGBenchは、ゲーム作成(GC)とゲームシミュレーション(GS)の2つのコアタスクから構成される。
論文参考訳（メタデータ） (2025-02-01T23:40:24Z)
Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash [6.65572931991284]
大きな言語モデル(LLM)は複雑なタスクや対話的な環境において印象的な機能を示している。本稿では, LLMの創造性と論理的推論の両面を評価するために, Balderdash を利用したシミュレーションフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-15T18:42:48Z)
Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information [36.11862095329315]
大規模言語モデル(LLM)は、不完全な情報で単純なゲームを扱うことに成功している。本研究では,オープンソースのLLMとAPIベースのLLMが獲得した知識を,洗練されたテキストベースのゲームに適用する可能性について検討する。
論文参考訳（メタデータ） (2024-08-05T15:36:46Z)
clembench-2024: A Challenging, Dynamic, Complementary, Multilingual Benchmark and Underlying Flexible Framework for LLMs as Multi-Action Agents [19.989503513817095]
大きな言語モデルは、特定の能力を探索する会話ゲームに"セルフプレイ"するよう促すことができる。本稿では,このようなゲームプレイ環境を構築するためのフレームワークの1つを取り上げ,その有効性を評価機器として検証する。
論文参考訳（メタデータ） (2024-05-31T14:43:31Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文参考訳（メタデータ） (2023-11-09T18:45:16Z)
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文参考訳（メタデータ） (2023-10-31T14:37:42Z)
GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。 GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文参考訳（メタデータ） (2023-08-19T14:33:40Z)
SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文参考訳（メタデータ） (2023-05-24T18:14:35Z)
Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文参考訳（メタデータ） (2022-01-18T18:59:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。