論文の概要: Ad-hoc Concept Forming in the Game Codenames as a Means for Evaluating Large Language Models
- arxiv url: http://arxiv.org/abs/2502.11707v1
- Date: Mon, 17 Feb 2025 11:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:23.438560
- Title: Ad-hoc Concept Forming in the Game Codenames as a Means for Evaluating Large Language Models
- Title(参考訳): ゲームコードネームにおけるアドホックな概念形成 : 大規模言語モデル評価のための意味
- Authors: Sherzod Hakimov, Lara Pfennigschmidt, David Schlangen,
- Abstract要約: 本研究では,大規模な言語モデル(LLM)を評価するためのベンチマークツールとして,Codenamesを利用する。
LLMはゲームの各サイドでプレイし、一方のサイドはいくつかのターゲットワードをカバーする手掛かりの単語を生成し、もう一方のサイドはそれらのターゲットワードを推測する。
- 参考スコア(独自算出の注目度): 18.256529559741075
- License:
- Abstract: This study utilizes the game Codenames as a benchmarking tool to evaluate large language models (LLMs) with respect to specific linguistic and cognitive skills. LLMs play each side of the game, where one side generates a clue word covering several target words and the other guesses those target words. We designed various experiments by controlling the choice of words (abstract vs. concrete words, ambiguous vs. monosemic) or the opponent (programmed to be faster or slower in revealing words). Recent commercial and open-weight models were compared side-by-side to find out factors affecting their performance. The evaluation reveals details about their strategies, challenging cases, and limitations of LLMs.
- Abstract(参考訳): 本研究は,言語および認知能力に関する大規模言語モデル(LLM)を評価するためのベンチマークツールとして,Codenamesを利用する。
LLMはゲームの各サイドでプレイし、一方のサイドはいくつかのターゲットワードをカバーする手掛かりの単語を生成し、もう一方のサイドはそれらのターゲットワードを推測する。
単語の選択(抽象語対具体語、曖昧語対単意味語)や相手の選択(単語の露出が速く、遅くなるようにプログラムされた)を制御して、様々な実験を設計した。
最近の商用モデルとオープンウェイトモデルを比較して、その性能に影響する要因を明らかにした。
評価では, LLMの戦略, 挑戦事例, 限界について詳述している。
関連論文リスト
- Codenames as a Benchmark for Large Language Models [2.1028463367241033]
一般的な単語ベースのボードゲームであるCodenamesを,大規模言語モデルの推論能力を評価するための適切なベンチマークとして使用しています。
我々は,GPT-4o,Gemini 1.5,Claude 3.5 Sonnet,Llama 3.1など,最先端のLLMの能力を評価する。
以上の結果から, ゲームプレイ中に異なるモデルが出現し, 特定の役割に優れることが示唆された。
論文 参考訳(メタデータ) (2024-12-16T01:59:03Z) - Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash [6.65572931991284]
大きな言語モデル(LLM)は複雑なタスクや対話的な環境において印象的な機能を示している。
本稿では, LLMの創造性と論理的推論の両面を評価するために, Balderdash を利用したシミュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:42:48Z) - Open Conversational LLMs do not know most Spanish words [2.737783055857426]
我々は,オープンソースチャットLLMがスペイン語の単語に対して持つ知識を,参照辞書における単語のサンプルをテストすることによって評価する。
その結果、オープンソースのチャットLLMは、単語の重要部分に対して誤った意味を生じさせ、文脈で文章を書くためにほとんどの単語を正しく利用できないことがわかった。
論文 参考訳(メタデータ) (2024-03-21T15:41:02Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。