論文の概要: Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests
- arxiv url: http://arxiv.org/abs/2502.14359v1
- Date: Thu, 20 Feb 2025 08:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:10.000732
- Title: Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests
- Title(参考訳): ベンチマーク, ゲーム, 認知テストによるLCMの進展の三角測量
- Authors: Filippo Momentè, Alessandro Suglia, Mario Giulianelli, Ambra Ferrari, Alexander Koller, Oliver Lemon, David Schlangen, Raquel Fernández, Raffaella Bernardi,
- Abstract要約: 本稿では,大規模質問応答ベンチマーク,インタラクティブゲーム,認知テストの3つの評価パラダイムについて検討する。
効果的な言語使用に不可欠な認知能力を測定するための,対象とするテストスイートをコンパイルする。
分析の結果,対話型ゲームは判別モデルにおける標準ベンチマークよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 89.09172401497213
- License:
- Abstract: We examine three evaluation paradigms: large question-answering benchmarks (e.g., MMLU and BBH), interactive games (e.g., Signalling Games or Taboo), and cognitive tests (e.g., for working memory or theory of mind). First, we investigate which of the former two-benchmarks or games-is most effective at discriminating LLMs of varying quality. Then, inspired by human cognitive assessments, we compile a suite of targeted tests that measure cognitive abilities deemed essential for effective language use, and we investigate their correlation with model performance in benchmarks and games. Our analyses reveal that interactive games are superior to standard benchmarks in discriminating models. Causal and logical reasoning correlate with both static and interactive tests, while differences emerge regarding core executive functions and social/emotional skills, which correlate more with games. We advocate the development of new interactive benchmarks and targeted cognitive tasks inspired by assessing human abilities but designed specifically for LLMs.
- Abstract(参考訳): 本稿では,大規模質問応答ベンチマーク(例えば,MMLU,BBH),インタラクティブゲーム(例えば,シグナルゲーム,タブー),認知テスト(例えば,ワーキングメモリや心の理論)の3つの評価パラダイムについて検討する。
まず,従来の2つのベンチマークあるいはゲームのうち,どのゲームが,異なる品質のLSMを識別するのに最も有効かを検討する。
そして,人間の認知評価に触発されて,効果的な言語利用に欠かせない認知能力を測定するための一連の実験をコンパイルし,ベンチマークやゲームにおけるモデル性能との相関について検討する。
分析の結果,対話型ゲームは判別モデルにおける標準ベンチマークよりも優れていることがわかった。
因果関係と論理的推論は静的なテストとインタラクティブなテストの両方に相関するが、コアエグゼクティブ機能とゲームと相関する社会的/感情的なスキルに違いが現れる。
我々は、人間能力の評価から着想を得た新しい対話型ベンチマークと目標認知タスクの開発を提唱する。
関連論文リスト
- Improving LLM Leaderboards with Psychometrical Methodology [0.0]
大規模言語モデル(LLM)の急速な開発は、その性能を評価するためにベンチマークの作成を必要としている。
これらのベンチマークは、人間のテストや調査に似ており、これらのシステムの認知行動における創発性を測定するために設計された質問で構成されている。
しかし、社会科学でよく定義された特徴や能力とは異なり、これらのベンチマークによって測定される特性は曖昧で厳密に定義されていないことが多い。
論文 参考訳(メタデータ) (2025-01-27T21:21:46Z) - CARL-GT: Evaluating Causal Reasoning Capabilities of Large Language Models [18.975064947089805]
因果推論能力は、教育や医療といった幅広い応用において、大きな言語モデル(LLM)にとって不可欠である。
グラフとタブラリデータを用いた大規模言語モデルのCAusal Reasoning機能を評価するCARL-GTというベンチマークを提供する。
論文 参考訳(メタデータ) (2024-12-23T20:34:32Z) - clembench-2024: A Challenging, Dynamic, Complementary, Multilingual Benchmark and Underlying Flexible Framework for LLMs as Multi-Action Agents [19.989503513817095]
大きな言語モデルは、特定の能力を探索する会話ゲームに"セルフプレイ"するよう促すことができる。
本稿では,このようなゲームプレイ環境を構築するためのフレームワークの1つを取り上げ,その有効性を評価機器として検証する。
論文 参考訳(メタデータ) (2024-05-31T14:43:31Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z) - Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large
Language Models with SocKET Benchmark [14.922083834969323]
大規模言語モデル(LLM)は、様々な構文、談話、推論タスクでうまく機能することが示されている。
我々は、社会知識をテストする58のNLPタスクを含む理論駆動型ベンチマーク「SocKET」を導入する。
論文 参考訳(メタデータ) (2023-05-24T09:21:06Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。