論文の概要: Probe by Gaming: A Game-based Benchmark for Assessing Conceptual Knowledge in LLMs
- arxiv url: http://arxiv.org/abs/2505.17512v1
- Date: Fri, 23 May 2025 06:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.860186
- Title: Probe by Gaming: A Game-based Benchmark for Assessing Conceptual Knowledge in LLMs
- Title(参考訳): Probe by Gaming: LLMの概念的知識を評価するゲームベースのベンチマーク
- Authors: Shuhang Xu, Weijian Deng, Yixuan Zhou, Fangwei Zhong,
- Abstract要約: CK-Arenaは、Undercoverゲーム上に開発されたマルチエージェントインタラクションゲームである。
対話的な設定で概念を推論するために,大規模言語モデルの能力を評価するように設計されている。
CK-Arenaは動的環境における概念推論を評価するためのスケーラブルで現実的なベンチマークを提供する。
- 参考スコア(独自算出の注目度): 17.753896112412942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concepts represent generalized abstractions that enable humans to categorize and reason efficiently, yet it is unclear to what extent Large Language Models (LLMs) comprehend these semantic relationships. Existing benchmarks typically focus on factual recall and isolated tasks, failing to evaluate the ability of LLMs to understand conceptual boundaries. To address this gap, we introduce CK-Arena, a multi-agent interaction game built upon the Undercover game, designed to evaluate the capacity of LLMs to reason with concepts in interactive settings. CK-Arena challenges models to describe, differentiate, and infer conceptual boundaries based on partial information, encouraging models to explore commonalities and distinctions between closely related concepts. By simulating real-world interaction, CK-Arena provides a scalable and realistic benchmark for assessing conceptual reasoning in dynamic environments. Experimental results show that LLMs' understanding of conceptual knowledge varies significantly across different categories and is not strictly aligned with parameter size or general model capabilities. The data and code are available at the project homepage: https://ck-arena.site.
- Abstract(参考訳): 概念は、人間が効率的に分類し、推論できるように一般化された抽象概念を表すが、Large Language Models (LLM)がこれらの意味的関係をどの程度理解したかは定かではない。
既存のベンチマークでは、現実的なリコールと分離されたタスクに重点を置いており、LLMが概念的境界を理解する能力を評価していない。
このギャップに対処するために,我々は,LLMのキャパシティを評価し,インタラクティブな設定で概念を推論する多エージェントインタラクションゲームであるCK-Arenaを紹介した。
CK-Arenaは、部分的な情報に基づいて概念境界を記述し、区別し、推論するモデルに挑戦し、モデルに共通点と密接に関連する概念の区別を探求するよう促す。
実世界の相互作用をシミュレートすることで、CK-Arenaは動的環境における概念的推論を評価するためのスケーラブルで現実的なベンチマークを提供する。
実験の結果,概念的知識に対するLLMの理解はカテゴリによって大きく異なり,パラメータサイズや一般的なモデル能力と厳密に一致していないことがわかった。
データとコードはプロジェクトのホームページ(https://ck-arena.site)で公開されている。
関連論文リスト
- KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。
KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文 参考訳(メタデータ) (2025-05-20T16:06:32Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - Concept Layers: Enhancing Interpretability and Intervenability via LLM Conceptualization [2.163881720692685]
本稿では,概念層をアーキテクチャに組み込むことにより,解釈可能性とインターベンタビリティを既存モデルに組み込む新しい手法を提案する。
我々のアプローチは、モデルの内部ベクトル表現を、再構成してモデルにフィードバックする前に、概念的で説明可能なベクトル空間に投影する。
複数のタスクにまたがるCLを評価し、本来のモデルの性能と合意を維持しつつ、意味のある介入を可能にしていることを示す。
論文 参考訳(メタデータ) (2025-02-19T11:10:19Z) - ConSim: Measuring Concept-Based Explanations' Effectiveness with Automated Simulatability [7.379131259852646]
概念に基づく説明は、複雑なモデル計算を人間の理解可能な概念にマッピングすることで機能する。
既存の評価指標は、しばしば考えられる概念の誘導された空間の品質にのみ焦点をあてる。
自動シミュラビリティによる概念記述の計測のための評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-10T10:53:48Z) - Exploring Concept Depth: How Large Language Models Acquire Knowledge and Concept at Different Layers? [57.04803703952721]
大規模言語モデル(LLM)は、幅広いタスクで顕著なパフォーマンスを示している。
しかし、これらのモデルが様々な複雑さのタスクを符号化するメカニズムは、いまだに理解されていない。
概念深さ」の概念を導入し、より複雑な概念が一般的により深い層で得られることを示唆する。
論文 参考訳(メタデータ) (2024-04-10T14:56:40Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Concept-Centric Transformers: Enhancing Model Interpretability through
Object-Centric Concept Learning within a Shared Global Workspace [1.6574413179773757]
概念中心変換器は、解釈可能性のための共有グローバルワークスペースの単純かつ効果的な構成である。
本モデルでは,すべての問題に対して,すべてのベースラインの分類精度が向上することを示す。
論文 参考訳(メタデータ) (2023-05-25T06:37:39Z) - COPEN: Probing Conceptual Knowledge in Pre-trained Language Models [60.10147136876669]
概念的知識は人間の認知と知識基盤の基本である。
既存の知識探索作業は、事前訓練された言語モデル(PLM)の事実知識のみに焦点を当て、概念知識を無視する。
PLMが概念的類似性によってエンティティを編成し、概念的特性を学習し、コンテキスト内でエンティティを概念化するかどうかを調査する3つのタスクを設計する。
タスクのために、393のコンセプトをカバーする24kのデータインスタンスを収集、注釈付けします。
論文 参考訳(メタデータ) (2022-11-08T08:18:06Z) - Discovering Concepts in Learned Representations using Statistical
Inference and Interactive Visualization [0.76146285961466]
概念発見は、深層学習の専門家とモデルエンドユーザーの間のギャップを埋めるために重要である。
現在のアプローチには、手作りの概念データセットと、それを潜在空間方向に変換することが含まれる。
本研究では,複数の仮説テストに基づく意味ある概念のユーザ発見と,インタラクティブな可視化に関する2つのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-09T22:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。