論文の概要: Tracking World States with Language Models: State-Based Evaluation Using Chess
- arxiv url: http://arxiv.org/abs/2508.19851v1
- Date: Wed, 27 Aug 2025 13:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.635956
- Title: Tracking World States with Language Models: State-Based Evaluation Using Chess
- Title(参考訳): 言語モデルによる世界状態の追跡:チェスを用いた状態ベース評価
- Authors: Romain Harang, Jason Naradowsky, Yaswitha Gujju, Yusuke Miyao,
- Abstract要約: 大規模言語モデル(LLM)は、構造化ドメインにおいて創発的な機能を示す。
LLMは世界モデルの高忠実度表現を内部化することができる。
我々は,チェスをベンチマークとして用いたモデルに依存しない状態ベース評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.729209491294602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit emergent capabilities in structured domains, suggesting they may implicitly internalize high-fidelity representations of world models. While probing techniques have shown promising signs of this in scientific and game-based settings, they rely on model-specific internal activations, which limit interpretability and generalizability. In this work, we propose a model-agnostic, state-based evaluation framework using chess as a benchmark to assess whether LLMs preserve the semantics of structured environments. Our method analyzes the downstream legal move distributions (state affordances) to estimate semantic fidelity between predicted and actual game states. This approach offers a more meaningful evaluation than conventional string-based metrics by aligning more closely with the strategic and rule-governed nature of chess. Experimental results demonstrate that our metrics capture deficiencies in state-tracking, highlighting limitations of LLMs in maintaining coherent internal models over long sequences. Our framework provides a robust tool for evaluating structured reasoning in LLMs without requiring internal model access, and generalizes to a wide class of symbolic environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は構造化ドメインに創発的な能力を示し、世界モデルの高忠実度表現を暗黙的に内部化する可能性があることを示唆している。
探索技術は、科学的およびゲームベースの設定でこれの有望な兆候を示しているが、それらは解釈可能性と一般化可能性を制限するモデル固有の内部アクティベーションに依存している。
本研究では,LLMが構造化環境のセマンティクスを保持するかどうかを評価するためのベンチマークとして,チェスを用いたモデルに依存しない状態ベース評価フレームワークを提案する。
本手法は,予測されたゲーム状態と実際のゲーム状態間の意味的忠実度を推定するために,下流の法的移動分布(状態割当)を解析する。
このアプローチは、従来の文字列ベースのメトリクスよりもより有意義な評価を提供する。
実験結果から,我々の測定値が状態追跡の欠陥を捉え,LLMの長周期におけるコヒーレントな内部モデル維持の限界を浮き彫りにした。
我々のフレームワークは、内部モデルアクセスを必要とせず、LLMの構造的推論を評価するための堅牢なツールを提供し、幅広い種類のシンボル環境に一般化する。
関連論文リスト
- MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - Understanding GUI Agent Localization Biases through Logit Sharpness [15.986679553468989]
MLLM(Multimodal large language model)は、GUIエージェントが言語を空間的アクションにグラウンドすることでオペレーティングシステムと対話することを可能にする。
有望な性能にもかかわらず、これらのモデルはしばしば、信頼性を損なう幻覚的局所化誤差を示す。
モデル予測を4つの異なるタイプに分類し,従来の精度測定値を超える不確実な障害モードを明らかにするための,きめ細かい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-18T12:55:35Z) - Meta-Evaluating Local LLMs: Rethinking Performance Metrics for Serious Games [3.725822359130832]
大規模言語モデル (LLMs) は、真剣なゲームにおける評価指標としてますます研究されている。
本研究では,エネルギーコミュニティにおける意思決定をシミュレートするゲームであるtextitEn-join において,5つの小規模 LLM の信頼性について検討した。
その結果、各モデルの長所と短所を強調し、感度、特異性、全体的なパフォーマンスのトレードオフを明らかにした。
論文 参考訳(メタデータ) (2025-04-13T10:46:13Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - Zero-shot Model-based Reinforcement Learning using Large Language Models [12.930241182192988]
本稿では,マルコフ決定過程の動的状態を予測するために,事前学習した大規模言語モデルをどのように活用することができるかを検討する。
本稿では,モデルに基づく政策評価とデータ強化型オフ政治強化学習という2つの強化学習環境における概念実証の応用について述べる。
論文 参考訳(メタデータ) (2024-10-15T15:46:53Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。