論文の概要: Tracking World States with Language Models: State-Based Evaluation Using Chess
- arxiv url: http://arxiv.org/abs/2508.19851v1
- Date: Wed, 27 Aug 2025 13:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.635956
- Title: Tracking World States with Language Models: State-Based Evaluation Using Chess
- Title(参考訳): 言語モデルによる世界状態の追跡:チェスを用いた状態ベース評価
- Authors: Romain Harang, Jason Naradowsky, Yaswitha Gujju, Yusuke Miyao,
- Abstract要約: 大規模言語モデル(LLM)は、構造化ドメインにおいて創発的な機能を示す。
LLMは世界モデルの高忠実度表現を内部化することができる。
我々は,チェスをベンチマークとして用いたモデルに依存しない状態ベース評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.729209491294602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit emergent capabilities in structured domains, suggesting they may implicitly internalize high-fidelity representations of world models. While probing techniques have shown promising signs of this in scientific and game-based settings, they rely on model-specific internal activations, which limit interpretability and generalizability. In this work, we propose a model-agnostic, state-based evaluation framework using chess as a benchmark to assess whether LLMs preserve the semantics of structured environments. Our method analyzes the downstream legal move distributions (state affordances) to estimate semantic fidelity between predicted and actual game states. This approach offers a more meaningful evaluation than conventional string-based metrics by aligning more closely with the strategic and rule-governed nature of chess. Experimental results demonstrate that our metrics capture deficiencies in state-tracking, highlighting limitations of LLMs in maintaining coherent internal models over long sequences. Our framework provides a robust tool for evaluating structured reasoning in LLMs without requiring internal model access, and generalizes to a wide class of symbolic environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は構造化ドメインに創発的な能力を示し、世界モデルの高忠実度表現を暗黙的に内部化する可能性があることを示唆している。
探索技術は、科学的およびゲームベースの設定でこれの有望な兆候を示しているが、それらは解釈可能性と一般化可能性を制限するモデル固有の内部アクティベーションに依存している。
本研究では,LLMが構造化環境のセマンティクスを保持するかどうかを評価するためのベンチマークとして,チェスを用いたモデルに依存しない状態ベース評価フレームワークを提案する。
本手法は,予測されたゲーム状態と実際のゲーム状態間の意味的忠実度を推定するために,下流の法的移動分布(状態割当)を解析する。
このアプローチは、従来の文字列ベースのメトリクスよりもより有意義な評価を提供する。
実験結果から,我々の測定値が状態追跡の欠陥を捉え,LLMの長周期におけるコヒーレントな内部モデル維持の限界を浮き彫りにした。
我々のフレームワークは、内部モデルアクセスを必要とせず、LLMの構造的推論を評価するための堅牢なツールを提供し、幅広い種類のシンボル環境に一般化する。
関連論文リスト
- Learning to Judge: LLMs Designing and Applying Evaluation Rubrics [18.936553687978087]
大規模言語モデル (LLM) は、自然言語生成のための評価器としてますます使われている。
GER-Evalを導入し,LLMが独自の評価ルーブリックを設計および適用できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-09T13:56:06Z) - Codified Finite-state Machines for Role-playing [70.86310301713068]
テキスト文字プロファイルをFSMに自動的に符号化するフレームワークであるCFSM(Codified Finite-State Machines)を紹介する。
CFSMはプロファイルから直接キー状態と遷移を抽出し、文字の一貫性を強制する解釈可能な構造を生成する。
我々はCFSMをCPFSM(Codified Probabilistic Finite-State Machines)に拡張し、遷移を状態上の確率分布としてモデル化する。
論文 参考訳(メタデータ) (2026-02-05T17:19:18Z) - Trust in One Round: Confidence Estimation for Large Language Models via Structural Signals [13.89434979851652]
大規模言語モデル(LLM)は、エラーが社会的、科学的、安全コストの高い領域にますます展開されている。
本稿では,出力の正確性を予測する単一パスモデル依存フレームワークであるStructure Confidenceを提案する。
論文 参考訳(メタデータ) (2026-02-01T02:35:59Z) - FORESTLLM: Large Language Models Make Random Forest Great on Few-shot Tabular Learning [20.27406245916013]
本稿では,大規模言語モデル(LLM)の意味的推論能力を用いて,決定林の構造的帰納バイアスを統一する枠組みを提案する。
まずLLMがラベル付きデータとラベルなしデータの両方の一貫性に基づいて候補分割を評価するセマンティックスプリッティング基準を導入し、より堅牢で一般化可能な木構造を数発の監視下で実現する。
第2に,LLMが決定経路とその支持例を簡潔で決定論的な予測に蒸留し,雑音の多い経験的推定を意味的インフォームドアウトプットに置き換える,葉ノード安定化のためのワンタイムインコンテキスト推論機構を提案する。
論文 参考訳(メタデータ) (2026-01-16T14:08:51Z) - Table-BiEval: A Self-Supervised, Dual-Track Framework for Decoupling Structure and Content in LLM Evaluation [11.450834626205676]
Table-BiEvalは、人間の自由で自己管理的な評価フレームワークに基づく、新しいアプローチである。
コンテンツセマンティック精度と正規化ツリー編集距離を計算し、構造をコンテンツから切り離す。
結果は大きな変動を示し、中規模のモデルが驚くほど大きなモデルよりも構造効率が優れていることを浮き彫りにしている。
論文 参考訳(メタデータ) (2026-01-09T07:38:27Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - Understanding GUI Agent Localization Biases through Logit Sharpness [15.986679553468989]
MLLM(Multimodal large language model)は、GUIエージェントが言語を空間的アクションにグラウンドすることでオペレーティングシステムと対話することを可能にする。
有望な性能にもかかわらず、これらのモデルはしばしば、信頼性を損なう幻覚的局所化誤差を示す。
モデル予測を4つの異なるタイプに分類し,従来の精度測定値を超える不確実な障害モードを明らかにするための,きめ細かい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-18T12:55:35Z) - Meta-Evaluating Local LLMs: Rethinking Performance Metrics for Serious Games [3.725822359130832]
大規模言語モデル (LLMs) は、真剣なゲームにおける評価指標としてますます研究されている。
本研究では,エネルギーコミュニティにおける意思決定をシミュレートするゲームであるtextitEn-join において,5つの小規模 LLM の信頼性について検討した。
その結果、各モデルの長所と短所を強調し、感度、特異性、全体的なパフォーマンスのトレードオフを明らかにした。
論文 参考訳(メタデータ) (2025-04-13T10:46:13Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - Zero-shot Model-based Reinforcement Learning using Large Language Models [12.930241182192988]
本稿では,マルコフ決定過程の動的状態を予測するために,事前学習した大規模言語モデルをどのように活用することができるかを検討する。
本稿では,モデルに基づく政策評価とデータ強化型オフ政治強化学習という2つの強化学習環境における概念実証の応用について述べる。
論文 参考訳(メタデータ) (2024-10-15T15:46:53Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。