論文の概要: Beyond Accuracy: A Geometric Stability Analysis of Large Language Models in Chess Evaluation
- arxiv url: http://arxiv.org/abs/2512.15033v1
- Date: Wed, 17 Dec 2025 02:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.832207
- Title: Beyond Accuracy: A Geometric Stability Analysis of Large Language Models in Chess Evaluation
- Title(参考訳): 精度を超えて:チェス評価における大規模言語モデルの幾何学的安定性解析
- Authors: Xidan Song, Weiqi Wang, Ruifeng Cao, Qingya Hu,
- Abstract要約: 本稿では,標準精度測定値が真の幾何学的推論と標準基板状態の表層記憶とを区別できないことを論じる。
我々は、不変変換の下でモデルの一貫性を厳格にテストする新しい評価手法を適用した。
我々は、幾何安定性がAI評価に不可欠な指標であり、データ汚染から推論能力を引き離すために必要なプロキシを提供すると結論付けている。
- 参考スコア(独自算出の注目度): 8.694064926527902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of Large Language Models (LLMs) in complex reasoning domains typically relies on performance alignment with ground-truth oracles. In the domain of chess, this standard manifests as accuracy benchmarks against strong engines like Stockfish. However, high scalar accuracy does not necessarily imply robust conceptual understanding. This paper argues that standard accuracy metrics fail to distinguish between genuine geometric reasoning and the superficial memorization of canonical board states. To address this gap, we propose a Geometric Stability Framework, a novel evaluation methodology that rigorously tests model consistency under invariant transformations-including board rotation, mirror symmetry, color inversion, and format conversion. We applied this framework to a comparative analysis of six state-of-the-art LLMs including GPT-5.1, Claude Sonnet 4.5, and Kimi K2 Turbo, utilizing a dataset of approximately 3,000 positions. Our results reveal a significant Accuracy-Stability Paradox. While models such as GPT-5.1 achieve near-optimal accuracy on standard positions, they exhibit catastrophic degradation under geometric perturbation, specifically in rotation tasks where error rates surge by over 600%. This disparity suggests a reliance on pattern matching over abstract spatial logic. Conversely, Claude Sonnet 4.5 and Kimi K2 Turbo demonstrate superior dual robustness, maintaining high consistency across all transformation axes. Furthermore, we analyze the trade-off between helpfulness and safety, identifying Gemini 2.5 Flash as the leader in illegal state rejection (96.0%). We conclude that geometric stability provides an orthogonal and essential metric for AI evaluation, offering a necessary proxy for disentangling reasoning capabilities from data contamination and overfitting in large-scale models.
- Abstract(参考訳): 複雑な推論領域におけるLarge Language Models (LLMs) の評価は、典型的には、接地構造オーラクルによるパフォーマンスアライメントに依存している。
チェスの分野では、この標準はStockfishのような強力なエンジンに対する精度ベンチマークとして現れている。
しかし、高いスカラー精度は必ずしもロバストな概念的理解を示唆するものではない。
本稿では,標準精度測定値が真の幾何学的推論と標準基板状態の表層記憶とを区別できないことを論じる。
このギャップに対処するために, 基板回転, ミラー対称性, 色インバージョン, フォーマット変換を含む不変変換の下でモデル一貫性を厳格に検証する新しい評価手法である幾何安定性フレームワークを提案する。
我々は,GPT-5.1,Claude Sonnet 4.5,Kimi K2 Turboを含む6つの最先端LCMの比較分析に,約3,000位置のデータセットを用いて適用した。
以上の結果から,有意な精度・安定性パラドックスが得られた。
GPT-5.1のようなモデルは標準位置でほぼ最適精度を得るが、幾何学的摂動の下で破滅的な劣化を示す。
この格差は、抽象空間論理よりもパターンマッチングに依存することを示唆している。
逆に、Claude Sonnet 4.5 と Kimi K2 Turbo は優れた双対ロバスト性を示し、すべての変換軸間の高一貫性を維持している。
さらに、協力性と安全性のトレードオフを分析し、Gemini 2.5 Flashを違法な状態拒絶(96.0%)のリーダーとして特定する。
我々は、幾何安定性がAI評価の直交的かつ不可欠な指標となり、大規模モデルにおけるデータ汚染や過剰適合から推論能力を遠ざけるために必要なプロキシを提供すると結論付けた。
関連論文リスト
- Catch Me If You Can: How Smaller Reasoning Models Pretend to Reason with Mathematical Fidelity [15.774418410083515]
表面パターンマッチングと実際の数学的推論を区別する診断フレームワークを提案する。
我々は表面性能と推論忠実度の間に顕著な不一致を明らかにした。
私たちの診断では、従来の精度メトリクスには見えない推論の失敗を明らかにします。
論文 参考訳(メタデータ) (2025-11-29T16:47:01Z) - Geometric Calibration and Neutral Zones for Uncertainty-Aware Multi-Class Classification [0.0]
この研究は情報幾何学と統計的学習を橋渡しし、厳密な検証を必要とするアプリケーションにおいて不確実性を認識した分類の正式な保証を提供する。
アデノ関連ウイルスの分類に関する実証的な検証は、2段階のフレームワークが72.5%のエラーをキャプチャし、34.5%のサンプルを遅延させ、自動決定エラー率を16.8%から6.9%に下げていることを示している。
論文 参考訳(メタデータ) (2025-11-26T01:29:49Z) - Optimizing Chain-of-Thought Confidence via Topological and Dirichlet Risk Analysis [3.4324137096523746]
チェーン・オブ・シークレットのプロンプトにより、大規模言語モデルは複雑な問題を解決することができる。
既存の手法では、誤った予測に対するキャリブレーションの低下と深刻な過信に悩まされている。
複数の推論経路にまたがる信頼度を測定するために,拡張ディリクレ・トポロジーリスク(EDTR)を提案する。
論文 参考訳(メタデータ) (2025-11-09T16:09:02Z) - Point-level Uncertainty Evaluation of Mobile Laser Scanning Point Clouds [4.164044593574969]
本研究では,点レベルの不確実性評価のための機械学習に基づくフレームワークを提案する。
局所幾何学的特徴と点レベルの誤差の関係を学習する。
実験により,両モデルが幾何特性と不確実性の間の非線形関係を効果的に捉えることができることを示した。
論文 参考訳(メタデータ) (2025-10-24T21:30:52Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。