論文の概要: Large Language Models are Algorithmically Blind
- arxiv url: http://arxiv.org/abs/2602.21947v1
- Date: Wed, 25 Feb 2026 14:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.860523
- Title: Large Language Models are Algorithmically Blind
- Title(参考訳): 大規模言語モデルはアルゴリズム的に盲目である
- Authors: Sohan Venkatesh, Ashish Mahendran Kurapath, Tejas Melkote,
- Abstract要約: 大規模言語モデル (LLM) は目覚ましい知識を示すが、計算過程を推論する能力はいまだによく分かっていない。
大規模アルゴリズムの実行から得られた地中真理に対して,8つのフロンティアLSMを評価し,系統的,ほぼ完全に失敗することを確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate remarkable breadth of knowledge, yet their ability to reason about computational processes remains poorly understood. Closing this gap matters for practitioners who rely on LLMs to guide algorithm selection and deployment. We address this limitation using causal discovery as a testbed and evaluate eight frontier LLMs against ground truth derived from large-scale algorithm executions and find systematic, near-total failure. Models produce ranges far wider than true confidence intervals yet still fail to contain the true algorithmic mean in the majority of instances; most perform worse than random guessing and the marginal above-random performance of the best model is most consistent with benchmark memorization rather than principled reasoning. We term this failure algorithmic blindness and argue it reflects a fundamental gap between declarative knowledge about algorithms and calibrated procedural prediction.
- Abstract(参考訳): 大規模言語モデル (LLM) は目覚ましい知識を示すが、計算過程を推論する能力はいまだによく分かっていない。
このギャップを埋めることは、アルゴリズムの選択とデプロイをLLMに依存している実践者にとって重要なことです。
因果発見をテストベッドとして用いたこの制限に対処し,大規模アルゴリズムの実行から得られた地中真理に対して,8つのフロンティアLSMを評価し,系統的,ほぼ全能的故障を検出する。
モデルが生成する範囲は真の信頼区間よりもはるかに広いが、ほとんどのケースでは真のアルゴリズム平均を含まない。
我々は、この失敗をアルゴリズムの盲点と呼び、アルゴリズムに関する宣言的知識と調整された手続き予測との根本的なギャップを反映していると主張している。
関連論文リスト
- Learning to Reason: Training LLMs with GPT-OSS or DeepSeek R1 Reasoning Traces [2.0789230137053014]
テストタイムのスケーリングにより、複雑な問題から推論できる新しいLarge Language Models(LLM)が実現された。
2種類の推論トレースを用いた後学習後の数学問題に対する中規模のLLMの性能の比較を行った。
論文 参考訳(メタデータ) (2025-11-24T17:26:58Z) - Rethinking Uncertainty Estimation in Natural Language Generation [6.3398383724486544]
大規模言語モデル(LLM)は、現実のアプリケーションにますます採用されている。
不確実性推定法は複数の出力シーケンスを生成し解析し、LCMの不確実性を決定する。
単一出力シーケンスのみを用いて得られる利点を持つG-NLLを提案する。
論文 参考訳(メタデータ) (2024-12-19T18:51:06Z) - Provable Scaling Laws for the Test-Time Compute of Large Language Models [84.00141420901038]
本研究では,大規模言語モデルのテスト時間計算において,証明可能なスケーリング法則を享受する2つのアルゴリズムを提案する。
1つは2段階ノックアウト方式のアルゴリズムで、各候補は複数の相手に対して平均勝利率で評価される。
もう1つは2段階のリーグ方式のアルゴリズムで、各候補は複数の相手に対して平均勝利率で評価される。
論文 参考訳(メタデータ) (2024-11-29T05:29:47Z) - Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models [46.959380978972206]
我々は、推論スケーリング法則(いわゆるテスト時間スケーリング法則)と計算最適推論について研究する。
計算最適推論手法の理解と設計に向けた第一歩として,推論戦略のコストパフォーマンストレードオフについて検討した。
この結果から,モデルパラメータのスケーリングよりも,推論戦略による推論計算のスケーリングの方が効率的であることが示唆された。
論文 参考訳(メタデータ) (2024-08-01T17:16:04Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - On Uncertainty Quantification for Near-Bayes Optimal Algorithms [2.622066970118316]
本研究では, タスク分布によって定義されたベイズ後続部を, アルゴリズムを用いてマーチンゲール後続部を構築することにより, 未知だが最適であるベイズ後続部を復元可能であることを示す。
様々な非NNアルゴリズムとNNアルゴリズムに基づく実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-03-28T12:42:25Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。