論文の概要: Counting as a minimal probe of language model reliability
- arxiv url: http://arxiv.org/abs/2605.02028v1
- Date: Sun, 03 May 2026 19:27:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.051257
- Title: Counting as a minimal probe of language model reliability
- Title(参考訳): 最小限の言語モデルの信頼性調査としてのカウント
- Authors: Tianxiang Dai, Jonathan Fan,
- Abstract要約: 大規模言語モデルは、数学的推論、コーディング、文書解析のベンチマークで強く機能する。
このような成功が一般的な論理的能力、学習手順の繰り返し適用、あるいはルール実行を模倣するパターンマッチングを反映しているかどうかは不明だ。
安定カウント能力(Stable Counting Capacity)は、モデルが失敗するまで繰り返しシンボルをカウントするアッセイである。
- 参考スコア(独自算出の注目度): 2.497913938263034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models perform strongly on benchmarks in mathematical reasoning, coding and document analysis, suggesting a broad ability to follow instructions. However, it remains unclear whether such success reflects general logical competence, repeated application of learned procedures, or pattern matching that mimics rule execution. We investigate this question by introducing Stable Counting Capacity, an assay in which models count repeated symbols until failure. The assay removes knowledge dependencies, semantics and ambiguity from evaluation, avoids lexical and tokenization confounds, and provides a direct measure of procedural reliability beyond standard knowledge-based benchmarks. Here we show, across more than 100 model variants, that stable counting capacity remains far below advertised context limits. Model behavior is consistent neither with open-ended logic nor with stable application of a learned rule, but instead with use of a finite set of count-like internal states, analogous to counting on fingers. Once this resource is exhausted, the appearance of rule following disappears and exact execution collapses into guessing, even with additional test-time compute. These findings show that fluent performance in current language models does not guarantee general, reliable rule following.
- Abstract(参考訳): 大規模言語モデルは、数学的推論、コーディング、文書解析のベンチマークで強く機能し、命令に従う幅広い能力を示している。
しかし、そのような成功が一般的な論理的能力、学習手順の繰り返し適用、あるいはルール実行を模倣するパターンマッチングを反映しているかどうかは不明である。
本稿では、モデルが失敗するまで繰り返しシンボルをカウントするアッセイである安定カウント能力を導入することにより、この問題を考察する。
このアッセイは、知識依存、セマンティクス、曖昧さを評価から排除し、語彙やトークン化の欠点を回避し、標準知識ベースのベンチマークを超えた手続き的信頼性の直接的な尺度を提供する。
ここでは、100以上のモデル変種に対して、安定したカウント能力は、広告付きコンテキスト限界よりはるかに低いままであることを示す。
モデル行動は、オープンエンド論理や学習規則の安定した適用とは一致せず、代わりに、指で数えるのに類似した、数のような内部状態の有限セットを使用する。
このリソースが枯渇すると、続くルールの出現が消え、テストタイムの計算を追加しても正確な実行が推測に崩壊する。
これらの結果から,現行の言語モデルにおける流動的な性能は,汎用的かつ信頼性の高いルールを保証していないことが示唆された。
関連論文リスト
- When Negation Is a Geometry Problem in Vision-Language Models [32.51815690470519]
CLIPのような統合ビジョン-言語埋め込みモデルは、通常、テキストクエリで否定を理解するのに失敗する。
画像コンテンツに関する単純なイエス/ノー質問の理解に優れるマルチモーダルLLMs-as-a-judgeに基づく代替評価フレームワークについて検討する。
論文 参考訳(メタデータ) (2026-03-20T23:06:23Z) - Evaluating Ill-Defined Tasks in Large Language Models [4.241892359077409]
評価ベンチマークとメトリクスが不確定なタスクに対して、モデル能力の信頼性や診断信号を提供できない理由を分析する。
評価基準を多面的に評価することで,集計スコアを超える実用的な洞察が得られることを示す。
論文 参考訳(メタデータ) (2026-03-17T18:52:47Z) - RoParQ: Paraphrase-Aware Alignment of Large Language Models Towards Robustness to Paraphrased Questions [0.0]
大規模言語モデル(LLM)は、パラフレーズ付き質問に答えるときに矛盾する振る舞いを示すことが多い。
クローズドブック多重選択QAにおけるクロスパラフレーズ一貫性を評価するベンチマークであるRoParQを紹介する。
また、モデルのロバスト性を定量化する新しい評価指標XParaConを提案する。
論文 参考訳(メタデータ) (2025-11-26T16:40:53Z) - Evaluating Language Model Reasoning about Confidential Information [95.64687778185703]
言語モデルが文脈的堅牢性を示すか、文脈依存型安全仕様に準拠する能力を示すかを検討する。
我々は,ユーザ要求がいつ承認されたか,言語モデルが正しく判断できるかどうかを測定するベンチマーク(PasswordEval)を開発した。
現在のオープンソースとクローズドソースのモデルでは、一見単純な作業に苦労しています。
論文 参考訳(メタデータ) (2025-08-27T15:39:46Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Examining False Positives under Inference Scaling for Mathematical Reasoning [83.97128486951999]
言語モデルにおける数学的問題解決における偽陽性解の有効性を体系的に検討する。
実験結果から,(1)異なるモデル,データセット,復号化手法,(2)サンプリングベース推論時間スケーリング手法では問題を緩和できないこと,(3)pass@N評価基準の方が偽陽性の影響を受けやすいこと,などが明らかになった。
論文 参考訳(メタデータ) (2025-02-10T07:49:35Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding [67.54760086239514]
逐次言語モデルから無限長のシーケンスを受信する問題について検討する。
不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
論文 参考訳(メタデータ) (2020-02-06T19:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。