論文の概要: Beyond Chains of Thought: Benchmarking Latent-Space Reasoning Abilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2504.10615v1
- Date: Mon, 14 Apr 2025 18:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:38.630723
- Title: Beyond Chains of Thought: Benchmarking Latent-Space Reasoning Abilities in Large Language Models
- Title(参考訳): 思考の連鎖を超えて:大規模言語モデルにおける潜在空間推論能力のベンチマーク
- Authors: Thilo Hagendorff, Sarah Fabi,
- Abstract要約: 大規模言語モデル(LLM)は、潜在空間内と外部の両方で推論計算を行うことができる。
本研究では,異なる領域におけるモデル内部推論を定量化するベンチマークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language models (LLMs) can perform reasoning computations both internally within their latent space and externally by generating explicit token sequences like chains of thought. Significant progress in enhancing reasoning abilities has been made by scaling test-time compute. However, understanding and quantifying model-internal reasoning abilities - the inferential "leaps" models make between individual token predictions - remains crucial. This study introduces a benchmark (n = 4,000 items) designed to quantify model-internal reasoning in different domains. We achieve this by having LLMs indicate the correct solution to reasoning problems not through descriptive text, but by selecting a specific language of their initial response token that is different from English, the benchmark language. This not only requires models to reason beyond their context window, but also to overrise their default tendency to respond in the same language as the prompt, thereby posing an additional cognitive strain. We evaluate a set of 18 LLMs, showing significant performance variations, with GPT-4.5 achieving the highest accuracy (74.7%), outperforming models like Grok-2 (67.2%), and Llama 3.1 405B (65.6%). Control experiments and difficulty scaling analyses suggest that while LLMs engage in internal reasoning, we cannot rule out heuristic exploitations under certain conditions, marking an area for future investigation. Our experiments demonstrate that LLMs can "think" via latent-space computations, revealing model-internal inference strategies that need further understanding, especially regarding safety-related concerns such as covert planning, goal-seeking, or deception emerging without explicit token traces.
- Abstract(参考訳): 大規模言語モデル(LLM)は、思考の連鎖のような明示的なトークンシーケンスを生成することにより、潜在空間内と外部の両方で推論計算を行うことができる。
推論能力を高めるための重要な進歩は、テスト時間計算のスケーリングによってなされている。
しかし、モデル-内部推論能力の理解と定量化 — 個々のトークン予測の間を推論する"リープ"モデル — は依然として重要です。
本研究では、異なる領域におけるモデル-内部推論を定量化するために設計されたベンチマーク(n = 4,000 項目)を紹介する。
我々は、記述テキストではなく、その初期応答トークンの特定の言語を選択することで、LLMが問題を推論するための正しい解を示し、これを達成している。
これは、モデルがコンテキストウィンドウを越えて推論するだけでなく、プロンプトと同じ言語で応答するデフォルトの傾向を過度に高め、さらに認知的歪みを生じさせる必要がある。
GPT-4.5は最高精度(74.7%)、Grok-2(67.2%)、Llama 3.1 405B(65.6%)などのモデルよりも優れていた。
制御実験とスケーリングの難易度分析により, LLMは内部推論を行うが, 一定の条件下でのヒューリスティックな利用を排除できないことが示唆された。
我々の実験は、LCMが潜在空間計算を通じて「考える」ことが可能であることを実証し、特に隠れ計画、ゴールシーキング、または明示的なトークントレースなしで出現する詐欺といった安全に関する問題に関して、さらなる理解を必要とするモデル内部推論戦略を明らかにした。
関連論文リスト
- Towards Reasoning Ability of Small Language Models [3.732224317444325]
我々は,小言語モデル (SLM) が競争力のある推論性能を実現できることを示す。
14の推論ベンチマークで6つのモデルファミリーから72のSLMを体系的に調査し、ベンチマークし、分析した。
我々の発見は、スケーリングが強力な推論を達成する唯一の方法である、という仮定に挑戦する。
論文 参考訳(メタデータ) (2025-02-17T08:59:16Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Can adversarial attacks by large language models be attributed? [1.3812010983144802]
敵の設定における大規模言語モデルからのアウトプットの寄与は、重要度が増大する可能性が高い重要な課題を示す。
正規言語理論,特にゴールドが導入しアングルインが拡張した限界における言語識別を用いて,この帰属問題について検討する。
以上の結果から,特定の言語クラスの識別不可能性から,特定のLLMに出力を確実に属性付けることは理論的には不可能であることが示唆された。
論文 参考訳(メタデータ) (2024-11-12T18:28:57Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - CUE: An Uncertainty Interpretation Framework for Text Classifiers Built
on Pre-Trained Language Models [28.750894873827068]
本稿では,PLMモデルに固有の不確かさを解釈することを目的とした,CUEと呼ばれる新しいフレームワークを提案する。
摂動と原文表現の予測不確実性の違いを比較することにより,不確実性の原因となる潜伏次元を同定することができる。
論文 参考訳(メタデータ) (2023-06-06T11:37:46Z) - Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models [37.63939774027709]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られるような、選択的なNLG*に適用し、いくつかの信頼/不確実性対策を提案し、比較する。
その結果, セマンティックな分散の簡易な測定は, LLM応答の質の信頼性を予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。