論文の概要: ORION: Teaching Language Models to Reason Efficiently in the Language of Thought
- arxiv url: http://arxiv.org/abs/2511.22891v1
- Date: Fri, 28 Nov 2025 05:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.776251
- Title: ORION: Teaching Language Models to Reason Efficiently in the Language of Thought
- Title(参考訳): ORION:思考言語において効果的に推論する言語モデルを教える
- Authors: Kumar Tanmay, Kriti Aggarwal, Paul Pu Liang, Subhabrata Mukherjee,
- Abstract要約: 我々は、Mentaleseと呼ばれる同様のコンパクトなスタイルでモデルを推論するように訓練するフレームワークを導入する。
メンタレーゼは抽象的推論を超圧縮された構造化トークンとして符号化し、モデルがより少ないステップで複雑な問題を解くことを可能にする。
メンタレーゼ型圧縮推論は、人間の認知効率を向上し、精度を犠牲にすることなく、リアルタイムで費用対効果の高い推論を可能にする。
- 参考スコア(独自算出の注目度): 35.37673707476835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) achieve strong performance in mathematics, code generation, and task planning, but their reliance on long chains of verbose "thinking" tokens leads to high latency, redundancy, and incoherent reasoning paths. Inspired by the Language of Thought Hypothesis, which posits that human reasoning operates over a symbolic, compositional mental language called Mentalese, we introduce a framework that trains models to reason in a similarly compact style. Mentalese encodes abstract reasoning as ultra-compressed, structured tokens, enabling models to solve complex problems with far fewer steps. To improve both efficiency and accuracy, we propose SHORTER LENGTH PREFERENCE OPTIMIZATION (SLPO), a reinforcement learning method that rewards concise solutions that stay correct, while still allowing longer reasoning when needed. Applied to Mentalese-aligned models, SLPO yields significantly higher compression rates by enabling concise reasoning that preserves the benefits of detailed thinking without the computational overhead. Across benchmarks including AIME 2024 and 2025, MinervaMath, OlympiadBench, Math500, and AMC, our ORION models produce reasoning traces with 4-16x fewer tokens, achieve up to 5x lower inference latency, and reduce training costs by 7-9x relative to the DeepSeek R1 Distilled model, while maintaining 90-98% of its accuracy. ORION also surpasses Claude and ChatGPT-4o by up to 5% in accuracy while maintaining 2x compression. These results show that Mentalese-style compressed reasoning offers a step toward human-like cognitive efficiency, enabling real-time, cost-effective reasoning without sacrificing accuracy.
- Abstract(参考訳): 大規模な推論モデル(LRM)は、数学、コード生成、タスク計画において高いパフォーマンスを達成するが、冗長なトークンの長い連鎖への依存は、高いレイテンシ、冗長性、一貫性のない推論パスをもたらす。
人間の推論が、メンタレーゼと呼ばれる象徴的で構成的な精神言語上で機能していることを示唆する思考仮説の言語に触発された我々は、同様のコンパクトなスタイルで推論をモデルに訓練する枠組みを導入する。
メンタレーゼは抽象的推論を超圧縮された構造化トークンとして符号化し、モデルがより少ないステップで複雑な問題を解くことを可能にする。
効率と精度を両立させるため,精度の高い解に報いる強化学習法であるSHORTER LENGTH Preferference OPTIMIZATION (SLPO)を提案する。
メンタレス整列モデルに適用すると、SLPOは計算オーバーヘッドを伴わずに詳細な思考の利点を保った簡潔な推論を可能にすることにより、かなり高い圧縮率が得られる。
AIME 2024と2025、MinervaMath、OlympiadBench、Math500、AMCなどを含むベンチマークでは、ORIONモデルは4~16倍のトークンの推論トレースを生成し、最大5倍の推論遅延を実現し、DeepSeek R1蒸留モデルと比較してトレーニングコストを7~98%削減し、精度の90~98%を維持しています。
ORIONはClaudeとChatGPT-4oを最大5%の精度で上回り、2倍圧縮を維持している。
これらの結果から,メンタレーゼ型圧縮推論は人間のような認知効率への一歩であり,精度を犠牲にすることなく,リアルタイムで費用対効果の高い推論を可能にすることが示唆された。
関連論文リスト
- Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking [50.97239453902612]
大規模推論モデル(LRM)は、困難なタスクにおいて顕著なパフォーマンスを達成したが、その深い推論はしばしばかなりの計算コストを発生させる。
Evidence Accumulation Modelsにインスパイアされて、LEMは推論の初期段階で十分な情報を蓄積し、さらなる推論ステップを冗長にすることがわかった。
不要な推論を積極的に終了させるためにモデルを訓練するJust-Enough Thinking (JET)を提案する。
論文 参考訳(メタデータ) (2025-09-27T16:25:06Z) - Do LLMs Overthink Basic Math Reasoning? Benchmarking the Accuracy-Efficiency Tradeoff in Language Models [6.312798900093575]
大規模言語モデル (LLM) は複雑な数学的ベンチマークでは優れた性能を得るが、基本的な数学的推論では失敗することがある。
本稿では,正確さと過度に考えることの基本的なトレードオフに焦点を当てる。
本研究は,総合モデル評価のための高精度とトークン効率を組み合わせた調和平均計量であるOverthinking Scoreを紹介する。
論文 参考訳(メタデータ) (2025-07-05T12:31:17Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。