論文の概要: Automated Proving of Shannon-Type Entropy Inequalities via Fine-Tuned Language Models and Guided Tree Search
- arxiv url: http://arxiv.org/abs/2606.05729v1
- Date: Thu, 04 Jun 2026 05:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.578087
- Title: Automated Proving of Shannon-Type Entropy Inequalities via Fine-Tuned Language Models and Guided Tree Search
- Title(参考訳): 微調整言語モデルと誘導木探索によるシャノン型エントロピー不等式の自動証明
- Authors: Shing Yin Wong, Shaocheng Liu, Linqi Song, Amin Gohari, Cheuk Ting Li,
- Abstract要約: シャノン型エントロピーの不等式を証明することは情報理論の基本的な課題である。
我々は,原子実証のステップを微調整した小規模大規模言語モデルがこのプロセスを自動化することができるか検討する。
GPT-5.5は0ショットプロンプトで1.7%のサンプルを解き、Psitipは33.3%のサンプルを解いた。
- 参考スコア(独自算出の注目度): 50.16356451328644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proving Shannon-type entropy inequalities is a fundamental task in information theory that often requires constructing non-trivial linear combinations of known constraints, which is a combinatorial search problem that scales poorly with the number of random variables. We investigate whether small-scale large language models (0.6B--1.7B parameters), fine-tuned on atomic proof steps and combined with guided beam search, can automate this process. On a held-out test set of 60 inequalities spanning n=10 to 15 variables, our 0.6B fine-tuned model achieves an 85\% proof success rate with tree search. GPT-5.5 solves 1.7\% samples under zero-shot prompting while Psitip solves 33.3\% samples. A systematic ablation study across training context length (4096 vs.\ 8192 tokens) and data distribution (n=9-skewed vs not skewed) reveals that a 4096-token not skewed training distribution yields the best performance, with extended context and skewed data providing no marginal benefit. We further identify two dominant failure modes -- format failures and step quality degradation -- and verify that the beam-scoring heuristic is essential via a controlled ablation (random scoring reduces success from 83\% to 23\%).
- Abstract(参考訳): シャノン型エントロピーの不等式を証明することは、しばしば既知の制約の非自明な線形結合を構築することを必要とする情報理論の基本的なタスクである。
我々は,原子証明ステップを微調整し,ガイドビームサーチと組み合わせることで,小規模大規模言語モデル (0.6B--1.7Bパラメータ) が自動化可能であるか検討する。
n=10から15変数にまたがる60の不等式を保留したテストセットでは、0.6Bの微調整モデルが木探索で85\%の証明成功率を達成する。
GPT-5.5は0ショットプロンプトで1.7\%のサンプルを解き、Psitipは33.3\%のサンプルを解いた。
トレーニングコンテキストの長さ(4096 vs。
8192トークン)とデータ分散(n=9スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュード/スキュー/スキュー)は4096
さらに、フォーマットの失敗とステップ品質の劣化という2つの主要な障害モードを特定し、ビームスコリングヒューリスティックが制御されたアブレーション(ランダムスコアリングは成功を83\%から23\%に低下させる)によって不可欠であることを検証します。
関連論文リスト
- Models Can Model, But Can't Bind: Structured Grounding in Text-to-Optimization [54.749573452394664]
定式化自体が単純である場合でも、インスタンスデータが大きくなるにつれて精度が低下する。
我々は, 数値データを構造化ファイルに外部化する単純な推論時アプローチであるBINDを用いて, モデルがプロンプトプロンプトからではなく, データをバインドする。
我々は,モデルのみをバインディングのみに微調整することで仮説を検証し,3つの構造的に異なる最適化カテゴリにおいて,エンドツーエンドのSFTおよびRLよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-05-20T21:25:41Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - Cognitive-Uncertainty Guided Knowledge Distillation for Accurate Classification of Student Misconceptions [11.509375725817195]
既存のデータから高価値サンプルをマイニングする2段階の知識蒸留フレームワークを提案する。
フィルタされたサンプルのわずか10.30%で強化トレーニングを行うことで、MAP-Chartingデータセットで0.9585 (+17.8%)のMAP@3を達成する。
4Bパラメータモデルのみを用いて、中学代数学の誤概念ベンチマークのクロストピックテストにおいて84.38%の精度が得られる。
論文 参考訳(メタデータ) (2026-05-14T12:17:38Z) - LaTER: Efficient Test-Time Reasoning via Latent Exploration and Explicit Verification [35.08680804423239]
CoT(Chain-of- Thought)推論は、難しいタスクにおいて大きな言語モデル(LLM)を改善するが、推論コストも高くつく。
本稿では,連続潜伏空間における有界探索を最初に行う2段階のパラダイムであるLaTERを提案する。
LaTERは入力の埋め込み空間に隠された最後の層を投影し、潜伏KVキャッシュを保持し、エントロピーとモデルネイティブのストップトーケンプローブを使用していつ切り替えるかを決定する。
論文 参考訳(メタデータ) (2026-05-08T06:23:58Z) - On the Role of Reasoning Patterns in the Generalization Discrepancy of Long Chain-of-Thought Supervised Fine-Tuning [63.41902113656453]
長いチェーン・オブ・ソート(CoT)軌道上でのSFT(Supervised Fine-Tuning)は、大きな推論モデルを構築する上で重要なフェーズとなっている。
2つの競合モデルによって生成された2つの検証されたCoT軌道源を用いて比較研究を行う。
textttDeepSeek-R1-0528データ上のSFTは、トレーニング損失を著しく低減するが、一般化性能は著しく低下する。
論文 参考訳(メタデータ) (2026-04-02T07:00:54Z) - When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning [16.505918019260964]
信頼性と信頼性の低い予測を混合することにより,最先端モデル(Qwen2.5-Math-7B)の精度が61%向上することが実証された。
正しい予測の18.4%は安定で忠実な推論を採用しており、81.6%は計算的に一貫性のない経路を通して現れる。
論文 参考訳(メタデータ) (2026-03-03T19:43:36Z) - BeyondBench: Benchmark-Free Evaluation of Reasoning in Language Models [13.380359214677176]
インターネット規模のトレーニングデータから汚染を避けるための評価フレームワークであるBeyondBenchを紹介する。
本フレームワークでは,44のアルゴリズムタスクを117のバリエーションでカバーし,3つの難易度に分類する。
85のオープンソースモデルと16のクローズドソースモデルを含む101の言語モデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T02:49:01Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。