論文の概要: Self-Improvement as Coherence Optimization: A Theoretical Account
- arxiv url: http://arxiv.org/abs/2601.13566v1
- Date: Tue, 20 Jan 2026 03:50:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.143955
- Title: Self-Improvement as Coherence Optimization: A Theoretical Account
- Title(参考訳): コヒーレンス最適化としての自己改善:理論的考察
- Authors: Tianyi Qiu, Ahmed Hani Ismail, Zhonghao He, Shi Feng,
- Abstract要約: 議論、ブートストラップ、内部コヒーレンスといった手法は、外部の監督なしに言語精度を向上させる。
これらはすべてコヒーレンス最適化の特別なケースであり、最も圧縮可能で、共同で予測可能なコンテキスト・ツー・ビヘイビアマッピングを見つけることを示しています。
予備実験で支持された我々の理論は、なぜフィードバックのない自己改善が機能するのかを説明し、それが成功するか失敗するかを予測する。
- 参考スコア(独自算出の注目度): 6.5149178919524475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can language models improve their accuracy without external supervision? Methods such as debate, bootstrap, and internal coherence maximization achieve this surprising feat, even matching golden finetuning performance. Yet why they work remains theoretically unclear. We show that they are all special cases of coherence optimization: finding a context-to-behavior mapping that's most compressible and jointly predictable. We prove that coherence optimization is equivalent to description-length regularization, and that among all such regularization schemes, it is optimal for semi-supervised learning when the regularizer is derived from a pretrained model. Our theory, supported by preliminary experiments, explains why feedback-free self-improvement works and predicts when it should succeed or fail.
- Abstract(参考訳): 言語モデルは、外部の監督なしに精度を向上させることができるか?
議論、ブートストラップ、内部コヒーレンス最大化といった手法はこの驚くべき偉業を成し遂げ、黄金の微調整のパフォーマンスにマッチする。
しかし、なぜそれが機能するのかは理論的には不明である。
これらはすべてコヒーレンス最適化の特別なケースであり、最も圧縮可能で、共同で予測可能なコンテキスト・ツー・ビヘイビアマッピングを見つけることを示しています。
我々は、コヒーレンス最適化が記述長正規化と等価であること、そして、これらの正規化スキームの中で、正規化が事前訓練されたモデルから導出されるとき、半教師付き学習に最適であることを証明した。
予備実験で支持された我々の理論は、なぜフィードバックのない自己改善が機能するのかを説明し、それが成功するか失敗するかを予測する。
関連論文リスト
- A Probabilistic Inference Scaling Theory for LLM Self-Correction [49.42817548142699]
大規模言語モデル(LLM)は、自己補正によって生成された回答を洗練する能力を示した。
本稿では,精度変化のダイナミクスをモデル化する確率論的理論を提案し,マルチラウンド自己補正で観測された性能改善について説明する。
論文 参考訳(メタデータ) (2025-08-22T15:15:38Z) - SSPO: Self-traced Step-wise Preference Optimization for Process Supervision and Reasoning Compression [15.87106741558898]
後学習法は補助的なモデルや過度な考えのためにかなりの計算オーバーヘッドを発生させる。
本稿では,プラグインRLgableプロセス監視フレームワークであるSSPO(Self-traced Step-wise Preference Optimization)を提案する。
SSPOは、モデル自身が生成したステップワイズ優先信号を使用して、圧縮を推論するための最適化プロセスを導出する。
論文 参考訳(メタデータ) (2025-08-18T04:02:15Z) - Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。
本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文 参考訳(メタデータ) (2025-04-04T04:42:38Z) - A Novel Unified Parametric Assumption for Nonconvex Optimization [53.943470475510196]
非最適化は機械学習の中心であるが、一般の非凸性は弱い収束を保証するため、他方に比べて悲観的すぎる。
非凸アルゴリズムに新しい統一仮定を導入する。
論文 参考訳(メタデータ) (2025-02-17T21:25:31Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Fine-Grained Dynamic Framework for Bias-Variance Joint Optimization on Data Missing Not at Random [2.8165314121189247]
レコメンデーションシステムやディスプレイ広告など、ほとんどの実践的なアプリケーションでは、収集されたデータには欠落する値が含まれることが多い。
我々は,バイアスと分散を協調的に最適化する,体系的なきめ細かな動的学習フレームワークを開発した。
論文 参考訳(メタデータ) (2024-05-24T10:07:09Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - From inexact optimization to learning via gradient concentration [22.152317081922437]
本稿では,滑らかな損失関数を持つ線形モデルの文脈における現象について検討する。
本稿では、不正確な最適化と確率論、特に勾配集中のアイデアを組み合わせた証明手法を提案する。
論文 参考訳(メタデータ) (2021-06-09T21:23:29Z) - Reverse engineering learned optimizers reveals known and novel
mechanisms [50.50540910474342]
学習は最適化問題を解決するために自らを訓練できるアルゴリズムである。
実験の結果は,学習の動作方法に関するそれまでの曖昧な理解を解明し,今後の学習を解釈するためのツールを確立するのに役立つ。
論文 参考訳(メタデータ) (2020-11-04T07:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。