論文の概要: Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning
- arxiv url: http://arxiv.org/abs/2504.08672v1
- Date: Fri, 11 Apr 2025 16:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-21 16:23:50.143885
- Title: Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning
- Title(参考訳): Genius: 高度な推論のための汎用的で純粋に教師なしの自己学習フレームワーク
- Authors: Fangzhi Xu, Hang Yan, Chang Ma, Haiteng Zhao, Qiushi Sun, Kanzhi Cheng, Junxian He, Jun Liu, Zhiyong Wu,
- Abstract要約: 我々はGeniusという,汎用的で純粋に教師なしの自己学習フレームワークを導入する。
外部補助がなければ、ゲニウスは段階的に最適な応答列を求める必要がある。
本稿では,推定の不整合を軽減するために,ACO損失関数を提案する。
- 参考スコア(独自算出の注目度): 31.09314024852743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancing LLM reasoning skills has captivated wide interest. However, current post-training techniques rely heavily on supervisory signals, such as outcome supervision or auxiliary reward models, which face the problem of scalability and high annotation costs. This motivates us to enhance LLM reasoning without the need for external supervision. We introduce a generalizable and purely unsupervised self-training framework, named Genius. Without external auxiliary, Genius requires to seek the optimal response sequence in a stepwise manner and optimize the LLM. To explore the potential steps and exploit the optimal ones, Genius introduces a stepwise foresight re-sampling strategy to sample and estimate the step value by simulating future outcomes. Further, we recognize that the unsupervised setting inevitably induces the intrinsic noise and uncertainty. To provide a robust optimization, we propose an advantage-calibrated optimization (ACO) loss function to mitigate estimation inconsistencies. Combining these techniques together, Genius provides an advanced initial step towards self-improve LLM reasoning with general queries and without supervision, revolutionizing reasoning scaling laws given the vast availability of general queries. The code will be released at https://github.com/xufangzhi/Genius.
- Abstract(参考訳): LLM推論スキルの向上は、広く関心を集めている。
しかし、現在のポストトレーニング技術は、スケーラビリティと高アノテーションコストの問題に直面している結果監視や補助報酬モデルのような監督的な信号に大きく依存している。
このことは、外部の監督を必要とせず、LSM推論を強化する動機となっている。
我々はGeniusという,汎用的で純粋に教師なしの自己学習フレームワークを導入する。
外部補助がなければ、ゲニウスは段階的に最適な応答列を求め、LSMを最適化する必要がある。
潜在的なステップを探索し、最適なステップを活用するために、Genius氏は、将来の成果をシミュレートしてステップ値のサンプリングと推定を行う、ステップワイズな再サンプリング戦略を導入した。
さらに,教師なしの設定が本質的なノイズや不確実性を必然的に引き起こすことも認識している。
頑健な最適化を実現するため,推定の不整合を軽減するために,ACO損失関数を提案する。
これらのテクニックを組み合わせることで、Geniusは、一般的なクエリによる自己改善LPM推論と、監視なしでの自己改善に向けた、高度な初期ステップを提供する。
コードはhttps://github.com/xufangzhi/Genius.comで公開される。
関連論文リスト
- Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Right Question is Already Half the Answer: Fully Unsupervised LLM Reasoning Incentivization [47.04132451658664]
大規模言語モデル(LLM)は、数学的推論のような挑戦的なタスクにおいて例外的な能力を示した。
推論能力を高める既存の方法は、教師付き微調整(SFT)と、事前学習後の推論固有データに基づく強化学習(RL)に依存している。
本稿では,エントロピー最小化政策最適化(EMPO)を提案する。
論文 参考訳(メタデータ) (2025-04-08T08:48:51Z) - Uncertainty-Guided Chain-of-Thought for Code Generation with LLMs [45.33160999781074]
大規模言語モデル(LLM)の問題解決能力向上に有効な手法として,チェーン・オブ・ソート(CoT)推論が実証されている。
我々は、不確実性を認識したCoT推論機構を組み込むことで、コード生成を向上させるためのUnCert-CoTを導入する。
論文 参考訳(メタデータ) (2025-03-19T15:40:45Z) - Can Reasoning Models Reason about Hardware? An Agentic HLS Perspective [18.791753740931185]
OpenAI o3-mini と DeepSeek-R1 は Chain-of-Thought (CoT) を通じて推論を強化している
本稿では, LLM の推論が高レベル合成(HLS)設計空間探索と最適化の課題に対処できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-03-17T01:21:39Z) - Can Large Language Models Be Trusted as Black-Box Evolutionary Optimizers for Combinatorial Problems? [8.082897040940447]
LLM(Large Language Models)は、幅広い知識でゲームを変えるソリューションを提供し、最適化のパラダイムを民主化することができる。
したがって、LLMの適合性を進化機構(EVO)として評価することが不可欠である。
論文 参考訳(メタデータ) (2025-01-25T05:19:19Z) - Thinking LLMs: General Instruction Following with Thought Generation [56.30755438254918]
本稿では,人体データの追加を使わずに,そのような思考能力を持つ既存LLMの訓練方法を提案する。
各命令に対して、思考候補は判断モデルを用いて応答のみを評価し、好みの最適化によって最適化される。
この手法がAlpacaEvalやArena-Hardに優れたパフォーマンスをもたらすことを示すとともに,マーケティング,健康,一般知識といった非合理的なカテゴリーの考え方から得られる利益を示す。
論文 参考訳(メタデータ) (2024-10-14T15:38:56Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Exploring the True Potential: Evaluating the Black-box Optimization Capability of Large Language Models [32.859634302766146]
大規模言語モデル (LLM) は自然言語処理タスクにおいて例外的な性能を示した。
本稿では,LLMの最適化の可能性について深い知見を提供する。
本研究は,LLMの最適化における限界と利点を明らかにした。
論文 参考訳(メタデータ) (2024-04-09T13:17:28Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。