論文の概要: Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning
- arxiv url: http://arxiv.org/abs/2504.08672v1
- Date: Fri, 11 Apr 2025 16:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:20:29.729901
- Title: Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning
- Title(参考訳): Genius: 高度な推論のための汎用的で純粋に教師なしの自己学習フレームワーク
- Authors: Fangzhi Xu, Hang Yan, Chang Ma, Haiteng Zhao, Qiushi Sun, Kanzhi Cheng, Junxian He, Jun Liu, Zhiyong Wu,
- Abstract要約: 我々はGeniusという,汎用的で純粋に教師なしの自己学習フレームワークを導入する。
外部補助がなければ、ゲニウスは段階的に最適な応答列を求める必要がある。
本稿では,推定の不整合を軽減するために,ACO損失関数を提案する。
- 参考スコア(独自算出の注目度): 31.09314024852743
- License:
- Abstract: Advancing LLM reasoning skills has captivated wide interest. However, current post-training techniques rely heavily on supervisory signals, such as outcome supervision or auxiliary reward models, which face the problem of scalability and high annotation costs. This motivates us to enhance LLM reasoning without the need for external supervision. We introduce a generalizable and purely unsupervised self-training framework, named Genius. Without external auxiliary, Genius requires to seek the optimal response sequence in a stepwise manner and optimize the LLM. To explore the potential steps and exploit the optimal ones, Genius introduces a stepwise foresight re-sampling strategy to sample and estimate the step value by simulating future outcomes. Further, we recognize that the unsupervised setting inevitably induces the intrinsic noise and uncertainty. To provide a robust optimization, we propose an advantage-calibrated optimization (ACO) loss function to mitigate estimation inconsistencies. Combining these techniques together, Genius provides an advanced initial step towards self-improve LLM reasoning with general queries and without supervision, revolutionizing reasoning scaling laws given the vast availability of general queries. The code will be released at https://github.com/xufangzhi/Genius.
- Abstract(参考訳): LLM推論スキルの向上は、広く関心を集めている。
しかし、現在のポストトレーニング技術は、スケーラビリティと高アノテーションコストの問題に直面している結果監視や補助報酬モデルのような監督的な信号に大きく依存している。
このことは、外部の監督を必要とせず、LSM推論を強化する動機となっている。
我々はGeniusという,汎用的で純粋に教師なしの自己学習フレームワークを導入する。
外部補助がなければ、ゲニウスは段階的に最適な応答列を求め、LSMを最適化する必要がある。
潜在的なステップを探索し、最適なステップを活用するために、Genius氏は、将来の成果をシミュレートしてステップ値のサンプリングと推定を行う、ステップワイズな再サンプリング戦略を導入した。
さらに,教師なしの設定が本質的なノイズや不確実性を必然的に引き起こすことも認識している。
頑健な最適化を実現するため,推定の不整合を軽減するために,ACO損失関数を提案する。
これらのテクニックを組み合わせることで、Geniusは、一般的なクエリによる自己改善LPM推論と、監視なしでの自己改善に向けた、高度な初期ステップを提供する。
コードはhttps://github.com/xufangzhi/Genius.comで公開される。
関連論文リスト
- The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding? [39.602857110637736]
本稿では,高品質な質問応答データを完全自律的に生成するフレームワークであるCrescentを提案する。
数学推論のための外部監視信号がゼロであることから、クレセントは真の自己改善の可能性に光を当てている。
論文 参考訳(メタデータ) (2025-02-19T05:37:08Z) - Can Large Language Models Be Trusted as Black-Box Evolutionary Optimizers for Combinatorial Problems? [8.082897040940447]
LLM(Large Language Models)は、幅広い知識でゲームを変えるソリューションを提供し、最適化のパラダイムを民主化することができる。
したがって、LLMの適合性を進化機構(EVO)として評価することが不可欠である。
論文 参考訳(メタデータ) (2025-01-25T05:19:19Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - AssistRAG: Boosting the Potential of Large Language Models with an Intelligent Information Assistant [23.366991558162695]
大規模言語モデルは「幻覚」として知られる事実的に誤った情報を生成する
これらの課題に対処するため、我々はAssistRAG(AssistRAG)を用いた検索生成支援システムを提案する。
このアシスタントは、ツールの使用、アクションの実行、メモリ構築、プラン仕様を通じて、メモリと知識を管理する。
論文 参考訳(メタデータ) (2024-11-11T09:03:52Z) - Thinking LLMs: General Instruction Following with Thought Generation [56.30755438254918]
本稿では,人体データの追加を使わずに,そのような思考能力を持つ既存LLMの訓練方法を提案する。
各命令に対して、思考候補は判断モデルを用いて応答のみを評価し、好みの最適化によって最適化される。
この手法がAlpacaEvalやArena-Hardに優れたパフォーマンスをもたらすことを示すとともに,マーケティング,健康,一般知識といった非合理的なカテゴリーの考え方から得られる利益を示す。
論文 参考訳(メタデータ) (2024-10-14T15:38:56Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。
PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。
LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T04:21:24Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Do LLM Agents Have Regret? A Case Study in Online Learning and Games [30.377709765198592]
大規模言語モデル(LLM)は(対話的な)意思決定にますます採用されている。
オンライン学習とゲーム理論のベンチマーク決定設定において,それらの相互作用について検討する。
本稿では,教師付きプレトレーニングの損失とは対照的に,教師付き行動のラベルを必要としない新しいインフントレーニングの損失を提案する。
論文 参考訳(メタデータ) (2024-03-25T15:04:11Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。