Fugu-MT 論文翻訳(概要): Unlocking Recursive Thinking of LLMs: Alignment via Refinement

論文の概要: Unlocking Recursive Thinking of LLMs: Alignment via Refinement

arxiv url: http://arxiv.org/abs/2506.06009v1
Date: Fri, 06 Jun 2025 11:54:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:43.457069
Title: Unlocking Recursive Thinking of LLMs: Alignment via Refinement
Title（参考訳）: LLMの再帰的思考のアンロック:リファインメントによるアライメント
Authors: Haoke Zhang, Xiaobo Liang, Cunxiang Wang, Juntao Li, Min Zhang,
Abstract要約: 大規模言語モデルの可能性を解き明かす新しい手法であるtextbfAvR: textbfAlignment via Refinementを提案する。 LLaMA-3-8B-インストラクトモデルの性能をAlpacaEval 2.0で20%以上向上させる。
参考スコア（独自算出の注目度）: 27.702786437714888
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The OpenAI o1-series models have demonstrated that leveraging long-form Chain of Thought (CoT) can substantially enhance performance. However, the recursive thinking capabilities of Large Language Models (LLMs) remain limited, particularly in the absence of expert-curated data for distillation. In this paper, we propose \textbf{AvR}: \textbf{Alignment via Refinement}, a novel method aimed at unlocking the potential of LLMs for recursive reasoning through long-form CoT. AvR introduces a refinement process that integrates criticism and improvement actions, guided by differentiable learning techniques to optimize \textbf{refinement-aware rewards}. As a result, the synthesized multi-round data can be organized as a long refinement thought, further enabling test-time scaling. Experimental results show that AvR significantly outperforms conventional preference optimization methods. Notably, with only 3k synthetic samples, our method boosts the performance of the LLaMA-3-8B-Instruct model by over 20\% in win rate on AlpacaEval 2.0. Our code is available at Github (https://github.com/Banner-Z/AvR.git).
Abstract（参考訳）: OpenAI o1シリーズモデルは、CoT(Long-form Chain of Thought)を活用することで、性能を大幅に向上することを示した。しかし, 大規模言語モデル (LLM) の再帰的思考能力は, 特に蒸留のための専門家によるデータがない場合に限られている。本稿では,長期的CoTによる再帰的推論のための LLM の可能性を解き明かす新しい手法である \textbf{AvR}: \textbf{Alignment via Refinement} を提案する。 AvRは、批判と改善のアクションを統合する改善プロセスを導入し、差別化可能な学習技術により、 \textbf{refinement-aware rewards}を最適化する。その結果、合成した多ラウンドデータを長期化思想として整理することができ、さらにテスト時間スケーリングを可能にした。実験の結果,AvRは従来の選好最適化法よりも有意に優れていた。特に,LLaMA-3-8B-インストラクタモデルの性能をAlpacaEval 2.0の20倍以上向上させる。私たちのコードはGithub(https://github.com/Banner-Z/AvR.git)で公開しています。

関連論文リスト

OAT-Rephrase: Optimization-Aware Training Data Rephrasing for Zeroth-Order LLM Fine-Tuning [25.76983801886268]
本稿では,OAT-Rephraseについて紹介する。 OAT-RephraseはMeZOの微調整性能を常に改善することを示す。提案手法は,ゼロ階調音システムにおける再利用可能な低オーバヘッド向上に有効であることが示唆された。
論文参考訳（メタデータ） (2025-06-10T02:53:04Z)
TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。 GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文参考訳（メタデータ） (2025-06-05T15:56:38Z)
TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression [75.81611837629764]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-06-03T09:23:41Z)
Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文参考訳（メタデータ） (2025-05-25T11:03:45Z)
Effective Inference-Free Retrieval for Learned Sparse Representations [19.54810957623511]
Learned Sparse Retrieval (LSR)は、学習された単語の袋にテキストをエンコードするために訓練済みの言語モデルを利用する効果的なIRアプローチである。近年,新たな効率的な逆インデックスベース検索エンジンが提案されており,LSRモデルのトレーニングにおいて正規化の役割が変化したのか,という自然な疑問が投げかけられている。より効率的なLSRエンコーダを生成するために、正規化を緩和できることが示される。
論文参考訳（メタデータ） (2025-04-30T09:10:46Z)
d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。 d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-16T16:08:45Z)
C3PO: Critical-Layer, Core-Expert, Collaborative Pathway Optimization for Test-Time Expert Re-Mixing [21.119495676190127]
Mixture-of-Experts (MoE) Large Language Models (LLMs) は、高度に最適化されたエキスパートパスに苦しむ。プレトレーニングから学んだナイーブな専門家選択は、改善のための驚くべき10～20%の精度ギャップを残します。テストサンプル毎に異なるレイヤのエキスパートを共同で再重み付けあるいは「再混合」するための新しいテスト時間最適化手法を開発する。
論文参考訳（メタデータ） (2025-04-10T17:59:56Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Visualising Policy-Reward Interplay to Inform Zeroth-Order Preference Optimisation of Large Language Models [0.36326779753373206]
勾配の代わりに関数評価を用いたゼロ次最適化(ZO)は、メモリ使用量を減らすが、高次元モデルでは緩やかな収束に悩まされる。 LLMの優先度最適化のために設計された新しいZOアルゴリズムZOPrOを紹介する。本手法は,一階法に匹敵する収束時間を実現しつつ,報酬信号の連続的な向上を実証する。
論文参考訳（メタデータ） (2025-03-05T12:49:48Z)
Marco-o1 v2: Towards Widening The Distillation Bottleneck for Reasoning Models [39.22557129190619]
LRMの生成したデータに基づく蒸留は、より小さなモデルの推論能力を高めるための、単純かつ効果的な方法である。このボトルネックを軽減するために,モンテカルロ木探索を用いて木に基づくCoTデータを構築することを提案する。次に、構築したデータに基づいてSFTとRLを強化するために、Thoughts Length Balance, Fine-fine DPO, Joint Post-Training ObjectiveなどのCoT対応アプローチを利用する。
論文参考訳（メタデータ） (2025-03-03T12:17:36Z)
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文参考訳（メタデータ） (2025-02-14T18:59:51Z)
TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation [50.23504065567638]
本稿では,メタラーニングフレームワークにおける textbfDataset textbfDistillation 手法である textbfTD3 を紹介する。 TD3は、オリジナルのデータから完全に表現力のある合成配列の要約を蒸留する。拡張技術により、学習者は合成要約を忠実に適合させ、アンプループでの正確な更新を確実にすることができる。
論文参考訳（メタデータ） (2025-02-05T03:13:25Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。