Fugu-MT 論文翻訳(概要): Learning to chain-of-thought with Jensen's evidence lower bound

論文の概要: Learning to chain-of-thought with Jensen's evidence lower bound

arxiv url: http://arxiv.org/abs/2503.19618v1
Date: Tue, 25 Mar 2025 13:03:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 02:13:56.477078
Title: Learning to chain-of-thought with Jensen's evidence lower bound
Title（参考訳）: ジェンセンの証明を下限にチェーン・オブ・シークレットを学ぶ
Authors: Yunhao Tang, Sid Wang, Rémi Munos,
Abstract要約: 本稿では,強化学習による思考の連鎖を最適化する手法を提案する。本アルゴリズムは,確率的推論問題の一部として,潜在変数としてチェーン・オブ・シントを解釈することに依存する。我々は,ジェンセンの下限による最適化が,外的報酬を伴う政策勾配と同じくらい効果的であることを示す。
参考スコア（独自算出の注目度）: 27.21190979806394
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a way to optimize chain-of-thought with reinforcement learning, but without external reward function. Our algorithm relies on viewing chain-of-thought as latent variable as part of a probabilistic inference problem. Contrary to the full evidence lower bound, we propose to apply a much simpler Jensen's lower bound, which derives tractable objectives with simple algorithmic components (e.g., without the need for parametric approximate posterior), making it more conducive to modern large-scale training. The lower bound approach naturally interpolates other methods such as supervised fine-tuning and online reinforcement learning, whose practical trade-offs we will illustrate. Finally, we show that on mathematical reasoning problems, optimizing with Jensen's lower bound is as effective as policy gradient with external reward. Taken together, our results showcase as a proof of concept to this new algorithmic paradigm's potential to more generic applications.
Abstract（参考訳）: 本稿では,強化学習による思考の連鎖を最適化する手法を提案する。本アルゴリズムは,確率的推論問題の一部として,潜在変数としてチェーン・オブ・シントを解釈することに依存する。より単純なアルゴリズム的成分(例えば、パラメトリックな近似的後進を必要とせずに)でトラクタブルな目的を導出するイェンセンの下界を、より単純なイェンセンの下界に適用することを提案する。下限アプローチは、教師付き微調整やオンライン強化学習などの他の手法を自然に補足する。最後に、数学的推論問題において、ジェンセンの下限を最適化することは、外的報酬を伴う政策勾配と同じくらい効果的であることを示す。まとめると、我々の結果は、この新しいアルゴリズムパラダイムがより汎用的なアプリケーションにもたらす可能性の実証として現れます。

関連論文リスト

CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文参考訳（メタデータ） (2026-01-30T10:33:29Z)
Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。 E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文参考訳（メタデータ） (2025-10-28T17:50:40Z)
Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values [53.72318444646282]
RLEV(Reinforcement Learning with Explicit Human Values)を提案する。 RLEVは、Large Language Model (LLM) 最適化を直接、定量化された人間の値信号と整合させる。 RLEVは、複数のRLアルゴリズムとモデルスケールで、精度のみのベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2025-10-23T04:15:22Z)
LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文参考訳（メタデータ） (2025-10-16T17:55:11Z)
SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文参考訳（メタデータ） (2025-05-22T08:50:47Z)
TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning [11.573904453859098]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高める強力なツールとなった。しかし、RLの成功は、検証者によって提供される報酬の信頼性に依存している。本稿では, 正のモデル出力を誤って拒否する不適切な負の問題を公開し, 解析する。既存のルールベースの手法を拡張する軽量なLCMベースの検証器である littleV を提案する。
論文参考訳（メタデータ） (2025-05-20T17:16:44Z)
Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers [57.95157497749428]
RL$V$は、LLMを推論器と生成検証器の両方として共同で訓練することにより、任意の値自由なRL法を増強する。 RL$V$は、並列サンプリングでMATHの精度を20%以上向上し、効率的なテスト時間計算のスケーリングを可能にする。
論文参考訳（メタデータ） (2025-05-07T22:41:26Z)
All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning [40.93098780862429]
基礎モデルファインチューニング(FT)における最強の結果は,比較的複雑な2段階の訓練手順によって達成されることを示す。 1つは、ダウンストリーム強化学習手順の一部としてオンラインフィードバックを提供するために使用する前に、あるデータセット(例えば人間の好み)に報酬モデル(RM)をトレーニングする。我々は、生成検証ギャップの問題、比較的単純なRMを好みデータから学習することの容易さ、下流のRLプロシージャが探索空間を最適なポリシーのサブセットにフィルタリングする能力の組み合わせ、といった説明を最も支持している。
論文参考訳（メタデータ） (2025-03-03T00:15:19Z)
Online Preference Alignment for Language Models via Count-based Exploration [46.46627519343809]
Reinforcement Learning from Human Feedback (RLHF)は、人間の好みに合わせて微調整された大規模言語モデル(LLM)に大きな可能性を示している。既存のメソッドは、データカバレッジに制限のある、固定データセットからの好みのアライメントを実行する。オンラインRLHFは、プロンプト-レスポンスペアを反復的に収集することで、LLMが初期データセットのサポートの外部を探索できるようにするのが望ましい。
論文参考訳（メタデータ） (2025-01-22T09:12:09Z)
Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文参考訳（メタデータ） (2024-07-09T08:14:29Z)
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文参考訳（メタデータ） (2024-01-11T17:58:41Z)
Optimizing Solution-Samplers for Combinatorial Problems: The Landscape of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-10-08T23:39:38Z)
Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文参考訳（メタデータ） (2023-05-24T17:26:22Z)
Towards Democratizing Joint-Embedding Self-Supervised Learning [17.59181163979478]
一つのイメージパッチを負の例として用いながら,SimCLRに有用な表現を学習させることが可能であることを示す。 JE-SSLを民主化するために、SSL用に最適化されたPyTorchライブラリを導入します。
論文参考訳（メタデータ） (2023-03-03T14:55:44Z)
Unified Convergence Theory of Stochastic and Variance-Reduced Cubic Newton Methods [37.1630298053787]
我々はヘルパーフレームワークと呼ばれる新しいフレームワークを提案する。グローバルな複雑性保証を備えた分散アルゴリズムと二階アルゴリズムの統一的なビューを提供する。
論文参考訳（メタデータ） (2023-02-23T12:18:28Z)
CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文参考訳（メタデータ） (2022-06-01T03:02:07Z)
Chaos is a Ladder: A New Theoretical Understanding of Contrastive Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文参考訳（メタデータ） (2022-03-25T05:36:26Z)
Efficient Performance Bounds for Primal-Dual Reinforcement Learning from Demonstrations [1.0609815608017066]
本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
論文参考訳（メタデータ） (2021-12-28T05:47:24Z)
A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2021-08-22T16:00:45Z)
A Low Rank Promoting Prior for Unsupervised Contrastive Learning [108.91406719395417]
提案手法は,従来の低階の促進をコントラスト学習の枠組みに効果的に組み込む新しい確率的グラフィカルモデルを構築する。我々の仮説は、同じインスタンスクラスに属するすべてのサンプルが、小さな次元の同じ部分空間上にあることを明示的に要求する。実証的な証拠は、提案アルゴリズムが複数のベンチマークにおける最先端のアプローチを明らかに上回っていることを示している。
論文参考訳（メタデータ） (2021-08-05T15:58:25Z)
The Role of Entropy in Guiding a Connection Prover [1.279913017771418]
定理証明における推論ステップを選択するための優れたアルゴリズムの学習法について検討する。まず、現在最先端の学習アルゴリズムであるグラフニューラルネットワーク(GNN)をplCoP定理証明器に組み込むことから始める。
論文参考訳（メタデータ） (2021-05-31T04:57:44Z)
Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文参考訳（メタデータ） (2021-04-12T13:13:34Z)
Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces [14.029933823101084]
学習と不確実性評価(ELUE)を埋め込んだ新しいオフポリシーメタRL法を提案する。 ELUEは、埋め込み空間と信念条件ポリシーとQ関数に関する信念モデルを学びます。 ELUEは,メタRLベンチマーク実験により,最先端のメタRL法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-01-06T05:51:38Z)
Deep Magnification-Flexible Upsampling over 3D Point Clouds [103.09504572409449]
本稿では,高密度点雲を生成するためのエンドツーエンド学習ベースのフレームワークを提案する。まずこの問題を明示的に定式化し、重みと高次近似誤差を判定する。そこで我々は,高次改良とともに,統一重みとソート重みを適応的に学習する軽量ニューラルネットワークを設計する。
論文参考訳（メタデータ） (2020-11-25T14:00:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。