論文の概要: Connections between reinforcement learning with feedback,test-time scaling, and diffusion guidance: An anthology
- arxiv url: http://arxiv.org/abs/2509.04372v1
- Date: Thu, 04 Sep 2025 16:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.221753
- Title: Connections between reinforcement learning with feedback,test-time scaling, and diffusion guidance: An anthology
- Title(参考訳): 強化学習とフィードバック,テスト時間スケーリング,拡散誘導の関連性:アンソロジー
- Authors: Yuchen Jiao, Yuxin Chen, Gen Li,
- Abstract要約: 本研究では,人的フィードバックによる強化学習,内部フィードバックによる強化学習,テスト時間スケーリングとの親密な関係と等価性を明らかにする。
我々は、アライメントと報酬指向拡散モデルに対する再サンプリングアプローチを導入し、明示的な強化学習技術の必要性を脇取りする。
- 参考スコア(独自算出の注目度): 20.827441524264945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this note, we reflect on several fundamental connections among widely used post-training techniques. We clarify some intimate connections and equivalences between reinforcement learning with human feedback, reinforcement learning with internal feedback, and test-time scaling (particularly soft best-of-$N$ sampling), while also illuminating intrinsic links between diffusion guidance and test-time scaling. Additionally, we introduce a resampling approach for alignment and reward-directed diffusion models, sidestepping the need for explicit reinforcement learning techniques.
- Abstract(参考訳): 本稿では、広く使われているポストトレーニング技術間のいくつかの基本的関係を考察する。
本研究では,人的フィードバックによる強化学習,内部フィードバックによる強化学習,テストタイムスケーリング(特にソフト・ベスト・オブ・N$サンプリング)との親密な関係と等価性を明らかにし,拡散誘導とテストタイムスケーリングの本質的な関係を明らかにした。
さらに、アライメントと報酬指向拡散モデルに対する再サンプリング手法を導入し、明示的な強化学習技術の必要性を脇取りする。
関連論文リスト
- Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Foundations of Reinforcement Learning and Interactive Decision Making [81.76863968810423]
本稿では,頻度主義的アプローチとベイズ的アプローチを用いた探索・探索ジレンマに対処するための統一的な枠組みを提案する。
ニューラルネットワークのような近似とフレキシブルなモデルクラスを機能させるために特別な注意が払われる。
論文 参考訳(メタデータ) (2023-12-27T21:58:45Z) - From Patches to Objects: Exploiting Spatial Reasoning for Better Visual
Representations [2.363388546004777]
本研究では,空間的推論に基づく新しい予備的事前学習手法を提案する。
本提案手法は,識別的自己管理手法の補助的タスクとして空間推論を導入することで,より柔軟なコントラスト学習の定式化を実現する。
論文 参考訳(メタデータ) (2023-05-21T07:46:46Z) - Learning Trajectories are Generalization Indicators [44.53518627207067]
本稿では,Deep Neural Networks (DNN) の学習軌跡と一般化能力との関係について検討する。
本稿では,各更新ステップの一般化誤差の変化に対する寄与を調査し,一般化誤差を解析するための新しい視点を提案する。
また,学習率やラベルのノイズレベルに対する調整を行う場合,一般化誤差の変化も追跡できる。
論文 参考訳(メタデータ) (2023-04-25T05:08:57Z) - Deep Bregman Divergence for Contrastive Learning of Visual
Representations [4.994260049719745]
Deep Bregmanの発散は、ユークリッド距離を超えるニューラルネットワークを用いて、データポイントの発散を測定する。
我々は,機能的ブレグマンの発散に基づく追加ネットワークを訓練することにより,自己教師あり学習におけるコントラスト損失を高めることを目的としている。
論文 参考訳(メタデータ) (2021-09-15T17:44:40Z) - Learning Representations that Support Extrapolation [39.84463809100903]
我々は外挿を支援する表現を学習する上での課題について考察する。
本稿では,外挿の段階的評価を可能にする新しい視覚的類似性ベンチマークを提案する。
また、オブジェクト間の関係を強調する表現を促進するシンプルな手法である時間的文脈正規化を導入する。
論文 参考訳(メタデータ) (2020-07-09T20:53:45Z) - Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。
我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。
適応勾配法の一般化に関する経験的および理論的考察を示す。
論文 参考訳(メタデータ) (2020-02-26T21:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。