論文の概要: floq: Training Critics via Flow-Matching for Scaling Compute in Value-Based RL
- arxiv url: http://arxiv.org/abs/2509.06863v1
- Date: Mon, 08 Sep 2025 16:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.260308
- Title: floq: Training Critics via Flow-Matching for Scaling Compute in Value-Based RL
- Title(参考訳): floq: バリューベースのRLで計算をスケールするためのフローマッチングによる批判のトレーニング
- Authors: Bhavya Agrawalla, Michal Nauman, Khush Agarwal, Aviral Kumar,
- Abstract要約: floqは、速度場を用いてQ関数をパラメータ化し、フローマッチングの技法を用いてそれを訓練するアプローチである。
Floqは、オフラインのRLベンチマークとオンラインの微調整タスクで、パフォーマンスを1.8倍近く改善している。
- 参考スコア(独自算出の注目度): 26.288205235851887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A hallmark of modern large-scale machine learning techniques is the use of training objectives that provide dense supervision to intermediate computations, such as teacher forcing the next token in language models or denoising step-by-step in diffusion models. This enables models to learn complex functions in a generalizable manner. Motivated by this observation, we investigate the benefits of iterative computation for temporal difference (TD) methods in reinforcement learning (RL). Typically they represent value functions in a monolithic fashion, without iterative compute. We introduce floq (flow-matching Q-functions), an approach that parameterizes the Q-function using a velocity field and trains it using techniques from flow-matching, typically used in generative modeling. This velocity field underneath the flow is trained using a TD-learning objective, which bootstraps from values produced by a target velocity field, computed by running multiple steps of numerical integration. Crucially, floq allows for more fine-grained control and scaling of the Q-function capacity than monolithic architectures, by appropriately setting the number of integration steps. Across a suite of challenging offline RL benchmarks and online fine-tuning tasks, floq improves performance by nearly 1.8x. floq scales capacity far better than standard TD-learning architectures, highlighting the potential of iterative computation for value learning.
- Abstract(参考訳): 現代の大規模機械学習技術の目玉は、教師が言語モデルに次のトークンを強制したり、拡散モデルにステップバイステップを課したりするなど、中間計算に厳密な監督を提供する訓練目的の使用である。
これにより、モデルは一般化可能な方法で複素関数を学習することができる。
本研究の目的は,強化学習(RL)における時間差分法(TD)における反復計算の利点を検討することである。
通常、それらは反復計算なしでモノリシックな方法で値関数を表現する。
本稿では,速度場を用いてQ関数をパラメータ化し,フローマッチングの手法を用いてQ関数を訓練するアプローチであるfloq(flow-matching Q-functions)を紹介する。
この流れの下の速度場は、目標速度場が生成した値からブートストラップするTD学習目標を用いて訓練され、数値積分の複数のステップを実行することで計算される。
重要なことは、floqは、統合ステップの数を適切に設定することで、モノリシックアーキテクチャよりもQ関数のキャパシティをよりきめ細かい制御とスケーリングを可能にします。
オフラインのRLベンチマークとオンラインの微調整タスクのスイートの中で、floqはパフォーマンスを1.8倍近く改善している。
floqは、標準的なTD学習アーキテクチャよりもはるかに優れたキャパシティをスケールし、バリュー学習のための反復計算の可能性を強調している。
関連論文リスト
- Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。
本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。
本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文 参考訳(メタデータ) (2025-07-31T05:34:27Z) - Aligning Frozen LLMs by Reinforcement Learning: An Iterative Reweight-then-Optimize Approach [65.6966065843227]
Iterative Reweight-then-IROは、凍結ベースモデルのRLスタイルアライメントを実行するフレームワークである。
テスト時には、値関数を使用して、検索ベースの最適化プロセスを介してベースモデル生成をガイドする。
特に、ユーザは、OpenAIの強化微調整(RFT)と同様、自身のデータセットにモデルをアライメントするためにIROを適用することができる。
論文 参考訳(メタデータ) (2025-06-21T21:49:02Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Training Energy-Based Normalizing Flow with Score-Matching Objectives [36.0810550035231]
エネルギーベース正規化フロー(EBFlow)と呼ばれる新しいフローベースモデリング手法を提案する。
本研究では,EBFlowをスコアマッチング目的に最適化することにより,線形変換に対するヤコビ行列式の計算を完全に回避できることを実証する。
論文 参考訳(メタデータ) (2023-05-24T15:54:29Z) - Benchmarking Learning Efficiency in Deep Reservoir Computing [23.753943709362794]
我々は、機械学習モデルがトレーニングデータからいかに早く学習するかを測定するために、データ効率の指標とともに、ますます困難なタスクのベンチマークを導入する。
我々は、RNN、LSTM、Transformersなどの確立された逐次教師付きモデルの学習速度を、貯水池計算に基づく比較的知られていない代替モデルと比較する。
論文 参考訳(メタデータ) (2022-09-29T08:16:52Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。