論文の概要: Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models
- arxiv url: http://arxiv.org/abs/2603.17051v1
- Date: Tue, 17 Mar 2026 18:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.350052
- Title: Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models
- Title(参考訳): Astrolabe: 蒸留自己回帰ビデオモデルのためのステアリングフォワード強化学習
- Authors: Songchun Zhang, Zeyue Xue, Siming Fu, Jie Huang, Xianghao Kong, Y Ma, Haoyang Huang, Nan Duan, Anyi Rao,
- Abstract要約: 蒸留自己回帰(AR)ビデオモデルは、効率的なストリーミング生成を可能にするが、しばしば人間の視覚的嗜好に反する。
蒸留ARモデルに適した効率的なオンライン強化学習フレームワークであるAstrolabeを提案する。
- 参考スコア(独自算出の注目度): 58.3184497327891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distilled autoregressive (AR) video models enable efficient streaming generation but frequently misalign with human visual preferences. Existing reinforcement learning (RL) frameworks are not naturally suited to these architectures, typically requiring either expensive re-distillation or solver-coupled reverse-process optimization that introduces considerable memory and computational overhead. We present Astrolabe, an efficient online RL framework tailored for distilled AR models. To overcome existing bottlenecks, we introduce a forward-process RL formulation based on negative-aware fine-tuning. By contrasting positive and negative samples directly at inference endpoints, this approach establishes an implicit policy improvement direction without requiring reverse-process unrolling. To scale this alignment to long videos, we propose a streaming training scheme that generates sequences progressively via a rolling KV-cache, applying RL updates exclusively to local clip windows while conditioning on prior context to ensure long-range coherence. Finally, to mitigate reward hacking, we integrate a multi-reward objective stabilized by uncertainty-aware selective regularization and dynamic reference updates. Extensive experiments demonstrate that our method consistently enhances generation quality across multiple distilled AR video models, serving as a robust and scalable alignment solution.
- Abstract(参考訳): 蒸留自己回帰(AR)ビデオモデルは、効率的なストリーミング生成を可能にするが、しばしば人間の視覚的嗜好に反する。
既存の強化学習(RL)フレームワークは、これらのアーキテクチャに自然に適合するものではなく、通常、高価な再蒸留か、メモリと計算オーバーヘッドをかなり導入するソルバ結合の逆プロセス最適化を必要とする。
蒸留ARモデルに適した効率的なオンラインRLフレームワークであるAstrolabeを提案する。
既存のボトルネックを克服するために、負の認識による微調整に基づく前処理RLの定式化を導入する。
推論エンドポイントで直接正と負のサンプルを対比することにより、逆プロセスのアンロールを必要とせずに、暗黙のポリシー改善の方向性を確立する。
このアライメントを長時間ビデオにスケールするために、ローリングKV-cacheを介して順次シーケンスを生成するストリーミングトレーニング手法を提案し、RL更新をローカルクリップウィンドウにのみ適用し、事前のコンテキストを条件付けして長距離コヒーレンスを確保する。
最後に、報酬ハッキングを緩和するために、不確実性を認識した選択正規化と動的参照更新によって安定化されたマルチリワード目標を統合する。
大規模な実験により,本手法は複数の蒸留ARビデオモデルに対して連続的に生成品質を向上し,ロバストでスケーラブルなアライメントソリューションとして機能することが示された。
関連論文リスト
- Inference-Time Alignment Control for Diffusion Models with Reinforcement Learning Guidance [46.06527859746679]
本稿では,Dejin-Free Guidance(CFG)に適応する推論時間法であるReinforcement Learning Guidance(RLG)を紹介する。
RLGは、RLの細調整されたモデルの性能を、人間の好み、構成制御、圧縮、テキストレンダリングなど、様々なRLアルゴリズム、下流タスクで一貫して改善している。
提案手法は,拡散モデルアライメント推論の強化と制御のための,実用的で理論的に健全な解を提供する。
論文 参考訳(メタデータ) (2025-08-28T17:18:31Z) - SwiftVideo: A Unified Framework for Few-Step Video Generation through Trajectory-Distribution Alignment [76.60024640625478]
拡散ベースまたはフローベースモデルは、ビデオ合成において大きな進歩を遂げているが、複数の反復サンプリングステップが必要である。
本稿では, トラジェクトリ保存と分散マッチングの利点を組み合わせた, 統一かつ安定な蒸留フレームワークを提案する。
提案手法は高品質なビデオ生成を維持しつつ,推論ステップの数を著しく削減する。
論文 参考訳(メタデータ) (2025-08-08T07:26:34Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。