論文の概要: TeleBoost: A Systematic Alignment Framework for High-Fidelity, Controllable, and Robust Video Generation
- arxiv url: http://arxiv.org/abs/2602.07595v1
- Date: Sat, 07 Feb 2026 15:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.714181
- Title: TeleBoost: A Systematic Alignment Framework for High-Fidelity, Controllable, and Robust Video Generation
- Title(参考訳): TeleBoost: 高忠実度・可制御性・ロバストビデオ生成のためのシステムアライメントフレームワーク
- Authors: Yuanzhi Liang, Xuan'er Wu, Yirui Liu, Yijie Fang, Yizhen Fan, Ke Hao, Rui Li, Ruiying Liu, Ziqi Ni, Peng Yu, Yanbo Wang, Haibin Huang, Qizhen Weng, Chi Zhang, Xuelong Li,
- Abstract要約: ポストトレーニングは、事前訓練されたビデオジェネレータをプロダクション指向のモデルに変換するための決定的なステップである。
本報告では,指導的政策形成,報酬駆動型強化学習,嗜好に基づく改善を組織化する,体系的なポストトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 45.864084191741135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training is the decisive step for converting a pretrained video generator into a production-oriented model that is instruction-following, controllable, and robust over long temporal horizons. This report presents a systematical post-training framework that organizes supervised policy shaping, reward-driven reinforcement learning, and preference-based refinement into a single stability-constrained optimization stack. The framework is designed around practical video-generation constraints, including high rollout cost, temporally compounding failure modes, and feedback that is heterogeneous, uncertain, and often weakly discriminative. By treating optimization as a staged, diagnostic-driven process rather than a collection of isolated tricks, the report summarizes a cohesive recipe for improving perceptual fidelity, temporal coherence, and prompt adherence while preserving the controllability established at initialization. The resulting framework provides a clear blueprint for building scalable post-training pipelines that remain stable, extensible, and effective in real-world deployment settings.
- Abstract(参考訳): ポストトレーニングは、事前訓練されたビデオジェネレータを、長い時間的地平線上での命令追従、制御可能、堅牢な生産指向モデルに変換するための決定的なステップである。
本報告では, 教師付き政策形成, 報酬駆動型強化学習, 選好に基づく改良を, 単一の安定性に制約された最適化スタックにまとめる, 系統的なポストトレーニングフレームワークを提案する。
このフレームワークは、高いロールアウトコスト、時間的に複合された障害モード、不均一で不確実で、しばしば弱い差別的なフィードバックなど、実用的なビデオ生成制約に基づいて設計されている。
本報告では、最適化を独立したトリックの集合ではなく、段階的、診断駆動的なプロセスとして扱うことにより、初期化時に確立された制御性を保ちながら、知覚の忠実性、時間的一貫性、迅速な定着性を改善するための密着的なレシピを要約する。
結果として生まれたフレームワークは、安定的で拡張性があり、実際のデプロイメント設定で有効であるスケーラブルなポストトレーニングパイプラインを構築するための明確な青写真を提供する。
関連論文リスト
- Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Automatic Stability and Recovery for Neural Network Training [1.9544213396776273]
現代のニューラルネットワークのトレーニングはますます脆弱になり、まれだが深刻な不安定な更新は、しばしば不可逆的なばらつきやサイレントな劣化を引き起こす。
既存の最適化手法は、安定性プローブに埋め込まれた防止機構に依存しており、不安定性を検出して回復する能力に制限がある。
最適化を制御実行プロセスとして扱う監視フレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-24T15:14:54Z) - Structured Noise Modeling for Enhanced Time-Series Forecasting [0.0]
本研究は、構造的ノイズモデリングによる時間的忠実度を改善する予測ブルーデノエーズフレームワークを導入する。
電気、交通、太陽のデータセットにわたる実験は、マルチ水平精度と安定性において一貫した利得を示している。
このフレームワークは、エネルギー、インフラストラクチャ、その他の時間クリティカルドメインにわたる予測駆動決定サポートに使用される、より信頼性の高いAIシステムに寄与する。
論文 参考訳(メタデータ) (2025-11-24T19:44:46Z) - Adaptive Reinforcement Learning for Dynamic Configuration Allocation in Pre-Production Testing [4.370892281528124]
本稿では, コンフィグレーション割り当てを逐次決定問題として再放送する, 新たな強化学習フレームワークを提案する。
提案手法は,Q-ラーニングをシミュレーション結果とリアルタイムフィードバックを融合したハイブリッド報酬設計と統合する最初の方法である。
論文 参考訳(メタデータ) (2025-10-02T05:12:28Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Latent Convergence Modulation in Large Language Models: A Novel Approach to Iterative Contextual Realignment [0.0]
隠れ状態遷移を制御する構造変調機構が導入された。
格子調整は、パープレキシティ変動、エントロピー分散、および語彙不安定の低減に寄与した。
論文 参考訳(メタデータ) (2025-02-10T09:46:33Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。