Fugu-MT 論文翻訳(概要): Reward-Aware Trajectory Shaping for Few-step Visual Generation

論文の概要: Reward-Aware Trajectory Shaping for Few-step Visual Generation

arxiv url: http://arxiv.org/abs/2604.14910v2
Date: Tue, 21 Apr 2026 03:58:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 14:04:47.691537
Title: Reward-Aware Trajectory Shaping for Few-step Visual Generation
Title（参考訳）: 数ステップ視覚生成のための後向き軌跡形状認識
Authors: Rui Li, Bingyu Li, Yuanzhi Liang, HuangHai Bin, Chi Zhang, XueLong Li,
Abstract要約: textbfReward-Aware Trajectory Shaping (RATS) を提案する。 RATSは、追加のテスト時間計算オーバーヘッドを発生させることなく、優先関連知識を高ステップジェネレータから効果的に転送する。実験により、RATSは数ステップの視覚生成において効率-品質トレードオフを大幅に改善することが示された。
参考スコア（独自算出の注目度）: 48.211558783057086
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Achieving high-fidelity generation in extremely few sampling steps has long been a central goal of generative modeling. Existing approaches largely rely on distillation-based frameworks to compress the original multi-step denoising process into a few-step generator. However, such methods inherently constrain the student to imitate a stronger multi-step teacher, imposing the teacher as an upper bound on student performance. We argue that introducing \textbf{preference alignment awareness} enables the student to optimize toward reward-preferred generation quality, potentially surpassing the teacher instead of being restricted to rigid teacher imitation. To this end, we propose \textbf{Reward-Aware Trajectory Shaping (RATS)}, a lightweight framework for preference-aligned few-step generation. Specifically, teacher and student latent trajectories are aligned at key denoising stages through horizon matching, while a \textbf{reward-aware gate} is introduced to adaptively regulate teacher guidance based on their relative reward performance. Trajectory shaping is strengthened when the teacher achieves higher rewards, and relaxed when the student matches or surpasses the teacher, thereby enabling continued reward-driven improvement. By seamlessly integrating trajectory distillation, reward-aware gating, and preference alignment, RATS effectively transfers preference-relevant knowledge from high-step generators without incurring additional test-time computational overhead. Experimental results demonstrate that RATS substantially improves the efficiency--quality trade-off in few-step visual generation, significantly narrowing the gap between few-step students and stronger multi-step generators.
Abstract（参考訳）: 極めて少ないサンプリングステップで高忠実度生成を実現することは、長い間、生成モデルの中心的な目標であった。既存のアプローチは蒸留に基づくフレームワークに大きく依存し、元のマルチステップのデノナイジングプロセスを数ステップのジェネレータに圧縮する。しかし、このような方法は本来、生徒がより強い多段階の教師を模倣することを制約し、教師を生徒のパフォーマンスに上限を課している。我々は,「textbf{preference alignment awareness」を導入することで,教師の模倣に制限されるのではなく,報酬優先の世代品質に最適化できると主張している。そこで本稿では,優先的な数ステップ生成のための軽量フレームワークである,RATS(textbf{Reward-Aware Trajectory Shaping)を提案する。具体的には,教師と学生の潜伏軌跡を水平整合によりキーデノイング段階に整列させ,その相対的な報酬性能に基づいて教師の指導を適応的に調整する「textbf{reward-aware gate}」を導入する。教師がより高い報酬を達成すると軌道形状が強化され、生徒が教師に合ったり超えたりするとリラックスし、報酬駆動型改善の継続を可能にする。トラジェクトリ蒸留、報奨ゲティング、選好アライメントをシームレスに統合することにより、RATSはテスト時間計算のオーバーヘッドを増大させることなく、高いステップのジェネレータから選好関連知識を効果的に転送する。実験の結果,RATSは数ステップの視覚生成における効率-品質トレードオフを大幅に改善し,数ステップの学生とより強力なマルチステップジェネレータのギャップを著しく狭めることがわかった。

関連論文リスト

Towards One-step Causal Video Generation via Adversarial Self-Distillation [71.30373662465648]
最近のハイブリッドビデオ生成モデルは、自己回帰時間力学と拡散に基づく空間認知を組み合わせている。我々のフレームワークは、複数の推論ステップ設定を柔軟にサポートする単一の蒸留モデルを生成する。
論文参考訳（メタデータ） (2025-11-03T10:12:47Z)
AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。 AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文参考訳（メタデータ） (2025-10-09T06:38:37Z)
Training-Free Motion Customization for Distilled Video Generators with Adaptive Test-Time Distillation [53.877572078307935]
蒸留ビデオ生成モデルは、高速で効率的なが、参照ビデオによってガイドされるときの動きのカスタマイズに苦労する。拡散教師の強制力を活用して運動のカスタマイズを可能にする訓練不要な試験時間蒸留フレームワークであるMotionEchoを提案する。
論文参考訳（メタデータ） (2025-06-24T06:20:15Z)
Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones? [58.80794196076336]
大型言語モデル(LLM)の蒸留は、教師による微調整(SFT)を通して教師モデルの応答を伝達するのが一般的である。本稿では, 応答と報酬の両方を伝達する新しい蒸留パイプラインを提案する。本手法は,教師と生徒の両方の反応の固有構造を利用した自己教師機構によって擬似回帰を生成する。
論文参考訳（メタデータ） (2025-02-26T20:50:11Z)
DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization [50.30051934609654]
本稿では,数段階のビデオ生成を実現するため,変量点蒸留と整合蒸留を組み合わせた蒸留法を提案する。提案手法は10秒ビデオ(12FPSで128フレーム)の複数ステップ生成における最先端性能を示す。 1段階の蒸留により、教師モデルの拡散サンプリングを最大278.6倍加速し、ほぼリアルタイムで生成できる。
論文参考訳（メタデータ） (2024-12-20T09:07:36Z)
Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。 textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文参考訳（メタデータ） (2024-10-16T08:07:18Z)
Gap Preserving Distillation by Building Bidirectional Mappings with A Dynamic Teacher [43.678380057638016]
Gap Preserving Distillation (GPD) 法は、生徒にこのギャップを埋めるように訓練すると共に、スクラッチから追加の動的教師モデルを訓練する。実験では、GPDはCNNとトランスフォーマーアーキテクチャの両方で既存の蒸留法よりも大幅に優れている。 GPDはまた、スクラッチからのトレーニングや微調整を含む事前訓練を受けた教師なしでシナリオを一般化し、ResNet18では1.80%と0.89%の大幅な改善を実現している。
論文参考訳（メタデータ） (2024-10-05T12:29:51Z)
Distribution Backtracking Builds A Faster Convergence Trajectory for Diffusion Distillation [19.88187051373436]
本研究では,拡散モデルのサンプリング速度を高速化する分散バックトラック蒸留(DisBack)を提案する。 DisBackは既存の蒸留法よりも高速で収束性が高く、ImageNet 64x64データセットのFIDスコアは1.38である。
論文参考訳（メタデータ） (2024-08-28T17:58:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。