Fugu-MT 論文翻訳(概要): InstructVideo: Instructing Video Diffusion Models with Human Feedback

論文の概要: InstructVideo: Instructing Video Diffusion Models with Human Feedback

arxiv url: http://arxiv.org/abs/2312.12490v1
Date: Tue, 19 Dec 2023 17:55:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 18:15:38.824855
Title: InstructVideo: Instructing Video Diffusion Models with Human Feedback
Title（参考訳）: InstructVideo:人間のフィードバックでビデオ拡散モデルを教える
Authors: Hangjie Yuan, Shiwei Zhang, Xiang Wang, Yujie Wei, Tao Feng, Yining Pan, Yingya Zhang, Ziwei Liu, Samuel Albanie, Dong Ni
Abstract要約: InstructVideo は人からのフィードバックでテキスト・ビデオ拡散モデルに報酬の微調整を施す。 InstructVideoには2つの重要な要素がある: 1) 全DDIMサンプリングチェーンを通じて発生する報酬微調整のコストを改善するために、編集として報酬微調整を再放送する。
参考スコア（独自算出の注目度）: 65.9590462317474
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have emerged as the de facto paradigm for video generation. However, their reliance on web-scale data of varied quality often yields results that are visually unappealing and misaligned with the textual prompts. To tackle this problem, we propose InstructVideo to instruct text-to-video diffusion models with human feedback by reward fine-tuning. InstructVideo has two key ingredients: 1) To ameliorate the cost of reward fine-tuning induced by generating through the full DDIM sampling chain, we recast reward fine-tuning as editing. By leveraging the diffusion process to corrupt a sampled video, InstructVideo requires only partial inference of the DDIM sampling chain, reducing fine-tuning cost while improving fine-tuning efficiency. 2) To mitigate the absence of a dedicated video reward model for human preferences, we repurpose established image reward models, e.g., HPSv2. To this end, we propose Segmental Video Reward, a mechanism to provide reward signals based on segmental sparse sampling, and Temporally Attenuated Reward, a method that mitigates temporal modeling degradation during fine-tuning. Extensive experiments, both qualitative and quantitative, validate the practicality and efficacy of using image reward models in InstructVideo, significantly enhancing the visual quality of generated videos without compromising generalization capabilities. Code and models will be made publicly available.
Abstract（参考訳）: 拡散モデルはビデオ生成のデファクトパラダイムとして登場した。しかし、様々な品質のwebスケールデータに依存することは、しばしば視覚的に見当たらず、テキストのプロンプトとミスマッチする結果をもたらす。そこで本研究では,テキスト間拡散モデルを人間のフィードバックで指示するinstructvideoを提案する。 InstructVideoには2つの重要な要素がある。 1) DDIMサンプリングチェーン全体を通して発生する報酬微調整のコストを改善するため, 報酬微調整を編集として再放送する。 InstructVideoは、拡散過程を利用してサンプル映像を破損させるため、DDIMサンプリングチェーンの部分的な推論しか必要とせず、微調整コストを低減し、微調整効率を向上する。 2)ヒトの嗜好に専用の映像報酬モデルがないことを緩和するため,HPSv2などの既存の画像報酬モデルを再利用した。そこで本研究では,セグメントスライスサンプリングに基づく報奨信号を提供するメカニズムであるsegmental video rewardと,微調整時の時間的モデリング劣化を緩和する時間的減衰報奨を提案する。 InstructVideoにおける画像報酬モデルの有効性と有効性は質的かつ定量的に検証され、一般化能力を損なうことなく生成ビデオの視覚的品質を著しく向上させる。コードとモデルは公開される予定だ。

関連論文リスト

Dual-Expert Consistency Model for Efficient and High-Quality Video Generation [57.33788820909211]
本稿では,パラメータ効率の高いtextbfDual-Expert Consistency Model (DCM) を提案する。提案手法は, ビデオ拡散モデル蒸留における専門的専門化の有効性を実証し, サンプリング工程を大幅に短縮して, 最先端の視覚品質を実現する。
論文参考訳（メタデータ） (2025-06-03T17:55:04Z)
Discriminator-Free Direct Preference Optimization for Video Diffusion [25.304451979598863]
本稿では,オリジナル映像を勝利事例として用い,編集版を負け事例として用いた差別化のないビデオDPOフレームワークを提案する。実動画とモデル生成ビデオが異なる分布に従えば,理論的にフレームワークの有効性を証明できる。
論文参考訳（メタデータ） (2025-04-11T13:55:48Z)
Improving Video Generation with Human Feedback [81.48120703718774]
ビデオ生成は大きな進歩を遂げているが、動画とプロンプト間の不規則な動きや不一致といった問題が続いている。我々は、人間のフィードバックを利用してこれらの問題を緩和し、ビデオ生成モデルを洗練する体系的なパイプラインを開発する。多次元ビデオ報酬モデルであるVideoRewardを導入し、アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文参考訳（メタデータ） (2025-01-23T18:55:41Z)
Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文参考訳（メタデータ） (2024-12-08T11:36:32Z)
Your Image is Secretly the Last Frame of a Pseudo Video [20.161039114393148]
擬似ビデオを用いた他の生成モデルの改善の可能性を検討する。具体的には、まず所定の画像生成モデルをビデオ生成モデルに拡張し、次に元の画像にデータ拡張を適用して構築した擬似ビデオ上でビデオ生成モデルを訓練する。
論文参考訳（メタデータ） (2024-10-26T12:15:25Z)
VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-06T05:46:17Z)
SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文参考訳（メタデータ） (2024-06-06T17:58:27Z)
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition [124.41196697408627]
本稿では,映像生成のための事前学習画像拡散モデルの拡張として,コンテントモーション潜時拡散モデル(CMD)を提案する。 CMDは、映像を(画像のような)コンテンツフレームと低次元モーションラテント表現の組み合わせとしてエンコードする。我々は、予め訓練された画像拡散モデルを微調整し、コンテンツフレームを生成し、新しい軽量拡散モデルをトレーニングすることで、動き潜在表現を生成する。
論文参考訳（メタデータ） (2024-03-21T05:48:48Z)
Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized Control [54.132297393662654]
拡散モデルは、自然画像やタンパク質のような複雑なデータ分布を捉えるのに優れている。拡散モデルはトレーニングデータセットの分布を表現するために訓練されるが、私たちはしばしば、生成された画像の美的品質など他の特性にもっと関心を持っている。本稿では,本フレームワークが真に報酬の高い多種多様なサンプルを効率よく生成できることを示す理論的,実証的な証拠を示す。
論文参考訳（メタデータ） (2024-02-23T08:54:42Z)
BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models [40.73982918337828]
本稿では,bf BIVDiffと呼ばれるトレーニング不要な汎用ビデオ合成フレームワークを提案する。具体的には、まず、フレームワイドビデオ生成に特定の画像拡散モデル(例えば、ControlNetとInstruct Pix2Pix)を使用し、その後、生成されたビデオ上でMixed Inversionを行い、最後に、反転潜時をビデオ拡散モデルに入力する。
論文参考訳（メタデータ） (2023-12-05T14:56:55Z)
Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文参考訳（メタデータ） (2023-11-20T20:24:45Z)
Unsupervised Video Anomaly Detection with Diffusion Models Conditioned on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文参考訳（メタデータ） (2023-07-04T07:36:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。