論文の概要: PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards
- arxiv url: http://arxiv.org/abs/2602.01624v1
- Date: Mon, 02 Feb 2026 04:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.900237
- Title: PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards
- Title(参考訳): PISCES: 最適なトランスポート・アラインド・リワードによるアノテーションなしのテキスト・ビデオ・ポスト・トライニング
- Authors: Minh-Quan Le, Gaurav Mittal, Cheng Zhao, David Gu, Dimitris Samaras, Mei Chen,
- Abstract要約: 我々は、アノテーションなしのポストトレーニングアルゴリズムであるtextttPISCES$を紹介し、新しいDual Optimal Transport (OT)-aligned Rewardsモジュールを通して制限に対処する。
報酬信号と人間の判断を合わせるために、$textttPISCES$はOTを使用して、分散トークンレベルと離散トークンレベルの両方でテキストとビデオの埋め込みをブリッジする。
$textttPISCES$は、OTのレンズを通して生成後のトレーニングにおいて、アノテーションなしの報酬管理を改善する最初の方法である。
- 参考スコア(独自算出の注目度): 41.81044262983872
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-video (T2V) generation aims to synthesize videos with high visual quality and temporal consistency that are semantically aligned with input text. Reward-based post-training has emerged as a promising direction to improve the quality and semantic alignment of generated videos. However, recent methods either rely on large-scale human preference annotations or operate on misaligned embeddings from pre-trained vision-language models, leading to limited scalability or suboptimal supervision. We present $\texttt{PISCES}$, an annotation-free post-training algorithm that addresses these limitations via a novel Dual Optimal Transport (OT)-aligned Rewards module. To align reward signals with human judgment, $\texttt{PISCES}$ uses OT to bridge text and video embeddings at both distributional and discrete token levels, enabling reward supervision to fulfill two objectives: (i) a Distributional OT-aligned Quality Reward that captures overall visual quality and temporal coherence; and (ii) a Discrete Token-level OT-aligned Semantic Reward that enforces semantic, spatio-temporal correspondence between text and video tokens. To our knowledge, $\texttt{PISCES}$ is the first to improve annotation-free reward supervision in generative post-training through the lens of OT. Experiments on both short- and long-video generation show that $\texttt{PISCES}$ outperforms both annotation-based and annotation-free methods on VBench across Quality and Semantic scores, with human preference studies further validating its effectiveness. We show that the Dual OT-aligned Rewards module is compatible with multiple optimization paradigms, including direct backpropagation and reinforcement learning fine-tuning.
- Abstract(参考訳): テキスト・トゥ・ビデオ(T2V)生成は、入力テキストにセマンティックに整合した高画質かつ時間的一貫性の動画を合成することを目的としている。
Rewardベースのポストトレーニングは、生成されたビデオの品質とセマンティックアライメントを改善するための有望な方向として登場した。
しかし、近年の手法は、大規模な人間の嗜好アノテーションに頼るか、事前訓練された視覚言語モデルからの誤った組込みを運用することで、拡張性や準最適監視が制限される。
我々は、アノテーションなしのポストトレーニングアルゴリズムである$\texttt{PISCES}$を提示し、新しいDual Optimal Transport (OT)-aligned Rewardsモジュールを通してこれらの制限に対処する。
報酬信号と人間の判断を合わせるために、$\texttt{PISCES}$はOTを使用して、分散トークンレベルと離散トークンレベルの両方でテキストとビデオの埋め込みをブリッジする。
一 全体的視覚的品質及び時間的コヒーレンスを捉えた配電型OT整合品質リワード
(II)テキストとビデオトークン間の意味的・時空間的対応を強制する離散トークンレベルのOT対応セマンティック・リワード。
我々の知る限り、$\texttt{PISCES}$は、OTのレンズを通して生成後のトレーニングにおいて、アノテーションのない報酬管理を改善する最初のものである。
ショートビデオとロングビデオの両方での実験では、$\texttt{PISCES}$はVBenchのアノテーションベースのメソッドとアノテーションのないメソッドの両方を品質スコアとセマンティックスコアで上回り、人間の嗜好研究はその効果をさらに検証している。
Dual OT-aligned Rewardsモジュールは、直接バックプロパゲーションや強化学習の微調整など、複数の最適化パラダイムと互換性があることが示される。
関連論文リスト
- Contrastive Pretraining with Dual Visual Encoders for Gloss-Free Sign Language Translation [33.48154010885497]
手話翻訳(SLT)は、手話動画を音声やテキストに変換することを目的としている。
グロースフリーSLTのための2相デュアルビジュアルエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-14T14:09:36Z) - Free$^2$Guide: Training-Free Text-to-Video Alignment using Image LVLM [54.755023509791364]
Free$2$Guideは、生成したビデオをテキストプロンプトで整列するための、勾配のない、トレーニングなしのフレームワークである。
我々のフレームワークは、計算オーバーヘッドを伴わずにアライメントを向上させるために、複数の報酬モデルのフレキシブルアンサンブルをサポートする。
論文 参考訳(メタデータ) (2024-11-26T02:14:47Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。