論文の概要: Self-Paced and Self-Corrective Masked Prediction for Movie Trailer Generation
- arxiv url: http://arxiv.org/abs/2512.04426v1
- Date: Thu, 04 Dec 2025 03:44:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.975749
- Title: Self-Paced and Self-Corrective Masked Prediction for Movie Trailer Generation
- Title(参考訳): 映画トレーサ生成のための自己修正・自己補正型マスケッド予測
- Authors: Sidan Zhu, Hongteng Xu, Dixin Luo,
- Abstract要約: 現在、ほとんどの既存の自動トレーラー生成手法は「選択段階」パラダイムを採用している。
本稿では,双方向のコンテキストモデリングと進行自己補正により,最先端のトレーラー自動生成を実現するSSMPを提案する。
定量的な結果とユーザスタディの両方が,既存の自動トレーラー生成法と比較してSSMPの優位性を示している。
- 参考スコア(独自算出の注目度): 40.42119751907875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a challenging video editing task, movie trailer generation involves selecting and reorganizing movie shots to create engaging trailers. Currently, most existing automatic trailer generation methods employ a "selection-then-ranking" paradigm (i.e., first selecting key shots and then ranking them), which suffers from inevitable error propagation and limits the quality of the generated trailers. Beyond this paradigm, we propose a new self-paced and self-corrective masked prediction method called SSMP, which achieves state-of-the-art results in automatic trailer generation via bi-directional contextual modeling and progressive self-correction. In particular, SSMP trains a Transformer encoder that takes the movie shot sequences as prompts and generates corresponding trailer shot sequences accordingly. The model is trained via masked prediction, reconstructing each trailer shot sequence from its randomly masked counterpart. The mask ratio is self-paced, allowing the task difficulty to adapt to the model and thereby improving model performance. When generating a movie trailer, the model fills the shot positions with high confidence at each step and re-masks the remaining positions for the next prediction, forming a progressive self-correction mechanism that is analogous to how human editors work. Both quantitative results and user studies demonstrate the superiority of SSMP in comparison to existing automatic movie trailer generation methods. Demo is available at: https://github.com/Dixin-Lab/SSMP.
- Abstract(参考訳): 難易度の高いビデオ編集タスクとして、映画トレーラー生成には、映画撮影を選択して再編成し、魅力的なトレーラーを作成することが含まれる。
現在、既存の自動トレーラー生成手法のほとんどは「選択段階」パラダイム(例えば、最初にキーショットを選択して、それらをランク付けする)を採用しており、これは避けられないエラーの伝播と、生成されたトレーラーの品質の制限に悩まされている。
このパラダイムを超越して,双方向のコンテキストモデリングとプログレッシブな自己補正による自動トレーラー生成において,最先端のトレーラー生成を実現するSSMPという,自己修正・自己修正型マスク付き予測手法を提案する。
特にSSMPはトランスフォーマーエンコーダを訓練し、映画撮影シーケンスをプロンプトとして取り、それに応じて対応するトレーラー撮影シーケンスを生成する。
モデルはマスク付き予測によってトレーニングされ、ランダムにマスクされた各トレーラーショットシーケンスを再構築する。
マスク比は自己ペーストされ、タスクがモデルに適応しにくくなり、モデル性能が向上する。
映画トレーラーを生成する際、モデルは各ステップに高い自信でショット位置を埋め、次の予測のために残りの位置を再マスクし、人間の編集者の働きに類似した進歩的な自己補正機構を形成する。
定量的な結果とユーザスタディの両方が,既存の自動トレーラー生成法と比較してSSMPの優位性を示している。
デモはhttps://github.com/Dixin-Lab/SSMP.comで公開されている。
関連論文リスト
- Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Movie Recommendation with Poster Attention via Multi-modal Transformer Feature Fusion [4.228539709089597]
本研究では,各映画のポスターの特徴を抽出し,マルチモーダルな映画レコメンデーションシステムを提案する。
概念実証モデルの効率は、MovieLens 100Kと1Mデータセットの標準ベンチマーク問題によって検証される。
論文 参考訳(メタデータ) (2024-07-12T10:44:51Z) - Towards Automated Movie Trailer Generation [98.9854474456265]
本稿では,エンコーダ・デコーダアーキテクチャを利用したディープラーニングフレームワークTGTを紹介する。
自動回帰トレーラーデコーダは、次のトレーラーショットの特徴表現を予測する。
当社のTGTは、総合的なメトリクススイートにおいて、従来の方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-04-04T14:28:34Z) - Adversarial Pixel Restoration as a Pretext Task for Transferable
Perturbations [54.1807206010136]
トランスファー可能な敵攻撃は、事前訓練された代理モデルと既知のラベル空間から敵を最適化し、未知のブラックボックスモデルを騙す。
本稿では,効果的なサロゲートモデルをスクラッチからトレーニングするための自己教師型代替手段として,Adversarial Pixel Restorationを提案する。
我々のトレーニングアプローチは、敵の目標を通したオーバーフィッティングを減らすmin-maxの目標に基づいています。
論文 参考訳(メタデータ) (2022-07-18T17:59:58Z) - Finding the Right Moment: Human-Assisted Trailer Creation via Task Composition [63.842627949509414]
我々は、トレーラーに含まれる可能性がある映画、すなわちショットのトレーラーの瞬間を見つけることに重点を置いている。
私たちは映画をグラフとしてモデル化し、ノードはショットであり、エッジはそれらの間のセマンティックな関係を表す。
教師なしのアルゴリズムがグラフを横切り、人間の審査員が競争監督のアプローチで選択した映画からトレーラーの瞬間を選択する。
このツールを使うと、30分以内のトレーラーショットを選択でき、完全に自動的な方法よりも優れており、専門家による(排他的な)手動選択に匹敵する。
論文 参考訳(メタデータ) (2021-11-16T20:50:52Z) - Latent Variable Nested Set Transformers & AutoBots [25.194344543085005]
ネスト集合の自己回帰的モデリングシーケンスに基づくこの問題設定のための理論的枠組みを提案する。
集合の要素間の社会的関心の形式として機能する集合の集合に対して、マルチヘッドの自己アテンションブロックを採用する新しいモデルアーキテクチャを提示する。
我々は、シーン内の複数のエージェントのキー属性のシーケンシャルな観察に基づいて、エゴエージェントの軌道をモデル化する、自律運転設定のためのNested Set Transformer("AutoBot")を検証する。
論文 参考訳(メタデータ) (2021-02-19T18:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。