論文の概要: Generative AI for Video Trailer Synthesis: From Extractive Heuristics to Autoregressive Creativity
- arxiv url: http://arxiv.org/abs/2604.04953v1
- Date: Fri, 03 Apr 2026 06:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.359174
- Title: Generative AI for Video Trailer Synthesis: From Extractive Heuristics to Autoregressive Creativity
- Title(参考訳): ビデオトレーサ合成のための生成AI:抽出ヒューリスティックスから自己回帰的創造性へ
- Authors: Abhishek Dharmaratnakar, Srivaths Ranganathan, Debanshu Das, Anushree Sinha,
- Abstract要約: 調査では、自動回帰トランスフォーマー、LLMオーケストレーションパイプライン、OpenAIのSoraやGoogleのVeoといったテキストからビデオへの基盤モデルなど、ジェネレーティブなテクニックに焦点を当てている。
我々は,グラフ畳み込みネットワーク(GCN)からトレーサ生成変換器(TGT)の合成までのアーキテクチャの進展を分析し,ユーザ生成コンテンツプラットフォームにおける自動コンテンツ速度の経済的影響を評価し,高忠実性ニューラルシンセサイザーによる倫理的課題について議論する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The domain of automatic video trailer generation is currently undergoing a profound paradigm shift, transitioning from heuristic-based extraction methods to deep generative synthesis. While early methodologies relied heavily on low-level feature engineering, visual saliency, and rule-based heuristics to select representative shots, recent advancements in Large Language Models (LLMs), Multimodal Large Language Models (MLLMs), and diffusion-based video synthesis have enabled systems that not only identify key moments but also construct coherent, emotionally resonant narratives. This survey provides a comprehensive technical review of this evolution, with a specific focus on generative techniques including autoregressive Transformers, LLM-orchestrated pipelines, and text-to-video foundation models like OpenAI's Sora and Google's Veo. We analyze the architectural progression from Graph Convolutional Networks (GCNs) to Trailer Generation Transformers (TGT), evaluate the economic implications of automated content velocity on User-Generated Content (UGC) platforms, and discuss the ethical challenges posed by high-fidelity neural synthesis. By synthesizing insights from recent literature, this report establishes a new taxonomy for AI-driven trailer generation in the era of foundation models, suggesting that future promotional video systems will move beyond extractive selection toward controllable generative editing and semantic reconstruction of trailers.
- Abstract(参考訳): 現在、自動ビデオトレーラー生成の領域は、ヒューリスティックな抽出方法から深層生成合成へ移行し、大きなパラダイムシフトが進行中である。
初期の手法は低レベルの特徴工学、視覚的サリエンシ、規則に基づくヒューリスティックスに大きく依存していたが、近年のLarge Language Models (LLMs)、Multimodal Large Language Models (MLLMs)、拡散型ビデオ合成は重要な瞬間を識別するだけでなく、一貫性があり、感情的に共鳴する物語を構築するシステムを実現している。
この調査は、自動回帰トランスフォーマー、LLMオーケストレーションパイプライン、OpenAIのSoraやGoogleのVeoといったテキストからビデオへの基盤モデルなど、生成技術に特に焦点をあてた、この進化に関する包括的な技術的レビューを提供する。
我々は,グラフ畳み込みネットワーク(GCN)からトレーサ生成変換器(TGT)へのアーキテクチャの進歩を分析し,ユーザ生成コンテンツ(UGC)プラットフォームにおける自動コンテンツ速度の経済的影響を評価し,高忠実性ニューラルネットワークによる倫理的課題について議論する。
近年の文献から洞察を合成することによって,基礎モデル時代におけるAIによるトレーラー生成の新しい分類が確立され,今後のプロモーションビデオシステムは,制御可能な生成編集やトレーラーのセマンティック再構築に向けて抽出的選択を超えて進むことが示唆された。
関連論文リスト
- Survey on Remote Sensing Scene Classification: From Traditional Methods to Large Generative AI Models [2.970707784493277]
リモートセンシングシーンの分類は、従来の手作り特徴法から高度な人工知能システムへのパラダイム転換を経験してきた。
本総説では, 従来のテクスチャ記述子から現在の最先端基礎モデルまで, 開発過程を体系的に追跡し, 完全な方法論的進化を考察する。
合成データ生成と高度な特徴学習戦略を通じて永続的な課題に取り組む、生成AIイノベーションに特に重点を置いている。
論文 参考訳(メタデータ) (2026-03-23T11:35:37Z) - Future Optical Flow Prediction Improves Robot Control & Video Generation [100.87884718953099]
本稿では,VLM(Vision-Language Model)と拡散アーキテクチャを組み合わせた新しい光フロー予測モデルFOFPredを紹介する。
我々のモデルは、高度にスケーラブルだが非構造化のソースである、Webスケールの人間活動データに基づいて訓練されている。
言語駆動設定下でのロボット操作とビデオ生成による評価は、FOFPredのクロスドメインの汎用性を確立する。
論文 参考訳(メタデータ) (2026-01-15T18:49:48Z) - MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment [20.463231924099567]
我々は,長距離ロボット操作の論理的コヒーレントなビデオの合成を目的とした階層型フレームワークであるMIND-Vを紹介する。
認知科学にインスパイアされたMIND-Vは、高レベルの推論とピクセルレベルの合成を橋渡しする。
MIND-Vは、長距離ロボット操作ビデオ生成における最先端の性能を実証する。
論文 参考訳(メタデータ) (2025-12-07T02:28:06Z) - SAGA: Source Attribution of Generative AI Videos [23.217701516122048]
我々は、AI生成ビデオソース属性の必要性を大規模に解決する最初の包括的なフレームワークであるSAGA(Source Attribution of Generative AI video)を紹介する。
信頼性、生成タスク(T2V/I2Vなど)、モデルバージョン、開発チーム、正確なジェネレータの5つのレベルにまたがって、よりリッチな法医学的な洞察を提供する。
論文 参考訳(メタデータ) (2025-11-16T23:39:54Z) - Automatic Speech Recognition in the Modern Era: Architectures, Training, and Evaluation [0.0]
音声認識は、ディープラーニングの進歩によって、過去10年間に大きく変化してきた。
この調査は、従来のハイブリッドシステムから、現在支配的なエンドツーエンドのニューラルアーキテクチャへの進化をグラフ化して、ASRの現代を包括的に概観する。
論文 参考訳(メタデータ) (2025-10-11T05:38:45Z) - Controllable Video Generation: A Survey [72.38313362192784]
本稿では、制御可能なビデオ生成の体系的レビューを行い、理論的基礎と最近の現場の進歩の両方について述べる。
まず、主要な概念を導入し、一般的に使われているオープンソースビデオ生成モデルを紹介します。
次に、映像拡散モデルにおける制御機構に着目し、生成を誘導する認知過程に異なる種類の条件を組み込む方法について分析する。
論文 参考訳(メタデータ) (2025-07-22T06:05:34Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。