論文の概要: Rewriting Video: Text-Driven Reauthoring of Video Footage
- arxiv url: http://arxiv.org/abs/2601.08565v1
- Date: Tue, 13 Jan 2026 13:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.222603
- Title: Rewriting Video: Text-Driven Reauthoring of Video Footage
- Title(参考訳): ビデオの書き直し: テキストによるビデオの書き直し
- Authors: Sitong Wang, Anh Truong, Lydia B. Chilton, Dingzeyu Li,
- Abstract要約: ビデオはコミュニケーションとストーリーテリングの強力な媒体だが、既存の映像を再執筆することは難しい。
ビデオの編集がテキストの書き直しと同じくらい簡単ならどうだろう?
本稿では,テク調査とテキスト駆動ビデオ再オーサリングに関する研究について紹介する。
- 参考スコア(独自算出の注目度): 19.217919638665713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video is a powerful medium for communication and storytelling, yet reauthoring existing footage remains challenging. Even simple edits often demand expertise, time, and careful planning, constraining how creators envision and shape their narratives. Recent advances in generative AI suggest a new paradigm: what if editing a video were as straightforward as rewriting text? To investigate this, we present a tech probe and a study on text-driven video reauthoring. Our approach involves two technical contributions: (1) a generative reconstruction algorithm that reverse-engineers video into an editable text prompt, and (2) an interactive probe, Rewrite Kit, that allows creators to manipulate these prompts. A technical evaluation of the algorithm reveals a critical human-AI perceptual gap. A probe study with 12 creators surfaced novel use cases such as virtual reshooting, synthetic continuity, and aesthetic restyling. It also highlighted key tensions around coherence, control, and creative alignment in this new paradigm. Our work contributes empirical insights into the opportunities and challenges of text-driven video reauthoring, offering design implications for future co-creative video tools.
- Abstract(参考訳): ビデオはコミュニケーションとストーリーテリングの強力な媒体だが、既存の映像を再執筆することは難しい。
単純な編集でさえ、しばしば専門知識、時間、慎重な計画を必要とし、創造者が物語を構想し形作る方法を制約する。
ビデオの編集がテキストの書き直しと同じくらい簡単ならどうだろう?
そこで本研究では,テク調査とテキスト駆動ビデオ再オーサリングに関する研究について述べる。
提案手法は,(1)映像を編集可能なテキストプロンプトにリバースエンジニアリングする生成的再構成アルゴリズム,(2)インタラクティブなプローブであるRewrite Kitにより作成者がこれらのプロンプトを操作できるようにする。
このアルゴリズムの技術的評価により、人間とAIの知覚的ギャップが重要となる。
12人のクリエーターによる調査では、仮想再撮影、合成連続性、審美修復などの新しいユースケースが明らかになった。
また、この新しいパラダイムにおけるコヒーレンス、コントロール、クリエイティブアライメントに関する重要な緊張関係を強調した。
我々の研究は、テキスト駆動のビデオリオーサリングの機会と課題に関する実証的な洞察を提供し、将来の共同制作ビデオツールにデザイン上の意味を提供する。
関連論文リスト
- Stealing Creator's Workflow: A Creator-Inspired Agentic Framework with Iterative Feedback Loop for Improved Scientific Short-form Generation [20.571381061542766]
SciTalkは、テキスト、フィギュア、ビジュアルスタイル、アバターなど、さまざまなソースで動画をグラウンド化するための新しいフレームワークである。
コンテンツクリエーターのイテレーションにインスパイアされたSciTalkは、コンテンツ要約、ビジュアルシーン計画、テキストとレイアウトの編集に特別なエージェントを使用する。
我々のフレームワークは、フィードバック駆動のビデオ生成の課題とメリットに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-26T05:22:35Z) - We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback [5.743225523680124]
現在のテキスト・ツー・ビデオ(T2V)生成モデルは、より長く複雑なプロンプトを扱う際に意味的かつ時間的に一貫したビデオを生成するのに苦労している。
ニューロS-Eは、ニューロシンボリックフィードバックを利用してビデオ生成を自動的に強化する、新しいゼロトレーニングビデオリファインメントパイプラインである。
提案手法は,まず,形式的ビデオ表現と意味的に一貫性のないイベント,オブジェクト,およびそれに対応するフレームをピンポイントで解析することにより,ニューロシンボリックフィードバックを導出する。
論文 参考訳(メタデータ) (2025-04-24T01:34:12Z) - Text-Animator: Controllable Visual Text Video Generation [149.940821790235]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。
Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。
また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文 参考訳(メタデータ) (2024-06-25T17:59:41Z) - WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text
and Image Inputs [53.21307319844615]
本稿では、Soraにインスパイアされたマルチモーダル学習の力を活用して、熟練した世界モデルフレームワークを構築する革新的なビデオ生成AIエージェントを提案する。
このフレームワークには、プロンプトエンハンサーとフルビデオ翻訳という2つの部分が含まれている。
論文 参考訳(メタデータ) (2024-03-10T16:09:02Z) - Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Make-Your-Video: Customized Video Generation Using Textual and
Structural Guidance [36.26032505627126]
近年のテキスト・ビデオ合成の進歩は、プロンプトのみを用いてこれを実現する可能性を明らかにしている。
本稿では,テキストをコンテキスト記述や動き構造として利用して,カスタマイズされた映像生成について検討する。
提案手法はMake-Your-Videoと呼ばれ,遅延拡散モデルを用いた共同条件映像生成を伴う。
論文 参考訳(メタデータ) (2023-06-01T17:43:27Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Iterative Text-based Editing of Talking-heads Using Neural Retargeting [42.964779538134714]
本稿では,反復的な編集ワークフローを実現する対話ヘッドビデオの編集を行うテキストベースのツールを提案する。
各イテレーションでは、ユーザーは音声の単語を編集し、アーティファクトを減らし、パフォーマンスの非言語的な側面を操作するために必要な口の動きをさらに洗練することができる。
我々のツールは、ターゲットのアクタービデオの2~3分しか必要とせず、各イテレーションのビデオを約40秒で合成する。
論文 参考訳(メタデータ) (2020-11-21T01:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。