論文の概要: A Text-Native Interface for Generative Video Authoring
- arxiv url: http://arxiv.org/abs/2603.09072v1
- Date: Tue, 10 Mar 2026 01:33:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.930468
- Title: A Text-Native Interface for Generative Video Authoring
- Title(参考訳): 生成ビデオオーサリングのためのテキストネイティブインタフェース
- Authors: Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu Li,
- Abstract要約: 生成ビデオオーサリングのためのテキストネイティブインタフェースであるDokiを紹介する。
1つのドキュメントの中で、ユーザーは資産を定義し、構成シーンを定義し、ショットを作成し、編集を洗練し、オーディオを追加する。
この研究は、生成的ビデオインターフェースの根本的な変化に寄与し、ビジュアルストーリーを作るための強力でアクセスしやすい新しい方法を示している。
- 参考スコア(独自算出の注目度): 5.640604615309813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Everyone can write their stories in freeform text format -- it's something we all learn in school. Yet storytelling via video requires one to learn specialized and complicated tools. In this paper, we introduce Doki, a text-native interface for generative video authoring, aligning video creation with the natural process of text writing. In Doki, writing text is the primary interaction: within a single document, users define assets, structure scenes, create shots, refine edits, and add audio. We articulate the design principles of this text-first approach and demonstrate Doki's capabilities through a series of examples. To evaluate its real-world use, we conducted a week-long deployment study with participants of varying expertise in video authoring. This work contributes a fundamental shift in generative video interfaces, demonstrating a powerful and accessible new way to craft visual stories.
- Abstract(参考訳): 誰もが自分のストーリーをフリーフォームのテキスト形式で書くことができる。
しかし、ビデオによるストーリーテリングには専門的で複雑なツールを学ぶ必要がある。
本稿では,テキスト作成の自然なプロセスとビデオ作成を協調する,生成的ビデオオーサリングのためのテキストネイティブインターフェースであるDokiを紹介する。
1つのドキュメントの中で、ユーザーは資産を定義し、構成シーンを定義し、ショットを作成し、編集を洗練し、オーディオを追加する。
我々は、このテキストファーストアプローチの設計原則を明確にし、一連の例を通してDokiの能力を実証する。
実際の使用状況を評価するため,ビデオオーサリングの様々な専門知識を持つ参加者を対象に,一週間にわたる展開調査を行った。
この研究は、生成的ビデオインターフェースの根本的な変化に寄与し、ビジュアルストーリーを作るための強力でアクセスしやすい新しい方法を示している。
関連論文リスト
- Rewriting Video: Text-Driven Reauthoring of Video Footage [19.217919638665713]
ビデオはコミュニケーションとストーリーテリングの強力な媒体だが、既存の映像を再執筆することは難しい。
ビデオの編集がテキストの書き直しと同じくらい簡単ならどうだろう?
本稿では,テク調査とテキスト駆動ビデオ再オーサリングに関する研究について紹介する。
論文 参考訳(メタデータ) (2026-01-13T13:49:05Z) - Text-Animator: Controllable Visual Text Video Generation [149.940821790235]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。
Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。
また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文 参考訳(メタデータ) (2024-06-25T17:59:41Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [74.61964363605632]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - FairyTailor: A Multimodal Generative Framework for Storytelling [33.39639788612019]
本稿では,人間とループによるビジュアルストーリーのコクリエーションのためのシステムとデモ,FairyTailorを紹介する。
ユーザは、生成されたテキストを織り、入力で検索した画像を織り込むことで、結束した子供の妖精を作ることができる。
我々の知る限り、これはテキストと画像の両方のインタラクティブなコフォームを可能にするマルチモーダルなストーリー生成のための最初の動的ツールである。
論文 参考訳(メタデータ) (2021-07-13T02:45:08Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。