論文の概要: Node-Based Editing for Multimodal Generation of Text, Audio, Image, and Video
- arxiv url: http://arxiv.org/abs/2511.03227v2
- Date: Thu, 06 Nov 2025 01:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 13:46:06.509146
- Title: Node-Based Editing for Multimodal Generation of Text, Audio, Image, and Video
- Title(参考訳): テキスト・オーディオ・画像・ビデオのマルチモーダル生成のためのノードベース編集
- Authors: Alexander Htet Kyaw, Lenin Ravindranath Sivalingam,
- Abstract要約: マルチモーダルコンテンツ生成のためのノードベースのストーリーテリングシステムを提案する。
このシステムはストーリーを拡張、編集、反復的に洗練できるノードのグラフとして表現する。
各ノードはテキスト、画像、オーディオ、ビデオを統合することができ、クリエイターはマルチモーダルな物語を作成できる。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a node-based storytelling system for multimodal content generation. The system represents stories as graphs of nodes that can be expanded, edited, and iteratively refined through direct user edits and natural-language prompts. Each node can integrate text, images, audio, and video, allowing creators to compose multimodal narratives. A task selection agent routes between specialized generative tasks that handle story generation, node structure reasoning, node diagram formatting, and context generation. The interface supports targeted editing of individual nodes, automatic branching for parallel storylines, and node-based iterative refinement. Our results demonstrate that node-based editing supports control over narrative structure and iterative generation of text, images, audio, and video. We report quantitative outcomes on automatic story outline generation and qualitative observations of editing workflows. Finally, we discuss current limitations such as scalability to longer narratives and consistency across multiple nodes, and outline future work toward human-in-the-loop and user-centered creative AI tools.
- Abstract(参考訳): マルチモーダルコンテンツ生成のためのノードベースのストーリーテリングシステムを提案する。
このシステムはストーリーを、直接のユーザー編集と自然言語のプロンプトによって拡張、編集、反復的に洗練できるノードのグラフとして表現する。
各ノードはテキスト、画像、オーディオ、ビデオを統合することができ、クリエイターはマルチモーダルな物語を作成できる。
タスク選択エージェントは、ストーリー生成、ノード構造推論、ノードダイアグラムフォーマッティング、コンテキスト生成を処理する特殊な生成タスクの間をルーティングする。
このインターフェースは、個々のノードのターゲット編集、並列ストーリーラインの自動分岐、ノードベースの反復修正をサポートする。
その結果,ノードベースの編集は,物語構造やテキスト,画像,音声,ビデオの反復生成を制御できることがわかった。
本稿では,自動ストーリーアウトライン生成と編集ワークフローの質的観察に関する定量的結果について報告する。
最後に、複数のノードにまたがる長い物語へのスケーラビリティや一貫性といった現在の制限について論じ、今後のヒューマンインザループとユーザ中心のクリエイティブAIツールへの取り組みについて概説する。
関連論文リスト
- Structured Graph Representations for Visual Narrative Reasoning: A Hierarchical Framework for Comics [1.320904960556043]
本稿では,漫画に焦点をあて,視覚的物語の構造的理解のための階層的知識グラフフレームワークを提案する。
それは、意味的、空間的、時間的関係をキャプチャする統合知識グラフを通してそれらを表現する。
パネルレベルでは、文字、オブジェクト、アクションなどの視覚要素と、対話やキャプションを含む対応するテキストコンポーネントをリンクするマルチモーダルグラフを構築する。
論文 参考訳(メタデータ) (2025-04-14T14:42:19Z) - Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - Incorporating Commonsense Knowledge into Story Ending Generation via
Heterogeneous Graph Networks [16.360265861788253]
本研究では,異なるレベルにおけるストーリーコンテキストの情報と,それら間の多義的な対話性の両方を明示的にモデル化するために,ストーリー異種グラフネットワーク(SHGN)を提案する。
より詳しくは、常識知識、単語、文を3種類のノードとみなす。
感情傾向を暗黙的に捉えるための2つの補助タスクを設計し、重要なイベントをコンテキストに配置する。
論文 参考訳(メタデータ) (2022-01-29T09:33:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。