論文の概要: Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing
- arxiv url: http://arxiv.org/abs/2602.09609v1
- Date: Tue, 10 Feb 2026 10:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.485103
- Title: Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing
- Title(参考訳): Tele-Omni:ビデオ生成と編集のための統合マルチモーダルフレームワーク
- Authors: Jialun Liu, Yukuo Ma, Xiao Cao, Tian Li, Gonghu Shang, Haibin Huang, Chi Zhang, Xuelong Li, Cong Liu, Junqi Liu, Jiakui Hu, Robby T. Tan, Shiwen Zhang, Liying Yang, Xiaoyan Yang, Qizhen Weng, Xiangzhen Chang, Yuanzhi Liang, Yifan Xu, Zhiyong Huang, Zuoxin Li, Xuelong Li,
- Abstract要約: Tele-Omniはビデオ生成と編集のための統合されたフレームワークで、マルチモーダルな指示に従う。
テキスト・ツー・ビデオ生成、画像・ビデオ生成、ファースト・ラスト・フレーム・ビデオ生成、イン・コンテクスト・ビデオ生成、およびイン・コンテクスト・ビデオ編集をサポートする。
- 参考スコア(独自算出の注目度): 93.8111348452324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in diffusion-based video generation have substantially improved visual fidelity and temporal coherence. However, most existing approaches remain task-specific and rely primarily on textual instructions, limiting their ability to handle multimodal inputs, contextual references, and diverse video generation and editing scenarios within a unified framework. Moreover, many video editing methods depend on carefully engineered pipelines tailored to individual operations, which hinders scalability and composability. In this paper, we propose Tele-Omni, a unified multimodal framework for video generation and editing that follows multimodal instructions, including text, images, and reference videos, within a single model. Tele-Omni leverages pretrained multimodal large language models to parse heterogeneous instructions and infer structured generation or editing intents, while diffusion-based generators perform high-quality video synthesis conditioned on these structured signals. To enable joint training across heterogeneous video tasks, we introduce a task-aware data processing pipeline that unifies multimodal inputs into a structured instruction format while preserving task-specific constraints. Tele-Omni supports a wide range of video-centric tasks, including text-to-video generation, image-to-video generation, first-last-frame video generation, in-context video generation, and in-context video editing. By decoupling instruction parsing from video synthesis and combining it with task-aware data design, Tele-Omni achieves flexible multimodal control while maintaining strong temporal coherence and visual consistency. Experimental results demonstrate that Tele-Omni achieves competitive performance across multiple tasks.
- Abstract(参考訳): 拡散に基づくビデオ生成の最近の進歩は、視覚的忠実度と時間的コヒーレンスを大幅に改善した。
しかし、既存のほとんどのアプローチはタスク固有であり、主にテキスト命令に依存しており、マルチモーダル入力、コンテキスト参照、および統合されたフレームワーク内での多様なビデオ生成および編集シナリオを扱う能力を制限する。
さらに、多くのビデオ編集手法は、個々の操作に適した慎重に設計されたパイプラインに依存しており、スケーラビリティと構成性を妨げる。
本稿では,テキスト,画像,参照ビデオを含むマルチモーダル命令に従う,ビデオ生成と編集のための統合型マルチモーダルフレームワークであるTele-Omniを,単一のモデル内で提案する。
Tele-Omniは、事前訓練されたマルチモーダルな言語モデルを利用して、異質な命令を解析し、構造化された生成や編集の意図を推測する。
タスク固有の制約を保ちつつ,マルチモーダル入力を構造化命令形式に統一するタスク対応データ処理パイプラインを導入する。
Tele-Omniは、テキスト・ツー・ビデオ生成、画像・ツー・ビデオ生成、ファーストラストフレーム・ビデオ生成、テキスト内ビデオ生成、テキスト内ビデオ編集など、幅広いビデオ中心のタスクをサポートしている。
ビデオ合成から命令解析を分離し、タスク対応データ設計と組み合わせることで、Tele-Omniは強い時間的コヒーレンスと視覚的一貫性を維持しつつ、柔軟なマルチモーダル制御を実現する。
実験により,Tele-Omniは複数のタスクにまたがる競争性能を実現することが示された。
関連論文リスト
- VINO: A Unified Visual Generator with Interleaved OmniModal Context [36.71641694179164]
VINOは、単一のフレームワーク内で画像とビデオの生成と編集を行う統合ビジュアルジェネレータである。
タスク固有のモデルやモジュールを各モダリティに依存するのではなく、VINOは共有拡散バックボーンを使用する。
論文 参考訳(メタデータ) (2026-01-05T18:56:34Z) - Kling-Omni Technical Report [80.64599716667777]
Kling-Omniはマルチモーダルな視覚言語入力から直接高忠実度動画を合成するための生成フレームワークである。
Kling-Omniは、多様なビデオ生成、編集、インテリジェントな推論タスク間の機能的分離を橋渡しする。
テキスト命令、参照画像、ビデオコンテキストを含む多様なユーザ入力をサポートし、それらを統一されたマルチモーダル表現に処理する。
論文 参考訳(メタデータ) (2025-12-18T17:08:12Z) - DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning on Language-Video Foundation Models [43.46536102838717]
VideoDreamerは、カスタマイズされたマルチオブジェクトのテキスト・ツー・ビデオ生成のための新しいフレームワークである。
与えられた複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
論文 参考訳(メタデータ) (2023-11-02T04:38:50Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。