論文の概要: UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models
- arxiv url: http://arxiv.org/abs/2509.21760v1
- Date: Fri, 26 Sep 2025 01:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.11691
- Title: UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models
- Title(参考訳): UniVid:事前訓練されたビデオ生成モデルで視覚タスクを統合する
- Authors: Lan Chen, Yuchao Gu, Qi Mao,
- Abstract要約: 広範なコーパスで訓練された大規模言語モデルは、単一の生成フレームワーク内で多様な言語タスクを統一することに成功した。
このようなモデリングには、モダリティやソースをまたいだタスク固有の事前トレーニングが必要です。
タスク固有の変更なしに様々な視覚タスクを処理するために,ビデオ拡散変換器を微調整するフレームワークであるUniVidを提案する。
- 参考スコア(独自算出の注目度): 12.21686773633269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models, trained on extensive corpora, successfully unify diverse linguistic tasks within a single generative framework. Inspired by this, recent works like Large Vision Model (LVM) extend this paradigm to vision by organizing tasks into sequential visual sentences, where visual prompts serve as the context to guide outputs. However, such modeling requires task-specific pre-training across modalities and sources, which is costly and limits scalability to unseen tasks. Given that pre-trained video generation models inherently capture temporal sequence dependencies, we explore a more unified and scalable alternative: can a pre-trained video generation model adapt to diverse image and video tasks? To answer this, we propose UniVid, a framework that fine-tunes a video diffusion transformer to handle various vision tasks without task-specific modifications. Tasks are represented as visual sentences, where the context sequence defines both the task and the expected output modality. We evaluate the generalization of UniVid from two perspectives: (1) cross-modal inference with contexts composed of both images and videos, extending beyond LVM's uni-modal setting; (2) cross-source tasks from natural to annotated data, without multi-source pre-training. Despite being trained solely on natural video data, UniVid generalizes well in both settings. Notably, understanding and generation tasks can easily switch by simply reversing the visual sentence order in this paradigm. These findings highlight the potential of pre-trained video generation models to serve as a scalable and unified foundation for vision modeling. Our code will be released at https://github.com/CUC-MIPG/UniVid.
- Abstract(参考訳): 広範なコーパスで訓練された大規模言語モデルは、単一の生成フレームワーク内で多様な言語タスクを統一することに成功した。
これに触発された最近のLVM(Large Vision Model)のような研究は、タスクを逐次的な視覚文に整理することで、このパラダイムを視覚に拡張し、視覚的なプロンプトが出力を導くコンテキストとして機能する。
しかし、そのようなモデリングには、モダリティやソースをまたいだタスク固有の事前トレーニングが必要であり、コストがかかり、スケーラビリティは見つからないタスクに制限される。
事前トレーニングされたビデオ生成モデルは、本質的に時間的シーケンスの依存関係をキャプチャするので、より統一的でスケーラブルな代替手段を探る: 事前トレーニングされたビデオ生成モデルは、多様な画像やビデオタスクに適応できるか?
そこで本研究では,映像拡散変換器を微調整したUniVidを提案する。
タスクは視覚的な文として表現され、コンテキストシーケンスはタスクと期待される出力モダリティの両方を定義する。
1 つの視点から UniVid の一般化を評価する。(1) 画像とビデオの両方からなるコンテキストによるクロスモーダル推論は LVM のユニモーダル設定を超えて、(2) マルチソース事前学習なしで自然から注釈付きデータへのクロスソースタスクである。
UniVidは、自然なビデオデータのみに訓練されているにもかかわらず、両方の設定でうまく一般化されている。
特に、このパラダイムでは、視覚文の順序を逆転するだけで、理解と生成を簡単に切り替えることができる。
これらの知見は、視覚モデリングのスケーラブルで統一された基盤として機能する、事前訓練されたビデオ生成モデルの可能性を浮き彫りにしている。
私たちのコードはhttps://github.com/CUC-MIPG/UniVid.comでリリースされます。
関連論文リスト
- RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models [22.042487298092883]
RealGeneralは、条件付きフレーム予測タスクとして画像生成を再構成する新しいフレームワークである。
カスタマイズされた生成の被写体類似性が14.5%向上し、キャニー・ツー・イメージの画質が10%向上した。
論文 参考訳(メタデータ) (2025-03-13T14:31:52Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。