論文の概要: Towards Language-Driven Video Inpainting via Multimodal Large Language
Models
- arxiv url: http://arxiv.org/abs/2401.10226v1
- Date: Thu, 18 Jan 2024 18:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 15:24:20.689399
- Title: Towards Language-Driven Video Inpainting via Multimodal Large Language
Models
- Title(参考訳): マルチモーダル大規模言語モデルによる言語駆動型ビデオインペインティング
- Authors: Jianzong Wu, Xiangtai Li, Chenyang Si, Shangchen Zhou, Jingkang Yang,
Jiangning Zhang, Yining Li, Kai Chen, Yunhai Tong, Ziwei Liu, Chen Change Loy
- Abstract要約: 言語駆動型ビデオインペインティングという,新たなタスクを紹介します。
インペイントプロセスのガイドには自然言語命令を使用する。
Instructionsデータセットによるビデオからの削除オブジェクトを提示する。
- 参考スコア(独自算出の注目度): 119.68736808663685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new task -- language-driven video inpainting, which uses
natural language instructions to guide the inpainting process. This approach
overcomes the limitations of traditional video inpainting methods that depend
on manually labeled binary masks, a process often tedious and labor-intensive.
We present the Remove Objects from Videos by Instructions (ROVI) dataset,
containing 5,650 videos and 9,091 inpainting results, to support training and
evaluation for this task. We also propose a novel diffusion-based
language-driven video inpainting framework, the first end-to-end baseline for
this task, integrating Multimodal Large Language Models to understand and
execute complex language-based inpainting requests effectively. Our
comprehensive results showcase the dataset's versatility and the model's
effectiveness in various language-instructed inpainting scenarios. We will make
datasets, code, and models publicly available.
- Abstract(参考訳): 我々は,新しいタスク -- 言語駆動型ビデオインペインティングを紹介し,自然言語命令を用いてインペインティングプロセスをガイドする。
このアプローチは、手作業でラベル付けされたバイナリマスクに依存する従来のビデオインペインティング方法の制限を克服する。
本稿では,5,650本の動画と9,091枚の塗装結果を含むROVI(Remove Objects from Videos by Instructions)データセットを提案する。
また,このタスクのエンド・ツー・エンドのベースラインとして,多モーダルな大規模言語モデルを統合することで,複雑な言語ベースのインパインティング要求を効果的に理解し,実行できるようにする。
総合的な結果から,データセットの汎用性とモデルの有効性が,様々な言語によるインペインティングシナリオで示される。
データセット、コード、モデルを公開します。
関連論文リスト
- VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文 参考訳(メタデータ) (2024-06-03T07:14:19Z) - Paint by Inpaint: Learning to Add Image Objects by Removing Them First [8.399234415641319]
我々は、画像にオブジェクトを効果的に付加して、塗布過程を逆転させる拡散モデルを訓練する。
削除対象の詳細な記述と,これらの記述を多種多様な自然言語命令に変換するための大規模言語モデルを提供する。
論文 参考訳(メタデータ) (2024-04-28T15:07:53Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Painter: Teaching Auto-regressive Language Models to Draw Sketches [5.3445140425713245]
ユーザプロンプトをテキスト記述形式でスケッチに変換するLLMであるPapererを提示する。
テキストプロンプトと組み合わせた多目的スケッチのデータセットを作成する。
自動回帰画像生成にLSMを使うことは、前例のない先駆的な試みであるが、結果は大いに奨励されている。
論文 参考訳(メタデータ) (2023-08-16T17:18:30Z) - PaLI-X: On Scaling up a Multilingual Vision and Language Model [166.9837904115951]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。
我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。
複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文 参考訳(メタデータ) (2023-05-29T18:58:38Z) - Grafting Pre-trained Models for Multimodal Headline Generation [12.063053852096514]
マルチモーダルヘッドラインはビデオフレームと書き起こしの両方を利用して、ビデオの自然言語タイトルを生成する。
事前学習された言語モデルとビデオ言語モデルに関するこれまでの研究は、下流タスクにおいて大きな進歩を遂げた。
本稿では,ビデオエンコーダを生成前学習言語モデル上に事前学習したビデオ言語モデルから移植する手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T08:59:59Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。