Fugu-MT 論文翻訳(概要): Multitwine: Multi-Object Compositing with Text and Layout Control

論文の概要: Multitwine: Multi-Object Compositing with Text and Layout Control

arxiv url: http://arxiv.org/abs/2502.05165v1
Date: Fri, 07 Feb 2025 18:48:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 18:29:33.28196
Title: Multitwine: Multi-Object Compositing with Text and Layout Control
Title（参考訳）: Multitwine: テキストとレイアウト制御によるマルチオブジェクト合成
Authors: Gemma Canet Tarrés, Zhe Lin, Zhifei Zhang, He Zhang, Andrew Gilbert, John Collomosse, Soo Ye Kim,
Abstract要約: 私たちのモデルでは、シーン内に複数のオブジェクトを追加し、さまざまなインタラクションをキャプチャすることができます。相互作用が、セルフィーを取るなどの追加のプロップを暗示すると、私たちのモデルは、これらのサポート対象を自律的に生成します。本稿では,視覚モデルと言語モデルを利用して,マルチモーダル・アライメント・トレーニングデータをシームレスに合成するデータ生成パイプラインを提案する。
参考スコア（独自算出の注目度）: 36.27869996622236
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce the first generative model capable of simultaneous multi-object compositing, guided by both text and layout. Our model allows for the addition of multiple objects within a scene, capturing a range of interactions from simple positional relations (e.g., next to, in front of) to complex actions requiring reposing (e.g., hugging, playing guitar). When an interaction implies additional props, like `taking a selfie', our model autonomously generates these supporting objects. By jointly training for compositing and subject-driven generation, also known as customization, we achieve a more balanced integration of textual and visual inputs for text-driven object compositing. As a result, we obtain a versatile model with state-of-the-art performance in both tasks. We further present a data generation pipeline leveraging visual and language models to effortlessly synthesize multimodal, aligned training data.
Abstract（参考訳）: テキストとレイアウトの両方でガイドされる複数オブジェクトの同時合成が可能な最初の生成モデルを提案する。我々のモデルでは、シーン内に複数のオブジェクトを追加し、単純な位置関係(例えば、目の前にある位置関係)から、リポス(例えば、ハグ、ギター)を必要とする複雑なアクションまで、さまざまなインタラクションをキャプチャすることができます。相互作用が‘自撮りをする’といった追加のプロップを暗示すると、私たちのモデルはこれらのサポート対象を自律的に生成します。合成と主題駆動生成を共同でトレーニングすることで、テキスト駆動型オブジェクト合成のためのテキスト入力と視覚入力のバランスのとれた統合を実現する。その結果,両タスクの最先端性能を有する汎用モデルが得られた。さらに、視覚モデルと言語モデルを利用して、マルチモーダルでアライメントされたトレーニングデータをシームレスに合成するデータ生成パイプラインを提案する。

関連論文リスト

DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.99373622902827]
DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文参考訳（メタデータ） (2025-05-26T18:55:14Z)
VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文参考訳（メタデータ） (2024-07-08T18:12:49Z)
Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文参考訳（メタデータ） (2024-05-26T23:56:45Z)
LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文参考訳（メタデータ） (2023-10-16T17:57:37Z)
Emu: Generative Pretraining in Multimodality [43.759593451544546]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。 Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。 Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文参考訳（メタデータ） (2023-07-11T12:45:39Z)
Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文参考訳（メタデータ） (2023-05-06T09:07:01Z)
MoMo: A shared encoder Model for text, image and multi-Modal representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文参考訳（メタデータ） (2023-04-11T22:26:10Z)
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文参考訳（メタデータ） (2023-03-29T16:42:30Z)
TextMI: Textualize Multimodal Information for Integrating Non-verbal Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文参考訳（メタデータ） (2023-03-27T17:54:32Z)
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文参考訳（メタデータ） (2022-05-24T00:52:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。