論文の概要: Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion
- arxiv url: http://arxiv.org/abs/2603.06140v1
- Date: Fri, 06 Mar 2026 10:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.518744
- Title: Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion
- Title(参考訳): Place-it-R1:ビデオオブジェクト挿入のためのMLLMの環境認識推論の可能性
- Authors: Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo,
- Abstract要約: Place-it-R$1$はビデオオブジェクト挿入のためのエンドツーエンドフレームワークである。
それは、Think-then-Placeパラダイムに従って、ビデオ拡散を編成する。
MLLMは物理的なシーン理解とインタラクション推論を行う。
環境認識型連鎖トークンを生成し、有効な挿入領域を推測する。
- 参考スコア(独自算出の注目度): 28.621908346945762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern video editing techniques have achieved high visual fidelity when inserting video objects. However, they focus on optimizing visual fidelity rather than physical causality, leading to edits that are physically inconsistent with their environment. In this work, we present Place-it-R$1$, an end-to-end framework for video object insertion that unlocks the environment-aware reasoning potential of Multimodal Large Language Models (MLLMs). Our framework leverages the Chain-of-Thought (CoT) reasoning of MLLMs to orchestrate video diffusion, following a Think-then-Place paradigm. To bridge cognitive reasoning and generative execution, we introduce three key innovations: First, MLLM performs physical scene understanding and interaction reasoning, generating environment-aware chain-of-thought tokens and inferring valid insertion regions to explicitly guide the diffusion toward physically plausible insertion. Then, we introduce MLLM-guided Spatial Direct Preference Optimization (DPO), where diffusion outputs are fed back to the MLLM for scoring, enabling visual naturalness. During inference, the MLLM iteratively triggers refinement cycles and elicits adaptive adjustments from the diffusion model, forming a closed-loop that progressively enhances editing quality. Furthermore, we provide two user-selectable modes: a plausibility-oriented flexible mode that permits environment modifications (\eg, generating support structures) to enhance physical plausibility, and a fidelity-oriented standard mode that preserves scene integrity for maximum fidelity, offering users explicit control over the plausibility-fidelity trade-off. Extensive experiments demonstrate Place-it-R1 achieves physically-coherent video object insertion compared with state-of-the-art solutions and commercial models.
- Abstract(参考訳): 現代のビデオ編集技術は、映像オブジェクトを挿入する際の視覚的忠実度が高い。
しかし、それらは物理的因果性よりも視覚的忠実度を最適化することに集中しており、物理的に環境と矛盾する編集に繋がる。
本研究では,マルチモーダル大規模言語モデル (MLLM) の環境認識推論能力を解放する,ビデオオブジェクト挿入のためのエンドツーエンドフレームワークである Place-it-R$1 を提案する。
我々のフレームワークは、MLLMのChain-of-Thought(CoT)推論を利用して、Think-then-Placeパラダイムに従ってビデオ拡散を編成する。
認知的推論と生成的実行を橋渡しするために、まずMLLMは物理的なシーン理解と相互作用推論を行い、環境に配慮した連鎖トークンを生成し、有効挿入領域を推測し、物理的に妥当な挿入に向けて拡散を明示的に導く。
次に、MLLM誘導空間指向性最適化(DPO)を導入し、拡散出力をMLLMにフィードバックしてスコア付けし、視覚的自然性を実現する。
推論中、MLLMは改良サイクルを反復的にトリガーし、拡散モデルから適応調整を誘発し、編集品質を段階的に向上するクローズドループを形成する。
さらに, ユーザ選択可能なモードとして, 環境修正(例えば, サポート構造の生成)を可能にする可視性指向フレキシブルモードと, 最大忠実度のためのシーンの整合性を保ち, ユーザに対して, 可視性-忠実性のトレードオフを明示的に制御する忠実性指向の標準モードの2つを提供する。
大規模な実験では、Place-it-R1は最先端のソリューションや商用モデルと比較して物理的に整合性のあるビデオオブジェクト挿入を実現する。
関連論文リスト
- Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。
Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文 参考訳(メタデータ) (2026-02-03T14:48:12Z) - From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion [91.35078719566472]
VLM(Vision-Language Models)は、粗い非対称接続を使用することで、深刻な視覚的特徴のボトルネックを生み出す。
CLI(Cross-Layer Injection)は,2つのモダリティの間に動的に多対多の橋を架ける,斬新で軽量なフレームワークである。
論文 参考訳(メタデータ) (2026-01-15T18:59:10Z) - Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation [41.993197533574126]
Inferixは、最適化された半自己回帰復号プロセスを通じて没入型世界合成を可能にする推論エンジンである。
Inferixはさらに、インタラクティブなビデオストリーミングとプロファイリングによる提供を強化し、リアルタイムのインタラクションと現実的なシミュレーションを可能にしている。
論文 参考訳(メタデータ) (2025-11-25T01:45:04Z) - Reasoning-Enhanced Domain-Adaptive Pretraining of Multimodal Large Language Models for Short Video Content Governance [34.134289344567705]
本稿では,不適切なコンテンツ検出を統一するためのMLLM事前学習パラダイムを提案する。
短いビデオコンテンツとMLLMのオリジナル事前学習データとの分配ギャップに対処するために,3つの目標事前学習タスクを導入する。
実験結果から,ゼロショットおよび教師付き微調整環境におけるMLLMの性能は,事前学習により有意に向上することが示された。
論文 参考訳(メタデータ) (2025-09-25T19:46:34Z) - Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents [55.82787697101274]
Bifrost-1は、事前訓練されたマルチモーダルLLM(MLLM)と拡散モデルをブリッジする統合フレームワークである。
予め訓練したMLLMと拡散モデルとパッチレベルのCLIPラプタントをシームレスに統合することにより,高忠実度制御可能な画像生成を実現する。
実験の結果,Bifrost-1は視覚的忠実度やマルチモーダル理解の観点から,従来の手法と同等あるいは優れた性能を達成できた。
論文 参考訳(メタデータ) (2025-08-08T02:38:47Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models [42.891427362223176]
デコーダのみの変換器をベースとした大規模言語モデル(LLM)は、優れたテキスト理解能力を示している。
LLMの能力をフル活用するための新しいフレームワークを提案する。
さらに, LLM-Infused Diffusion Transformer (LI-DiT) を設計した。
論文 参考訳(メタデータ) (2024-06-17T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。