Fugu-MT 論文翻訳(概要): Instruction-based Image Manipulation by Watching How Things Move

論文の概要: Instruction-based Image Manipulation by Watching How Things Move

arxiv url: http://arxiv.org/abs/2412.12087v1
Date: Mon, 16 Dec 2024 18:56:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.567729
Title: Instruction-based Image Manipulation by Watching How Things Move
Title（参考訳）: 物体の動きを観察するインストラクションベースイメージマニピュレーション
Authors: Mingdeng Cao, Xuaner Zhang, Yinqiang Zheng, Zhihao Xia,
Abstract要約: 命令ベースの複雑な操作が可能なモデルであるInstructMoveをトレーニングする新しいデータセットを作成します。本モデルでは,ポーズの調整,要素の並べ替え,カメラ視点の変更などのタスクにおいて,最先端の性能を示す。
参考スコア（独自算出の注目度）: 35.44993722444448
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a novel dataset construction pipeline that samples pairs of frames from videos and uses multimodal large language models (MLLMs) to generate editing instructions for training instruction-based image manipulation models. Video frames inherently preserve the identity of subjects and scenes, ensuring consistent content preservation during editing. Additionally, video data captures diverse, natural dynamics-such as non-rigid subject motion and complex camera movements-that are difficult to model otherwise, making it an ideal source for scalable dataset construction. Using this approach, we create a new dataset to train InstructMove, a model capable of instruction-based complex manipulations that are difficult to achieve with synthetically generated datasets. Our model demonstrates state-of-the-art performance in tasks such as adjusting subject poses, rearranging elements, and altering camera perspectives.
Abstract（参考訳）: 本稿では、ビデオから一対のフレームをサンプリングし、マルチモーダルな大言語モデル(MLLM)を用いて、命令に基づく画像操作モデルの訓練のための編集命令を生成する新しいデータセット構築パイプラインを提案する。ビデオフレームは本質的に被写体やシーンのアイデンティティを保存し、編集中に一貫したコンテンツ保存を確保する。さらに、ビデオデータは、非厳密な被写体の動きや複雑なカメラの動きなど、多様な自然なダイナミクスをキャプチャし、モデリングが難しいため、スケーラブルなデータセット構築に理想的なソースとなっている。このアプローチを用いることで、合成されたデータセットでは達成が難しい命令ベースの複雑な操作が可能なモデルであるInstructMoveをトレーニングする新たなデータセットを作成する。本モデルでは,ポーズの調整,要素の整理,カメラ視点の変更といったタスクにおいて,最先端のパフォーマンスを示す。

関連論文リスト

ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions [48.20176284066248]
ByteMorphは命令ベースの画像編集のためのフレームワークで,非剛性な動きに重点を置いている。 ByteMorphは、Diffusion Transformer (DiT)上に構築された大規模なデータセット、ByteMorph-6M、強力なベースラインモデルから構成される。どちらも、さまざまな環境、人格、対象カテゴリーにまたがる様々な種類の非剛体運動を捉えている。
論文参考訳（メタデータ） (2025-06-03T17:39:47Z)
Subject-driven Video Generation via Disentangled Identity and Motion [52.54835936914813]
本稿では,ゼロショットにおける時間的ダイナミクスから被験者固有の学習を分離し,追加のチューニングを伴わずに,主題駆動のカスタマイズビデオ生成モデルを訓練することを提案する。提案手法は、ゼロショット設定で既存のビデオカスタマイズモデルよりも優れた、強力な被写体整合性とスケーラビリティを実現する。
論文参考訳（メタデータ） (2025-04-23T06:48:31Z)
Resource-Efficient Motion Control for Video Generation via Dynamic Mask Guidance [2.5941932242768457]
マスク誘導ビデオ生成は、マスクモーションシーケンスを介して映像生成を制御することができる。提案モデルは,テキスト位置マッチングと移動軌跡制御のための前景マスクを組み込むことにより,既存のアーキテクチャを改良する。このアプローチは、ビデオ編集やアートビデオ生成などの様々なビデオ生成タスクに優れ、一貫性と品質の点で従来の手法よりも優れている。
論文参考訳（メタデータ） (2025-03-24T06:53:08Z)
VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。 VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文参考訳（メタデータ） (2025-03-18T15:31:12Z)
ObjectMover: Generative Object Movement with Video Prior [69.75281888309017]
本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文参考訳（メタデータ） (2025-03-11T04:42:59Z)
Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions [78.65431951506152]
自由形運動制御のための合成データセット(SynFMC)を提案する。提案したSynFMCデータセットは、さまざまなオブジェクトと環境を含み、特定のルールに従ってさまざまな動きパターンをカバーしている。さらに,物体とカメラの動きの独立的あるいは同時制御を可能にするFMC(Free-Form Motion Control)を提案する。
論文参考訳（メタデータ） (2025-01-02T18:59:45Z)
Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。 VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文参考訳（メタデータ） (2024-12-06T10:35:45Z)
SPAgent: Adaptive Task Decomposition and Model Selection for General Video Generation and Editing [50.098005973600024]
セマンティック・プランニング・エージェント(SPAgent)を利用した新しい映像生成・編集システムを提案する。 SPAgentは、多様なユーザ意図と既存の生成モデルの有効利用の間のギャップを埋める。実験結果は、SPAgentが効果的にモデルをコーディネートしてビデオの生成や編集を行うことを示した。
論文参考訳（メタデータ） (2024-11-28T08:07:32Z)
Transforming Static Images Using Generative Models for Video Salient Object Detection [15.701293552584863]
本研究では,画像成分間の文脈的関係を理解しつつ,静止画像の現実的な変換を画像間拡散モデルで生成できることを示す。この能力により、モデルは、シーン要素の独立な動きを反映しながらセマンティックな整合性を保ちながら、可塑性光フローを生成することができる。我々のアプローチは、すべての公開ベンチマークデータセットで最先端のパフォーマンスを実現し、既存のアプローチよりも優れています。
論文参考訳（メタデータ） (2024-11-21T09:41:33Z)
SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing [42.23117201457898]
本稿では,大規模言語モデル(LLM)とText2生成モデルを統合し,グラフベースの画像編集を行う新しいフレームワークを提案する。本フレームワークは,編集精度とシーン美学の観点から,既存の画像編集手法を著しく上回っている。
論文参考訳（メタデータ） (2024-10-15T17:40:48Z)
InstructRL4Pix: Training Diffusion for Image Editing by Reinforcement Learning [31.799923647356458]
本稿では,対象物体の注意図で導かれる画像を生成するために拡散モデルを訓練するための強化学習ガイド画像編集法(InstructRL4Pix)を提案する。実験結果から、InstructRL4Pixは従来のデータセットの限界を突破し、教師なし学習を用いて、編集目標を最適化し、自然な人間のコマンドに基づいて正確な画像編集を実現することがわかった。
論文参考訳（メタデータ） (2024-06-14T12:31:48Z)
VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文参考訳（メタデータ） (2024-01-04T18:59:24Z)
SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。 MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文参考訳（メタデータ） (2023-12-11T17:54:11Z)
InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文参考訳（メタデータ） (2023-05-21T03:28:13Z)
Structure and Content-Guided Video Synthesis with Diffusion Models [13.464501385061032]
所望の出力の視覚的あるいはテキスト的記述に基づいて映像を編集する構造とコンテンツ誘導ビデオ拡散モデルを提案する。本モデルでは,新たなガイダンス手法により,時間的一貫性の明示的な制御を明らかにする画像と映像を共同で訓練する。
論文参考訳（メタデータ） (2023-02-06T18:50:23Z)
PromptonomyViT: Multi-Task Prompt Learning Improves Video Transformers using Synthetic Scene Data [85.48684148629634]
本稿では,映像理解を改善するために合成シーンデータを活用する手法を提案する。本稿では,ビデオトランスのためのマルチタスク・プロンプト学習手法を提案する。複数のビデオ理解タスクやデータセットに対して,高いパフォーマンス向上を示す。
論文参考訳（メタデータ） (2022-12-08T18:55:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。