Fugu-MT 論文翻訳(概要): Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection

論文の概要: Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection

arxiv url: http://arxiv.org/abs/2405.16823v1
Date: Mon, 27 May 2024 04:44:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 17:00:31.511983
Title: Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection
Title（参考訳）: パノラマ・3次元シーン・映像のアンタングル型自己注意注入による統一編集
Authors: Gihyun Kwon, Jangho Park, Jong Chul Ye,
Abstract要約: 本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
参考スコア（独自算出の注目度）: 60.47731445033151
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While text-to-image models have achieved impressive capabilities in image generation and editing, their application across various modalities often necessitates training separate models. Inspired by existing method of single image editing with self attention injection and video editing with shared attention, we propose a novel unified editing framework that combines the strengths of both approaches by utilizing only a basic 2D image text-to-image (T2I) diffusion model. Specifically, we design a sampling method that facilitates editing consecutive images while maintaining semantic consistency utilizing shared self-attention features during both reference and consecutive image sampling processes. Experimental results confirm that our method enables editing across diverse modalities including 3D scenes, videos, and panorama images.
Abstract（参考訳）: テキスト・トゥ・イメージ・モデルは画像生成や編集において印象的な能力を発揮してきたが、様々なモダリティにまたがる応用には、しばしば個別のモデルを訓練する必要がある。そこで本研究では,2次元画像テキスト・トゥ・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した統合編集フレームワークを提案する。具体的には、参照画像と連続画像の両方のサンプリングプロセスにおいて、共有自己認識機能を利用してセマンティック一貫性を維持しながら、連続画像の編集を容易にするサンプリング手法を設計する。実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。

関連論文リスト

Coupled Diffusion Sampling for Training-Free Multi-View Image Editing [27.884718441352387]
事前訓練された2D画像編集モデルは、複数のビュー画像の集合において、各画像の高品質な編集を独立して生成することができるが、ビュー間の一貫性は維持されない。本稿では,生成した2次元画像列を事前学習した多視点画像分布に適応するように制約することで,暗黙的な3次元正規化手法を提案する。これは、多視点画像分布と2次元編集画像分布の両方から2つの軌跡を同時にサンプリングする単純な拡散サンプリング技術である。
論文参考訳（メタデータ） (2025-10-16T17:59:59Z)
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。 T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文参考訳（メタデータ） (2024-06-20T17:58:52Z)
Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-11T17:59:51Z)
I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。 I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文参考訳（メタデータ） (2024-05-26T11:47:40Z)
Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文参考訳（メタデータ） (2024-02-22T18:50:18Z)
Free-Editor: Zero-shot Text-driven 3D Scene Editing [8.966537479017951]
大規模なデータセットが不足しているため、3次元シーン編集に特化した拡散モデルを訓練することは困難である。モデル再学習を必要とせずに3Dシーンを編集できる「textscFree-Editor」という新しい3Dシーン編集技術を紹介した。本手法は,SOTA(State-of-the-art)手法におけるマルチビュースタイルの不整合の問題を効果的に解決する。
論文参考訳（メタデータ） (2023-12-21T08:40:57Z)
Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文参考訳（メタデータ） (2023-09-10T02:31:50Z)
Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文参考訳（メタデータ） (2023-03-22T16:36:10Z)
Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。 3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文参考訳（メタデータ） (2020-07-03T02:49:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。