論文の概要: AnyDoor: Zero-shot Object-level Image Customization
- arxiv url: http://arxiv.org/abs/2307.09481v2
- Date: Wed, 8 May 2024 03:21:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 19:20:21.785708
- Title: AnyDoor: Zero-shot Object-level Image Customization
- Title(参考訳): AnyDoor: ゼロショットオブジェクトレベルのイメージカスタマイズ
- Authors: Xi Chen, Lianghua Huang, Yu Liu, Yujun Shen, Deli Zhao, Hengshuang Zhao,
- Abstract要約: ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。
我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
- 参考スコア(独自算出の注目度): 63.44307304097742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents AnyDoor, a diffusion-based image generator with the power to teleport target objects to new scenes at user-specified locations in a harmonious way. Instead of tuning parameters for each object, our model is trained only once and effortlessly generalizes to diverse object-scene combinations at the inference stage. Such a challenging zero-shot setting requires an adequate characterization of a certain object. To this end, we complement the commonly used identity feature with detail features, which are carefully designed to maintain texture details yet allow versatile local variations (e.g., lighting, orientation, posture, etc.), supporting the object in favorably blending with different surroundings. We further propose to borrow knowledge from video datasets, where we can observe various forms (i.e., along the time axis) of a single object, leading to stronger model generalizability and robustness. Extensive experiments demonstrate the superiority of our approach over existing alternatives as well as its great potential in real-world applications, such as virtual try-on and object moving. Project page is https://damo-vilab.github.io/AnyDoor-Page/.
- Abstract(参考訳): この研究は、拡散に基づく画像生成装置であるAnyDoorを紹介し、ユーザーが指定した場所の新しいシーンに、調和してターゲットオブジェクトをテレポートする。
各オブジェクトのパラメータをチューニングする代わりに、我々のモデルは1回だけ訓練され、推論段階で様々なオブジェクトとシーンの組み合わせに強制的に一般化されます。
このような挑戦的なゼロショット設定は、ある対象を適切に特徴づける必要がある。
この目的のために、テクスチャの詳細を維持しつつ、多彩な局所的変動(例えば、照明、方向、姿勢など)を許容できるよう慎重に設計され、異なる環境と良好に混ざり合うように支援する、詳細な特徴でよく使われるアイデンティティ機能を補完する。
さらに、単一の物体の様々な形態(すなわち時間軸に沿って)を観察できるビデオデータセットから知識を借りることを提案し、より強力なモデル一般化性とロバスト性をもたらす。
大規模な実験は、我々のアプローチが既存の代替手段よりも優れていること、そしてバーチャルトライオンやオブジェクト移動のような現実世界のアプリケーションにおいて大きな可能性を実証している。
プロジェクトページはhttps://damo-vilab.github.io/AnyDoor-Page/。
関連論文リスト
- ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - TopNet: Transformer-based Object Placement Network for Image Compositing [43.14411954867784]
背景画像の局所的な手がかりは、特定の位置/スケールにオブジェクトを置くことの互換性を決定するために重要である。
本稿では,トランスモジュールを用いてオブジェクト特徴とすべてのローカル背景特徴の相関関係を学習することを提案する。
我々の新しい定式化は、1つのネットワークフォワードパスにおけるすべての位置/スケールの組み合わせの妥当性を示す3Dヒートマップを生成する。
論文 参考訳(メタデータ) (2023-04-06T20:58:49Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - AutoRF: Learning 3D Object Radiance Fields from Single View Observations [17.289819674602295]
AutoRFは、トレーニングセットの各オブジェクトが単一のビューでのみ観察される、ニューラルな3Dオブジェクト表現を学ぶための新しいアプローチである。
提案手法は,現実の街路シーンに挑戦するさまざまなデータセットであっても,見えない物体に対してうまく一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:13:39Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Understanding Object Dynamics for Interactive Image-to-Video Synthesis [8.17925295907622]
本稿では,局所的な操作によって自然に見えるグローバルな調音をピクセルレベルで学習する手法を提案する。
我々の生成モデルは、ユーザインタラクションに対する応答として、自然なオブジェクトのダイナミクスを推論することを学ぶ。
ビデオ予測に関する既存の研究とは対照的に、任意のリアルなビデオは合成しない。
論文 参考訳(メタデータ) (2021-06-21T17:57:39Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。