論文の概要: ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation
- arxiv url: http://arxiv.org/abs/2412.08645v1
- Date: Wed, 11 Dec 2024 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:03.037202
- Title: ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation
- Title(参考訳): ObjectMate: オブジェクトの挿入と主観的生成に先立つ再帰
- Authors: Daniel Winter, Asaf Shul, Matan Cohen, Dana Berman, Yael Pritch, Alex Rav-Acha, Yedid Hoshen,
- Abstract要約: 本稿では,オブジェクト挿入と主観的生成の両方のためのチューニング不要な手法を提案する。
このタスクでは、複数のビューを与えられたオブジェクトを、画像またはテキストによって指定されたシーンにコンパイルする。
我々は,オブジェクト挿入と主観的生成の最先端手法と比較し,単一の参照や複数参照を用いて比較した。
- 参考スコア(独自算出の注目度): 33.91045409317844
- License:
- Abstract: This paper introduces a tuning-free method for both object insertion and subject-driven generation. The task involves composing an object, given multiple views, into a scene specified by either an image or text. Existing methods struggle to fully meet the task's challenging objectives: (i) seamlessly composing the object into the scene with photorealistic pose and lighting, and (ii) preserving the object's identity. We hypothesize that achieving these goals requires large scale supervision, but manually collecting sufficient data is simply too expensive. The key observation in this paper is that many mass-produced objects recur across multiple images of large unlabeled datasets, in different scenes, poses, and lighting conditions. We use this observation to create massive supervision by retrieving sets of diverse views of the same object. This powerful paired dataset enables us to train a straightforward text-to-image diffusion architecture to map the object and scene descriptions to the composited image. We compare our method, ObjectMate, with state-of-the-art methods for object insertion and subject-driven generation, using a single or multiple references. Empirically, ObjectMate achieves superior identity preservation and more photorealistic composition. Differently from many other multi-reference methods, ObjectMate does not require slow test-time tuning.
- Abstract(参考訳): 本稿では,オブジェクト挿入と主観的生成の両方のためのチューニング不要な手法を提案する。
このタスクでは、複数のビューを与えられたオブジェクトを、画像またはテキストによって指定されたシーンにコンパイルする。
既存の手法は、タスクの課題目標を完全に満たすのに苦労します。
(i)写実的なポーズと照明でシームレスに物体をシーンに構成し、
(ii)オブジェクトのアイデンティティを保持する。
これらの目標を達成するには大規模な監視が必要だと仮定するが、手動で十分なデータを収集するには高すぎる。
本論文のキーとなる観察は、多くの大量生産物が、異なるシーン、ポーズ、照明条件において、大きなラベル付けされていないデータセットの複数の画像に再帰することである。
我々は、この観察を用いて、同じ対象の多様なビューの集合を検索することで、大規模な監視を作成する。
この強力なペア化データセットにより、簡単なテキストと画像の拡散アーキテクチャをトレーニングし、オブジェクトとシーン記述を合成画像にマッピングすることができます。
我々は,オブジェクト挿入と主観的生成の最先端手法であるObjectMateを,単一の参照や複数参照を用いて比較した。
実証的には、ObjectMateは優れたアイデンティティ保存とよりフォトリアリスティックな構成を実現している。
他の多くのマルチ参照メソッドとは異なり、ObjectMateは遅いテスト時間チューニングを必要としない。
関連論文リスト
- ObjectRelator: Enabling Cross-View Object Relation Understanding in Ego-Centric and Exo-Centric Videos [105.40690994956667]
Ego-Exoオブジェクト対応タスクは、オブジェクトをエゴ中心およびエゴ中心のビューにマップすることを目的としている。
我々は,この課題に対処するための新しい手法であるObjectRelatorを紹介する。
論文 参考訳(メタデータ) (2024-11-28T12:01:03Z) - SINGAPO: Single Image Controlled Generation of Articulated Parts in Objects [20.978091381109294]
本稿では,単一画像から音声オブジェクトを生成する手法を提案する。
提案手法は,入力画像と視覚的に一致した音声オブジェクトを生成する。
実験の結果,本手法は音声によるオブジェクト生成における最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-21T20:41:32Z) - Retrieval Robust to Object Motion Blur [54.34823913494456]
本研究では,動きのぼやけの影響を受けやすい画像のオブジェクト検索手法を提案する。
ぼやけたオブジェクト検索のための最初の大規模データセットを提示する。
提案手法は,新しいぼやけた検索データセット上で,最先端の検索手法より優れている。
論文 参考訳(メタデータ) (2024-04-27T23:22:39Z) - Image Segmentation-based Unsupervised Multiple Objects Discovery [1.7674345486888503]
教師なしオブジェクト発見は、イメージ内のオブジェクトをローカライズすることを目的としている。
我々は,複数のオブジェクトの発見に対して,完全に教師なしのボトムアップアプローチを提案する。
我々は、教師なしクラス非依存オブジェクト検出と教師なしイメージセグメンテーションの両方に対して、最先端の結果を提供する。
論文 参考訳(メタデータ) (2022-12-20T09:48:24Z) - FewSOL: A Dataset for Few-Shot Object Learning in Robotic Environments [21.393674766169543]
本稿では,オブジェクト認識のためのFew-Shot Object Learningデータセットについて紹介する。
私たちは、異なる視点から、オブジェクトごとに9つのRGB-D画像を持つ336の現実世界のオブジェクトをキャプチャしました。
評価結果から, ロボット環境下では, 数発の物体分類において, 改良の余地がまだ大きいことが示唆された。
論文 参考訳(メタデータ) (2022-07-06T05:57:24Z) - LayoutBERT: Masked Language Layout Model for Object Insertion [3.4806267677524896]
本稿では,オブジェクト挿入タスクのためのレイアウトBERTを提案する。
これは、新しい自己監督型マスク付き言語モデルと双方向多頭部自己注意を用いている。
各種ドメインからのデータセットの質的および定量的評価を行う。
論文 参考訳(メタデータ) (2022-04-30T21:35:38Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。