論文の概要: TopNet: Transformer-based Object Placement Network for Image Compositing
- arxiv url: http://arxiv.org/abs/2304.03372v1
- Date: Thu, 6 Apr 2023 20:58:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 13:38:23.393749
- Title: TopNet: Transformer-based Object Placement Network for Image Compositing
- Title(参考訳): TopNet: 画像合成のためのトランスフォーマーベースのオブジェクト配置ネットワーク
- Authors: Sijie Zhu, Zhe Lin, Scott Cohen, Jason Kuen, Zhifei Zhang, Chen Chen
- Abstract要約: 背景画像の局所的な手がかりは、特定の位置/スケールにオブジェクトを置くことの互換性を決定するために重要である。
本稿では,トランスモジュールを用いてオブジェクト特徴とすべてのローカル背景特徴の相関関係を学習することを提案する。
我々の新しい定式化は、1つのネットワークフォワードパスにおけるすべての位置/スケールの組み合わせの妥当性を示す3Dヒートマップを生成する。
- 参考スコア(独自算出の注目度): 43.14411954867784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the problem of automatically placing an object into a
background image for image compositing. Given a background image and a
segmented object, the goal is to train a model to predict plausible placements
(location and scale) of the object for compositing. The quality of the
composite image highly depends on the predicted location/scale. Existing works
either generate candidate bounding boxes or apply sliding-window search using
global representations from background and object images, which fail to model
local information in background images. However, local clues in background
images are important to determine the compatibility of placing the objects with
certain locations/scales. In this paper, we propose to learn the correlation
between object features and all local background features with a transformer
module so that detailed information can be provided on all possible
location/scale configurations. A sparse contrastive loss is further proposed to
train our model with sparse supervision. Our new formulation generates a 3D
heatmap indicating the plausibility of all location/scale combinations in one
network forward pass, which is over 10 times faster than the previous
sliding-window method. It also supports interactive search when users provide a
pre-defined location or scale. The proposed method can be trained with explicit
annotation or in a self-supervised manner using an off-the-shelf inpainting
model, and it outperforms state-of-the-art methods significantly. The user
study shows that the trained model generalizes well to real-world images with
diverse challenging scenes and object categories.
- Abstract(参考訳): 画像合成のための背景画像にオブジェクトを自動配置する問題について検討する。
背景画像とセグメント化されたオブジェクトが与えられた場合、そのオブジェクトのもっともらしい配置(位置とスケール)を予測するためにモデルを訓練することが目的である。
合成画像の品質は予測位置/スケールに大きく依存する。
既存の作品では、候補バウンディングボックスを生成するか、背景画像とオブジェクト画像からのグローバル表現を使用してスライディングウィンドウ検索を適用するが、背景画像のローカル情報をモデル化できない。
しかし、背景画像の局所的な手がかりは、特定の位置/スケールにオブジェクトを配置する互換性を決定するために重要である。
本稿では,オブジェクト特徴とすべての局所的背景特徴の相関関係をトランスフォーマモジュールで学習し,可能なすべての位置/スケール設定について詳細な情報を提供する。
スパースな監督の下でモデルをトレーニングするために、スパースコントラスト損失がさらに提案されています。
我々の新しい定式化は,従来のスライディングウインドウ法よりも10倍以上高速な1つのネットワークフォワードパスにおけるすべての位置/スケールの組み合わせの可視性を示す3Dヒートマップを生成する。
ユーザが事前に定義された場所や規模を提供する場合の対話型検索もサポートする。
提案手法は,市販のインペインティングモデルを用いて,明示的アノテーションや自己指導的手法で訓練することができる。
ユーザスタディによると、トレーニングされたモデルは、さまざまな挑戦的なシーンとオブジェクトカテゴリを持つ実世界のイメージにうまく一般化する。
関連論文リスト
- Generative Location Modeling for Spatially Aware Object Insertion [35.62317512925592]
生成モデルは、オブジェクト挿入を含む画像編集タスクの強力なツールになっている。
本稿では,現実的な物体の位置を識別するための位置モデルの構築に焦点をあてる。
具体的には,背景画像と所望のオブジェクトクラスに条件付き境界ボックス座標を生成する自己回帰モデルを訓練する。
この定式化により、スパース配置アノテーションを効果的に処理し、直接選好最適化を行うことで、不明瞭な位置を選好データセットに組み込むことができる。
論文 参考訳(メタデータ) (2024-10-17T14:00:41Z) - AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。
我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文 参考訳(メタデータ) (2023-07-18T17:59:02Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - MeshLoc: Mesh-Based Visual Localization [54.731309449883284]
シーン表現を構築するために,データベースイメージ間のマッチング機能を必要としない,高密度な3Dメッシュに基づく,より柔軟な代替手段を模索する。
驚くべきことに、ニューラルネットワークのレンダリングステージなしで、これらのメッシュのレンダリングの特徴を抽出するときに、競合的な結果が得られる。
以上の結果から,高密度な3次元モデルに基づく表現は,既存の表現の代替として有望なものであり,今後の研究にとって興味深い,挑戦的な方向性を示すものと考えられる。
論文 参考訳(メタデータ) (2022-07-21T21:21:10Z) - GALA: Toward Geometry-and-Lighting-Aware Object Search for Compositing [43.14411954867784]
GALAは、幾何学と照明の整合性に関する識別モデルを用いた、汎用的な前景オブジェクト探索手法である。
大規模なオープンワールドデータセット、すなわちPixabayとOpen Imagesをうまく一般化する。
さらに,入力バウンディングボックスを使わずに背景画像のみを提供する非ボックスシナリオを効果的に処理できる。
論文 参考訳(メタデータ) (2022-03-31T22:36:08Z) - Complex Scene Image Editing by Scene Graph Comprehension [17.72638225034884]
シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
論文 参考訳(メタデータ) (2022-03-24T05:12:54Z) - Unsupervised Layered Image Decomposition into Object Prototypes [39.20333694585477]
自動検出対象モデルの層に画像を分解するための教師なし学習フレームワークを提案する。
我々はまず,標準マルチオブジェクト合成ベンチマークにおける技術状況と同等の結果を提供することで,我々のアプローチを検証した。
次に、クラスタリング(SVHN、GTSRB)、コセグメンテーション(Weizmann Horse)、フィルタされていないソーシャルネットワークイメージからのオブジェクト発見を含むタスクにおける実画像へのモデルの適用性を示す。
論文 参考訳(メタデータ) (2021-04-29T18:02:01Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。