論文の概要: Foreground Object Search by Distilling Composite Image Feature
- arxiv url: http://arxiv.org/abs/2308.04990v1
- Date: Wed, 9 Aug 2023 14:43:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 13:12:24.712291
- Title: Foreground Object Search by Distilling Composite Image Feature
- Title(参考訳): 複合画像特徴の蒸留による前景物体探索
- Authors: Bo Zhang and Jiacheng Sui and Li Niu
- Abstract要約: フォアグラウンドオブジェクトサーチ(FOS)は、ある背景画像に対して互換性のあるフォアグラウンドオブジェクトを見つけることを目的としている。
判別器を用いて合成画像の整合性を予測することにより,競争力のある検索性能が達成できることを示す。
蒸留複合材料(DiscoFOS)を用いた新しいFOS法を提案する。
- 参考スコア(独自算出の注目度): 15.771802337102837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foreground object search (FOS) aims to find compatible foreground objects for
a given background image, producing realistic composite image. We observe that
competitive retrieval performance could be achieved by using a discriminator to
predict the compatibility of composite image, but this approach has
unaffordable time cost. To this end, we propose a novel FOS method via
distilling composite feature (DiscoFOS). Specifically, the abovementioned
discriminator serves as teacher network. The student network employs two
encoders to extract foreground feature and background feature. Their
interaction output is enforced to match the composite image feature from the
teacher network. Additionally, previous works did not release their datasets,
so we contribute two datasets for FOS task: S-FOSD dataset with synthetic
composite images and R-FOSD dataset with real composite images. Extensive
experiments on our two datasets demonstrate the superiority of the proposed
method over previous approaches. The dataset and code are available at
https://github.com/bcmi/Foreground-Object-Search-Dataset-FOSD.
- Abstract(参考訳): Foreground Object Search (FOS) は、対象の背景画像に対して互換性のある前景オブジェクトを見つけることを目的としており、現実的な合成画像を生成する。
複合画像の適合性を予測するために判別器を用いることで,競合検索性能が向上するが,この手法には許容できない時間コストが伴う。
そこで本研究では, 蒸留合成法(DiscoFOS)による新しいFOS法を提案する。
具体的には、上記判別器が教師ネットワークとして機能する。
学生ネットワークは、2つのエンコーダを用いて前景特徴と背景特徴を抽出する。
その相互作用出力は、教師ネットワークからの合成画像特徴と一致するように強制される。
さらに,従来の研究ではデータセットを公開しなかったため,合成合成画像を用いたS-FOSDデータセットと実合成画像を用いたR-FOSDデータセットという,FOSタスクのための2つのデータセットをコントリビュートした。
2つのデータセットに関する広範な実験により,提案手法が従来手法よりも優れていることが示された。
データセットとコードはhttps://github.com/bcmi/Foreground-Object-Search-Dataset-FOSDで公開されている。
関連論文リスト
- Rethinking Image Super-Resolution from Training Data Perspectives [54.28824316574355]
画像超解像(SR)におけるトレーニングデータの効果について検討する。
そこで我々は,自動画像評価パイプラインを提案する。
その結果, (i) 圧縮アーチファクトの少ないデータセット, (ii) 被写体数によって判断される画像内多様性の高いデータセット, (iii) ImageNet や PASS からの大量の画像がSR性能に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-09-01T16:25:04Z) - DESOBAv2: Towards Large-scale Real-world Dataset for Shadow Generation [19.376935979734714]
本研究では,合成画像をよりリアルにするために,挿入された前景オブジェクトに対する可塑性影の生成に焦点をあてる。
既存の小規模なデータセットであるDESOBAを補完するために、DESOBAv2と呼ばれる大規模なデータセットを作成します。
論文 参考訳(メタデータ) (2023-08-19T10:21:23Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - OPA: Object Placement Assessment Dataset [20.791187775546625]
画像合成は、ある画像から別の背景画像にオブジェクトを挿入することで、現実的な合成画像を生成することを目的とする。
本稿では,オブジェクト配置の観点で合成画像が妥当かどうかを検証するオブジェクト配置評価タスクに焦点をあてる。
論文 参考訳(メタデータ) (2021-07-05T09:23:53Z) - Deep Image Compositing [0.0]
画像編集では、最も一般的なタスクは、一方の画像から他方の画像にオブジェクトを貼り付け、背景オブジェクトで前景オブジェクトの表示を調整することです。
そのためには、GANS(Generative Adversarial Networks)を使用しています。
GANSは、画像の前景と背景部分の色ヒストグラムをデコードすることができ、また、前景オブジェクトと背景をブレンドすることを学ぶことができる。
論文 参考訳(メタデータ) (2021-03-29T09:23:37Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Real-MFF: A Large Realistic Multi-focus Image Dataset with Ground Truth [58.226535803985804]
我々はReal-MFFと呼ばれる大規模で現実的なマルチフォーカスデータセットを導入する。
データセットは、710対のソースイメージと対応する接地真理画像を含む。
このデータセット上で10の典型的なマルチフォーカスアルゴリズムを図示のために評価する。
論文 参考訳(メタデータ) (2020-03-28T12:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。