論文の概要: Learning Co-segmentation by Segment Swapping for Retrieval and Discovery
- arxiv url: http://arxiv.org/abs/2110.15904v1
- Date: Fri, 29 Oct 2021 16:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 14:30:29.916049
- Title: Learning Co-segmentation by Segment Swapping for Retrieval and Discovery
- Title(参考訳): 検索・発見のためのセグメントスワップによる学習コーセメンテーション
- Authors: Xi Shen, Alexei A. Efros, Armand Joulin, Mathieu Aubry
- Abstract要約: この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 67.6609943904996
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The goal of this work is to efficiently identify visually similar patterns
from a pair of images, e.g. identifying an artwork detail copied between an
engraving and an oil painting, or matching a night-time photograph with its
daytime counterpart. Lack of training data is a key challenge for this
co-segmentation task. We present a simple yet surprisingly effective approach
to overcome this difficulty: we generate synthetic training pairs by selecting
object segments in an image and copy-pasting them into another image. We then
learn to predict the repeated object masks. We find that it is crucial to
predict the correspondences as an auxiliary task and to use Poisson blending
and style transfer on the training pairs to generalize on real data. We analyse
results with two deep architectures relevant to our joint image analysis task:
a transformer-based architecture and Sparse Nc-Net, a recent network designed
to predict coarse correspondences using 4D convolutions.
We show our approach provides clear improvements for artwork details
retrieval on the Brueghel dataset and achieves competitive performance on two
place recognition benchmarks, Tokyo247 and Pitts30K. We then demonstrate the
potential of our approach by performing object discovery on the Internet object
discovery dataset and the Brueghel dataset. Our code and data are available at
http://imagine.enpc.fr/~shenx/SegSwap/.
- Abstract(参考訳): この研究の目的は、例えば、彫刻と油絵の間にコピーされた細部を識別したり、夜間の写真と昼の絵をマッチングするなど、一対のイメージから視覚的に類似したパターンを効果的に識別することである。
トレーニングデータの欠如は、この共同セグメンテーションタスクの重要な課題である。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピー・ペーストすることで、合成トレーニングペアを生成する。
次に、繰り返されるオブジェクトマスクを予測することを学ぶ。
我々は,対応を補助タスクとして予測し,poisson blendingとstyle transferをトレーニングペアに使用して実データに一般化することが重要であることを見出した。
4次元畳み込みを用いた粗い対応を予測するために設計されたtransformer-based architectureとsparse nc-netの2つの深層アーキテクチャを用いて結果を解析した。
提案手法は,Brueghelデータセット上でのアートディテール検索の精度向上を実現し,Tokyo247とPitts30Kの2つの場所認識ベンチマークにおける競合性能を実現する。
次に, internet object discovery dataset と brueghel dataset 上でオブジェクト発見を行うことで,このアプローチの可能性を示す。
私たちのコードとデータはhttp://imagine.enpc.fr/~shenx/SegSwap/で利用可能です。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Transformer based Multitask Learning for Image Captioning and Object
Detection [13.340784876489927]
本研究は,画像キャプションとオブジェクト検出を結合モデルに組み合わせた,新しいマルチタスク学習フレームワークを提案する。
我々は,2つのタスクを共同で訓練するためのTICOD, Transformer-based Image Captioning, Object Detectionモデルを提案する。
我々のモデルはBERTScoreの3.65%の改善によって、画像キャプション文学のベースラインを上回ります。
論文 参考訳(メタデータ) (2024-03-10T19:31:13Z) - LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and
Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。
複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-22T07:27:09Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Free Lunch for Co-Saliency Detection: Context Adjustment [14.688461235328306]
市販のサリエンシ検出データセットからの画像を利用して新しいサンプルを合成する「コストフリー」グループカットペースト(GCP)手順を提案する。
我々は、Context Adjustment Trainingと呼ばれる新しいデータセットを収集します。データセットの2つのバリエーション、すなわち、CATとCAT+は、それぞれ16,750と33,500の画像で構成されています。
論文 参考訳(メタデータ) (2021-08-04T14:51:37Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。