論文の概要: Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search
- arxiv url: http://arxiv.org/abs/2009.01438v1
- Date: Thu, 3 Sep 2020 03:57:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 07:01:28.249375
- Title: Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search
- Title(参考訳): タスク統合ネットワーク:画像検索のための共同検出と検索
- Authors: Lei Zhang and Zhenwei He and Yi Yang and Liang Wang and Xinbo Gao
- Abstract要約: 多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
- 参考スコア(独自算出の注目度): 99.49021025124405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The traditional object retrieval task aims to learn a discriminative feature
representation with intra-similarity and inter-dissimilarity, which supposes
that the objects in an image are manually or automatically pre-cropped exactly.
However, in many real-world searching scenarios (e.g., video surveillance), the
objects (e.g., persons, vehicles, etc.) are seldom accurately detected or
annotated. Therefore, object-level retrieval becomes intractable without
bounding-box annotation, which leads to a new but challenging topic, i.e.
image-level search. In this paper, to address the image search issue, we first
introduce an end-to-end Integrated Net (I-Net), which has three merits: 1) A
Siamese architecture and an on-line pairing strategy for similar and dissimilar
objects in the given images are designed. 2) A novel on-line pairing (OLP) loss
is introduced with a dynamic feature dictionary, which alleviates the
multi-task training stagnation problem, by automatically generating a number of
negative pairs to restrict the positives. 3) A hard example priority (HEP)
based softmax loss is proposed to improve the robustness of classification task
by selecting hard categories. With the philosophy of divide and conquer, we
further propose an improved I-Net, called DC-I-Net, which makes two new
contributions: 1) two modules are tailored to handle different tasks separately
in the integrated framework, such that the task specification is guaranteed. 2)
A class-center guided HEP loss (C2HEP) by exploiting the stored class centers
is proposed, such that the intra-similarity and inter-dissimilarity can be
captured for ultimate retrieval. Extensive experiments on famous image-level
search oriented benchmark datasets demonstrate that the proposed DC-I-Net
outperforms the state-of-the-art tasks-integrated and tasks-separated image
search models.
- Abstract(参考訳): 従来のオブジェクト検索タスクは、画像内のオブジェクトが手動または自動でプリクロップされていると仮定する、相似性と相似性のある識別的特徴表現を学習することを目的としている。
しかし、実世界の多くの探索シナリオ(ビデオ監視など)では、対象物(人、車など)が正確に検出または注釈されることはほとんどない。
したがって、オブジェクトレベルの検索はバウンディングボックスアノテーションを使わずに難解になり、新たなトピック、すなわち画像レベルの検索につながる。
本稿では、画像検索問題に対処するため、まずエンドツーエンド統合ネット(I-Net)を導入し、その利点を3つ挙げる。
1)所定の画像における類似した異質なオブジェクトに対するsiameseアーキテクチャとオンラインのペアリング戦略をデザインする。
2) 新規なオンラインペアリング(OLP)損失は,複数タスクのトレーニング停止問題を緩和する動的特徴辞書を導入し,複数の負のペアを自動生成して正の値を制限する。
3) ハード・サンプル・優先順位 (hep) に基づくソフトマックス損失は, ハード・カテゴリの選択により分類タスクのロバスト性を向上させるために提案されている。
分割と征服の哲学により、我々はさらに2つの新しい貢献をするDC-I-Netと呼ばれる改良されたI-Netを提案する。
1) 2つのモジュールは、タスク仕様が保証されるように、統合フレームワーク内で異なるタスクを別々に扱うように調整されます。
2) ストアド・クラス・センターを利用したクラス・センター誘導型HEP損失(C2HEP)を提案する。
有名な画像レベルの検索指向ベンチマークデータセットに関する広範な実験は、提案されたdc-i-netが最先端のタスク統合およびタスク分離画像検索モデルよりも優れていることを示している。
関連論文リスト
- Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Advancing Image Retrieval with Few-Shot Learning and Relevance Feedback [5.770351255180495]
Image Retrieval with Relevance Feedback (IRRF) は、検索プロセス中に反復的なヒューマンインタラクションを伴う。
本稿では,タスクに適したハイパーネットワークに基づく新しいスキームを提案し,ユーザフィードバックの迅速な調整を容易にする。
提案手法は,数発の1クラス分類でSoTAを達成でき,数発のオープンセット認識のバイナリ分類タスクで同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-18T10:20:28Z) - MatchDet: A Collaborative Framework for Image Matching and Object Detection [33.09209198536698]
画像マッチングとオブジェクト検出のためのコラボレーティブフレームワークであるMatchDetを提案する。
2つのタスクの協調学習を実現するために,3つの新しいモジュールを提案する。
Warp-COCO と miniScanNet という2つのデータセットを用いた新しいベンチマークのアプローチを評価する。
論文 参考訳(メタデータ) (2023-12-18T07:11:45Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - Improving Long-tailed Object Detection with Image-Level Supervision by
Multi-Task Collaborative Learning [18.496765732728164]
マルチタスク協調方式において,画像レベルの監視を活用して検出能力を向上する新しいフレームワークCLISを提案する。
CLISは、テールカテゴリーを10.1ポイント改善した31.1のAPを達成し、新しい最先端技術を確立した。
論文 参考訳(メタデータ) (2022-10-11T16:02:14Z) - LSEH: Semantically Enhanced Hard Negatives for Cross-modal Information
Retrieval [0.4264192013842096]
Visual Semantic Embedding (VSE)は、画像の意味と記述を抽出し、それらを同じ潜在空間に埋め込んで情報検索を行う。
既存のほとんどのVSEネットワークは、関連する画像記述組込みペアの類似性と無関係な画像記述組込みペアの客観的なマージンを学習するハードネガティブ損失関数を採用することで訓練されている。
本稿では,(1)画像記述の基盤となるセマンティクスの発見,(2)新たなセマンティクス強化型ハードネガティブ損失関数を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:09:39Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。