論文の概要: End-to-end Semantic Object Detection with Cross-Modal Alignment
- arxiv url: http://arxiv.org/abs/2302.05200v1
- Date: Fri, 10 Feb 2023 12:06:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 15:52:44.809640
- Title: End-to-end Semantic Object Detection with Cross-Modal Alignment
- Title(参考訳): クロスモーダルアライメントを用いたエンドツーエンド意味オブジェクト検出
- Authors: Silvan Ferreira, Allan Martins, Ivanovitch Silva
- Abstract要約: 提案文のアライメントはコントラスト学習を用いて行われ、テキストクエリとのセマンティックアライメントを反映した各提案のスコアを生成する。
領域提案ネットワーク(RPN)はオブジェクト提案を生成するために使用され、エンドツーエンドのトレーニングプロセスにより、セマンティックイメージ検索の効率的かつ効果的なソリューションが実現される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Traditional semantic image search methods aim to retrieve images that match
the meaning of the text query. However, these methods typically search for
objects on the whole image, without considering the localization of objects
within the image. This paper presents an extension of existing object detection
models for semantic image search that considers the semantic alignment between
object proposals and text queries, with a focus on searching for objects within
images. The proposed model uses a single feature extractor, a pre-trained
Convolutional Neural Network, and a transformer encoder to encode the text
query. Proposal-text alignment is performed using contrastive learning,
producing a score for each proposal that reflects its semantic alignment with
the text query. The Region Proposal Network (RPN) is used to generate object
proposals, and the end-to-end training process allows for an efficient and
effective solution for semantic image search. The proposed model was trained
end-to-end, providing a promising solution for semantic image search that
retrieves images that match the meaning of the text query and generates
semantically relevant object proposals.
- Abstract(参考訳): 従来の意味画像検索手法は、テキストクエリの意味にマッチした画像の検索を目的としている。
しかし、これらの手法は通常、画像内のオブジェクトの局在を考慮せずに、画像全体のオブジェクトを検索する。
本稿では,オブジェクト提案とテキストクエリ間の意味的アラインメントを考慮した意味画像検索のための既存のオブジェクト検出モデルの拡張について述べる。
提案モデルは,1つの特徴抽出器,事前訓練された畳み込みニューラルネットワーク,およびテキストクエリを符号化するトランスフォーマーエンコーダを使用する。
提案文のアライメントはコントラスト学習を用いて行われ、テキストクエリとのセマンティックアライメントを反映した各提案のスコアを生成する。
領域提案ネットワーク(RPN)はオブジェクト提案を生成するために使用され、エンドツーエンドのトレーニングプロセスにより、セマンティックイメージ検索の効率的かつ効果的なソリューションが実現される。
提案モデルはエンドツーエンドでトレーニングされ、テキストクエリの意味にマッチした画像を検索し、意味的に関連するオブジェクト提案を生成するセマンティック画像検索の有望なソリューションを提供する。
関連論文リスト
- Zero-shot Composed Image Retrieval Considering Query-target Relationship Leveraging Masked Image-text Pairs [44.48400303207482]
ゼロショット合成画像検索(CIR)の目的は、クエリ画像とクエリテキストを用いてターゲット画像を取得することである。
既存の方法は、テキスト変換ネットワークを使用して、クエリイメージを擬似語に変換し、画像とテキストを構成する。
マスク付き画像テキストペアを用いてエンドツーエンドに学習するゼロショットCIR手法を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:10:30Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Bridging the Gap between Local Semantic Concepts and Bag of Visual Words
for Natural Scene Image Retrieval [0.0]
典型的なコンテンツベースの画像検索システムは、低レベルの特徴の集合としてデータセット内のクエリ画像と画像を扱う。
検索されたリストの上位画像は、クエリ画像と高い類似性を持つが、ユーザの意味論的解釈の観点からは、クエリ画像と異なる場合がある。
本稿では,視覚的単語モデルと局所的意味概念の分布を用いて,自然シーンの検索を行う方法について検討する。
論文 参考訳(メタデータ) (2022-10-17T09:10:50Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and
Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。
本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文 参考訳(メタデータ) (2022-03-15T17:29:20Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。