論文の概要: Bridging the Gap between Local Semantic Concepts and Bag of Visual Words
for Natural Scene Image Retrieval
- arxiv url: http://arxiv.org/abs/2210.08875v1
- Date: Mon, 17 Oct 2022 09:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 19:48:28.427334
- Title: Bridging the Gap between Local Semantic Concepts and Bag of Visual Words
for Natural Scene Image Retrieval
- Title(参考訳): 自然シーン画像検索のための局所意味概念と視覚単語の袋とのギャップの橋渡し
- Authors: Yousef Alqasrawi
- Abstract要約: 典型的なコンテンツベースの画像検索システムは、低レベルの特徴の集合としてデータセット内のクエリ画像と画像を扱う。
検索されたリストの上位画像は、クエリ画像と高い類似性を持つが、ユーザの意味論的解釈の観点からは、クエリ画像と異なる場合がある。
本稿では,視覚的単語モデルと局所的意味概念の分布を用いて,自然シーンの検索を行う方法について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the problem of semantic-based image retrieval of natural
scenes. A typical content-based image retrieval system deals with the query
image and images in the dataset as a collection of low-level features and
retrieves a ranked list of images based on the similarities between features of
the query image and features of images in the image dataset. However, top
ranked images in the retrieved list, which have high similarities to the query
image, may be different from the query image in terms of the semantic
interpretation of the user which is known as the semantic gap. In order to
reduce the semantic gap, this paper investigates how natural scene retrieval
can be performed using the bag of visual word model and the distribution of
local semantic concepts. The paper studies the efficiency of using different
approaches for representing the semantic information, depicted in natural scene
images, for image retrieval. An extensive experimental work has been conducted
to study the efficiency of using semantic information as well as the bag of
visual words model for natural and urban scene image retrieval.
- Abstract(参考訳): 本稿では,自然シーンの意味に基づく画像検索の問題に対処する。
典型的なコンテンツベース画像検索システムは、データセット内のクエリ画像と画像を低レベルの特徴の集合として扱い、クエリ画像の特徴と画像データセット内の画像の特徴との類似性に基づいてランク付けされた画像のリストを取得する。
しかし,検索された検索画像の上位ランク画像は,検索画像と類似度が高く,セマンティックギャップとして知られるユーザのセマンティック解釈の観点からは,クエリ画像とは異なる場合がある。
そこで本研究では,視覚的単語の袋と局所的意味概念の分布を用いて,自然シーンの検索を行う方法について検討する。
本研究は,自然シーン画像に表現された意味情報を画像検索に表現するために異なる手法を用いる効率性について検討する。
自然・都市シーン画像検索のための視覚単語モデルと意味情報の利用効率について,広範な実験を行った。
関連論文リスト
- Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Revising Image-Text Retrieval via Multi-Modal Entailment [25.988058843564335]
多対多のマッチング現象は、広く使われている画像テキスト検索データセットで非常によく見られる。
文が画像と関連キャプションによって関連付けられているかどうかを判定するマルチモーダル・エンターメント分類器を提案する。
論文 参考訳(メタデータ) (2022-08-22T07:58:54Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Scene Graph Embeddings Using Relative Similarity Supervision [4.137464623395376]
グラフ畳み込みネットワークを用いて,シーングラフの構造を活用し,意味的画像検索に有用な画像埋め込みを生成する。
本稿では,類似画像と類似画像の対で動作し,それらの間の相対順序を埋め込み空間に課す新しい損失関数を提案する。
このランキング損失と直感的なトリプルサンプリング戦略が、検索タスクでよく知られたコントラスト損失を上回った堅牢な表現につながることを実証します。
論文 参考訳(メタデータ) (2021-04-06T09:13:05Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z) - Using Text to Teach Image Retrieval [47.72498265721957]
ニューラルネットワークを用いて学習した画像の特徴空間をグラフとして表現するために,画像多様体の概念に基づいて構築する。
我々は、幾何学的に整列したテキストで多様体のサンプルを増補し、大量の文を使って画像について教える。
実験結果から, 結合埋め込み多様体は頑健な表現であり, 画像検索を行うためのより良い基礎となることが示唆された。
論文 参考訳(メタデータ) (2020-11-19T16:09:14Z) - Cross-domain Correspondence Learning for Exemplar-based Image
Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。
出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。
本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-12T09:10:57Z) - Fine-grained Image Classification and Retrieval by Combining Visual and
Locally Pooled Textual Features [8.317191999275536]
特に、テキストの存在は、コンピュータビジョンタスクの多様性に対処するために使用されるべき強力なガイドコンテンツを提供する。
本稿では,テキスト情報と視覚的手がかりを併用した細粒度分類と画像検索の課題に対処し,両者の本質的な関係を解明する。
論文 参考訳(メタデータ) (2020-01-14T12:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。