論文の概要: Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval
- arxiv url: http://arxiv.org/abs/2102.04980v1
- Date: Tue, 9 Feb 2021 17:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:18:48.721495
- Title: Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval
- Title(参考訳): whereを指さしながら語る:画像検索を改善するためのきめ細かなマウストレースと言語監督
- Authors: Soravit Changpinyo, Jordi Pont-Tuset, Vittorio Ferrari, Radu Soricut
- Abstract要約: きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
- 参考スコア(独自算出の注目度): 60.24860627782486
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing image retrieval systems use text queries to provide a natural and
practical way for users to express what they are looking for. However,
fine-grained image retrieval often requires the ability to also express the
where in the image the content they are looking for is. The textual modality
can only cumbersomely express such localization preferences, whereas pointing
would be a natural fit. In this paper, we describe an image retrieval setup
where the user simultaneously describes an image using both spoken natural
language (the "what") and mouse traces over an empty canvas (the "where") to
express the characteristics of the desired target image. To this end, we learn
an image retrieval model using the Localized Narratives dataset, which is
capable of performing early fusion between text descriptions and synchronized
mouse traces. Qualitative and quantitative experiments show that our model is
capable of taking this spatial guidance into account, and provides more
accurate retrieval results compared to text-only equivalent systems.
- Abstract(参考訳): 既存の画像検索システムは、テキストクエリを使用して、ユーザーが探しているものを自然かつ実用的な方法で表現する。
しかし、細かな画像検索には、探しているコンテンツがどこにあるかを表現する能力が必要となることが多い。
テキストのモダリティはそのような局所化の好みを煩雑に表現できるだけであり、一方、指摘は自然に適合する。
本稿では、ユーザが音声自然言語(「何」)とマウスの軌跡を空のキャンバス(「場所」)で同時に記述し、所望の目標画像の特徴を表現する画像検索装置について述べる。
そこで我々は,テキスト記述と同期マウストレースを早期に融合させることのできるLocalized Narrativesデータセットを用いて画像検索モデルを学習した。
定性的かつ定量的な実験により,本モデルはこの空間的ガイダンスを考慮し,テキストのみの等価システムと比較して精度の高い検索結果が得られることを示した。
関連論文リスト
- Composed Image Retrieval for Remote Sensing [24.107610091033997]
この研究は、合成画像検索をリモートセンシングに導入する。
テキスト記述で交互に画像例によって大きな画像アーカイブをクエリできる。
イメージ・ツー・イメージとテキスト・ツー・イメージの類似性を融合させる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T14:18:31Z) - You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。
我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文 参考訳(メタデータ) (2024-03-12T00:27:18Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Bridging the Gap between Local Semantic Concepts and Bag of Visual Words
for Natural Scene Image Retrieval [0.0]
典型的なコンテンツベースの画像検索システムは、低レベルの特徴の集合としてデータセット内のクエリ画像と画像を扱う。
検索されたリストの上位画像は、クエリ画像と高い類似性を持つが、ユーザの意味論的解釈の観点からは、クエリ画像と異なる場合がある。
本稿では,視覚的単語モデルと局所的意味概念の分布を用いて,自然シーンの検索を行う方法について検討する。
論文 参考訳(メタデータ) (2022-10-17T09:10:50Z) - Using Text to Teach Image Retrieval [47.72498265721957]
ニューラルネットワークを用いて学習した画像の特徴空間をグラフとして表現するために,画像多様体の概念に基づいて構築する。
我々は、幾何学的に整列したテキストで多様体のサンプルを増補し、大量の文を使って画像について教える。
実験結果から, 結合埋め込み多様体は頑健な表現であり, 画像検索を行うためのより良い基礎となることが示唆された。
論文 参考訳(メタデータ) (2020-11-19T16:09:14Z) - Text-to-Image Generation Grounded by Fine-Grained User Attention [62.94737811887098]
Localized Narrativesは、マウストレースと組み合わせた画像の詳細な自然言語記述を備えたデータセットである。
本稿では、このグラウンド化を利用して画像を生成するシーケンシャルモデルであるTReCSを提案する。
論文 参考訳(メタデータ) (2020-11-07T13:23:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。