論文の概要: OVIS: Open-Vocabulary Visual Instance Search via Visual-Semantic Aligned
Representation Learning
- arxiv url: http://arxiv.org/abs/2108.03704v1
- Date: Sun, 8 Aug 2021 18:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:49:27.928961
- Title: OVIS: Open-Vocabulary Visual Instance Search via Visual-Semantic Aligned
Representation Learning
- Title(参考訳): OVIS:ビジュアルセマンティック適応表現学習によるオープン語彙ビジュアルインスタンス検索
- Authors: Sheng Liu, Kevin Lin, Lijuan Wang, Junsong Yuan, Zicheng Liu
- Abstract要約: オープン語彙ビジュアルインスタンス検索(OVIS)の課題について紹介する。
任意のテキスト検索クエリが与えられた場合、OVISは、ランク付けされたビジュアルインスタンスのリストを返すことを目的としている。
ビジュアル・セマンティック・アライメント・表現学習(ViSA)を用いて,このような検索課題に対処することを提案する。
- 参考スコア(独自算出の注目度): 79.49199857462087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the task of open-vocabulary visual instance search (OVIS). Given
an arbitrary textual search query, Open-vocabulary Visual Instance Search
(OVIS) aims to return a ranked list of visual instances, i.e., image patches,
that satisfies the search intent from an image database. The term "open
vocabulary" means that there are neither restrictions to the visual instance to
be searched nor restrictions to the word that can be used to compose the
textual search query. We propose to address such a search challenge via
visual-semantic aligned representation learning (ViSA). ViSA leverages massive
image-caption pairs as weak image-level (not instance-level) supervision to
learn a rich cross-modal semantic space where the representations of visual
instances (not images) and those of textual queries are aligned, thus allowing
us to measure the similarities between any visual instance and an arbitrary
textual query. To evaluate the performance of ViSA, we build two datasets named
OVIS40 and OVIS1600 and also introduce a pipeline for error analysis. Through
extensive experiments on the two datasets, we demonstrate ViSA's ability to
search for visual instances in images not available during training given a
wide range of textual queries including those composed of uncommon words.
Experimental results show that ViSA achieves an mAP@50 of 21.9% on OVIS40 under
the most challenging setting and achieves an mAP@6 of 14.9% on OVIS1600
dataset.
- Abstract(参考訳): オープン語彙ビジュアルインスタンス検索(OVIS)の課題を紹介する。
任意のテキスト検索クエリが与えられた場合、Open-vocabulary Visual Instance Search (OVIS) は、画像データベースからの検索意図を満たす画像パッチ(英語版)のランキングリストを返すことを目的としている。
オープン語彙」という言葉は、検索すべきビジュアルインスタンスの制限も、テキスト検索クエリを構成するために使用できる単語の制限も存在しないことを意味する。
そこで本研究では,このような探索課題に対して視覚指向型表現学習 (visa) を用いて対処する。
ViSAは、画像インスタンス(画像ではない)とテキストクエリの表現が一致したリッチなモーダルなセマンティック空間を学習するために、画像レベルの弱い(インスタンスレベルではない)監督として、大規模な画像キャプチャペアを活用し、任意のビジュアルインスタンスと任意のテキストクエリの類似性を計測する。
ViSAの性能を評価するため,OVIS40とOVIS1600という2つのデータセットを構築し,エラー解析のためのパイプラインを導入する。
2つのデータセットに関する広範な実験を通じて、トレーニング中に利用できない画像の視覚的インスタンスを検索するViSAの機能を示す。
実験の結果、ViSAはOVIS40で21.9%のmAP@50を最も困難な設定で達成し、OVIS1600データセットで14.9%のmAP@6を達成している。
関連論文リスト
- WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild [88.05964311416717]
本研究では,高速,多目的,大規模会話分析が可能な対話型ツールWildVisを紹介する。
WildVisは、基準リストに基づいてテキストと埋め込みスペースの検索と視覚化機能を提供する。
誤用調査の促進,データセット間のトピック分布の可視化と比較,ユーザ固有の会話パターンの特徴付け,という3つのケーススタディを通じてWildVisの有用性を実証する。
論文 参考訳(メタデータ) (2024-09-05T17:59:15Z) - HKUST at SemEval-2023 Task 1: Visual Word Sense Disambiguation with
Context Augmentation and Visual Assistance [5.5532783549057845]
本稿では,事前学習したビジョンランゲージモデルを最大限活用するマルチモーダル検索フレームワークを提案する。
当社のシステムは,SemEval-2023 Task 1では最も競争力のある成果を上げていませんが,チームの半分近くを破ることが可能です。
論文 参考訳(メタデータ) (2023-11-30T06:23:15Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - See Finer, See More: Implicit Modality Alignment for Text-based Person
Retrieval [19.687373765453643]
テキストに基づく人物検索のためのImplicit Visual-Textual (IVT) フレームワークを提案する。
IVTは単一のネットワークを用いて両方のモダリティの表現を学習し、視覚とテクスチャの相互作用に寄与する。
論文 参考訳(メタデータ) (2022-08-18T03:04:37Z) - ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval [66.66400551173619]
単一$textbfVi$sionでクロスモーダル検索シナリオを統合するためのフルトランスフォーマーアーキテクチャを提案する。
画像-テキストペアと融合-テキストペアの両方を共通モード空間に埋め込むために、二重対照的な学習損失を発生させる。
実験の結果、ViSTAはシーンテキスト認識検索タスクに対して少なくとも$bf8.4%のRecall@1で他のメソッドよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-31T03:40:21Z) - LAViTeR: Learning Aligned Visual and Textual Representations Assisted by Image and Caption Generation [5.064384692591668]
本稿では,視覚およびテキスト表現学習のための新しいアーキテクチャであるLAViTeRを提案する。
メインモジュールであるVisual Textual Alignment (VTA)は、GANベースの画像合成とイメージキャプションという2つの補助的なタスクによって支援される。
CUBとMS-COCOの2つの公開データセットに対する実験結果は、優れた視覚的およびテキスト的表現アライメントを示す。
論文 参考訳(メタデータ) (2021-09-04T22:48:46Z) - StacMR: Scene-Text Aware Cross-Modal Retrieval [19.54677614738065]
クロスモーダル検索モデルは、視覚シーンのより豊かな理解の恩恵を受けている。
現在のモデルは重要な側面を見下ろす:画像に現れるテキストは、検索のための重要な情報を含む可能性があります。
画像にシーン-テキストインスタンスを含むクロスモーダル検索の探索を可能にする新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-12-08T10:04:25Z) - ViTAA: Visual-Textual Attributes Alignment in Person Search by Natural
Language [36.319953919737245]
自然言語による人物検索は、与えられたテキスト記述にマッチする大規模な画像プールにおいて、特定の人物を検索することを目的としている。
そこで本稿では,特定の属性句を対応する視覚領域に接地できる属性適応型視点を提案する。
私たちは、堅牢な機能学習によってパフォーマンスが向上するだけでなく、成功も達成しています。
論文 参考訳(メタデータ) (2020-05-15T02:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。