論文の概要: Efficient Zero-shot Visual Search via Target and Context-aware
Transformer
- arxiv url: http://arxiv.org/abs/2211.13470v1
- Date: Thu, 24 Nov 2022 08:27:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:32:09.105365
- Title: Efficient Zero-shot Visual Search via Target and Context-aware
Transformer
- Title(参考訳): ターゲットとコンテキスト認識変換器による効率的なゼロショットビジュアル検索
- Authors: Zhiwei Ding, Xuezhe Ren, Erwan David, Melissa Vo, Gabriel Kreiman,
Mengmi Zhang
- Abstract要約: ターゲット情報とコンテキスト情報を用いて視覚変換器の自己注意を変調するゼロショット深層学習アーキテクチャ(TCT)を提案する。
様々な難易度を持つ3つの自然シーンデータセット上で,TCTや他の競合するビジュアルサーチモデル上でビジュアルサーチ実験を行う。
TCTは、検索効率の点で人間に似た性能を示し、視覚的な検索課題においてSOTAモデルに勝っている。
- 参考スコア(独自算出の注目度): 5.652978777706897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual search is a ubiquitous challenge in natural vision, including daily
tasks such as finding a friend in a crowd or searching for a car in a parking
lot. Human rely heavily on relevant target features to perform goal-directed
visual search. Meanwhile, context is of critical importance for locating a
target object in complex scenes as it helps narrow down the search area and
makes the search process more efficient. However, few works have combined both
target and context information in visual search computational models. Here we
propose a zero-shot deep learning architecture, TCT (Target and Context-aware
Transformer), that modulates self attention in the Vision Transformer with
target and contextual relevant information to enable human-like zero-shot
visual search performance. Target modulation is computed as patch-wise local
relevance between the target and search images, whereas contextual modulation
is applied in a global fashion. We conduct visual search experiments on TCT and
other competitive visual search models on three natural scene datasets with
varying levels of difficulty. TCT demonstrates human-like performance in terms
of search efficiency and beats the SOTA models in challenging visual search
tasks. Importantly, TCT generalizes well across datasets with novel objects
without retraining or fine-tuning. Furthermore, we also introduce a new dataset
to benchmark models for invariant visual search under incongruent contexts. TCT
manages to search flexibly via target and context modulation, even under
incongruent contexts.
- Abstract(参考訳): 視覚検索は、人混みの中で友達を見つける、駐車場で車を探すといった日常的なタスクを含む、自然視におけるユビキタスな課題である。
人間は目標指向のビジュアル検索を行うために、関連するターゲット機能に大きく依存している。
一方、コンテクストは、検索エリアを狭くし、検索プロセスをより効率的にするため、複雑なシーンでターゲットオブジェクトを見つける上で非常に重要である。
しかし,視覚探索計算モデルにおける対象情報と文脈情報を組み合わせた研究は少ない。
本稿では,目標および文脈関連情報を用いて視覚トランスフォーマタの自己注意を変調し,人間ライクなゼロショット視覚検索を実現する,ゼロショットディープラーニングアーキテクチャtct(target and context-aware transformer)を提案する。
ターゲット変調はターゲット画像と検索画像のパッチワイドな局所関係として計算されるが、文脈変調はグローバルな方法で適用される。
難易度が異なる3つの自然シーンデータセット上で,tctおよび他の競合ビジュアル検索モデルを用いたビジュアル検索実験を行う。
tctは、検索効率の観点から人間的なパフォーマンスを示し、ビジュアル検索タスクに挑戦するsomaモデルを打ち負かしている。
重要なのは、TCTはトレーニングや微調整なしに、新しいオブジェクトを持つデータセットをうまく一般化する。
さらに,不規則な文脈下での不変なビジュアル検索のためのベンチマークモデルのための新しいデータセットも導入する。
TCTは、連続しないコンテキスト下であっても、ターゲットとコンテキストの変調によって柔軟に検索できる。
関連論文リスト
- Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。
本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文 参考訳(メタデータ) (2024-04-19T07:24:32Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Target Features Affect Visual Search, A Study of Eye Fixations [2.7920304852537527]
視覚探索における被験者のパフォーマンスが,異なるパラメータによってどう影響されるかを検討する。
我々の研究では、より大きく偏心的なターゲットが、より少ない数の固定でより高速に見つかることが示されている。
論文 参考訳(メタデータ) (2022-09-28T01:53:16Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - RelViT: Concept-guided Vision Transformer for Visual Relational
Reasoning [139.0548263507796]
私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。
我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。
HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2022-04-24T02:46:43Z) - Global-Local Context Network for Person Search [125.51080862575326]
パーソンサーチは、自然に切り刻まれた画像からクエリーを共同でローカライズし、識別することを目的としている。
我々は,対象人物を取り巻く環境情報を多様かつ局所的に利用し,それぞれがシーンとグループコンテキストを参照する。
本稿では,機能強化を目的としたグローバル・ローカル・コンテキスト・ネットワーク(GLCNet)を提案する。
論文 参考訳(メタデータ) (2021-12-05T07:38:53Z) - Searching the Search Space of Vision Transformer [98.96601221383209]
視覚変換器は、認識や検出などの視覚的なタスクにおいて、大きな視覚的表現力を示してきた。
我々は,このプロセスを自動化するために,アーキテクチャだけでなく検索空間も探索することで,ニューラルアーキテクチャサーチを提案する。
空間探索プロセスに応じて広範に解析を行う汎用視覚変換器の設計ガイドラインを提供する。
論文 参考訳(メタデータ) (2021-11-29T17:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。