論文の概要: Goal-Oriented Gaze Estimation for Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2103.03433v1
- Date: Fri, 5 Mar 2021 02:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 14:52:02.858425
- Title: Goal-Oriented Gaze Estimation for Zero-Shot Learning
- Title(参考訳): ゼロショット学習のための目標指向ガゼ推定
- Authors: Yang Liu, Lei Zhou, Xiao Bai, Yifei Huang, Lin Gu, Jun Zhou, Tatsuya
Harada
- Abstract要約: 識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
- 参考スコア(独自算出の注目度): 62.52340838817908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot learning (ZSL) aims to recognize novel classes by transferring
semantic knowledge from seen classes to unseen classes. Since semantic
knowledge is built on attributes shared between different classes, which are
highly local, strong prior for localization of object attribute is beneficial
for visual-semantic embedding. Interestingly, when recognizing unseen images,
human would also automatically gaze at regions with certain semantic clue.
Therefore, we introduce a novel goal-oriented gaze estimation module (GEM) to
improve the discriminative attribute localization based on the class-level
attributes for ZSL. We aim to predict the actual human gaze location to get the
visual attention regions for recognizing a novel object guided by attribute
description. Specifically, the task-dependent attention is learned with the
goal-oriented GEM, and the global image features are simultaneously optimized
with the regression of local attribute features. Experiments on three ZSL
benchmarks, i.e., CUB, SUN and AWA2, show the superiority or competitiveness of
our proposed method against the state-of-the-art ZSL methods. The ablation
analysis on real gaze data CUB-VWSW also validates the benefits and accuracy of
our gaze estimation module. This work implies the promising benefits of
collecting human gaze dataset and automatic gaze estimation algorithms on
high-level computer vision tasks. The code is available at
https://github.com/osierboy/GEM-ZSL.
- Abstract(参考訳): Zero-shot Learning(ZSL)は、目に見えないクラスにセマンティックな知識を転送することによって、新しいクラスを認識することを目的とする。
意味的知識は異なるクラス間で共有される属性に基づいて構築されているため、オブジェクト属性のローカライズの前に強いことは視覚的セマンティック埋め込みにとって有益である。
興味深いことに、目に見えない画像を認識すると、人間は特定の意味の手がかりで自動的に地域を見つめる。
そこで本稿では,ZSL のクラスレベル属性に基づく識別属性の局所化を改善するために,新しい目標指向視線推定モジュール (GEM) を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
具体的には、目標指向gemでタスク依存の注意を学習し、局所属性特徴の回帰と同時にグローバルイメージ特徴を最適化する。
CUB, SUN, AWA2の3つのZSLベンチマーク実験により, 提案手法の最先端ZSL法に対する優位性や競争性を示した。
また,実視データcub-vwswのアブレーション解析により,視線推定モジュールの利点と精度を検証した。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
コードはhttps://github.com/osierboy/GEM-ZSLで入手できる。
関連論文リスト
- Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - `Eyes of a Hawk and Ears of a Fox': Part Prototype Network for Generalized Zero-Shot Learning [47.1040786932317]
一般化ゼロショット学習(GZSL)における現在のアプローチは、画像全体に対する単一のクラス属性ベクトル表現のみを考慮したベースモデル上に構築されている。
属性情報に敏感なVINVL(Pre-trained Vision-Language Detector)を用いて,地域特性を効率的に取得する。
学習された関数は、その領域の特徴を、クラス部分プロトタイプを構築するために使われる地域固有の属性アテンションにマップする。
論文 参考訳(メタデータ) (2024-04-12T18:37:00Z) - Deep Semantic-Visual Alignment for Zero-Shot Remote Sensing Image Scene
Classification [26.340737217001497]
ゼロショット学習(ZSL)は、トレーニング中に見えない新しいクラスを識別する。
以前のZSLモデルは、主に言語モデルから抽出された手作業でラベル付けされた属性や単語の埋め込みに依存し、見受けられるクラスから新しいクラスに知識を伝達する。
本稿では,視覚的に検出可能な属性を自動的に収集することを提案する。属性と画像のセマンティック・視覚的類似性を記述することで,クラスごとの属性を予測する。
論文 参考訳(メタデータ) (2024-02-03T09:18:49Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - Discriminative Region-based Multi-Label Zero-Shot Learning [145.0952336375342]
マルチラベルゼロショット学習(Multi-label zero-shot Learning、ZSL)は、標準のシングルラベルZSLのより現実的な対位法である。
本稿では,地域別識別可能性保存型ZSLに対する代替アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-20T17:56:47Z) - Multi-Head Self-Attention via Vision Transformer for Zero-Shot Learning [11.66422653137002]
本稿では,ゼロショット学習の課題設定における注意に基づくモデルを提案し,未知のクラス認識に有用な属性を学習する。
本手法では,視覚変換器に適応したアテンション機構を用いて,画像から小さなパッチに分割することで識別属性をキャプチャし,学習する。
論文 参考訳(メタデータ) (2021-07-30T19:08:44Z) - Attribute Prototype Network for Zero-Shot Learning [113.50220968583353]
差別的グローバルな特徴と局所的な特徴を共同で学習するゼロショット表現学習フレームワークを提案する。
本モデルでは,画像中の属性の視覚的証拠を指摘し,画像表現の属性ローカライゼーション能力の向上を確認した。
論文 参考訳(メタデータ) (2020-08-19T06:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。