論文の概要: I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification
- arxiv url: http://arxiv.org/abs/2209.10304v1
- Date: Wed, 21 Sep 2022 12:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 16:37:04.598871
- Title: I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification
- Title(参考訳): I2DFormer: ゼロショット画像分類のための文書注意のための画像学習
- Authors: Muhammad Ferjad Naeem, Yongqin Xian, Luc Van Gool, Federico Tombari
- Abstract要約: オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
- 参考スコア(独自算出の注目度): 123.90912800376039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the tremendous progress in zero-shot learning(ZSL), the majority of
existing methods still rely on human-annotated attributes, which are difficult
to annotate and scale. An unsupervised alternative is to represent each class
using the word embedding associated with its semantic class name. However, word
embeddings extracted from pre-trained language models do not necessarily
capture visual similarities, resulting in poor zero-shot performance. In this
work, we argue that online textual documents, e.g., Wikipedia, contain rich
visual descriptions about object classes, therefore can be used as powerful
unsupervised side information for ZSL. To this end, we propose I2DFormer, a
novel transformer-based ZSL framework that jointly learns to encode images and
documents by aligning both modalities in a shared embedding space. In order to
distill discriminative visual words from noisy documents, we introduce a new
cross-modal attention module that learns fine-grained interactions between
image patches and document words. Consequently, our I2DFormer not only learns
highly discriminative document embeddings that capture visual similarities but
also gains the ability to localize visually relevant words in image regions.
Quantitatively, we demonstrate that our I2DFormer significantly outperforms
previous unsupervised semantic embeddings under both zero-shot and generalized
zero-shot learning settings on three public datasets. Qualitatively, we show
that our method leads to highly interpretable results where document words can
be grounded in the image regions.
- Abstract(参考訳): ゼロショット学習(ZSL)の飛躍的な進歩にもかかわらず、既存の手法のほとんどは、注釈付けやスケールが難しい人為的な属性に依存している。
教師なしの代替手段は、セマンティッククラス名に関連付けられた単語埋め込みを使って各クラスを表現することである。
しかし、事前学習された言語モデルから抽出された単語埋め込みは必ずしも視覚的な類似性を捉えず、結果としてゼロショット性能が低下する。
本稿では,オンラインのテキスト文書,例えばwikipediaは,オブジェクトクラスに関するリッチな視覚的記述を含んでいるため,zslの強力な教師なしサイド情報として使用できると主張する。
そこで本稿では,画像と文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
ノイズの多い文書から識別的視覚的単語を抽出するために,画像パッチと文書語間のきめ細かい相互作用を学習する,新たなモーダルアテンションモジュールを導入する。
その結果、i2dformerは、視覚的な類似性を捉えた高度に識別可能な文書埋め込みを学習するだけでなく、画像領域に視覚的に関連のある単語をローカライズする能力も得る。
定量的に、我々のI2DFormerは、3つの公開データセットにおけるゼロショットおよび一般化ゼロショット学習設定の両方の下で、教師なしセマンティック埋め込みを著しく上回ることを示した。
定性的に,本手法は,画像領域に文書単語を接地できる高度に解釈可能な結果をもたらすことを示す。
関連論文リスト
- Visual-Semantic Decomposition and Partial Alignment for Document-based Zero-Shot Learning [14.77066147494556]
本稿では,文書や画像から多視点セマンティック概念を抽出し,概念全体ではなくマッチングを整合させる新しいネットワークを提案する。
我々は、文書ベースのゼロショット学習のための3つの標準ベンチマークにおいて、2つの文書ソースにおける最先端の手法を一貫して上回ります。
論文 参考訳(メタデータ) (2024-07-22T13:15:04Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - DocumentCLIP: Linking Figures and Main Body Text in Reflowed Documents [18.080447065002392]
本稿では,文書内の画像と長文間の相互作用を理解するために,視覚言語事前学習モデルを強制するためのDocumentCLIPを提案する。
我々のモデルは、言語的にも視覚的にもリッチなコンテンツを含む、ニュース記事、雑誌、製品記述などの実世界のマルチモーダル文書理解にとって有益である。
論文 参考訳(メタデータ) (2023-06-09T23:51:11Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Knowing Where and What: Unified Word Block Pretraining for Document
Understanding [11.46378901674016]
We propose UTel, a language model with Unified TExt and layout pre-training。
具体的には、レイアウト学習のための単語予測(SWP)と、異なる単語ブロックを特定するための単語埋め込み(CWE)のコントラスト学習の2つの事前学習タスクを提案する。
このようにして、Masked Layout-Language Modeling (MLLM)と2つの新しいタスクの共同トレーニングにより、意味的特徴と空間的特徴を統一的に相互作用させることができる。
論文 参考訳(メタデータ) (2022-07-28T09:43:06Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。