論文の概要: ZEST: Zero-shot Learning from Text Descriptions using Textual Similarity
and Visual Summarization
- arxiv url: http://arxiv.org/abs/2010.03276v1
- Date: Wed, 7 Oct 2020 08:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 23:11:17.739345
- Title: ZEST: Zero-shot Learning from Text Descriptions using Textual Similarity
and Visual Summarization
- Title(参考訳): ZEST:テキスト類似性とビジュアル要約を用いたテキスト記述からのゼロショット学習
- Authors: Tzuf Paz-Argaman, Yuval Atzmon, Gal Chechik, Reut Tsarfaty
- Abstract要約: 我々は、種小名の記述に基づいて、未確認種のイメージを分類することを学ぶ。
この設定は、テキストからゼロショット学習という名前でビジョンコミュニティで研究されている。
本稿では,類似度と視覚的要約成分を付加したシンプルな注意モデルを提案する。
- 参考スコア(独自算出の注目度): 31.353060746349982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of recognizing visual entities from the textual
descriptions of their classes. Specifically, given birds' images with free-text
descriptions of their species, we learn to classify images of previously-unseen
species based on specie descriptions. This setup has been studied in the vision
community under the name zero-shot learning from text, focusing on learning to
transfer knowledge about visual aspects of birds from seen classes to
previously-unseen ones. Here, we suggest focusing on the textual description
and distilling from the description the most relevant information to
effectively match visual features to the parts of the text that discuss them.
Specifically, (1) we propose to leverage the similarity between species,
reflected in the similarity between text descriptions of the species. (2) we
derive visual summaries of the texts, i.e., extractive summaries that focus on
the visual features that tend to be reflected in images. We propose a simple
attention-based model augmented with the similarity and visual summaries
components. Our empirical results consistently and significantly outperform the
state-of-the-art on the largest benchmarks for text-based zero-shot learning,
illustrating the critical importance of texts for zero-shot image-recognition.
- Abstract(参考訳): 本研究は,そのクラスのテキスト記述から視覚エンティティを認識できる問題について検討する。
具体的には,鳥の個体群を自由テキストで表現した画像から,種記載に基づいて未発見種を分類することを学ぶ。
このセットアップは、テキストからゼロショット学習(zero-shot learning)という名前で視覚コミュニティで研究され、目に見えないクラスからそれまで見られなかったクラスに鳥の視覚的側面に関する知識を移す学習に焦点を当てている。
そこで本論文では,テキストの視覚的特徴を議論する部分と効果的にマッチさせるために,テキスト記述と記述から抽出することに着目した。
具体的には,(1)本種のテキスト記述の類似性を反映した種間の類似性を活用することを提案する。
2) テキストの視覚的要約,すなわち画像に反映される傾向のある視覚的特徴に焦点を当てた抽出的要約を導出する。
類似性と視覚的要約成分を付加したシンプルな注意モデルを提案する。
私たちの実験結果は、ゼロショット画像認識におけるテキストの重要性を示しながら、テキストベースのゼロショット学習の最大のベンチマークにおいて、最先端を一貫して著しく上回っています。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Seeing the advantage: visually grounding word embeddings to better
capture human semantic knowledge [8.208534667678792]
分布意味モデルは、多くの自然言語処理タスクで有用な単語レベルの意味をキャプチャする。
我々は、英語のテキストと画像を組み合わせて視覚的に接地した単語埋め込みを作成し、それらを人気のあるテキストベース手法と比較する。
我々の分析では、視覚的に接地された埋め込み類似性は、純粋にテキストベースの埋め込みよりも人間の反応時間を予測することが示されている。
論文 参考訳(メタデータ) (2022-02-21T15:13:48Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - Improving Visual Reasoning by Exploiting The Knowledge in Texts [13.242906693488342]
バックボーン,リレーショナル推論コンポーネント,分類コンポーネントの3つのモジュールからなる分類フレームワークを検討する。
注記画像の1%の教師付きベースラインと比較して8倍精度の高い結果が得られることを示す。
論文 参考訳(メタデータ) (2021-02-09T11:21:44Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。