論文の概要: Revisiting Document Representations for Large-Scale Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2104.10355v1
- Date: Wed, 21 Apr 2021 05:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:40:31.681093
- Title: Revisiting Document Representations for Large-Scale Zero-Shot Learning
- Title(参考訳): 大規模ゼロショット学習のための文書表現の再検討
- Authors: Jihyung Kil, Wei-Lun Chao
- Abstract要約: ウィキペディアページのような文書には豊富な視覚情報が含まれており、膨大な量の非視覚文によって容易に埋められる。
文書セクションヘッダと視覚文のクラスタリング構造を活用した,視覚文抽出のための半自動機構を提案する。
10,000以上の目に見えないクラスを持つImageNetデータセットでは、私たちの表現は一般的に使用されるものに対して64%の相対的な改善につながります。
- 参考スコア(独自算出の注目度): 14.99658798518872
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Zero-shot learning aims to recognize unseen objects using their semantic
representations. Most existing works use visual attributes labeled by humans,
not suitable for large-scale applications. In this paper, we revisit the use of
documents as semantic representations. We argue that documents like Wikipedia
pages contain rich visual information, which however can easily be buried by
the vast amount of non-visual sentences. To address this issue, we propose a
semi-automatic mechanism for visual sentence extraction that leverages the
document section headers and the clustering structure of visual sentences. The
extracted visual sentences, after a novel weighting scheme to distinguish
similar classes, essentially form semantic representations like visual
attributes but need much less human effort. On the ImageNet dataset with over
10,000 unseen classes, our representations lead to a 64% relative improvement
against the commonly used ones.
- Abstract(参考訳): ゼロショット学習は、意味表現を使って見えないオブジェクトを認識することを目的としている。
既存の作品の多くは、人間がラベル付けした視覚的な属性を使用しており、大規模なアプリケーションには適していない。
本稿では,意味表現としての文書の使用について再考する。
ウィキペディアページのような文書は豊富な視覚情報を含んでいるが、膨大な量の非視覚文によって容易に埋められる。
この問題に対処するために,文書セクションヘッダと視覚文のクラスタリング構造を利用した,視覚文抽出のための半自動機構を提案する。
抽出された視覚文は、類似したクラスを区別する新しい重み付けスキームの後、本質的に視覚属性のような意味表現を形成するが、人間の労力をはるかに少なくする。
1万以上の未確認クラスを持つImageNetデータセットでは、私たちの表現は、一般的に使用されるものに対して64%の相対的な改善をもたらします。
関連論文リスト
- Visual-Semantic Decomposition and Partial Alignment for Document-based Zero-Shot Learning [14.77066147494556]
本稿では,文書や画像から多視点セマンティック概念を抽出し,概念全体ではなくマッチングを整合させる新しいネットワークを提案する。
我々は、文書ベースのゼロショット学習のための3つの標準ベンチマークにおいて、2つの文書ソースにおける最先端の手法を一貫して上回ります。
論文 参考訳(メタデータ) (2024-07-22T13:15:04Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - A semantics-driven methodology for high-quality image annotation [4.7590051176368915]
本稿では,統合自然言語処理,知識表現,コンピュータビジョンの方法論であるvTelosを提案する。
vTelosの重要な要素は、WordNetのレキシコセマンティック階層を、自然言語ラベルの意味を提供する主要な手段として利用することである。
この手法はImageNet階層のサブセットをポップアップさせるイメージ上で検証される。
論文 参考訳(メタデータ) (2023-07-26T11:38:45Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Quantifying Learnability and Describability of Visual Concepts Emerging
in Representation Learning [91.58529629419135]
我々は、ディープニューラルネットワークによって自動的に発見された視覚的なグルーピングを特徴付ける方法を検討する。
本稿では、任意の画像グループ化の解釈可能性の定量化に使用できる視覚的学習可能性と記述可能性という2つの概念を紹介する。
論文 参考訳(メタデータ) (2020-10-27T18:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。