論文の概要: Improving Visual Reasoning by Exploiting The Knowledge in Texts
- arxiv url: http://arxiv.org/abs/2102.04760v1
- Date: Tue, 9 Feb 2021 11:21:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:17:48.610267
- Title: Improving Visual Reasoning by Exploiting The Knowledge in Texts
- Title(参考訳): テキストの知識をエクスプロイトして視覚的推論を改善する
- Authors: Sahand Sharifzadeh, Sina Moayed Baharlou, Martin Schmitt, Hinrich
Sch\"utze, Volker Tresp
- Abstract要約: バックボーン,リレーショナル推論コンポーネント,分類コンポーネントの3つのモジュールからなる分類フレームワークを検討する。
注記画像の1%の教師付きベースラインと比較して8倍精度の高い結果が得られることを示す。
- 参考スコア(独自算出の注目度): 13.242906693488342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a new framework for training image-based classifiers from
a combination of texts and images with very few labels. We consider a
classification framework with three modules: a backbone, a relational reasoning
component, and a classification component. While the backbone can be trained
from unlabeled images by self-supervised learning, we can fine-tune the
relational reasoning and the classification components from external sources of
knowledge instead of annotated images. By proposing a transformer-based model
that creates structured knowledge from textual input, we enable the utilization
of the knowledge in texts. We show that, compared to the supervised baselines
with 1% of the annotated images, we can achieve ~8x more accurate results in
scene graph classification, ~3x in object classification, and ~1.5x in
predicate classification.
- Abstract(参考訳): 本稿では,ラベルの少ないテキストと画像の組み合わせから画像ベース分類器を学習するための新しい枠組みを提案する。
我々は、バックボーン、リレーショナル推論コンポーネント、および分類コンポーネントの3つのモジュールからなる分類フレームワークを検討する。
バックボーンは自己教師付き学習によってラベルなしの画像からトレーニングすることができるが、注釈付き画像ではなく、外部の知識ソースからのリレーショナル推論と分類コンポーネントを微調整することができる。
テキスト入力から構造化知識を生成するトランスベースモデルの提案により,テキストにおける知識の活用を可能にする。
注記画像の1%の教師付きベースラインと比較して,シーングラフの分類では8倍,オブジェクトの分類では3倍,述語分類では1.5倍の精度が得られることがわかった。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - EAML: Ensemble Self-Attention-based Mutual Learning Network for Document
Image Classification [1.1470070927586016]
我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。
トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。
文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-11T16:05:03Z) - Image Captioners Sometimes Tell More Than Images They See [8.640488282016351]
画像キャプション、つまり、"image-to-text"は、与えられた画像から記述テキストを生成する。
我々は、記述テキストのみからの画像の分類を含む実験を行った。
災害画像分類タスクであるCrisisNLPについて,いくつかの画像キャプションモデルの評価を行った。
論文 参考訳(メタデータ) (2023-05-04T15:32:41Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - iCAR: Bridging Image Classification and Image-text Alignment for Visual
Recognition [33.2800417526215]
画像分類は,過去10年間の視覚的表現学習における主要なアプローチである。
しかし、画像テキストアライメントによる視覚学習は、特にゼロショット認識において、有望なパフォーマンスを示すようになった。
本稿では,2つの学習課題を効果的に橋渡しする3つの適応型深層融合法を提案する。
論文 参考訳(メタデータ) (2022-04-22T15:27:21Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - Grafit: Learning fine-grained image representations with coarse labels [114.17782143848315]
本稿では,学習ラベルの提供するものよりも細かな表現を学習する問題に対処する。
粗いラベルと下層の細粒度潜在空間を併用することにより、カテゴリレベルの検索手法の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-25T19:06:26Z) - Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。
画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文 参考訳(メタデータ) (2020-04-02T10:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。