論文の概要: I Can't Believe There's No Images! Learning Visual Tasks Using only
Language Data
- arxiv url: http://arxiv.org/abs/2211.09778v1
- Date: Thu, 17 Nov 2022 18:52:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:37:13.852529
- Title: I Can't Believe There's No Images! Learning Visual Tasks Using only
Language Data
- Title(参考訳): 画像がないなんて信じられない!
言語データのみを用いた視覚タスクの学習
- Authors: Sophia Gu, Christopher Clark, Aniruddha Kembhavi
- Abstract要約: コンピュータビジョンタスクに必要な高度なスキルは、自然言語処理などの他の領域にも必要である。
我々のアプローチの鍵は、対照的に訓練された視覚と言語エンコーダの結合埋め込み空間を活用することである。
画像キャプション,視覚的包含,視覚的質問応答の3つのタスクに関するテキストトレーニングデータのみを用いたモデルを作成し,画像を用いた標準ベンチマークで評価する。
- 参考スコア(独自算出の注目度): 16.842008103673127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many high-level skills that are required for computer vision tasks, such as
parsing questions, comparing and contrasting semantics, and writing
descriptions, are also required in other domains such as natural language
processing. In this paper, we ask whether this makes it possible to learn those
skills from text data and then use them to complete vision tasks without ever
training on visual training data. Key to our approach is exploiting the joint
embedding space of contrastively trained vision and language encoders. In
practice, there can be systematic differences between embedding spaces for
different modalities in contrastive models, and we analyze how these
differences affect our approach and study a variety of strategies to mitigate
this concern. We produce models using only text training data on three tasks:
image captioning, visual entailment and visual question answering, and evaluate
them on standard benchmarks using images. We find that this kind of transfer is
possible and results in only a small drop in performance relative to models
trained on images. We also showcase a variety of stylistic image captioning
models that were trained using no image data and no human-curated language
data, but instead text data from books, the web, or language models.
- Abstract(参考訳): 質問のパース、意味論の比較と対比、記述の記述など、コンピュータビジョンタスクに必要な多くの高度なスキルは、自然言語処理のような他の領域でも必要である。
本稿では,テキストデータからこれらのスキルを学習し,視覚訓練データを訓練することなく視覚タスクを完遂できるかどうかを問う。
我々のアプローチの鍵は、対照的に訓練された視覚と言語エンコーダの結合埋め込み空間を活用することである。
実際には、コントラッシブモデルにおける異なるモダリティに対する埋め込み空間の体系的な違いがあり、これらの違いが我々のアプローチにどのように影響するかを分析し、この懸念を軽減するための様々な戦略を研究する。
画像キャプション,視覚的包含,視覚的質問応答の3つのタスクに関するテキストトレーニングデータのみを用いたモデルを作成し,画像を用いた標準ベンチマークで評価する。
この種の転送は可能であり、画像でトレーニングされたモデルと比較して、パフォーマンスがわずかに低下するだけであることが分かりました。
また,画像データや言語データではなく,書籍やweb,あるいは言語モデルからのテキストデータを用いて学習した,さまざまなスタイリスティックな画像キャプションモデルも紹介した。
関連論文リスト
- Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。