論文の概要: I Can't Believe There's No Images! Learning Visual Tasks Using only
Language Supervision
- arxiv url: http://arxiv.org/abs/2211.09778v4
- Date: Fri, 18 Aug 2023 23:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 02:24:12.007785
- Title: I Can't Believe There's No Images! Learning Visual Tasks Using only
Language Supervision
- Title(参考訳): 画像がないなんて信じられない!
言語指導のみを用いた視覚タスクの学習
- Authors: Sophia Gu, Christopher Clark, Aniruddha Kembhavi
- Abstract要約: 4つのタスクのテキストトレーニングデータのみを用いてモデルを作成する。
これらのモデルは、画像上で訓練されたモデルに近いパフォーマンスを示す。
画像データと人為的な言語データを用いない,多種多様なスタイリスティックな画像キャプションモデルについて紹介する。
- 参考スコア(独自算出の注目度): 32.49636188029509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many high-level skills that are required for computer vision tasks, such as
parsing questions, comparing and contrasting semantics, and writing
descriptions, are also required in other domains such as natural language
processing. In this paper, we ask whether it is possible to learn those skills
from text data and then transfer them to vision tasks without ever training on
visual training data. Key to our approach is exploiting the joint embedding
space of contrastively trained vision and language encoders. In practice, there
can be systematic differences between embedding spaces for different modalities
in contrastive models, and we analyze how these differences affect our approach
and study strategies to mitigate this concern. We produce models using only
text training data on four representative tasks: image captioning, visual
entailment, visual question answering and visual news captioning, and evaluate
them on standard benchmarks using images. We find these models perform close to
models trained on images, while surpassing prior work for captioning and visual
entailment in this text-only setting by over 9 points, and outperforming all
prior work on visual news by over 30 points. We also showcase a variety of
stylistic image captioning models that are trained using no image data and no
human-curated language data, but instead using readily-available text data from
books, the web, or language models.
- Abstract(参考訳): 質問のパース、意味論の比較と対比、記述の記述など、コンピュータビジョンタスクに必要な多くの高度なスキルは、自然言語処理のような他の領域でも必要である。
本稿では,テキストデータからこれらのスキルを学習し,視覚訓練データを訓練することなく視覚タスクに伝達できるかどうかを問う。
我々のアプローチの鍵は、対照的に訓練された視覚と言語エンコーダの結合埋め込み空間を活用することである。
実際、対照的なモデルの異なるモダリティのための埋め込み空間の間には系統的な違いがあり、これらの違いが我々のアプローチや研究戦略にどのように影響するかを分析し、この懸念を緩和する。
画像キャプション,視覚的エンターテイメント,視覚的質問応答,視覚的ニュースキャプションの4つのタスクに関するテキストトレーニングデータのみを用いたモデルを作成し,画像を用いた標準ベンチマークで評価する。
これらのモデルは、画像上で訓練されたモデルに近い性能を示し、このテキストのみの設定におけるキャプションと視覚的エンターテイメントの先行作業を9ポイント以上上回り、視覚ニュースの先行作業を30ポイント以上上回っている。
また、画像データや人為的な言語データではなく、書籍、ウェブ、言語モデルから手軽に利用できるテキストデータを用いて訓練された様々なスタイルのイメージキャプションモデルについても紹介する。
関連論文リスト
- Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。