論文の概要: Linearly Mapping from Image to Text Space
- arxiv url: http://arxiv.org/abs/2209.15162v1
- Date: Fri, 30 Sep 2022 01:17:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:22:03.366269
- Title: Linearly Mapping from Image to Text Space
- Title(参考訳): 画像からテキスト空間への線形マッピング
- Authors: Jack Merullo, Louis Castricato, Carsten Eickhoff, Ellie Pavlick
- Abstract要約: テキストのみのモデルで学習した概念表現は、視覚タスクで学習したモデルと機能的に等価であることを示す。
3つの画像エンコーダと事前訓練中に見られる言語指導量の増大を比較した。
3つのエンコーダはいずれも、視覚特性情報を言語モデルに転送する際にも等しく機能することがわかった。
- 参考スコア(独自算出の注目度): 22.290431852705662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The extent to which text-only language models (LMs) learn to represent the
physical, non-linguistic world is an open question. Prior work has shown that
pretrained LMs can be taught to ``understand'' visual inputs when the models'
parameters are updated on image captioning tasks. We test a stronger
hypothesis: that the conceptual representations learned by text-only models are
functionally equivalent (up to a linear transformation) to those learned by
models trained on vision tasks. Specifically, we show that the image
representations from vision models can be transferred as continuous prompts to
frozen LMs by training only a single linear projection. Using these to prompt
the LM achieves competitive performance on captioning and visual question
answering tasks compared to models that tune both the image encoder and text
decoder (such as the MAGMA model). We compare three image encoders with
increasing amounts of linguistic supervision seen during pretraining: BEIT (no
linguistic information), NF-ResNET (lexical category information), and CLIP
(full natural language descriptions). We find that all three encoders perform
equally well at transferring visual property information to the language model
(e.g., whether an animal is large or small), but that image encoders pretrained
with linguistic supervision more saliently encode category information (e.g.,
distinguishing hippo vs.\ elephant) and thus perform significantly better on
benchmark language-and-vision tasks. Our results indicate that LMs encode
conceptual information structurally similarly to vision-based models, even
those that are solely trained on images.
- Abstract(参考訳): テキストのみ言語モデル(lms)が物理的、非言語的世界を表現することを学ぶ程度は、オープンな問題である。
先行研究では、事前学習されたlmsは、画像キャプションタスクでモデルのパラメータが更新されると、'`understand''の視覚入力を指示できることが示されている。
テキストのみのモデルで学習される概念表現は、視覚タスクで訓練されたモデルによって学習されるものと(線形変換まで)機能的に等価である。
具体的には,1つの線形投影のみを訓練することで,視覚モデルからのイメージ表現を凍結したlmsへ連続的なプロンプトとして転送できることを示す。
これらを用いてLMは、画像エンコーダとテキストデコーダの両方をチューニングするモデル(MAGMAモデルなど)と比較して、キャプションと視覚的質問応答タスクの競合性能を達成する。
我々は,3つの画像エンコーダと,事前訓練中に見られた言語指導量の増大を比較する:BEIT(言語情報なし),NF-ResNET(語彙カテゴリ情報),CLIP(フル自然言語記述)。
3つのエンコーダはすべて、視覚特性情報を言語モデル(例えば、動物が大きいか小さいか)に等しく転送するが、言語的監督の下で事前訓練された画像エンコーダは、カテゴリ情報(例えば、ヒッポ対ヒッポの区別)をより良好にエンコードする。
これにより、言語とビジョンのベンチマークタスクが大幅に改善される。
この結果から,LMは視覚モデルと構造的に類似した概念情報を符号化し,画像にのみ訓練されているものでさえも認識できることがわかった。
関連論文リスト
- Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - Is Multimodal Vision Supervision Beneficial to Language? [2.216702991322677]
ビジョン(イメージとビデオ)事前トレーニングは、マルチモーダルタスクで最先端の結果を得た最近の一般的なパラダイムである。
我々は,これらのモデルのスタンドアロンテキストエンコーダの言語表現性能と,視覚監督を通して学習したテキストエンコーダの言語表現性能を比較した。
論文 参考訳(メタデータ) (2023-02-10T02:22:44Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - I Can't Believe There's No Images! Learning Visual Tasks Using only
Language Supervision [32.49636188029509]
4つのタスクのテキストトレーニングデータのみを用いてモデルを作成する。
これらのモデルは、画像上で訓練されたモデルに近いパフォーマンスを示す。
画像データと人為的な言語データを用いない,多種多様なスタイリスティックな画像キャプションモデルについて紹介する。
論文 参考訳(メタデータ) (2022-11-17T18:52:19Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。