論文の概要: Does Vision-and-Language Pretraining Improve Lexical Grounding?
- arxiv url: http://arxiv.org/abs/2109.10246v1
- Date: Tue, 21 Sep 2021 15:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 14:39:25.454288
- Title: Does Vision-and-Language Pretraining Improve Lexical Grounding?
- Title(参考訳): 視覚・言語訓練は語彙的接地を改善するか?
- Authors: Tian Yun, Chen Sun, Ellie Pavlick
- Abstract要約: ビジョン・アンド・ランゲージモデルは、テキストや画像、ビデオデータに基づいて共同で訓練される。
内部言語表現そのものが、テキストのみの表現とどのように比較されるのかは、まだ分かっていない。
- 参考スコア(独自算出の注目度): 25.357191933430627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linguistic representations derived from text alone have been criticized for
their lack of grounding, i.e., connecting words to their meanings in the
physical world. Vision-and-Language (VL) models, trained jointly on text and
image or video data, have been offered as a response to such criticisms.
However, while VL pretraining has shown success on multimodal tasks such as
visual question answering, it is not yet known how the internal linguistic
representations themselves compare to their text-only counterparts. This paper
compares the semantic representations learned via VL vs. text-only pretraining
for two recent VL models using a suite of analyses (clustering, probing, and
performance on a commonsense question answering task) in a language-only
setting. We find that the multimodal models fail to significantly outperform
the text-only variants, suggesting that future work is required if multimodal
pretraining is to be pursued as a means of improving NLP in general.
- Abstract(参考訳): 文のみから派生した言語表現は、その根拠の欠如、すなわち物理世界で言葉と意味を結びつけることで批判されている。
視覚言語モデル(vl)は、テキストと画像またはビデオデータに基づいて共同で訓練され、そのような批判に対する反応として提供されてきた。
しかしながら、VL事前学習は視覚的質問応答のようなマルチモーダルなタスクで成功したが、内部言語表現自体がテキストのみのタスクとどのように比較されるかは未だ分かっていない。
本稿では,VLとテキストのみによる2つのVLモデルのセマンティック表現を,言語のみの設定による分析(クラスタリング,探索,共通解答タスクにおける性能)を用いて比較する。
マルチモーダルモデルはテキストのみの変種を著しく上回り得ず,NLPを改良する手段として,マルチモーダル事前学習が追求される場合,今後の作業が必要であることを示唆する。
関連論文リスト
- Improving Visual Commonsense in Language Models via Multiple Image Generation [41.565399860320966]
既存の大規模言語モデル(LLM)は、主にテキストデータのみを使用して訓練されている。
視覚言語モデルは視覚的に指向するタスクに優れており、基本的なコモンセンス推論のような視覚的でないタスクでは失敗することが多い。
この分散は、基本的なテキストベースの言語推論と堅牢な視覚的理解の統合という、重要な課題を浮き彫りにする。
論文 参考訳(メタデータ) (2024-06-19T15:17:10Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - How to Adapt Pre-trained Vision-and-Language Models to a Text-only
Input? [0.13706331473063876]
我々は、すでに言語理解能力にいくつかの結果がある、事前訓練されたマルチモーダル・ビジョン・アンド・ランゲージ(VL)モデルに焦点を当てる。
これらのモデルの言語的スキルを評価する上で未解決の問題は、アウト・オブ・ディストリビューションの不確実性なしにテキストのみの入力に適応する方法が確立されていないことである。
GLUEとVisual Property Norms(VPN)の評価は、VLモデルをゼロショットのテキストのみのタスクに適応させるのに対して、モデルは非ゼロショットのタスクに適応する方法に敏感でないことを示す。
論文 参考訳(メタデータ) (2022-09-19T13:00:12Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Visual Grounding Strategies for Text-Only Natural Language Processing [1.2183405753834562]
BERTのマルチモーダル拡張は、視覚的質問回答などのマルチモーダルタスクに最先端の結果をもたらすテキストと画像の共同モデリングを可能にします。
本稿では,マルチモーダル事前学習がテキスト処理精度を向上させる基礎となることを期待して,純粋にテキストタスクにマルチモーダルモデリングを利用する。
転送グラウンドと呼ばれる最初のタイプの戦略は、テキストのみのタスクにマルチモーダルモデルを適用し、プレースホルダーを使って画像入力を置き換える。
2つ目は「連想的接地」と呼ばれ、画像検索を利用してテキストと関連画像のマッチングを行う。
論文 参考訳(メタデータ) (2021-03-25T16:03:00Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。