論文の概要: Seeing past words: Testing the cross-modal capabilities of pretrained
V&L models
- arxiv url: http://arxiv.org/abs/2012.12352v1
- Date: Tue, 22 Dec 2020 21:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 09:32:22.849413
- Title: Seeing past words: Testing the cross-modal capabilities of pretrained
V&L models
- Title(参考訳): 過去の言葉を見よ:事前訓練V&Lモデルのクロスモーダル能力の検証
- Authors: Letitia Parcalabescu and Albert Gatt and Anette Frank and Iacer
Calixto
- Abstract要約: マルチモーダル統合を必要とする2つのタスクで推論を行う汎用プリトレーニングドビジョンと言語V&Lモデルの能力を検討する。
ViLBERT, ViLBERT 12-in-1, LXMERTの3つの事前訓練V&Lモデルについて検討した。
本研究は, 事前学習したV&L表現が, 2つのモダリティを統合する上での期待よりも少ないことを示唆する。
- 参考スコア(独自算出の注目度): 18.73444918172383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the ability of general-purpose pretrained vision and language
V&L models to perform reasoning in two tasks that require multimodal
integration: (1) discriminating a correct image-sentence pair from an incorrect
one, and (2) counting entities in an image. We evaluate three pretrained V&L
models on these tasks: ViLBERT, ViLBERT 12-in-1 and LXMERT, in zero-shot and
finetuned settings. Our results show that models solve task (1) very well, as
expected, since all models use task (1) for pretraining. However, none of the
pretrained V&L models are able to adequately solve task (2), our counting
probe, and they cannot generalise to out-of-distribution quantities. Our
investigations suggest that pretrained V&L representations are less successful
than expected at integrating the two modalities. We propose a number of
explanations for these findings: LXMERT's results on the image-sentence
alignment task (and to a lesser extent those obtained by ViLBERT 12-in-1)
indicate that the model may exhibit catastrophic forgetting. As for our results
on the counting probe, we find evidence that all models are impacted by dataset
bias, and also fail to individuate entities in the visual input.
- Abstract(参考訳): 我々は,(1) 正しい画像文対を誤ったものと識別する,(2) 画像中のエンティティをカウントする,という2つのタスクにおいて,汎用的な事前学習ビジョンと言語V&Lモデルの推論を行う能力について検討する。
ViLBERT, ViLBERT 12-in-1, LXMERTの3つの事前訓練V&Lモデルを, ゼロショットおよび微調整設定で評価した。
その結果,すべてのモデルが事前学習にタスク(1)を使用しているため,期待どおりに,モデルがタスク(1)をうまく解くことが判明した。
しかしながら、事前訓練されたV&Lモデルはいずれもタスク(2)、カウントプローブを適切に解くことができず、分布外量には一般化できない。
本研究は, 事前学習したV&L表現が, 2つのモダリティを統合する上での期待よりも少ないことを示唆する。
画像文アライメントタスクにおけるLXMERTの結果(およびViLBERT 12-in-1で得られたものより少ない程度)は、このモデルが破滅的な忘れを生じさせる可能性を示唆している。
計数プローブの結果は、全てのモデルがデータセットバイアスの影響を受けており、視覚入力の実体を識別できないことを示す。
関連論文リスト
- Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - LXMERT Model Compression for Visual Question Answering [0.03749861135832073]
その結果,LXMERTを40%~60%の精度で効果的に刈り取ることができ,精度は3%低下した。
実験の結果,LXMERTは40%~60%の大きさで効果的に切断でき,精度は3%低下した。
論文 参考訳(メタデータ) (2023-10-23T19:46:41Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - TraVLR: Now You See It, Now You Don't! A Bimodal Dataset for Evaluating
Visio-Linguistic Reasoning [25.520406167426135]
本稿では,4つの視覚言語的推論タスクからなる合成データセットであるTraVLRについて述べる。
TraVLRの各例は、シーンを2つのモードで冗長にエンコードし、関連する情報を失うことなく、トレーニングやテスト中にドロップまたは追加することができる。
我々は、4つの最先端V+Lモデルの性能を比較し、同じモダリティの試験例でよく機能するが、全てクロスモーダル転送では失敗することを示した。
論文 参考訳(メタデータ) (2021-11-21T07:22:44Z) - Playing Lottery Tickets with Vision and Language [62.6420670250559]
大規模トランスフォーマーによる事前学習は視覚言語(V+L)研究に革命をもたらした。
並行して、宝くじチケット仮説の研究は、ディープニューラルネットワークには、分離訓練時に高密度ネットワークよりも同等またはさらに優れたパフォーマンスを達成できる小さなマッチングワークが含まれていることを示しています。
テストベッドとして最高の性能を持つV+Lモデルの1つであるUNITERを使用し、実験のために7つの代表的なV+Lタスクを統合する。
論文 参考訳(メタデータ) (2021-04-23T22:24:33Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z) - Assisting Scene Graph Generation with Self-Supervision [21.89909688056478]
本稿では,3つの新しい自己スーパービジョンタスクのセットを提案し,それらをメインモデルへの補助的マルチタスクとして訓練する。
比較しながら、これらのセルフスーパービジョンタスクでベースモデルをスクラッチからトレーニングし、すべてのメトリクスとリコール設定で最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-08-08T16:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。