論文の概要: Does language help generalization in vision models?
- arxiv url: http://arxiv.org/abs/2104.08313v1
- Date: Fri, 16 Apr 2021 18:54:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:50:02.254627
- Title: Does language help generalization in vision models?
- Title(参考訳): 言語はビジョンモデルの一般化に役立つか?
- Authors: Benjamin Devillers, Romain Bielawski, Bhavin Choski and Rufin
VanRullen
- Abstract要約: 非常に大きな教師付き画像データセット(ImageNet-21k)で訓練された視覚モデルは、そのマルチモーダル画像データセット(CLIP)と同じくらい効率的に一般化できることを示す。
他の標準的な視覚モデルや言語モデルと比較すると、BiT-Mの潜在表現はCLIPと同じ「言語」であることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision models trained on multimodal datasets have recently proved very
efficient, both in terms of the wide availability of large image-caption
datasets, and in terms of the resulting model's ability to generalize to
multiple downstream tasks (e.g. zero-shot learning). One might assume that
these abilities are derived, at least in part, from a "semantic grounding" of
the visual feature space, learning meaningful structure by mirroring the space
of linguistic representations. Contrary to this intuition, we show that a
visual model (BiT-M) trained on a very large supervised image dataset
(ImageNet-21k) can be as efficient for generalization (few-shot learning,
unsupervised clustering) as its multimodal counterpart (CLIP). When compared to
other standard visual or language models, the latent representations of BiT-M
were found to be just as "linguistic" as those of CLIP. Overall, these findings
suggest that the main factor driving improvements of generalization in current
models is the size of the training dataset, not (solely) the multimodal
grounding property.
- Abstract(参考訳): マルチモーダルデータセットでトレーニングされたビジョンモデルは、大規模な画像キャプチャデータセットが広く利用可能である点と、結果のモデルが複数の下流タスク(例えば、)に一般化できる点の両方において、最近非常に効率的であることが証明された。
ゼロショット学習)。
これらの能力は、少なくとも部分的には、視覚特徴空間の「理論的根拠」から導出され、言語表現の空間を反映して意味のある構造を学ぶと仮定できる。
この直感とは対照的に、非常に大規模な教師付き画像データセット(ImageNet-21k)で訓練された視覚モデル(BiT-M)は、そのマルチモーダル・クラスタリング(CLIP)と同じくらい効率的に一般化できることを示す。
他の標準的な視覚モデルや言語モデルと比較すると、BiT-Mの潜在表現はCLIPと同じ「言語」であることが判明した。
これらの結果から,現在のモデルの一般化を推進している主な要因は,マルチモーダル接地特性ではなく,トレーニングデータセットのサイズであることがわかった。
関連論文リスト
- Unified Lexical Representation for Interpretable Visual-Language Alignment [52.059812317944434]
より解釈可能なVLAフレームワークであるLexVLAを紹介する。
これら2つの事前学習されたユニモーダルモデルが、控えめなマルチモーダルデータセットを微調整することで、適切に整列できることを実証する。
論文 参考訳(メタデータ) (2024-07-25T07:35:27Z) - EVLM: An Efficient Vision-Language Model for Visual Understanding [18.794601813330715]
本稿では,計算コストを最小化する効率的なマルチモーダル言語モデルを提案する。
画像キャプションやビデオキャプションといったタスクにおいて,公開マルチモーダルベンチマークの競合スコアを達成し,良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-07-19T10:09:51Z) - Continually Learn to Map Visual Concepts to Large Language Models in Resource-constrained Environments [7.481446615819558]
連続ビジュアルマッピング(Continuous Visual Mapping, CVM)は、固定言語モデルから抽出された知識空間に視覚表現を連続的に基礎付けるアプローチである。
CVMは5つのベンチマークで最先端の継続的学習手法を克服する。
論文 参考訳(メタデータ) (2024-07-11T08:28:40Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - LLM2Loss: Leveraging Language Models for Explainable Model Diagnostics [5.33024001730262]
我々は、失敗とバイアスのモデルパターンに関するセマンティックな洞察を提供するアプローチを提案する。
このような軽量モデルのアンサンブルを用いて,ブラックボックスモデルの性能に関する洞察を得られることを示す。
論文 参考訳(メタデータ) (2023-05-04T23:54:37Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。