論文の概要: Do Vision and Language Models Share Concepts? A Vector Space Alignment Study
- arxiv url: http://arxiv.org/abs/2302.06555v2
- Date: Sat, 6 Jul 2024 14:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 05:42:28.637303
- Title: Do Vision and Language Models Share Concepts? A Vector Space Alignment Study
- Title(参考訳): ビジョンと言語モデルは概念を共有するか? : ベクトル空間アライメントによる研究
- Authors: Jiaang Li, Yova Kementchedjhieva, Constanza Fierro, Anders Søgaard,
- Abstract要約: 「大規模事前訓練言語モデル(LM)は、発話を世界と結びつける能力が欠如していると言われている。」
LMの4つのファミリと3つの視覚モデルアーキテクチャを比較検討した。
- 参考スコア(独自算出の注目度): 45.88764593523038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pretrained language models (LMs) are said to ``lack the ability to connect utterances to the world'' (Bender and Koller, 2020), because they do not have ``mental models of the world' '(Mitchell and Krakauer, 2023). If so, one would expect LM representations to be unrelated to representations induced by vision models. We present an empirical evaluation across four families of LMs (BERT, GPT-2, OPT and LLaMA-2) and three vision model architectures (ResNet, SegFormer, and MAE). Our experiments show that LMs partially converge towards representations isomorphic to those of vision models, subject to dispersion, polysemy and frequency. This has important implications for both multi-modal processing and the LM understanding debate (Mitchell and Krakauer, 2023).
- Abstract(参考訳): 大規模事前訓練言語モデル(LM)は「「「発話を世界と繋げる能力の欠如」(Bender and Koller, 2020)といわれ、それらは「世界の感情モデル」を持たない(Mitchell and Krakauer, 2023)。
もしそうなら、LM表現はビジョンモデルによって誘導される表現とは無関係であると予想される。
LMの4つのファミリ(BERT, GPT-2, OPT, LLaMA-2)と3つの視覚モデルアーキテクチャ(ResNet, SegFormer, MAE)を比較検討した。
実験の結果,LMは視覚モデルに準同型な表現に部分的に収束し,分散,ポリセミー,周波数を呈することがわかった。
これはマルチモーダル処理とLM理解の議論の両方に重要な意味を持つ(Mitchell and Krakauer, 2023)。
関連論文リスト
- Why do LLaVA Vision-Language Models Reply to Images in English? [15.727116803057633]
一般的なマルチモーダル視覚言語モデル(VLM)で発生する驚くべき多言語バイアスを明らかにする。
LLaVAスタイルのVLMにクエリに画像を含めると、クエリの言語に関係なく、そのモデルが英語の応答を返す可能性が著しく高くなる。
論文 参考訳(メタデータ) (2024-07-02T15:01:55Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [26.839159541015597]
空間的推論の様々な側面をカバーする新しいベンチマークを開発する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
我々は,空間知性を改善するためのマルチモーダルモデルの開発について報告する。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Large GPT-like Models are Bad Babies: A Closer Look at the Relationship
between Linguistic Competence and Psycholinguistic Measures [25.210837736795565]
我々は、BabyLM事前学習コーパスの厳密なバージョンに基づいて、異なるサイズのGPTライクな言語モデルを訓練する。
これら3つの課題に対して,各課題におけるモデルの幅と深さの相違により,LMサイズと性能の正の相関が認められた。
このことは、モデリング処理の努力と言語能力は、発達可能なコーパス上でのGPTライクなLMのトレーニングとは異なるアプローチを必要とすることを示唆している。
論文 参考訳(メタデータ) (2023-11-08T09:26:27Z) - Kosmos-2: Grounding Multimodal Large Language Models to the World [107.27280175398089]
マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。
オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。
コードと事前訓練されたモデルはhttps://aka.ms/kosmos-2.comで入手できる。
論文 参考訳(メタデータ) (2023-06-26T16:32:47Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Does language help generalization in vision models? [0.0]
非常に大きな教師付き画像データセット(ImageNet-21k)で訓練された視覚モデルは、そのマルチモーダル画像データセット(CLIP)と同じくらい効率的に一般化できることを示す。
他の標準的な視覚モデルや言語モデルと比較すると、BiT-Mの潜在表現はCLIPと同じ「言語」であることが判明した。
論文 参考訳(メタデータ) (2021-04-16T18:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。