論文の概要: Implications of the Convergence of Language and Vision Model Geometries
- arxiv url: http://arxiv.org/abs/2302.06555v1
- Date: Mon, 13 Feb 2023 17:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 14:35:29.522167
- Title: Implications of the Convergence of Language and Vision Model Geometries
- Title(参考訳): 言語と視覚モデルジオメトリの収束の意義
- Authors: Jiaang Li, Yova Kementchedjhieva, Anders S{\o}gaard
- Abstract要約: 「大規模事前訓練言語モデル(LM)には世界への発話を接続する能力がないと言われている。」
本稿では、3つの異なるLMと3つのコンピュータビジョンモデルに対して経験的評価を行う。
- 参考スコア(独自算出の注目度): 8.800399531305057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pretrained language models (LMs) are said to ``lack the ability
to connect [their] utterances to the world'' (Bender and Koller, 2020). If so,
we would expect LM representations to be unrelated to representations in
computer vision models. To investigate this, we present an empirical evaluation
across three different LMs (BERT, GPT2, and OPT) and three computer vision
models (VMs, including ResNet, SegFormer, and MAE). Our experiments show that
LMs converge towards representations that are partially isomorphic to those of
VMs, with dispersion, and polysemy both factoring into the alignability of
vision and language spaces. We discuss the implications of this finding.
- Abstract(参考訳): 大規模事前訓練言語モデル(LM)は「「世界への発話を接続する能力の欠如」と言われている(Bender and Koller, 2020)。
もしそうなら、lm表現はコンピュータビジョンモデルの表現とは無関係になることを期待する。
そこで本研究では,3つの異なるLM(BERT, GPT2, OPT)と3つのコンピュータビジョンモデル(ResNet, SegFormer, MAEを含むVM)を比較検討した。
実験により, LMはVMと部分的に同型な表現に収束し, 分散と多意味性の両方を視覚空間と言語空間の整合性に分解することを示した。
我々はこの発見の意義について議論する。
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Why do LLaVA Vision-Language Models Reply to Images in English? [15.727116803057633]
一般的なマルチモーダル視覚言語モデル(VLM)で発生する驚くべき多言語バイアスを明らかにする。
LLaVAスタイルのVLMにクエリに画像を含めると、クエリの言語に関係なく、そのモデルが英語の応答を返す可能性が著しく高くなる。
論文 参考訳(メタデータ) (2024-07-02T15:01:55Z) - Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。
我々は、競合する言語と視覚言語モデルを総合的に評価する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Kosmos-2: Grounding Multimodal Large Language Models to the World [107.27280175398089]
マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。
オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。
コードと事前訓練されたモデルはhttps://aka.ms/kosmos-2.comで入手できる。
論文 参考訳(メタデータ) (2023-06-26T16:32:47Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Does language help generalization in vision models? [0.0]
非常に大きな教師付き画像データセット(ImageNet-21k)で訓練された視覚モデルは、そのマルチモーダル画像データセット(CLIP)と同じくらい効率的に一般化できることを示す。
他の標準的な視覚モデルや言語モデルと比較すると、BiT-Mの潜在表現はCLIPと同じ「言語」であることが判明した。
論文 参考訳(メタデータ) (2021-04-16T18:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。