論文の概要: Implications of the Convergence of Language and Vision Model Geometries
- arxiv url: http://arxiv.org/abs/2302.06555v1
- Date: Mon, 13 Feb 2023 17:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 14:35:29.522167
- Title: Implications of the Convergence of Language and Vision Model Geometries
- Title(参考訳): 言語と視覚モデルジオメトリの収束の意義
- Authors: Jiaang Li, Yova Kementchedjhieva, Anders S{\o}gaard
- Abstract要約: 「大規模事前訓練言語モデル(LM)には世界への発話を接続する能力がないと言われている。」
本稿では、3つの異なるLMと3つのコンピュータビジョンモデルに対して経験的評価を行う。
- 参考スコア(独自算出の注目度): 8.800399531305057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pretrained language models (LMs) are said to ``lack the ability
to connect [their] utterances to the world'' (Bender and Koller, 2020). If so,
we would expect LM representations to be unrelated to representations in
computer vision models. To investigate this, we present an empirical evaluation
across three different LMs (BERT, GPT2, and OPT) and three computer vision
models (VMs, including ResNet, SegFormer, and MAE). Our experiments show that
LMs converge towards representations that are partially isomorphic to those of
VMs, with dispersion, and polysemy both factoring into the alignability of
vision and language spaces. We discuss the implications of this finding.
- Abstract(参考訳): 大規模事前訓練言語モデル(LM)は「「世界への発話を接続する能力の欠如」と言われている(Bender and Koller, 2020)。
もしそうなら、lm表現はコンピュータビジョンモデルの表現とは無関係になることを期待する。
そこで本研究では,3つの異なるLM(BERT, GPT2, OPT)と3つのコンピュータビジョンモデル(ResNet, SegFormer, MAEを含むVM)を比較検討した。
実験により, LMはVMと部分的に同型な表現に収束し, 分散と多意味性の両方を視覚空間と言語空間の整合性に分解することを示した。
我々はこの発見の意義について議論する。
関連論文リスト
- Prismatic VLMs: Investigating the Design Space of Visually-Conditioned
Language Models [77.77951795883698]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
まず,視覚的質問応答,言語からのオブジェクトローカライゼーション,幻覚などの特性を探索する課題セットを対象とする,標準化された評価スイートをコンパイルする。
我々は、事前訓練された視覚表現を含むキー設計軸に沿ったVLMを厳格に調査し、ベース対インストラクション言語モデルを用いたトレードオフの定量化を行う。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Enhance Reasoning Ability of Visual-Language Models via Large Language
Models [7.283533791778359]
本稿では,大規模言語モデルの推論能力をゼロショットシナリオで視覚言語モデルに転送するTReEという手法を提案する。
TReEは観察、思考、再考の3段階を含む。
論文 参考訳(メタデータ) (2023-05-22T17:33:44Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Multimodal Chain-of-Thought Reasoning in Language Models [80.902171201496]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。
本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。
Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Learning Point-Language Hierarchical Alignment for 3D Visual Grounding [35.17185775314988]
本稿では,多粒度視覚表現と言語表現をエンドツーエンドに学習する階層アライメントモデル(HAM)を提案する。
我々は,3次元コンテキストとインスタンスをモデル化するためのキーポイントと提案ポイントを抽出し,コンテキスト変調によるポイント言語アライメントを提案する。
グローバルな関係と局所的な関係を更に捉えるために,空間的に多重なモデリング手法を提案する。
論文 参考訳(メタデータ) (2022-10-22T18:02:10Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z) - Does language help generalization in vision models? [0.0]
非常に大きな教師付き画像データセット(ImageNet-21k)で訓練された視覚モデルは、そのマルチモーダル画像データセット(CLIP)と同じくらい効率的に一般化できることを示す。
他の標準的な視覚モデルや言語モデルと比較すると、BiT-Mの潜在表現はCLIPと同じ「言語」であることが判明した。
論文 参考訳(メタデータ) (2021-04-16T18:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。