Fugu-MT 論文翻訳(概要): Implications of the Convergence of Language and Vision Model Geometries

論文の概要: Implications of the Convergence of Language and Vision Model Geometries

arxiv url: http://arxiv.org/abs/2302.06555v1
Date: Mon, 13 Feb 2023 17:55:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-14 14:35:29.522167
Title: Implications of the Convergence of Language and Vision Model Geometries
Title（参考訳）: 言語と視覚モデルジオメトリの収束の意義
Authors: Jiaang Li, Yova Kementchedjhieva, Anders S{\o}gaard
Abstract要約: 「大規模事前訓練言語モデル(LM)には世界への発話を接続する能力がないと言われている。」本稿では、3つの異なるLMと3つのコンピュータビジョンモデルに対して経験的評価を行う。
参考スコア（独自算出の注目度）: 8.800399531305057
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale pretrained language models (LMs) are said to ``lack the ability to connect [their] utterances to the world'' (Bender and Koller, 2020). If so, we would expect LM representations to be unrelated to representations in computer vision models. To investigate this, we present an empirical evaluation across three different LMs (BERT, GPT2, and OPT) and three computer vision models (VMs, including ResNet, SegFormer, and MAE). Our experiments show that LMs converge towards representations that are partially isomorphic to those of VMs, with dispersion, and polysemy both factoring into the alignability of vision and language spaces. We discuss the implications of this finding.
Abstract（参考訳）: 大規模事前訓練言語モデル(LM)は「「世界への発話を接続する能力の欠如」と言われている(Bender and Koller, 2020)。もしそうなら、lm表現はコンピュータビジョンモデルの表現とは無関係になることを期待する。そこで本研究では,3つの異なるLM(BERT, GPT2, OPT)と3つのコンピュータビジョンモデル(ResNet, SegFormer, MAEを含むVM)を比較検討した。実験により, LMはVMと部分的に同型な表現に収束し, 分散と多意味性の両方を視覚空間と言語空間の整合性に分解することを示した。我々はこの発見の意義について議論する。

関連論文リスト

Mechanistic Indicators of Understanding in Large Language Models [2.752171077382186]
我々は,Large Language Models (LLM) が,接続の確認に係わる理解と機能的に類似した内部構造を発達させることを論じる。概念的理解は、モデルが潜在空間の方向として「機能」を形成し、何かの多様な表現の間のつながりを学ぶときに現れる。第二に、状態の理解は、モデルが機能間の連続した事実的なつながりを学び、世界の変化を動的に追跡するときに現れる。第三に、モデルが記憶された事実の集まりに頼るのをやめ、これらの事実を繋ぐ「循環」を発見すると、原則化された理解が生まれる。
論文参考訳（メタデータ） (2025-07-07T20:26:31Z)
Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文参考訳（メタデータ） (2025-06-27T03:24:29Z)
PostAlign: Multimodal Grounding as a Corrective Lens for MLLMs [23.69973859198496]
MLLM(Multimodal Large Language Models)は、画像キャプションや視覚的質問応答などの視覚言語タスクに優れる。主に、モデルが実際の視覚情報を活用するのを妨げている言語的先行性のために、急激な相関に対する過度な信頼に悩まされることが多い。 MMed-PostAlignは、視覚的理解能力を高め、MLLMの幻覚を軽減するために設計された、マルチモーダル後のアライメントフレームワークである。
論文参考訳（メタデータ） (2025-06-22T05:11:46Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
Why do LLaVA Vision-Language Models Reply to Images in English? [15.727116803057633]
一般的なマルチモーダル視覚言語モデル(VLM)で発生する驚くべき多言語バイアスを明らかにする。 LLaVAスタイルのVLMにクエリに画像を含めると、クエリの言語に関係なく、そのモデルが英語の応答を返す可能性が著しく高くなる。
論文参考訳（メタデータ） (2024-07-02T15:01:55Z)
Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。我々は、競合する言語と視覚言語モデルを総合的に評価する。文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文参考訳（メタデータ） (2024-06-21T03:53:37Z)
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。 CLIP-blind pairs'(CLIP-blind pairs)を識別する。様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文参考訳（メタデータ） (2024-01-11T18:58:36Z)
Kosmos-2: Grounding Multimodal Large Language Models to the World [107.27280175398089]
マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。コードと事前訓練されたモデルはhttps://aka.ms/kosmos-2.comで入手できる。
論文参考訳（メタデータ） (2023-06-26T16:32:47Z)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文参考訳（メタデータ） (2022-12-01T05:00:18Z)
DiMBERT: Learning Vision-Language Grounded Representations with Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。 DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文参考訳（メタデータ） (2022-10-28T23:00:40Z)
Does language help generalization in vision models? [0.0]
非常に大きな教師付き画像データセット(ImageNet-21k)で訓練された視覚モデルは、そのマルチモーダル画像データセット(CLIP)と同じくらい効率的に一般化できることを示す。他の標準的な視覚モデルや言語モデルと比較すると、BiT-Mの潜在表現はCLIPと同じ「言語」であることが判明した。
論文参考訳（メタデータ） (2021-04-16T18:54:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。