論文の概要: With Ears to See and Eyes to Hear: Sound Symbolism Experiments with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2409.14917v1
- Date: Mon, 23 Sep 2024 11:13:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 15:26:12.908178
- Title: With Ears to See and Eyes to Hear: Sound Symbolism Experiments with Multimodal Large Language Models
- Title(参考訳): 耳を聴く耳:多モーダル大言語モデルを用いた音の象徴実験
- Authors: Tyler Loakman, Yucheng Li, Chenghua Lin,
- Abstract要約: 視覚言語モデル (VLM) は, 正書法や画像のみからの抽象的推論により, 暗黙的に音による現象を理解できることを示す。
我々は,古典的キキ・ブーバやミル・マール形状の再現,等級記号課題などの実験を行った。
以上の結果から, VLMは人体ラベルとの一致のレベルが異なることが示され, サイリコ実験ではVLMと人体ラベルとの対応がより重要となる可能性が示唆された。
- 参考スコア(独自算出の注目度): 16.583370726582356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Large Language Models (LLMs) and Vision Language Models (VLMs) have demonstrated aptitude as potential substitutes for human participants in experiments testing psycholinguistic phenomena. However, an understudied question is to what extent models that only have access to vision and text modalities are able to implicitly understand sound-based phenomena via abstract reasoning from orthography and imagery alone. To investigate this, we analyse the ability of VLMs and LLMs to demonstrate sound symbolism (i.e., to recognise a non-arbitrary link between sounds and concepts) as well as their ability to ``hear'' via the interplay of the language and vision modules of open and closed-source multimodal models. We perform multiple experiments, including replicating the classic Kiki-Bouba and Mil-Mal shape and magnitude symbolism tasks, and comparing human judgements of linguistic iconicity with that of LLMs. Our results show that VLMs demonstrate varying levels of agreement with human labels, and more task information may be required for VLMs versus their human counterparts for in silico experimentation. We additionally see through higher maximum agreement levels that Magnitude Symbolism is an easier pattern for VLMs to identify than Shape Symbolism, and that an understanding of linguistic iconicity is highly dependent on model size.
- Abstract(参考訳): 近年,Large Language Models (LLMs) とVision Language Models (VLMs) は,精神言語学的な現象を実験する実験において,人間の代替手段としての能力を示している。
しかし,視覚やテキストのモダリティにのみアクセス可能なモデルが,正書法や画像のみからの抽象的推論を通じて,暗黙的に音による現象を理解することができるのか,という疑問がある。
そこで本研究では,VLM と LLM の音のシンボリズム(すなわち音と概念の非任意リンクの認識)を実証する能力と,オープンかつクローズドなマルチモーダルモデルの言語とヴィジュアルモジュールを介し,'hear' の能力について分析する。
我々は,古典的キキ・ブーバとミル・マールの形状と等級記号課題を再現し,言語的象徴性の人間の判断をLLMと比較するなど,複数の実験を行った。
以上の結果から, VLMは人体ラベルとの一致のレベルが異なることが示され, サイリコ実験ではVLMと人体ラベルとの対応がより重要となる可能性が示唆された。
さらに, マグニチュード・シンボリズムは, VLMが形状シンボリズムよりも識別しやすいパターンであり, 言語的象徴性の理解がモデルサイズに大きく依存していることも確認した。
関連論文リスト
- Enhancing Advanced Visual Reasoning Ability of Large Language Models [20.32900494896848]
VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論のための新しいベンチマークを引き起こした。
我々はCVR-LLM(Complex Visual Reasoning Large Language Models)を提案する。
提案手法は,反復的自己修正ループを用いて,画像の詳細なコンテキスト認識記述に変換する。
また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
論文 参考訳(メタデータ) (2024-09-21T02:10:19Z) - Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images [19.923665989164387]
我々は,Multimodal Causal Reasoningベンチマーク,すなわち MuCR を提案し,大規模言語モデルに挑戦する。
具体的には,セマンティック因果関係と視覚的手がかりを組み込んだシアム画像を作成するための,プロンプト駆動画像合成手法を提案する。
我々の広範な実験により、現在最先端のVLLMは、我々が期待したようなマルチモーダル因果推論に熟練していないことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-15T12:04:32Z) - What does Kiki look like? Cross-modal associations between speech sounds and visual shapes in vision-and-language models [0.10923877073891446]
クロスモーダルな嗜好は、言語処理、言語学習、および信号意味マッピングの起源において顕著な役割を担っている。
ブバキキ効果 (ブバキキ効果) を用いて, 視覚・言語モデル(VLM) を探索し, 比較した。
本研究は,ヒトの認知におけるブバキキ効果の起源と,ヒトの相互関連性に整合したVLMの今後の発展について考察した。
論文 参考訳(メタデータ) (2024-07-25T12:09:41Z) - Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。
我々は、競合する言語と視覚言語モデルを総合的に評価する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - A Vision Check-up for Language Models [61.852026871772914]
テキストのモデルを用いて、予備的な視覚表現学習システムをどのように訓練するかを示す。
自己教師付き視覚表現学習の実験は、自然画像のセマンティックアセスメントを行うことができる視覚モデルを訓練する可能性を強調している。
論文 参考訳(メタデータ) (2024-01-03T18:09:33Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。