論文の概要: What does Kiki look like? Cross-modal associations between speech sounds and visual shapes in vision-and-language models
- arxiv url: http://arxiv.org/abs/2407.17974v1
- Date: Thu, 25 Jul 2024 12:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 14:08:56.361774
- Title: What does Kiki look like? Cross-modal associations between speech sounds and visual shapes in vision-and-language models
- Title(参考訳): キキはどのように見えるか : 視覚・言語モデルにおける音声音と視覚形状の相互関連
- Authors: Tessa Verhoef, Kiana Shahrasbi, Tom Kouwenhoven,
- Abstract要約: クロスモーダルな嗜好は、言語処理、言語学習、および信号意味マッピングの起源において顕著な役割を担っている。
ブバキキ効果 (ブバキキ効果) を用いて, 視覚・言語モデル(VLM) を探索し, 比較した。
本研究は,ヒトの認知におけるブバキキ効果の起源と,ヒトの相互関連性に整合したVLMの今後の発展について考察した。
- 参考スコア(独自算出の注目度): 0.10923877073891446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans have clear cross-modal preferences when matching certain novel words to visual shapes. Evidence suggests that these preferences play a prominent role in our linguistic processing, language learning, and the origins of signal-meaning mappings. With the rise of multimodal models in AI, such as vision- and-language (VLM) models, it becomes increasingly important to uncover the kinds of visio-linguistic associations these models encode and whether they align with human representations. Informed by experiments with humans, we probe and compare four VLMs for a well-known human cross-modal preference, the bouba-kiki effect. We do not find conclusive evidence for this effect but suggest that results may depend on features of the models, such as architecture design, model size, and training details. Our findings inform discussions on the origins of the bouba-kiki effect in human cognition and future developments of VLMs that align well with human cross-modal associations.
- Abstract(参考訳): 人間は、特定の新しい単語を視覚的な形に合わせる際に、明らかに横断的な嗜好を持つ。
エビデンスでは、これらの嗜好が言語処理、言語学習、および信号意味マッピングの起源において顕著な役割を担っていることを示唆している。
視覚と言語(VLM)モデルのようなAIにおけるマルチモーダルモデルの増加に伴い、これらのモデルが符号化する視覚言語的関連や、それらが人間の表現と整合するかどうかを明らかにすることがますます重要になっている。
人体による実験によって得られた情報を用いて、4つのVLMを、よく知られた人間の相互選好であるブバキキ効果を探索・比較する。
この効果の確定的な証拠は見つからないが、結果はアーキテクチャ設計やモデルサイズ、トレーニングの詳細といったモデルの特徴に依存する可能性があることを示唆している。
本研究は,ヒトの認知におけるブバキキ効果の起源と,ヒトの相互関連性に整合したVLMの今後の発展について考察した。
関連論文リスト
- Analyzing The Language of Visual Tokens [48.62180485759458]
我々は、離散的な視覚言語を分析するために、自然言語中心のアプローチをとる。
トークンの高度化はエントロピーの増大と圧縮の低下を招き,トークンが主にオブジェクト部品を表すことを示す。
また、視覚言語には結合的な文法構造が欠如していることが示され、自然言語と比較して難易度が高く、階層構造が弱いことが判明した。
論文 参考訳(メタデータ) (2024-11-07T18:59:28Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - With Ears to See and Eyes to Hear: Sound Symbolism Experiments with Multimodal Large Language Models [16.583370726582356]
視覚言語モデル (VLM) は, 正書法や画像のみからの抽象的推論により, 暗黙的に音による現象を理解できることを示す。
我々は,古典的キキ・ブーバやミル・マール形状の再現,等級記号課題などの実験を行った。
以上の結果から, VLMは人体ラベルとの一致のレベルが異なることが示され, サイリコ実験ではVLMと人体ラベルとの対応がより重要となる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-23T11:13:25Z) - How Well Do Deep Learning Models Capture Human Concepts? The Case of the Typicality Effect [2.3622884172290255]
近年,言語モデルと視覚モデルにおける人間のような典型的効果を求める研究は,単一のモダリティのモデルに焦点を当てている。
本研究では、より広い範囲の言語と視覚モデルを考えることにより、このモデルに対する行動評価を拡大する。
また、視覚+言語モデルペアの典型性予測とマルチモーダルCLIPベースのモデルの組み合わせが、どちらのモダリティ単独のモデルよりも人間の典型性判断に適合しているかどうかを評価する。
論文 参考訳(メタデータ) (2024-05-25T08:38:30Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - MulCogBench: A Multi-modal Cognitive Benchmark Dataset for Evaluating
Chinese and English Computational Language Models [44.74364661212373]
本稿では、中国語と英語のネイティブ参加者から収集した認知ベンチマークであるMulCogBenchを提案する。
主観的意味評価、視線追跡、機能的磁気共鳴画像(fMRI)、脳磁図(MEG)など、さまざまな認知データを含んでいる。
その結果、言語モデルは人間の認知データと大きな類似性を共有しており、類似性パターンはデータモダリティと刺激の複雑さによって変調されることがわかった。
論文 参考訳(メタデータ) (2024-03-02T07:49:57Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。