論文の概要: Cross-modal Associations in Vision and Language Models: Revisiting the bouba-kiki effect
- arxiv url: http://arxiv.org/abs/2507.10013v1
- Date: Mon, 14 Jul 2025 07:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.478224
- Title: Cross-modal Associations in Vision and Language Models: Revisiting the bouba-kiki effect
- Title(参考訳): 視覚・言語モデルにおけるクロスモーダル・アソシエーション--ブバ・キキ効果の再考
- Authors: Tom Kouwenhoven, Kiana Shahrasbi, Tessa Verhoef,
- Abstract要約: そこで我々は,「ブバ」や「キキ」といった疑似語を丸い形と確実に関連付ける「ブバキキ効果」を再評価する。
視覚・言語モデル(VLM)がブバ・キキ効果を連続的に示さないことを示す。
- 参考スコア(独自算出の注目度): 0.10923877073891446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal models have raised questions about whether vision-and-language models (VLMs) integrate cross-modal information in ways that reflect human cognition. One well-studied test case in this domain is the bouba-kiki effect, where humans reliably associate pseudowords like "bouba" with round shapes and "kiki" with jagged ones. Given the mixed evidence found in prior studies for this effect in VLMs, we present a comprehensive re-evaluation focused on two variants of CLIP, ResNet and Vision Transformer (ViT), given their centrality in many state-of-the-art VLMs. We apply two complementary methods closely modelled after human experiments: a prompt-based evaluation that uses probabilities as model preference, and we use Grad-CAM as a novel way to interpret visual attention in shape-word matching tasks. Our findings show that these models do not consistently exhibit the bouba-kiki effect. While ResNet shows a preference for round shapes, overall performance across both models lacks the expected associations. Moreover, direct comparison with prior human data on the same task shows that the models' responses fall markedly short of the robust, modality-integrated behaviour characteristic of human cognition. These results contribute to the ongoing debate about the extent to which VLMs truly understand cross-modal concepts, highlighting limitations in their internal representations and alignment with human intuitions.
- Abstract(参考訳): マルチモーダルモデルの最近の進歩は、視覚・言語モデル(VLM)が、人間の認知を反映する形で、相互モーダル情報を統合するかどうかという疑問を提起している。
この領域でよく研究されているテストケースの一つに、人間が「ブーバ」のような疑似語を丸い形に、また「キキ」をジャグリングした形で確実に関連付ける「ブバキキ」効果がある。
VLMにおけるこの効果の既往の研究から、多くの最先端VLMにおいて中心となるCLIP, ResNet, Vision Transformer (ViT) の2つの変種に着目した総合的な再評価を行う。
確率をモデル選好として利用するプロンプトベース評価法と,形状・単語マッチングタスクにおいて視覚的注意を解釈する新しい方法としてGrad-CAMを用いる。
以上の結果から,これらのモデルがブバキ効果を持続的に示さないことが明らかとなった。
ResNetはラウンドシェイプの好みを示しているが、両方のモデル全体での全体的なパフォーマンスには期待される関連性がない。
さらに、同じタスクにおける先行する人的データと直接比較すると、モデルの反応は人間の認知の頑健でモダリティを組み込んだ行動特性から著しく劣っていることが示される。
これらの結果は、VLMがいかにしてクロスモーダルな概念を真に理解し、内部表現の限界を強調し、人間の直観と整合するかという議論に寄与する。
関連論文リスト
- Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions [0.03495246564946555]
IllusionMNIST, IllusionFashionMNIST, IllusionAnimals, IllusionChar。
これらのデータセットは、視覚錯覚の認識と解釈において、最先端のマルチモーダルモデルの性能を評価するように設計されている。
論文 参考訳(メタデータ) (2024-12-11T07:51:18Z) - Cross-Modal Consistency in Multimodal Large Language Models [33.229271701817616]
クロスモーダル一貫性という新しい概念を導入する。
実験結果から, GPT-4V内における視覚と言語モダリティの矛盾が明らかとなった。
我々の研究は、そのようなモデルの適切な利用に関する洞察と、その設計を強化するための潜在的な道のヒントを得る。
論文 参考訳(メタデータ) (2024-11-14T08:22:42Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Are Visual-Language Models Effective in Action Recognition? A Comparative Study [22.97135293252601]
本稿では,最先端のビジョン基盤モデルに関する大規模研究と知見を提供する。
ゼロショットとフレームワイドのアクション認識タスクへの転送能力を比較する。
最近の微粒な人間中心の行動認識データセットで実験を行う。
論文 参考訳(メタデータ) (2024-10-22T16:28:21Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Linking Robustness and Generalization: A k* Distribution Analysis of Concept Clustering in Latent Space for Vision Models [56.89974470863207]
本稿では,局所的近傍解析手法であるk*分布を用いて,個々の概念のレベルで学習された潜伏空間について検討する。
視覚モデルの潜在空間の全体的品質を評価するために、個々の概念を解釈するための歪度に基づく真および近似メトリクスを導入する。
論文 参考訳(メタデータ) (2024-08-17T01:43:51Z) - What does Kiki look like? Cross-modal associations between speech sounds and visual shapes in vision-and-language models [0.10923877073891446]
クロスモーダルな嗜好は、言語処理、言語学習、および信号意味マッピングの起源において顕著な役割を担っている。
ブバキキ効果 (ブバキキ効果) を用いて, 視覚・言語モデル(VLM) を探索し, 比較した。
本研究は,ヒトの認知におけるブバキキ効果の起源と,ヒトの相互関連性に整合したVLMの今後の発展について考察した。
論文 参考訳(メタデータ) (2024-07-25T12:09:41Z) - From CNNs to Transformers in Multimodal Human Action Recognition: A Survey [23.674123304219822]
人間の行動認識はコンピュータビジョンにおいて最も広く研究されている研究問題の1つである。
近年の研究では、マルチモーダルデータを用いてこの問題に対処することで性能が向上することが示されている。
視覚モデリングにおけるトランスフォーマーの最近の増加は、アクション認識タスクのパラダイムシフトを引き起こしている。
論文 参考訳(メタデータ) (2024-05-22T02:11:18Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Adaptive Contextual Perception: How to Generalize to New Backgrounds and
Ambiguous Objects [75.15563723169234]
本研究では,視覚モデルが分布外一般化の文脈をどのように適応的に利用するかを検討する。
1つの設定で優れているモデルは、もう1つの設定で苦労する傾向があります。
生物学的視覚の一般化能力を再現するためには、コンピュータビジョンモデルは背景表現に対して分解対象を持つ必要がある。
論文 参考訳(メタデータ) (2023-06-09T15:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。