論文の概要: Evidence of Human-Like Visual-Linguistic Integration in Multimodal Large
Language Models During Predictive Language Processing
- arxiv url: http://arxiv.org/abs/2308.06035v2
- Date: Mon, 4 Sep 2023 05:29:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 03:36:20.056177
- Title: Evidence of Human-Like Visual-Linguistic Integration in Multimodal Large
Language Models During Predictive Language Processing
- Title(参考訳): 予測言語処理におけるマルチモーダル大言語モデルにおける人間の視覚言語統合の証明
- Authors: Viktor Kewenig, Christopher Edwards, Quitterie Lacome DEstalenx,
Akilles Rechardt, Jeremy I Skipper and Gabriella Vigliocco
- Abstract要約: 大規模言語モデルにおけるマルチモーダル入力に基づく予測言語処理が人間と一致しているかを問う。
結果から,マルチモーダル情報の統合は,mLLMとヒトにおける予測言語処理を支援することが示唆された。
- 参考スコア(独自算出の注目度): 0.46603287532620746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advanced language processing abilities of large language models (LLMs)
have stimulated debate over their capacity to replicate human-like cognitive
processes. One differentiating factor between language processing in LLMs and
humans is that language input is often grounded in several perceptual
modalities, whereas most LLMs process solely text-based information. Multimodal
grounding allows humans to integrate - e.g. visual context with linguistic
information and thereby place constraints on the space of upcoming words,
reducing cognitive load and improving comprehension. Recent multimodal LLMs
(mLLMs) combine a visual-linguistic embedding space with a transformer type
attention mechanism for next-word prediction. Here we ask whether predictive
language processing based on multimodal input in mLLMs aligns with humans.
Two-hundred participants watched short audio-visual clips and estimated
predictability of an upcoming verb or noun. The same clips were processed by
the mLLM CLIP, with predictability scores based on comparing image and text
feature vectors. Eye-tracking was used to estimate what visual features
participants attended to, and CLIP's visual attention weights were recorded. We
find that alignment of predictability scores was driven by multimodality of
CLIP (no alignment for a unimodal state-of-the-art LLM) and by the attention
mechanism (no alignment when attention weights were perturbated or when the
same input was fed to a multimodal model without attention). We further find a
significant spatial overlap between CLIP's visual attention weights and human
eye-tracking data. Results suggest that comparable processes of integrating
multimodal information, guided by attention to relevant visual features,
supports predictive language processing in mLLMs and humans.
- Abstract(参考訳): 大きな言語モデル(LLM)の高度な言語処理能力は、人間のような認知過程を再現する能力についての議論を刺激している。
LLMにおける言語処理と人間との差別化要因の1つは、言語入力がいくつかの知覚的モダリティに基礎を置いていることである。
マルチモーダルグラウンドリングは、視覚的コンテキストを言語情報と統合することで、次の単語の空間に制約を課し、認知負荷を減らし、理解を改善します。
近年のマルチモーダルLLM (mLLMs) は, 視覚言語的埋め込み空間と変圧器型アテンション機構を組み合わせて, 単語の予測を行う。
ここでは,mLLMにおけるマルチモーダル入力に基づく予測言語処理が人間と一致しているかを問う。
2人の被験者が短い音声映像クリップと、次の動詞や名詞の予測可能性を見た。
同じクリップはmLLM CLIPによって処理され、画像とテキストの特徴ベクトルの比較に基づいて予測可能性スコアが得られた。
視線追跡は参加者の視覚特徴を推定するために用いられ、クリップの視覚的注意重みが記録された。
予測可能性スコアのアライメントは,CLIP (unimodal state-of-the-art LLMのアライメントなし) とアライメント機構(注意重みが乱れていた場合や,注意のないマルチモーダルモデルに同じ入力が供給された場合のアライメントなし) のマルチモーダル性によってもたらされた。
さらに、CLIPの視覚的注意重みと人間の視線追跡データの間に大きな空間的重なりがあることを見出した。
結果から,マルチモーダル情報の統合プロセスは,mLLMとヒトにおける予測言語処理を支援することが示唆された。
関連論文リスト
- Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset [0.39462888523270856]
VAGUEは3.9Kの間接的人間発話と対応するシーンを組み合わせたマルチモーダル・ベンチマークである。
我々の研究は、モデルが間接的なコミュニケーションを理解する能力について深く掘り下げ、より洗練され人間的な対話が可能なモデルの開発に貢献することを目的としています。
論文 参考訳(メタデータ) (2024-11-21T14:01:42Z) - Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。
我々は、競合する言語と視覚言語モデルを総合的に評価する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - Are Human Conversations Special? A Large Language Model Perspective [8.623471682333964]
本研究では、人間(人間)の自然な会話を理解するために、大規模言語モデル(LLM)の注意機構の変化を分析する。
その結果,言語モデルはドメイン固有の注意行動を示すが,人間の会話を専門化する能力には大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-03-08T04:44:25Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。