論文の概要: Evidence of Human-Like Visual-Linguistic Integration in Multimodal Large
Language Models During Predictive Language Processing
- arxiv url: http://arxiv.org/abs/2308.06035v1
- Date: Fri, 11 Aug 2023 09:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 14:37:03.468151
- Title: Evidence of Human-Like Visual-Linguistic Integration in Multimodal Large
Language Models During Predictive Language Processing
- Title(参考訳): 予測言語処理におけるマルチモーダル大言語モデルにおける人間の視覚言語統合の証明
- Authors: Viktor Kewenig, Christopher Edwards, Quitterie Lacome DEstalenx,
Akilles Rechardt, Jeremy I Skipper and Gabriella Vigliocco
- Abstract要約: マルチモーダル言語モデル(mLLM)は、視覚的および言語的な埋め込み空間と、次の単語予測のためのトランスフォーマー型アテンションメカニズムを組み合わせたものである。
mLLMと人間におけるマルチモーダル入力整合に基づく予測言語処理の程度について
視線追跡は参加者が参加する視覚的特徴を推定するために用いられ、CLIPの視覚的注意重みが記録された。
結果から,マルチモーダル情報の統合は,mLLMとヒトにおける予測言語処理を支援することが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advanced language processing abilities of large language models (LLMs)
have stimulated debate over their capacity to replicate human-like cognitive
processes. One differentiating factor between language processing in LLMs and
humans is that language input is often grounded in more than one perceptual
modality, whereas most LLMs process solely text-based information. Multimodal
grounding allows humans to integrate - e.g. visual context with linguistic
information and thereby place constraints on the space of upcoming words,
reducing cognitive load and improving perception and comprehension. Recent
multimodal LLMs (mLLMs) combine visual and linguistic embedding spaces with a
transformer type attention mechanism for next-word prediction. To what extent
does predictive language processing based on multimodal input align in mLLMs
and humans? To answer this question, 200 human participants watched short
audio-visual clips and estimated the predictability of an upcoming verb or
noun. The same clips were processed by the mLLM CLIP, with predictability
scores based on a comparison of image and text feature vectors. Eye-tracking
was used to estimate what visual features participants attended to, and CLIP's
visual attention weights were recorded. We find that human estimates of
predictability align significantly with CLIP scores, but not for a unimodal LLM
of comparable parameter size. Further, alignment vanished when CLIP's visual
attention weights were perturbed, and when the same input was fed to a
multimodal model without attention. Analysing attention patterns, we find a
significant spatial overlap between CLIP's visual attention weights and human
eye-tracking data. Results suggest that comparable processes of integrating
multimodal information, guided by attention to relevant visual features,
supports predictive language processing in mLLMs and humans.
- Abstract(参考訳): 大きな言語モデル(LLM)の高度な言語処理能力は、人間のような認知過程を再現する能力についての議論を刺激している。
LLMにおける言語処理と人間との差別化要因の1つは、言語入力が複数の知覚的モダリティに基礎を置いていることである。
マルチモーダルグラウンドリングは、視覚的コンテキストを言語情報と統合することで、次の単語の空間に制約を課し、認知負荷を減らし、知覚と理解を改善する。
近年のマルチモーダルLLM (mLLMs) は, 視覚的および言語的埋め込み空間と, 次単語予測のための変圧器型アテンション機構を組み合わせたものである。
マルチモーダル入力に基づく予測言語処理はmllmと人間にどの程度整合しているか?
この質問に答えるために、200人の被験者が短い音声映像クリップを見て、次の動詞や名詞の予測可能性を推定した。
同じクリップはmLLM CLIPによって処理され、画像とテキストの特徴ベクトルの比較に基づいて予測可能性スコアが得られた。
視線追跡は参加者の視覚特徴を推定するために用いられ、クリップの視覚的注意重みが記録された。
予測可能性の人的推定はCLIPのスコアと大きく一致しているが,パラメータサイズに匹敵するLLMには当てはまらない。
さらに、CLIPの視覚的注意重みが乱れ、同じ入力が無注意でマルチモーダルモデルに供給されたとき、アライメントは消失した。
注意パターンを解析したところ、CLIPの視覚的注意重みと人間の視線追跡データの間に大きな空間的重なりが認められた。
結果から,マルチモーダル情報の統合プロセスは,mLLMとヒトにおける予測言語処理を支援することが示唆された。
関連論文リスト
- Are Human Conversations Special? A Large Language Model Perspective [8.623471682333964]
本研究では、人間(人間)の自然な会話を理解するために、大規模言語モデル(LLM)の注意機構の変化を分析する。
その結果,言語モデルはドメイン固有の注意行動を示すが,人間の会話を専門化する能力には大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-03-08T04:44:25Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [83.5664938147883]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - A Comparative Study on Textual Saliency of Styles from Eye Tracking,
Annotations, and Language Models [21.190423578990824]
我々は、スタイリスティックテキストの人間の処理のための視線追跡データセットである eyeStyliency を提示する。
収集したアイデータセットを用いて,テキスト上でのサリエンシスコアを導出する様々な手法を開発した。
視線追跡データはユニークですが、人間のアノテーションとモデルに基づく重要度スコアの両方と交差しています。
論文 参考訳(メタデータ) (2022-12-19T21:50:36Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。