Fugu-MT 論文翻訳(概要): Evidence of Human-Like Visual-Linguistic Integration in Multimodal Large Language Models During Predictive Language Processing

論文の概要: Evidence of Human-Like Visual-Linguistic Integration in Multimodal Large Language Models During Predictive Language Processing

arxiv url: http://arxiv.org/abs/2308.06035v1
Date: Fri, 11 Aug 2023 09:30:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-14 14:37:03.468151
Title: Evidence of Human-Like Visual-Linguistic Integration in Multimodal Large Language Models During Predictive Language Processing
Title（参考訳）: 予測言語処理におけるマルチモーダル大言語モデルにおける人間の視覚言語統合の証明
Authors: Viktor Kewenig, Christopher Edwards, Quitterie Lacome DEstalenx, Akilles Rechardt, Jeremy I Skipper and Gabriella Vigliocco
Abstract要約: マルチモーダル言語モデル(mLLM)は、視覚的および言語的な埋め込み空間と、次の単語予測のためのトランスフォーマー型アテンションメカニズムを組み合わせたものである。 mLLMと人間におけるマルチモーダル入力整合に基づく予測言語処理の程度について視線追跡は参加者が参加する視覚的特徴を推定するために用いられ、CLIPの視覚的注意重みが記録された。結果から,マルチモーダル情報の統合は,mLLMとヒトにおける予測言語処理を支援することが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The advanced language processing abilities of large language models (LLMs) have stimulated debate over their capacity to replicate human-like cognitive processes. One differentiating factor between language processing in LLMs and humans is that language input is often grounded in more than one perceptual modality, whereas most LLMs process solely text-based information. Multimodal grounding allows humans to integrate - e.g. visual context with linguistic information and thereby place constraints on the space of upcoming words, reducing cognitive load and improving perception and comprehension. Recent multimodal LLMs (mLLMs) combine visual and linguistic embedding spaces with a transformer type attention mechanism for next-word prediction. To what extent does predictive language processing based on multimodal input align in mLLMs and humans? To answer this question, 200 human participants watched short audio-visual clips and estimated the predictability of an upcoming verb or noun. The same clips were processed by the mLLM CLIP, with predictability scores based on a comparison of image and text feature vectors. Eye-tracking was used to estimate what visual features participants attended to, and CLIP's visual attention weights were recorded. We find that human estimates of predictability align significantly with CLIP scores, but not for a unimodal LLM of comparable parameter size. Further, alignment vanished when CLIP's visual attention weights were perturbed, and when the same input was fed to a multimodal model without attention. Analysing attention patterns, we find a significant spatial overlap between CLIP's visual attention weights and human eye-tracking data. Results suggest that comparable processes of integrating multimodal information, guided by attention to relevant visual features, supports predictive language processing in mLLMs and humans.
Abstract（参考訳）: 大きな言語モデル(LLM)の高度な言語処理能力は、人間のような認知過程を再現する能力についての議論を刺激している。 LLMにおける言語処理と人間との差別化要因の1つは、言語入力が複数の知覚的モダリティに基礎を置いていることである。マルチモーダルグラウンドリングは、視覚的コンテキストを言語情報と統合することで、次の単語の空間に制約を課し、認知負荷を減らし、知覚と理解を改善する。近年のマルチモーダルLLM (mLLMs) は, 視覚的および言語的埋め込み空間と, 次単語予測のための変圧器型アテンション機構を組み合わせたものである。マルチモーダル入力に基づく予測言語処理はmllmと人間にどの程度整合しているか? この質問に答えるために、200人の被験者が短い音声映像クリップを見て、次の動詞や名詞の予測可能性を推定した。同じクリップはmLLM CLIPによって処理され、画像とテキストの特徴ベクトルの比較に基づいて予測可能性スコアが得られた。視線追跡は参加者の視覚特徴を推定するために用いられ、クリップの視覚的注意重みが記録された。予測可能性の人的推定はCLIPのスコアと大きく一致しているが,パラメータサイズに匹敵するLLMには当てはまらない。さらに、CLIPの視覚的注意重みが乱れ、同じ入力が無注意でマルチモーダルモデルに供給されたとき、アライメントは消失した。注意パターンを解析したところ、CLIPの視覚的注意重みと人間の視線追跡データの間に大きな空間的重なりが認められた。結果から,マルチモーダル情報の統合プロセスは,mLLMとヒトにおける予測言語処理を支援することが示唆された。

関連論文リスト

Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文参考訳（メタデータ） (2025-06-27T18:09:49Z)
Adaptive Token Boundaries: Integrating Human Chunking Mechanisms into Multimodal LLMs [0.0]
本研究は,ヒトのクロスモーダルチャンキング機構とトークン表現手法の並列性について,系統的研究を行った。本稿では,適応的境界,階層的表現,認知科学の原理に基づくアライメント機構を取り入れた動的クロスモーダルトークン化フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-03T09:14:24Z)
Multi-Faceted Multimodal Monosemanticity [42.64636740703632]
深層マルチモーダルモデルから抽出した解釈可能なモノセマンティックな特徴を解析するために,データ駆動型アプローチを採用する。具体的には,大規模画像とテキストのペアで学習した視覚言語表現モデルであるCLIPについて検討する。本稿では,CLIPから学んだ特徴を抽出・解析する多モード解釈可能性ツールと尺度について述べる。
論文参考訳（メタデータ） (2025-02-16T14:51:07Z)
Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset [0.39462888523270856]
VAGUEは3.9Kの間接的人間発話と対応するシーンを組み合わせたマルチモーダル・ベンチマークである。我々の研究は、モデルが間接的なコミュニケーションを理解する能力について深く掘り下げ、より洗練され人間的な対話が可能なモデルの開発に貢献することを目的としています。
論文参考訳（メタデータ） (2024-11-21T14:01:42Z)
Modelling Multimodal Integration in Human Concept Processing with Vision-Language Models [7.511284868070148]
視覚言語情報の統合が、人間の脳活動とより整合した表現に繋がるかどうかを考察する。ヒト脳活性化予測におけるマルチモーダルモデルの有用性が示唆された。
論文参考訳（メタデータ） (2024-07-25T10:08:37Z)
Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。我々は、競合する言語と視覚言語モデルを総合的に評価する。文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文参考訳（メタデータ） (2024-06-21T03:53:37Z)
Are Human Conversations Special? A Large Language Model Perspective [8.623471682333964]
本研究では、人間(人間)の自然な会話を理解するために、大規模言語モデル(LLM)の注意機構の変化を分析する。その結果,言語モデルはドメイン固有の注意行動を示すが,人間の会話を専門化する能力には大きなギャップがあることが判明した。
論文参考訳（メタデータ） (2024-03-08T04:44:25Z)
MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。一方、ヒューマンToMはビデオやテキストの理解以上のものです。人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文参考訳（メタデータ） (2024-01-16T18:59:24Z)
Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか? 本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文参考訳（メタデータ） (2023-10-20T03:33:36Z)
SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-15T08:33:08Z)
TextMI: Textualize Multimodal Information for Integrating Non-verbal Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文参考訳（メタデータ） (2023-03-27T17:54:32Z)
PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文参考訳（メタデータ） (2023-03-06T18:58:06Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)
Mechanisms for Handling Nested Dependencies in Neural-Network Language Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文参考訳（メタデータ） (2020-06-19T12:00:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。