Fugu-MT 論文翻訳(概要): Visual representations in the human brain are aligned with large language models

論文の概要: Visual representations in the human brain are aligned with large language models

arxiv url: http://arxiv.org/abs/2209.11737v2
Date: Sat, 6 Jul 2024 05:26:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 05:52:24.733720
Title: Visual representations in the human brain are aligned with large language models
Title（参考訳）: ヒト脳における視覚表現は大きな言語モデルと一致している
Authors: Adrien Doerig, Tim C Kietzmann, Emily Allen, Yihan Wu, Thomas Naselaris, Kendrick Kay, Ian Charest,
Abstract要約: 大規模言語モデル(LLM)は,脳が自然界から抽出した複雑な視覚情報をモデル化するのに有用であることを示す。次に、画像入力をLLM表現に変換するために、ディープニューラルネットワークモデルを訓練する。
参考スコア（独自算出の注目度）: 7.779248296336383
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The human brain extracts complex information from visual inputs, including objects, their spatial and semantic interrelations, and their interactions with the environment. However, a quantitative approach for studying this information remains elusive. Here, we test whether the contextual information encoded in large language models (LLMs) is beneficial for modelling the complex visual information extracted by the brain from natural scenes. We show that LLM embeddings of scene captions successfully characterise brain activity evoked by viewing the natural scenes. This mapping captures selectivities of different brain areas, and is sufficiently robust that accurate scene captions can be reconstructed from brain activity. Using carefully controlled model comparisons, we then proceed to show that the accuracy with which LLM representations match brain representations derives from the ability of LLMs to integrate complex information contained in scene captions beyond that conveyed by individual words. Finally, we train deep neural network models to transform image inputs into LLM representations. Remarkably, these networks learn representations that are better aligned with brain representations than a large number of state-of-the-art alternative models, despite being trained on orders-of-magnitude less data. Overall, our results suggest that LLM embeddings of scene captions provide a representational format that accounts for complex information extracted by the brain from visual inputs.
Abstract（参考訳）: 人間の脳は、オブジェクト、空間的および意味的相互関係、環境との相互作用を含む視覚的な入力から複雑な情報を抽出する。しかし、この情報を研究するための定量的アプローチはいまだ解明されていない。本稿では,大規模言語モデル (LLM) で符号化された文脈情報が,脳が自然界から抽出した複雑な視覚情報をモデル化する上で有用かどうかを検証する。シーンキャプションのLLM埋め込みは、自然のシーンを見ることによって誘発される脳活動の特徴づけに成功していることを示す。このマッピングは、異なる脳領域の選択性を捉え、脳の活動から正確なシーンキャプションを再構築できるほど十分に堅牢である。次に,LLM表現が脳表現と一致する精度は,LLMが個々の単語によって伝達されるシーンキャプションに含まれる複雑な情報を統合する能力から導かれることを示す。最後に、画像入力をLLM表現に変換するために、ディープニューラルネットワークモデルを訓練する。注目すべきは、これらのネットワークは、大量の最先端の代替モデルよりも、脳表現に整合した表現を学習する。以上の結果から,シーンキャプションのLLM埋め込みは,視覚入力から脳から抽出された複雑な情報を考慮した表現形式を提供する可能性が示唆された。

関連論文リスト

Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain) [22.244699182222824]
トランスフォーマーベースの言語モデルは、明らかに脳の録音を模倣するために訓練されていないが、脳の活動と驚くほど一致していることが示されている。近年,オープンエンド型マルチモーダルビジョンタスクにおけるゼロショット機能を示す,命令調整型マルチモーダルLLMの新たなクラスが出現している。 MLLMが自然の指示で誘導されると、脳のアライメントが向上し、命令固有の表現を効果的に捉えることができるかを検討する。
論文参考訳（メタデータ） (2025-05-26T14:18:15Z)
SMILE: Infusing Spatial and Motion Semantics in Masked Video Learning [50.98341607245458]
Masked Video Modelingはビデオ自己教師型学習(SSL)に有効なパラダイムである本稿では,空間的意味論と動き的意味論を融合させることにより,SMILEと呼ばれるビデオ表現学習のための新しいSSL手法を提案する。我々は、自然な映像データを必要とせず、強力な映像表現を学習できる、新しい自己教師型ビデオ学習パラダイムを確立した。
論文参考訳（メタデータ） (2025-04-01T08:20:55Z)
LaVCa: LLM-assisted Visual Cortex Captioning [2.8265531928694116]
近年のディープニューラルネットワーク (DNN) を用いた符号化モデルは, ボクセル活動の予測に成功している。本稿では,Voxelが選択された画像のキャプションを生成するために,LLM支援型ビジュアルコーテックスキャプション(LaVCa)を提案する。
論文参考訳（メタデータ） (2025-02-19T10:37:04Z)
LLM4Brain: Training a Large Language Model for Brain Video Understanding [9.294352205183726]
映像刺激によって引き起こされるfMRI信号から視覚的意味情報を再構成するためのLCMに基づく手法を提案する。我々は、適応器を備えたfMRIエンコーダに微調整技術を用いて、脳の反応を映像刺激に合わせた潜在表現に変換する。特に,視覚的セマンティック情報と脳反応のアライメントを高めるために,自己教師付きドメイン適応手法を統合する。
論文参考訳（メタデータ） (2024-09-26T15:57:08Z)
Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance [3.74142789780782]
現代のLCDは、構造的かつ意味論的に妥当な画像生成のためのマルチモーダルガイダンスをいかに取り入れているかを示す。 Brain-StreamsはfMRI信号を脳の領域から適切な埋め込みにマッピングする。我々は,実fMRIデータセットを用いて,Brain-Streamsの定量的および定性的に再構成能力を検証する。
論文参考訳（メタデータ） (2024-09-18T16:19:57Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。 ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文参考訳（メタデータ） (2024-06-17T08:39:16Z)
MindSemantix: Deciphering Brain Visual Experiences with a Brain-Language Model [45.18716166499859]
fMRIで捉えた脳の活動を通して人間の視覚体験を解読することは、魅力的で最先端の課題である。我々は、LLMが視覚的に誘発される脳活動のセマンティックな内容を理解することができる新しいマルチモーダルフレームワークであるMindSemantixを紹介した。 MindSemantixは、脳の活動から派生した視覚情報と意味情報に深く根ざした高品質なキャプションを生成する。
論文参考訳（メタデータ） (2024-05-29T06:55:03Z)
Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文参考訳（メタデータ） (2024-04-30T10:41:23Z)
Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。 LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文参考訳（メタデータ） (2024-04-23T16:59:02Z)
Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding [0.0]
MinD-Vis:Double-Conditioned Latent Diffusion Model for Human Vision Decodingを提案する。我々はMinD-Visが、非常に少ないペアアノテーションを用いて、脳の記録から意味的に一致する詳細を再現できることを示す。
論文参考訳（メタデータ） (2022-11-13T17:04:05Z)
Low-Dimensional Structure in the Space of Language Representations is Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文参考訳（メタデータ） (2021-06-09T22:59:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。