論文の概要: LaVCa: LLM-assisted Visual Cortex Captioning
- arxiv url: http://arxiv.org/abs/2502.13606v1
- Date: Wed, 19 Feb 2025 10:37:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:02:17.999244
- Title: LaVCa: LLM-assisted Visual Cortex Captioning
- Title(参考訳): LaVCa: LLM支援のビジュアル・コーテックス・キャプション
- Authors: Takuya Matsuyama, Shinji Nishimoto, Yu Takagi,
- Abstract要約: 近年のディープニューラルネットワーク (DNN) を用いた符号化モデルは, ボクセル活動の予測に成功している。
本稿では,Voxelが選択された画像のキャプションを生成するために,LLM支援型ビジュアルコーテックスキャプション(LaVCa)を提案する。
- 参考スコア(独自算出の注目度): 2.8265531928694116
- License:
- Abstract: Understanding the property of neural populations (or voxels) in the human brain can advance our comprehension of human perceptual and cognitive processing capabilities and contribute to developing brain-inspired computer models. Recent encoding models using deep neural networks (DNNs) have successfully predicted voxel-wise activity. However, interpreting the properties that explain voxel responses remains challenging because of the black-box nature of DNNs. As a solution, we propose LLM-assisted Visual Cortex Captioning (LaVCa), a data-driven approach that uses large language models (LLMs) to generate natural-language captions for images to which voxels are selective. By applying LaVCa for image-evoked brain activity, we demonstrate that LaVCa generates captions that describe voxel selectivity more accurately than the previously proposed method. Furthermore, the captions generated by LaVCa quantitatively capture more detailed properties than the existing method at both the inter-voxel and intra-voxel levels. Furthermore, a more detailed analysis of the voxel-specific properties generated by LaVCa reveals fine-grained functional differentiation within regions of interest (ROIs) in the visual cortex and voxels that simultaneously represent multiple distinct concepts. These findings offer profound insights into human visual representations by assigning detailed captions throughout the visual cortex while highlighting the potential of LLM-based methods in understanding brain representations. Please check out our webpage at https://sites.google.com/view/lavca-llm/
- Abstract(参考訳): ヒトの脳における神経集団(またはボクセル)の性質を理解することは、人間の知覚と認知の処理能力の理解を深め、脳にインスパイアされたコンピュータモデルの開発に寄与する。
近年のディープニューラルネットワーク (DNN) を用いた符号化モデルは, ボクセル活動の予測に成功している。
しかし、DNNのブラックボックスの性質のため、ボクセル応答を説明する性質の解釈は難しいままである。
そこで本研究では,LLM支援型Visual Cortex Captioning (LaVCa)を提案する。これは大規模言語モデル(LLM)を用いて,ボクセルが選択される画像の自然言語キャプションを生成するデータ駆動型アプローチである。
画像誘発脳活動にLaVCaを適用することで,従来提案した方法よりも正確なボクセル選択性を示すキャプションを生成することを示した。
さらに、LaVCaによって生成されたキャプションは、既存の方法よりも、ボクセル間およびボクセル内の両方で、より詳細な特性を定量的に取得する。
さらに、LaVCaが生成するボクセル特異的性質のより詳細な分析により、視覚野と複数の異なる概念を同時に表わすボクセルの関心領域(ROI)における微細な機能的分化が明らかになる。
これらの知見は、視覚野全体にわたって詳細なキャプションを割り当て、LLMに基づく脳表現の理解の可能性を強調し、人間の視覚表現に深い洞察を与える。
https://sites.google.com/view/lavca-llm/
関連論文リスト
- Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。
テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文 参考訳(メタデータ) (2025-02-10T03:43:55Z) - Brain Mapping with Dense Features: Grounding Cortical Semantic Selectivity in Natural Images With Vision Transformers [5.265058307999745]
本稿では,脳内視覚概念を分離するBrainSAILを紹介する。
BrainSAILは、事前訓練された視覚モデルから意味的に一貫性があり、密集した空間的特徴を利用する。
カテゴリー選択性のある大脳皮質領域におけるBrainSAILの評価を行った。
論文 参考訳(メタデータ) (2024-10-07T17:59:45Z) - MindSemantix: Deciphering Brain Visual Experiences with a Brain-Language Model [45.18716166499859]
fMRIで捉えた脳の活動を通して人間の視覚体験を解読することは、魅力的で最先端の課題である。
我々は、LLMが視覚的に誘発される脳活動のセマンティックな内容を理解することができる新しいマルチモーダルフレームワークであるMindSemantixを紹介した。
MindSemantixは、脳の活動から派生した視覚情報と意味情報に深く根ざした高品質なキャプションを生成する。
論文 参考訳(メタデータ) (2024-05-29T06:55:03Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - BrainSCUBA: Fine-Grained Natural Language Captions of Visual Cortex Selectivity [6.285481522918523]
そこで本研究では,関心のボクセルを最大に活性化する画像に対して,自然言語記述を生成するデータ駆動方式を提案する。
高次視覚領域にまたがる微細なボクセルレベルのキャプションにより,本手法の有効性を検証した。
そこで我々は,脳内の「個人」表現の分布に関する探索的研究を行った。
論文 参考訳(メタデータ) (2023-10-06T17:59:53Z) - MindGPT: Interpreting What You See with Non-invasive Brain Recordings [24.63828455553959]
我々は,fMRI信号から知覚された視覚刺激を自然言語に解釈する,MindGPTと呼ばれる非侵襲的ニューラルデコーダを導入する。
実験の結果, 生成した単語列は, 目に見える刺激で伝達される視覚情報を真に表現していることがわかった。
論文 参考訳(メタデータ) (2023-09-27T15:35:20Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - Visual representations in the human brain are aligned with large language models [7.779248296336383]
大規模言語モデル(LLM)は,脳が自然界から抽出した複雑な視覚情報をモデル化するのに有用であることを示す。
次に、画像入力をLLM表現に変換するために、ディープニューラルネットワークモデルを訓練する。
論文 参考訳(メタデータ) (2022-09-23T17:34:33Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。