Fugu-MT 論文翻訳(概要): Neuro-Vision to Language: Image Reconstruction and Interaction via Non-invasive Brain Recordings

論文の概要: Neuro-Vision to Language: Image Reconstruction and Interaction via Non-invasive Brain Recordings

arxiv url: http://arxiv.org/abs/2404.19438v1
Date: Tue, 30 Apr 2024 10:41:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-01 14:34:58.870100
Title: Neuro-Vision to Language: Image Reconstruction and Interaction via Non-invasive Brain Recordings
Title（参考訳）: 言語への神経ビジョン:非侵襲的脳記録による画像再構成と相互作用
Authors: Guobin Shen, Dongcheng Zhao, Xiang He, Linghao Feng, Yiting Dong, Jihang Wang, Qian Zhang, Yi Zeng,
Abstract要約: 非侵襲的な脳記録の復号は、人間の認知の理解を促進するために不可欠である。本研究では,視覚変換器3Dによる3次元脳構造と視覚的意味論を統合した。この抽出器は,複数レベルの視覚的特徴をひとつのネットワークに統合し,大規模言語モデルとの統合を簡略化する。
参考スコア（独自算出の注目度）: 8.63068449082585
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Decoding non-invasive brain recordings is crucial for advancing our understanding of human cognition, yet faces challenges from individual differences and complex neural signal representations. Traditional methods require custom models and extensive trials, and lack interpretability in visual reconstruction tasks. Our framework integrating integrates 3D brain structures with visual semantics by Vision Transformer 3D. The unified feature extractor aligns fMRI features with multiple levels of visual embeddings efficiently, removing the need for individual-specific models and allowing extraction from single-trial data. This extractor consolidates multi-level visual features into one network, simplifying integration with Large Language Models (LLMs). Additionally, we have enhanced the fMRI dataset with various fMRI-image related textual data to support multimodal large model development. The integration with LLMs enhances decoding capabilities, enabling tasks like brain captioning, question-answering, detailed descriptions, complex reasoning, and visual reconstruction. Our approach not only shows superior performance across these tasks but also precisely identifies and manipulates language-based concepts within brain signals, enhancing interpretability and providing deeper neural process insights. These advances significantly broaden non-invasive brain decoding applicability in neuroscience and human-computer interaction, setting the stage for advanced brain-computer interfaces and cognitive models.
Abstract（参考訳）: 非侵襲的な脳記録の復号は、人間の認知の理解を促進する上で非常に重要であるが、個人差や複雑な神経信号の表現による課題に直面している。従来の手法では、カスタムモデルと広範囲な試行が必要であり、視覚的再構成タスクでは解釈不可能である。本研究では,視覚変換器3Dによる3次元脳構造と視覚的セマンティクスを統合した。統合された特徴抽出器は、fMRI機能と複数のレベルの視覚的埋め込みを効率よく調整し、個別のモデルの必要性を排除し、単眼データからの抽出を可能にする。この抽出器は、多レベル視覚機能を一つのネットワークに統合し、Large Language Models (LLMs)との統合を簡素化する。さらに,マルチモーダル大規模モデル開発を支援するために,様々なfMRI画像関連テキストデータを用いてfMRIデータセットを拡張した。 LLMとの統合はデコード機能を強化し、ブレインキャプション、質問回答、詳細な説明、複雑な推論、視覚的再構成などのタスクを可能にする。我々のアプローチは、これらのタスクに対して優れたパフォーマンスを示すだけでなく、脳信号内の言語に基づく概念を正確に識別し、操作し、解釈可能性を高め、より深いニューラルプロセスの洞察を提供する。これらの進歩は、神経科学と人間とコンピュータの相互作用における非侵襲的な脳デコードの適用性を著しく拡大し、先進的な脳とコンピュータのインターフェースと認知モデルのためのステージを設定した。

関連論文リスト

BrainFLORA: Uncovering Brain Concept Representation via Multimodal Neural Embeddings [10.966252877363512]
我々は、相互モーダルなニューロイメージングデータを統合する統合フレームワークBrainFLORAを導入し、共有されたニューラル表現を構築する。提案手法では,マルチモーダル大規模言語モデル (MLLM) に適応型アダプタとタスクデコーダを付加し,共同オブジェクト視覚検索における最先端性能を実現する。 BrainFLORAは認知神経科学と脳-コンピュータインターフェース(BCI)に新しい意味を与える
論文参考訳（メタデータ） (2025-07-13T18:56:17Z)
Coherent Language Reconstruction from Brain Recordings with Flexible Multi-Modal Input Stimuli [5.589479682782169]
脳の活動から思考を復号することは、人間の認知に関する貴重な洞察を与え、脳とコンピュータの相互作用において有望な応用を可能にする。本稿では,多様な入力モダリティによって引き起こされた脳記録からコヒーレント言語を再構築するための統一的で柔軟なフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-15T14:46:45Z)
Towards Neural Foundation Models for Vision: Aligning EEG, MEG, and fMRI Representations for Decoding, Encoding, and Modality Conversion [0.11249583407496218]
本稿では, コントラスト学習を活用することで, 脳活動のマルチモーダル表現に対して, 神経データと視覚刺激を協調させる基礎モデルを構築するための新しいアプローチを提案する。脳波(EEG)、脳磁図(MEG)、fMRIデータを用いた。われわれのフレームワークの能力は、ニューラルデータから視覚情報をデコードし、画像をニューラル表現にエンコードし、ニューラルモダリティ間の変換という3つの重要な実験によって実証される。
論文参考訳（メタデータ） (2024-11-14T12:27:27Z)
Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文参考訳（メタデータ） (2024-11-11T16:51:17Z)
MindSemantix: Deciphering Brain Visual Experiences with a Brain-Language Model [45.18716166499859]
fMRIで捉えた脳の活動を通して人間の視覚体験を解読することは、魅力的で最先端の課題である。我々は、LLMが視覚的に誘発される脳活動のセマンティックな内容を理解することができる新しいマルチモーダルフレームワークであるMindSemantixを紹介した。 MindSemantixは、脳の活動から派生した視覚情報と意味情報に深く根ざした高品質なキャプションを生成する。
論文参考訳（メタデータ） (2024-05-29T06:55:03Z)
MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文参考訳（メタデータ） (2024-05-28T00:36:25Z)
Brain3D: Generating 3D Objects from fMRI [76.41771117405973]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文参考訳（メタデータ） (2024-05-24T06:06:11Z)
MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文参考訳（メタデータ） (2024-04-11T15:46:42Z)
fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文参考訳（メタデータ） (2023-11-01T07:24:22Z)
Brain Captioning: Decoding human brain activity into images and text [1.5486926490986461]
本稿では,脳活動を意味のある画像やキャプションにデコードする革新的な手法を提案する。提案手法は,最先端画像キャプションモデルを活用し,ユニークな画像再構成パイプラインを組み込んだものである。生成したキャプションと画像の両方の定量的指標を用いて,本手法の評価を行った。
論文参考訳（メタデータ） (2023-05-19T09:57:19Z)
Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文参考訳（メタデータ） (2023-03-26T14:14:58Z)
BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。脳の活動、画像、およびテキストの間のモダリティギャップを埋める。 BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文参考訳（メタデータ） (2023-02-25T03:28:54Z)
Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features [9.783560855840602]
本稿では,脳-視覚-言語的特徴の多モーダル学習を用いたBraVLと呼ばれる汎用的ニューラルデコーディング手法を提案する。マルチモーダル深部生成モデルを用いて,脳,視覚,言語的特徴の関係をモデル化することに注力する。特に、BraVLモデルは、様々な半教師付きシナリオの下でトレーニングでき、余分なカテゴリから得られる視覚的特徴とテキスト的特徴を組み込むことができる。
論文参考訳（メタデータ） (2022-10-13T05:49:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。