論文の概要: MindTuner: Cross-Subject Visual Decoding with Visual Fingerprint and Semantic Correction
- arxiv url: http://arxiv.org/abs/2404.12630v1
- Date: Fri, 19 Apr 2024 05:12:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:15:12.856107
- Title: MindTuner: Cross-Subject Visual Decoding with Visual Fingerprint and Semantic Correction
- Title(参考訳): MindTuner: ビジュアルフィンガープリントとセマンティック補正によるビジュアルデコーディング
- Authors: Zixuan Gong, Qi Zhang, Guangyin Bao, Lei Zhu, Ke Liu, Liang Hu, Duoqian Miao,
- Abstract要約: クロスオブジェクトタスクにおける高品質な画像の再構成は、被験者間の個人差が深いため、難しい問題である。
MindTunerは1時間分のfMRIトレーニングデータを使用して高品質で豊かなセマンティックな再構築を実現する。
- 参考スコア(独自算出の注目度): 21.531569319105877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decoding natural visual scenes from brain activity has flourished, with extensive research in single-subject tasks and, however, less in cross-subject tasks. Reconstructing high-quality images in cross-subject tasks is a challenging problem due to profound individual differences between subjects and the scarcity of data annotation. In this work, we proposed MindTuner for cross-subject visual decoding, which achieves high-quality and rich-semantic reconstructions using only 1 hour of fMRI training data benefiting from the phenomena of visual fingerprint in the human visual system and a novel fMRI-to-text alignment paradigm. Firstly, we pre-train a multi-subject model among 7 subjects and fine-tune it with scarce data on new subjects, where LoRAs with Skip-LoRAs are utilized to learn the visual fingerprint. Then, we take the image modality as the intermediate pivot modality to achieve fMRI-to-text alignment, which achieves impressive fMRI-to-text retrieval performance and corrects fMRI-to-image reconstruction with fine-tuned semantics. The results of both qualitative and quantitative analyses demonstrate that MindTuner surpasses state-of-the-art cross-subject visual decoding models on the Natural Scenes Dataset (NSD), whether using training data of 1 hour or 40 hours.
- Abstract(参考訳): 脳活動から自然の視覚シーンを復号する研究は盛んであり、単目的タスクでは広範な研究がなされているが、多目的タスクでは少ない。
クロスオブジェクトタスクにおける高品質な画像の再構成は、被写体間の深い個人差とデータアノテーションの不足により難しい問題である。
本研究では、人間の視覚系における視覚指紋の現象と新しいfMRI-to-textアライメントパラダイムを活かした1時間分のfMRIトレーニングデータを用いて、高品質で豊かな意味的再構成を実現するクロスオブジェクトビジュアルデコーディングのためのMindTunerを提案する。
まず,7人の被験者を対象に,複数対象モデルを事前学習し,新しい被験者のデータを少ない精度で抽出し,視覚指紋の学習にLoRAを用いた。
そして、画像のモダリティを中間的なピボットのモダリティとして、fMRI-to-textアライメントを実現し、印象的なfMRI-to-text検索性能を実現し、微調整のセマンティクスでfMRI-to-image再構成を補正する。
定性的かつ定量的な分析の結果、MindTunerは1時間または40時間のトレーニングデータを使用しても、Natural Scenes Dataset(NSD)の最先端のクロスオブジェクト視覚デコーディングモデルを超えていることが示された。
関連論文リスト
- Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Mind-to-Image: Projecting Visual Mental Imagination of the Brain from fMRI [36.181302575642306]
視覚的想像力の再構築は、潜在的に革命的なアプリケーションにおいて、より大きな課題をもたらす。
私たちは初めて、視覚画像に関するかなりのデータセット(約6hのスキャン)をコンパイルしました。
我々は、fMRI-to-imageモデルの修正版を訓練し、2つのイマジネーションのモードから画像の再構成が可能であることを実証する。
論文 参考訳(メタデータ) (2024-04-08T12:46:39Z) - See Through Their Minds: Learning Transferable Neural Representation from Cross-Subject fMRI [32.40827290083577]
機能的磁気共鳴イメージング(fMRI)からの視覚内容の解読は、人間の視覚系を照らすのに役立つ。
従来のアプローチは主に、トレーニングサンプルサイズに敏感な、主題固有のモデルを採用していた。
本稿では,fMRIデータを統合表現にマッピングするための,サブジェクト固有の浅層アダプタを提案する。
トレーニング中,マルチモーダル脳復号における視覚的・テキスト的監督の両面を活用する。
論文 参考訳(メタデータ) (2024-03-11T01:18:49Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [7.597218661195779]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みが安定拡散される。
ステージ2では、fMRIからデコードされたCLIP視覚特徴を監視情報として利用し、バックパゲーションによりステージ1でデコードされた2つの特徴ベクトルを継続的に調整し、構造情報を整列させる。
論文 参考訳(メタデータ) (2023-08-08T13:28:34Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Neural encoding and interpretation for high-level visual cortices based
on fMRI using image caption features [14.038605815510145]
本研究では、画像キャプション(IC)タスクと、高レベルの視覚皮質のボクセルを符号化するためのIC特徴に基づく視覚符号化モデルを提案する。
論文 参考訳(メタデータ) (2020-03-26T08:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。