Fugu-MT 論文翻訳(概要): Mind-to-Image: Projecting Visual Mental Imagination of the Brain from fMRI

論文の概要: Mind-to-Image: Projecting Visual Mental Imagination of the Brain from fMRI

arxiv url: http://arxiv.org/abs/2404.05468v4
Date: Sat, 4 May 2024 22:46:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 22:56:46.075282
Title: Mind-to-Image: Projecting Visual Mental Imagination of the Brain from fMRI
Title（参考訳）: Mind-to- Image: Projecting Visual Mental Imagination of the Brain from fMRI
Authors: Hugo Caselles-Dupré, Charles Mellerio, Paul Hérent, Alizée Lopez-Persem, Benoit Béranger, Mathieu Soularue, Pierre Fautrel, Gauthier Vernier, Matthieu Cord,
Abstract要約: 視覚的想像力の再構築は、潜在的に革命的なアプリケーションにおいて、より大きな課題をもたらす。私たちは初めて、視覚画像に関するかなりのデータセット(約6hのスキャン)をコンパイルしました。我々は、fMRI-to-imageモデルの修正版を訓練し、2つのイマジネーションのモードから画像の再構成が可能であることを実証する。
参考スコア（独自算出の注目度）: 36.181302575642306
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The reconstruction of images observed by subjects from fMRI data collected during visual stimuli has made strong progress in the past decade, thanks to the availability of extensive fMRI datasets and advancements in generative models for image generation. However, the application of visual reconstruction has remained limited. Reconstructing visual imagination presents a greater challenge, with potentially revolutionary applications ranging from aiding individuals with disabilities to verifying witness accounts in court. The primary hurdles in this field are the absence of data collection protocols for visual imagery and the lack of datasets on the subject. Traditionally, fMRI-to-image relies on data collected from subjects exposed to visual stimuli, which poses issues for generating visual imagery based on the difference of brain activity between visual stimulation and visual imagery. For the first time, we have compiled a substantial dataset (around 6h of scans) on visual imagery along with a proposed data collection protocol. We then train a modified version of an fMRI-to-image model and demonstrate the feasibility of reconstructing images from two modes of imagination: from memory and from pure imagination. The resulting pipeline we call Mind-to-Image marks a step towards creating a technology that allow direct reconstruction of visual imagery.
Abstract（参考訳）: 視覚刺激によって収集されたfMRIデータから被験者が観察した画像の再構成は、広範囲なfMRIデータセットが利用可能となり、画像生成のための生成モデルの進歩により、過去10年間に大きく進歩してきた。しかし、視覚再建の応用はいまだに限られている。視覚的想像力の再構築は、障害を持つ個人を支援することから、法廷での証人口座の検証まで、潜在的に革命的な応用によって大きな課題を呈する。この分野での主なハードルは、視覚画像のためのデータ収集プロトコルの欠如と、対象とするデータセットの欠如である。伝統的に、fMRI-to-imageは、視覚刺激にさらされた被験者から収集されたデータに依存しており、視覚刺激と視覚刺激の脳活動の違いに基づいて視覚画像を生成する問題を引き起こす。提案したデータ収集プロトコルとともに、視覚画像に関するかなりのデータセット(約6hのスキャン)を初めてコンパイルした。次に、fMRI-to-imageモデルの修正版をトレーニングし、メモリと純粋なイマジネーションの2つのモードからイメージを再構築する可能性を示す。私たちがMind-to-Imageと呼ぶパイプラインは、視覚的なイメージを直接再構築できる技術を作るための一歩です。

関連論文リスト

SAVER: Mitigating Hallucinations in Large Vision-Language Models via Style-Aware Visual Early Revision [59.61988843996952]
Style-Aware Visual Early Revision SAVERはトークンレベルの視覚的注意パターンに基づいてLVLMの最終出力を動的に調整する新しいメカニズムである。我々は,SAVERが様々なモデル,データセット,タスクの幻覚緩和において,最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2025-08-05T07:41:25Z)
Visual Image Reconstruction from Brain Activity via Latent Representation [0.0]
レビューでは、フィールドの進化は初期の分類のアプローチから洗練された再構築まで遡る。多様なデータセットの必要性と、人間の知覚的判断に合わせた洗練された評価指標について論じる。視覚画像再構成は、ニューラルコーディングに関する有望な洞察を提供し、視覚経験の新たな心理的測定を可能にする。
論文参考訳（メタデータ） (2025-05-13T10:46:52Z)
Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-29T23:56:01Z)
Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance [3.74142789780782]
現代のLCDは、構造的かつ意味論的に妥当な画像生成のためのマルチモーダルガイダンスをいかに取り入れているかを示す。 Brain-StreamsはfMRI信号を脳の領域から適切な埋め込みにマッピングする。我々は,実fMRIデータセットを用いて,Brain-Streamsの定量的および定性的に再構成能力を検証する。
論文参考訳（メタデータ） (2024-09-18T16:19:57Z)
Brain3D: Generating 3D Objects from fMRI [76.41771117405973]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文参考訳（メタデータ） (2024-05-24T06:06:11Z)
Decoding Realistic Images from Brain Activity with Contrastive Self-supervision and Latent Diffusion [29.335943994256052]
ヒトの脳活動から視覚刺激を再構築することは、脳の視覚系を理解する上で有望な機会となる。機能的磁気共鳴イメージング(fMRI)記録から現実的な画像をデコードする2相フレームワークContrast and Diffuse(CnD)を提案する。
論文参考訳（メタデータ） (2023-09-30T09:15:22Z)
Seeing through the Brain: Image Reconstruction of Visual Perception from Human Brain Signals [27.92796103924193]
脳波信号から視覚刺激像を再構成するための包括的パイプラインNeuroImagenを提案する。我々は、与えられた脳波データから複数の粒度の出力を引き出すために、新しいマルチレベル知覚情報デコーディングを組み込んだ。
論文参考訳（メタデータ） (2023-07-27T12:54:16Z)
Brain Captioning: Decoding human brain activity into images and text [1.5486926490986461]
本稿では,脳活動を意味のある画像やキャプションにデコードする革新的な手法を提案する。提案手法は,最先端画像キャプションモデルを活用し,ユニークな画像再構成パイプラインを組み込んだものである。生成したキャプションと画像の両方の定量的指標を用いて,本手法の評価を行った。
論文参考訳（メタデータ） (2023-05-19T09:57:19Z)
Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。 CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文参考訳（メタデータ） (2023-05-17T11:36:40Z)
Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文参考訳（メタデータ） (2023-03-26T14:14:58Z)
BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。脳の活動、画像、およびテキストの間のモダリティギャップを埋める。 BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文参考訳（メタデータ） (2023-02-25T03:28:54Z)
Mind Reader: Reconstructing complex images from brain activities [16.78619734818198]
我々はfMRI(機能的磁気共鳴画像)信号から複雑な画像刺激を再構成することに集中する。単一の物体や単純な形状で画像を再構成する従来の研究とは異なり、本研究は意味論に富んだイメージ刺激を再構成することを目的としている。脳の信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
論文参考訳（メタデータ） (2022-09-30T06:32:46Z)
Adapting Brain-Like Neural Networks for Modeling Cortical Visual Prostheses [68.96380145211093]
皮質補綴は視覚野に移植された装置で、電気的にニューロンを刺激することで失った視力を回復しようとする。現在、これらのデバイスが提供する視覚は限られており、刺激による視覚知覚を正確に予測することはオープンな課題である。我々は、視覚システムの有望なモデルとして登場した「脳様」畳み込みニューラルネットワーク(CNN)を活用することで、この問題に対処することを提案する。
論文参考訳（メタデータ） (2022-09-27T17:33:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。