Fugu-MT 論文翻訳(概要): DREAM: Visual Decoding from Reversing Human Visual System

論文の概要: DREAM: Visual Decoding from Reversing Human Visual System

arxiv url: http://arxiv.org/abs/2310.02265v2
Date: Wed, 10 Apr 2024 12:54:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-11 19:25:41.104660
Title: DREAM: Visual Decoding from Reversing Human Visual System
Title（参考訳）: DREAM:人間の視覚系を逆転させる視覚デコード
Authors: Weihao Xia, Raoul de Charette, Cengiz Öztireli, Jing-Hao Xue,
Abstract要約: 脳活動から視像を再構成するためのfMRI-to-image法であるDREAMを提案する。私たちは、人間が視覚世界をどのように知覚するかという階層的および並列的な性質を模倣する逆経路を構築します。
参考スコア（独自算出の注目度）: 43.6339793925953
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work we present DREAM, an fMRI-to-image method for reconstructing viewed images from brain activities, grounded on fundamental knowledge of the human visual system. We craft reverse pathways that emulate the hierarchical and parallel nature of how humans perceive the visual world. These tailored pathways are specialized to decipher semantics, color, and depth cues from fMRI data, mirroring the forward pathways from visual stimuli to fMRI recordings. To do so, two components mimic the inverse processes within the human visual system: the Reverse Visual Association Cortex (R-VAC) which reverses pathways of this brain region, extracting semantics from fMRI data; the Reverse Parallel PKM (R-PKM) component simultaneously predicting color and depth from fMRI signals. The experiments indicate that our method outperforms the current state-of-the-art models in terms of the consistency of appearance, structure, and semantics. Code will be made publicly available to facilitate further research in this field.
Abstract（参考訳）: 本研究では,脳活動から視像を再構成するfMRI-to-image法であるDREAMについて述べる。私たちは、人間が視覚世界をどのように知覚するかという階層的および並列的な性質を模倣する逆経路を構築します。これらの調整された経路は、fMRIデータから意味、色、深さの手がかりを解読し、視覚刺激からfMRI記録への前方経路を反映する。 2つのコンポーネントは、人間の視覚系内の逆過程を模倣する: この脳領域の経路を逆転させ、fMRIデータから意味を抽出するReverse Visual Association Cortex(R-VAC)、fMRI信号から色と深さを同時に予測するReverse Parallel PKM(R-PKM)である。提案手法は, 外観, 構造, 意味の整合性の観点から, 現在の最先端モデルよりも優れていることを示す。この分野でのさらなる研究を促進するために、コードは公開されます。

関連論文リスト

Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance [3.74142789780782]
現代のLCDは、構造的かつ意味論的に妥当な画像生成のためのマルチモーダルガイダンスをいかに取り入れているかを示す。 Brain-StreamsはfMRI信号を脳の領域から適切な埋め込みにマッピングする。我々は,実fMRIデータセットを用いて,Brain-Streamsの定量的および定性的に再構成能力を検証する。
論文参考訳（メタデータ） (2024-09-18T16:19:57Z)
MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文参考訳（メタデータ） (2024-05-28T00:36:25Z)
BIMM: Brain Inspired Masked Modeling for Video Representation Learning [47.56270575865621]
本稿では、ビデオから包括的な表現を学習することを目的とした、Brain Inspired Masked Modeling (BIMM)フレームワークを提案する。具体的には腹側枝と背側枝からなり,それぞれ画像と映像の表現を学習する。脳内の異なる視覚皮質の目標を達成するために、各枝のエンコーダを3つの中間ブロックに分割し、軽量デコーダを用いて進行予測ターゲットを再構築する。
論文参考訳（メタデータ） (2024-05-21T13:09:04Z)
Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。 RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文参考訳（メタデータ） (2024-05-17T07:48:27Z)
Decoding Realistic Images from Brain Activity with Contrastive Self-supervision and Latent Diffusion [29.335943994256052]
ヒトの脳活動から視覚刺激を再構築することは、脳の視覚系を理解する上で有望な機会となる。機能的磁気共鳴イメージング(fMRI)記録から現実的な画像をデコードする2相フレームワークContrast and Diffuse(CnD)を提案する。
論文参考訳（メタデータ） (2023-09-30T09:15:22Z)
DreamCatcher: Revealing the Language of the Brain with fMRI using GPT Embedding [6.497816402045099]
本稿では、fMRIデータに基づいてキャプションを生成し、視覚知覚の洞察を得るfMRIキャプションを提案する。 DreamCatcherはRepresentation Space(RSE)とRevEmbedding Decoderで構成される。 fMRIベースのキャプションには、神経メカニズムの理解、ヒューマン・コンピュータインタラクション、学習とトレーニングプロセスの強化など、さまざまな応用がある。
論文参考訳（メタデータ） (2023-06-16T07:55:20Z)
Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。 CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文参考訳（メタデータ） (2023-05-17T11:36:40Z)
Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文参考訳（メタデータ） (2023-03-26T14:14:58Z)
BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。脳の活動、画像、およびテキストの間のモダリティギャップを埋める。 BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文参考訳（メタデータ） (2023-02-25T03:28:54Z)
Semantic Brain Decoding: from fMRI to conceptually similar image reconstruction of visual stimuli [0.29005223064604074]
本稿では,意味的・文脈的類似性にも依存する脳復号法を提案する。我々は、自然視のfMRIデータセットを使用し、人間の視覚におけるボトムアップとトップダウンの両方のプロセスの存在にインスパイアされたディープラーニングデコードパイプラインを作成します。視覚刺激の再現は, それまでの文献において, 本来の内容とセマンティックレベルで非常によく一致し, 芸術の状態を超越している。
論文参考訳（メタデータ） (2022-12-13T16:54:08Z)
Reconstructing Perceptive Images from Brain Activity by Shape-Semantic GAN [16.169414324390218]
fMRI記録からの画像の再構成は神経科学の吸収研究領域である。脳内の視覚的エンコーディングは非常に複雑で、完全には明らかになっていない。視覚的特徴が大脳皮質で階層的に表現されるという理論に着想を得て,複雑な視覚信号を多段階成分に分解することを提案する。
論文参考訳（メタデータ） (2021-01-28T16:04:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。