Fugu-MT 論文翻訳(概要): BrainVis: Exploring the Bridge between Brain and Visual Signals via Image Reconstruction

論文の概要: BrainVis: Exploring the Bridge between Brain and Visual Signals via Image Reconstruction

arxiv url: http://arxiv.org/abs/2312.14871v1
Date: Fri, 22 Dec 2023 17:49:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-25 14:04:14.792276
Title: BrainVis: Exploring the Bridge between Brain and Visual Signals via Image Reconstruction
Title（参考訳）: brainvis:画像再構成による脳と視覚信号の橋渡しを探索する
Authors: Honghao Fu, Zhiqi Shen, Jing Jih Chin, Hao Wang
Abstract要約: 脳波信号から視覚刺激を再構成するための新しい手法を提案する。脳波信号に自己監督的アプローチを適用して脳波の時間領域特性を求める。また,脳波の時間周波数埋め込みをCLIP空間の粗くきめ細かなセマンティクスと整合させる。提案したBrainVisは,意味的忠実度復元と生成品質の両面で,芸術の状態を上回ります。
参考スコア（独自算出の注目度）: 8.206564266319388
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Analyzing and reconstructing visual stimuli from brain signals effectively advances understanding of the human visual system. However, the EEG signals are complex and contain a amount of noise. This leads to substantial limitations in existing works of visual stimuli reconstruction from EEG, such as difficulties in aligning EEG embeddings with the fine-grained semantic information and a heavy reliance on additional large self-collected dataset for training. To address these challenges, we propose a novel approach called BrainVis. Firstly, we divide the EEG signals into various units and apply a self-supervised approach on them to obtain EEG time-domain features, in an attempt to ease the training difficulty. Additionally, we also propose to utilize the frequency-domain features to enhance the EEG representations. Then, we simultaneously align EEG time-frequency embeddings with the interpolation of the coarse and fine-grained semantics in the CLIP space, to highlight the primary visual components and reduce the cross-modal alignment difficulty. Finally, we adopt the cascaded diffusion models to reconstruct images. Our proposed BrainVis outperforms state of the arts in both semantic fidelity reconstruction and generation quality. Notably, we reduce the training data scale to 10% of the previous work.
Abstract（参考訳）: 脳信号からの視覚刺激の分析と再構成は、人間の視覚系の理解を効果的に進める。しかし、脳波信号は複雑であり、大量のノイズを含んでいる。これは、脳波埋め込みを細かな意味情報と整合させることの難しさや、トレーニングのために追加の大規模な自己収集データセットに依存することなど、脳波からの視覚刺激再構成の既存の作業に実質的な制限をもたらす。これらの課題に対処するために、BrainVisと呼ばれる新しいアプローチを提案する。まず,脳波信号を様々な単位に分割し,学習難易度を高めるため,脳波の時間領域特性を自己監督的に取得する手法を提案する。さらに,脳波の表現性を高めるために周波数領域機能を利用することも提案する。次に,脳波の時間-周波数埋め込みとCLIP空間の粗いセマンティクスと微粒なセマンティクスの補間を同時に調整し,一次視覚成分の強調と相互アライメントの困難さを低減する。最後に,カスケード拡散モデルを用いて画像の再構成を行う。提案したBrainVisは,意味的忠実度復元と生成品質の両面で,芸術の状態を上回ります。特に、トレーニングデータスケールを以前の作業の10%に削減しました。

関連論文リスト

Interpretable EEG-to-Image Generation with Semantic Prompts [6.712646807032639]
本モデルでは,脳波信号とセマンティックキャプションをアライメントすることで,直接脳波画像生成をバイパスする。トランスフォーマーベースの脳波エンコーダは、対照的な学習を通じて脳活動をこれらのキャプションにマッピングする。このテキストによるフレームワークは、EEGCVPRデータセット上で最先端のビジュアルデコーディングをもたらす。
論文参考訳（メタデータ） (2025-07-09T17:18:06Z)
CSBrain: A Cross-scale Spatiotemporal Brain Foundation Model for EEG Decoding [57.90382885533593]
脳波信号の一般化のためのクロススケール時空間脳基盤モデルを提案する。 CSBrainはタスク固有のベースラインと基盤モデルのベースラインを一貫して上回ります。これらの結果は、CSBrainを将来の脳-AI研究の強力なバックボーンとして、重要な帰納バイアスとして、クロススケールモデリングを確立している。
論文参考訳（メタデータ） (2025-06-29T03:29:34Z)
BrainOmni: A Brain Foundation Model for Unified EEG and MEG Signals [50.76802709706976]
異種脳波とMEG記録を対象とする脳基礎モデルBrain Omniを提案する。多様なデータソースを統一するために、脳の活動を離散表現に定量化する最初のトークンであるBrainTokenizerを紹介します。 EEGの合計1,997時間、MEGデータの656時間は、事前トレーニングのために公開されているソースからキュレーションされ、標準化されている。
論文参考訳（メタデータ） (2025-05-18T14:07:14Z)
ViEEG: Hierarchical Neural Coding with Cross-Modal Progressive Enhancement for EEG-Based Visual Decoding [14.18190036916225]
ViEEGは生物学的にインスパイアされた階層型EEGデコーディングフレームワークで、視覚処理のHubel-Wiesel理論と一致する。従来の手法を45%以上上回り,40.9%が被写体依存のTop-1精度,22.9%がクロスオブジェクト設定のTop-1精度を実現している。
論文参考訳（メタデータ） (2025-05-18T13:19:08Z)
EAGLE: Enhanced Visual Grounding Minimizes Hallucinations in Instructional Multimodal Models [54.234657224615354]
大規模な言語モデルと視覚変換器は、ダウンストリームタスクにおいて大きな転送可能性を実現する、印象的なゼロショット機能を示している。膨大な画像と言語の事前学習を取り入れているにもかかわらず、これらのマルチモーダルアーキテクチャは、画像データの基底真理から逸脱する応答をしばしば生成する。幻覚を緩和する現在の方法は、一般的に言語コンポーネントの正規化、融合モジュールの改善、視覚表現を改善するために複数の視覚エンコーダのアンサンブルに焦点を当てている。従来のコントラスト付き事前学習タスクを手軽に書き換えることで,教育用マルチモーダルアーキテクチャに組み込まれたビジュアルエンコーダが,追加の指導訓練を行なわずに実現可能であることを示す。
論文参考訳（メタデータ） (2025-01-06T00:39:31Z)
CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文参考訳（メタデータ） (2024-12-13T16:27:54Z)
Knowledge-Guided Prompt Learning for Lifespan Brain MR Image Segmentation [53.70131202548981]
本稿では,脳MRIにKGPL(Knowledge-Guided Prompt Learning)を用いた2段階のセグメンテーションフレームワークを提案する。具体的には,大規模データセットと準最適ラベルを用いたトレーニング前セグメンテーションモデルについて述べる。知識的プロンプトの導入は、解剖学的多様性と生物学的プロセスの間の意味的関係を捉えている。
論文参考訳（メタデータ） (2024-07-31T04:32:43Z)
Mind's Eye: Image Recognition by EEG via Multimodal Similarity-Keeping Contrastive Learning [2.087148326341881]
本稿では,ゼロショット脳波画像分類のためのMUltimodal similarity-keeper contrastivE学習フレームワークを提案する。我々は、脳波信号に適した多変量時系列エンコーダを開発し、正規化コントラスト脳波画像事前学習の有効性を評価する。本手法は,200方向ゼロショット画像分類において,トップ1の精度が19.3%,トップ5の精度が48.8%の最先端性能を実現する。
論文参考訳（メタデータ） (2024-06-05T16:42:23Z)
Reconstructing Visual Stimulus Images from EEG Signals Based on Deep Visual Representation Model [5.483279087074447]
本稿では,脳波信号に基づく新しい画像再構成手法を提案する。高速スイッチング方式で視覚刺激画像の高認識性を実現するため,視覚刺激画像データセットを構築した。主エンコーダと従属デコーダからなる深部視覚表現モデル(DVRM)を提案し,視覚刺激を再構成する。
論文参考訳（メタデータ） (2024-03-11T09:19:09Z)
Learning Robust Deep Visual Representations from EEG Brain Recordings [13.768240137063428]
本研究は,脳波に基づく深部表現の頑健な学習を行うための2段階の手法を提案する。ディープラーニングアーキテクチャを用いて,3つのデータセットにまたがる特徴抽出パイプラインの一般化性を実証する。本稿では,未知の画像を脳波空間に変換し,近似を用いて再構成する新しい枠組みを提案する。
論文参考訳（メタデータ） (2023-10-25T10:26:07Z)
A Knowledge-Driven Cross-view Contrastive Learning for EEG Representation [48.85731427874065]
本稿では,限られたラベルを持つ脳波から効果的な表現を抽出する知識駆動型クロスビューコントラスト学習フレームワーク(KDC2)を提案する。 KDC2法は脳波信号の頭皮と神経のビューを生成し、脳活動の内部および外部の表現をシミュレートする。ニューラル情報整合性理論に基づく事前のニューラル知識をモデル化することにより、提案手法は不変かつ相補的なニューラル知識を抽出し、複合表現を生成する。
論文参考訳（メタデータ） (2023-09-21T08:53:51Z)
Disruptive Autoencoders: Leveraging Low-level features for 3D Medical Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-07-31T17:59:42Z)
Seeing through the Brain: Image Reconstruction of Visual Perception from Human Brain Signals [27.92796103924193]
脳波信号から視覚刺激像を再構成するための包括的パイプラインNeuroImagenを提案する。我々は、与えられた脳波データから複数の粒度の出力を引き出すために、新しいマルチレベル知覚情報デコーディングを組み込んだ。
論文参考訳（メタデータ） (2023-07-27T12:54:16Z)
Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文参考訳（メタデータ） (2023-03-26T14:14:58Z)
BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。脳の活動、画像、およびテキストの間のモダリティギャップを埋める。 BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文参考訳（メタデータ） (2023-02-25T03:28:54Z)
Mind Reader: Reconstructing complex images from brain activities [16.78619734818198]
我々はfMRI(機能的磁気共鳴画像)信号から複雑な画像刺激を再構成することに集中する。単一の物体や単純な形状で画像を再構成する従来の研究とは異なり、本研究は意味論に富んだイメージ刺激を再構成することを目的としている。脳の信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
論文参考訳（メタデータ） (2022-09-30T06:32:46Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。