論文の概要: Toward High-Fidelity Visual Reconstruction: From EEG-Based Conditioned Generation to Joint-Modal Guided Rebuilding
- arxiv url: http://arxiv.org/abs/2603.19667v1
- Date: Fri, 20 Mar 2026 06:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.016764
- Title: Toward High-Fidelity Visual Reconstruction: From EEG-Based Conditioned Generation to Joint-Modal Guided Rebuilding
- Title(参考訳): 高忠実度ビジュアルリコンストラクションに向けて:脳波を用いた条件付き生成からジョイント・モーダル・ガイドド・リストラクションへ
- Authors: Zhijian Gong, Tianren Yao, Wenjia Dong, Xueyuan Xu,
- Abstract要約: 人間の視覚再建は、被験者が提供する記述とそれに対応する神経信号に基づいて、きめ細かい視覚刺激を再構築することを目的としている。
現在のアプローチは、EEG機能をテキストや画像の意味表現に合わせるように強制するアライメントフレームワークと深く結びついています。
本稿では,脳波とテキストを協調学習のための独立したモダリティとして扱い,脳波固有の情報を保存するための新しい統合モーダル視覚再構成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.4594459540658429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human visual reconstruction aims to reconstruct fine-grained visual stimuli based on subject-provided descriptions and corresponding neural signals. As a widely adopted modality, Electroencephalography (EEG) captures rich visual cognition information, encompassing complex spatial relationships and chromatic details within scenes. However, current approaches are deeply coupled with an alignment framework that forces EEG features to align with text or image semantic representation. The dependency may condense the rich spatial and chromatic details in EEG that achieved mere conditioned image generation rather than high-fidelity visual reconstruction. To address this limitation, we propose a novel Joint-Modal Visual Reconstruction (JMVR) framework. It treats EEG and text as independent modalities for joint learning to preserve EEG-specific information for reconstruction. It further employs a multi-scale EEG encoding strategy to capture both fine- and coarse-grained features, alongside image augmentation to enhance the recovery of perceptual details. Extensive experiments on the THINGS-EEG dataset demonstrate that JMVR achieves SOTA performance against six baseline methods, specifically exhibiting superior capabilities in modeling spatial structure and chromatic fidelity.
- Abstract(参考訳): 人間の視覚再建は、被験者が提供する記述とそれに対応する神経信号に基づいて、きめ細かい視覚刺激を再構築することを目的としている。
広く採用されているモダリティとして、脳波計(EEG)は複雑な空間的関係やシーン内の色調の詳細を含む、豊富な視覚的認知情報を捉えている。
しかし、現在のアプローチは、EEG機能をテキストや画像の意味表現に合わせるよう強制するアライメントフレームワークと深く結びついています。
この依存関係は、高忠実度視覚再構成ではなく、単なる条件付き画像生成に成功した脳波の、豊かな空間的および色調的詳細を凝縮させる可能性がある。
この制限に対処するために,新しいJMVRフレームワークを提案する。
脳波とテキストを共同学習のための独立したモダリティとして扱い、脳波固有の情報を再構築するために保存する。
さらに、細粒度と粗粒度の両方をキャプチャするためのマルチスケールのEEGエンコーディング戦略と、知覚的詳細の回復を強化するための画像拡張も採用している。
THINGS-EEGデータセットの大規模な実験により、JMVRは6つのベースライン法に対してSOTA性能を達成し、特に空間構造と色度をモデル化する上で優れた能力を示した。
関連論文リスト
- Moving Beyond Diffusion: Hierarchy-to-Hierarchy Autoregression for fMRI-to-Image Reconstruction [65.67001243986981]
我々は,スケールワイド自己回帰モデルに基づく粗大なfMRI画像再構成フレームワークであるMindHierを提案する。
MindHierは、拡散ベースのベースラインよりも優れたセマンティック忠実さ、4.67倍高速な推論、より決定論的結果を達成する。
論文 参考訳(メタデータ) (2025-10-25T15:40:07Z) - CRIA: A Cross-View Interaction and Instance-Adapted Pre-training Framework for Generalizable EEG Representations [52.251569042852815]
CRIAは、可変長および可変チャネルコーディングを使用して、異なるデータセット間でEEGデータの統一表現を実現する適応フレームワークである。
このモデルでは、時間的、スペクトル的、空間的特徴を効果的に融合させるクロスアテンション機構を採用している。
テンプル大学脳波コーパスとCHB-MITデータセットによる実験結果から、CRIAは既存の方法よりも、同じ事前学習条件で優れていることが示された。
論文 参考訳(メタデータ) (2025-06-19T06:31:08Z) - ArtGS: Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting [66.29782808719301]
コンピュータビジョンにおいて、音声で表現されたオブジェクトを構築することが重要な課題である。
既存のメソッドは、しばしば異なるオブジェクト状態間で効果的に情報を統合できない。
3次元ガウスを柔軟かつ効率的な表現として活用する新しいアプローチであるArtGSを紹介する。
論文 参考訳(メタデータ) (2025-02-26T10:25:32Z) - CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。
具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。
このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文 参考訳(メタデータ) (2024-12-13T16:27:54Z) - Reconstructing Visual Stimulus Images from EEG Signals Based on Deep
Visual Representation Model [5.483279087074447]
本稿では,脳波信号に基づく新しい画像再構成手法を提案する。
高速スイッチング方式で視覚刺激画像の高認識性を実現するため,視覚刺激画像データセットを構築した。
主エンコーダと従属デコーダからなる深部視覚表現モデル(DVRM)を提案し,視覚刺激を再構成する。
論文 参考訳(メタデータ) (2024-03-11T09:19:09Z) - BrainVis: Exploring the Bridge between Brain and Visual Signals via Image Reconstruction [7.512223286737468]
脳信号からの視覚刺激の分析と再構成は、人間の視覚系の理解を効果的に進める。
しかし、脳波信号は複雑であり、大きなノイズを含む。
これにより、脳波からの視覚刺激再建の既存の作品にかなりの制限が生じる。
我々はこれらの課題に対処するためにBrainVisと呼ばれる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:49:11Z) - Learning Robust Deep Visual Representations from EEG Brain Recordings [13.768240137063428]
本研究は,脳波に基づく深部表現の頑健な学習を行うための2段階の手法を提案する。
ディープラーニングアーキテクチャを用いて,3つのデータセットにまたがる特徴抽出パイプラインの一般化性を実証する。
本稿では,未知の画像を脳波空間に変換し,近似を用いて再構成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-25T10:26:07Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。