Fugu-MT 論文翻訳(概要): Autoregressive Visual Decoding from EEG Signals

論文の概要: Autoregressive Visual Decoding from EEG Signals

arxiv url: http://arxiv.org/abs/2602.22555v1
Date: Thu, 26 Feb 2026 02:49:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.4959
Title: Autoregressive Visual Decoding from EEG Signals
Title（参考訳）: 脳波信号からの自己回帰視覚復号
Authors: Sicheng Dai, Hongwang Xiao, Shan Yu, Qiwei Ye,
Abstract要約: 脳波信号からの視覚的デコードのための軽量かつ効率的なフレームワークであるAVDEを提案する。我々は「次世代の予測」戦略に基づく自己回帰的生成フレームワークを採用する。 2つのデータセットの実験により、AVDEは画像検索と再構成の両方において従来の最先端の手法よりも優れていることが示された。
参考スコア（独自算出の注目度）: 14.213172378363216
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Electroencephalogram (EEG) signals have become a popular medium for decoding visual information due to their cost-effectiveness and high temporal resolution. However, current approaches face significant challenges in bridging the modality gap between EEG and image data. These methods typically rely on complex adaptation processes involving multiple stages, making it hard to maintain consistency and manage compounding errors. Furthermore, the computational overhead imposed by large-scale diffusion models limit their practicality in real-world brain-computer interface (BCI) applications. In this work, we present AVDE, a lightweight and efficient framework for visual decoding from EEG signals. First, we leverage LaBraM, a pre-trained EEG model, and fine-tune it via contrastive learning to align EEG and image representations. Second, we adopt an autoregressive generative framework based on a "next-scale prediction" strategy: images are encoded into multi-scale token maps using a pre-trained VQ-VAE, and a transformer is trained to autoregressively predict finer-scale tokens starting from EEG embeddings as the coarsest representation. This design enables coherent generation while preserving a direct connection between the input EEG signals and the reconstructed images. Experiments on two datasets show that AVDE outperforms previous state-of-the-art methods in both image retrieval and reconstruction tasks, while using only 10% of the parameters. In addition, visualization of intermediate outputs shows that the generative process of AVDE reflects the hierarchical nature of human visual perception. These results highlight the potential of autoregressive models as efficient and interpretable tools for practical BCI applications.
Abstract（参考訳）: 脳波(EEG)信号は、コスト効率と高時間分解能のため、視覚情報を復号するための一般的な媒体となっている。しかし、現在のアプローチでは、脳波と画像データのモダリティギャップを埋める上で大きな課題に直面している。これらの手法は通常、複数の段階を含む複雑な適応プロセスに依存しており、一貫性の維持と複雑なエラーの管理が困難である。さらに、大規模な拡散モデルによって課される計算オーバーヘッドは、実世界の脳-コンピュータインタフェース(BCI)アプリケーションにおける実用性を制限する。本研究では,脳波信号からの視覚的デコードのための軽量かつ効率的なフレームワークであるAVDEを提案する。まず、トレーニング済みの脳波モデルであるLaBraMを活用し、コントラスト学習を通じて微調整を行い、脳波と画像表現を整合させる。第2に、画像は事前訓練されたVQ-VAEを用いてマルチスケールトークンマップに符号化され、トランスフォーマーは、EEG埋め込みから始まるより微細なトークンを粗い表現として自動回帰的に予測するように訓練される、"next-scale prediction"戦略に基づく自己回帰生成フレームワークを採用する。この設計は、入力された脳波信号と再構成された画像との直接接続を維持しながらコヒーレント生成を可能にする。 2つのデータセットの実験では、AVDEは画像検索と再構成の両方において従来の最先端の手法よりも優れており、パラメータの10%しか使用していない。さらに、中間出力の可視化は、AVDEの生成過程が人間の視覚知覚の階層的な性質を反映していることを示している。これらの結果は,実用的なBCIアプリケーションのための効率的かつ解釈可能なツールとして,自己回帰モデルの可能性を強調している。

関連論文リスト

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation [81.40978077888693]
対照的に、CLIP(Contrastive Language- Image Pre-training)は、下流のパフォーマンスにおいて重要なボトルネックとなっている。近年のソリューションでは、拡散モデルを用いて、CLIP視覚トークンに画像再構成を条件付けることで表現を強化する。我々は、より包括的な視覚表現を追求するために、コントラスト信号を拡散に基づく再構成に統合する。
論文参考訳（メタデータ） (2026-03-05T04:45:49Z)
ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文参考訳（メタデータ） (2026-01-07T14:09:18Z)
SYNAPSE: Synergizing an Adapter and Finetuning for High-Fidelity EEG Synthesis from a CLIP-Aligned Encoder [0.0]
SynAPSEは、脳波信号表現学習と高忠実度画像合成を橋渡しする2段階のフレームワークである。本手法はCVPR40データセット上で,意味的コヒーレントな潜在空間と最先端の知覚的忠実性を実現する。
論文参考訳（メタデータ） (2025-11-11T02:53:49Z)
CRIA: A Cross-View Interaction and Instance-Adapted Pre-training Framework for Generalizable EEG Representations [52.251569042852815]
CRIAは、可変長および可変チャネルコーディングを使用して、異なるデータセット間でEEGデータの統一表現を実現する適応フレームワークである。このモデルでは、時間的、スペクトル的、空間的特徴を効果的に融合させるクロスアテンション機構を採用している。テンプル大学脳波コーパスとCHB-MITデータセットによる実験結果から、CRIAは既存の方法よりも、同じ事前学習条件で優れていることが示された。
論文参考訳（メタデータ） (2025-06-19T06:31:08Z)
Category-aware EEG image generation based on wavelet transform and contrast semantic loss [4.165508411354963]
本稿では、離散ウェーブレット変換(DWT)とゲーティング機構を統合したトランスフォーマーベースのEEG信号エンコーダを提案する。このエンコーダは,脳波信号から視覚刺激に関連する特徴を抽出するために用いられる。事前学習した拡散モデルにより、これらの特徴は視覚刺激に再構成される。
論文参考訳（メタデータ） (2025-05-30T07:24:58Z)
CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文参考訳（メタデータ） (2024-12-13T16:27:54Z)
Mind's Eye: Image Recognition by EEG via Multimodal Similarity-Keeping Contrastive Learning [2.087148326341881]
本稿では,ゼロショット脳波画像分類のためのMUltimodal similarity-keeper contrastivE学習フレームワークを提案する。我々は、脳波信号に適した多変量時系列エンコーダを開発し、正規化コントラスト脳波画像事前学習の有効性を評価する。本手法は,200方向ゼロショット画像分類において,トップ1の精度が19.3%,トップ5の精度が48.8%の最先端性能を実現する。
論文参考訳（メタデータ） (2024-06-05T16:42:23Z)
RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。 RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文参考訳（メタデータ） (2024-05-30T14:49:54Z)
Learning Robust Deep Visual Representations from EEG Brain Recordings [13.768240137063428]
本研究は,脳波に基づく深部表現の頑健な学習を行うための2段階の手法を提案する。ディープラーニングアーキテクチャを用いて,3つのデータセットにまたがる特徴抽出パイプラインの一般化性を実証する。本稿では,未知の画像を脳波空間に変換し,近似を用いて再構成する新しい枠組みを提案する。
論文参考訳（メタデータ） (2023-10-25T10:26:07Z)
DreamDiffusion: Generating High-Quality Images from Brain EEG Signals [42.30835251506628]
DreamDiffusionは、脳脳波(EEG)信号から直接高品質な画像を生成する新しい方法である。提案手法は、ノイズ、限られた情報、個人差などの画像生成に脳波信号を使用する際の課題を克服する。
論文参考訳（メタデータ） (2023-06-29T13:33:02Z)
Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文参考訳（メタデータ） (2020-02-06T10:56:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。