論文の概要: CATVis: Context-Aware Thought Visualization
- arxiv url: http://arxiv.org/abs/2507.11522v1
- Date: Tue, 15 Jul 2025 17:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.210018
- Title: CATVis: Context-Aware Thought Visualization
- Title(参考訳): CATVis: コンテキスト対応の思考可視化
- Authors: Tariq Mehmood, Hamza Ahmad, Muhammad Haroon Shakeel, Murtaza Taj,
- Abstract要約: 脳波信号から視覚表現を復号するための新しい5段階フレームワークを提案する。
我々は、クロスモーダルアライメントと再ランク付けにより、コンテキスト対応の脳波画像生成を可能にする。
実験の結果,視覚刺激に合わせた高品質な画像が得られた。
- 参考スコア(独自算出の注目度): 2.8298952038412706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: EEG-based brain-computer interfaces (BCIs) have shown promise in various applications, such as motor imagery and cognitive state monitoring. However, decoding visual representations from EEG signals remains a significant challenge due to their complex and noisy nature. We thus propose a novel 5-stage framework for decoding visual representations from EEG signals: (1) an EEG encoder for concept classification, (2) cross-modal alignment of EEG and text embeddings in CLIP feature space, (3) caption refinement via re-ranking, (4) weighted interpolation of concept and caption embeddings for richer semantics, and (5) image generation using a pre-trained Stable Diffusion model. We enable context-aware EEG-to-image generation through cross-modal alignment and re-ranking. Experimental results demonstrate that our method generates high-quality images aligned with visual stimuli, outperforming SOTA approaches by 13.43% in Classification Accuracy, 15.21% in Generation Accuracy and reducing Fr\'echet Inception Distance by 36.61%, indicating superior semantic alignment and image quality.
- Abstract(参考訳): 脳波ベースの脳-コンピュータインタフェース(BCI)は、運動画像や認知状態のモニタリングなど、様々な応用において有望である。
しかし、脳波信号から視覚表現を復号することは、その複雑でノイズの多い性質のため、依然として重要な課題である。
そこで我々は,脳波信号から視覚表現をデコードするための新しい5段階のフレームワークを提案する:(1)概念分類のための脳波エンコーダ,(2)CLIP特徴空間における脳波とテキストの相互アライメント,(3)再分類によるキャプションの洗練,(4)よりリッチなセマンティクスのための概念とキャプションの重み付き補間,(5)事前学習された安定拡散モデルを用いた画像生成。
我々は、クロスモーダルアライメントと再ランク付けにより、コンテキスト対応の脳波画像生成を可能にする。
実験の結果,視覚刺激に合わせた高品質な画像を生成し,分類精度が13.43%向上し,生成精度が15.21%,Fr\echet Inception Distanceが36.61%低下し,セマンティックアライメントと画像品質が向上した。
関連論文リスト
- ViEEG: Hierarchical Neural Coding with Cross-Modal Progressive Enhancement for EEG-Based Visual Decoding [14.18190036916225]
ViEEGは生物学的にインスパイアされた階層型EEGデコーディングフレームワークで、視覚処理のHubel-Wiesel理論と一致する。
従来の手法を45%以上上回り,40.9%が被写体依存のTop-1精度,22.9%がクロスオブジェクト設定のTop-1精度を実現している。
論文 参考訳(メタデータ) (2025-05-18T13:19:08Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。
具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。
このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文 参考訳(メタデータ) (2024-12-13T16:27:54Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Mind's Eye: Image Recognition by EEG via Multimodal Similarity-Keeping Contrastive Learning [2.087148326341881]
本稿では,ゼロショット脳波画像分類のためのMUltimodal similarity-keeper contrastivE学習フレームワークを提案する。
我々は、脳波信号に適した多変量時系列エンコーダを開発し、正規化コントラスト脳波画像事前学習の有効性を評価する。
本手法は,200方向ゼロショット画像分類において,トップ1の精度が19.3%,トップ5の精度が48.8%の最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-05T16:42:23Z) - Alleviating Catastrophic Forgetting in Facial Expression Recognition with Emotion-Centered Models [49.3179290313959]
感情中心型生成的リプレイ (ECgr) は, 生成的対向ネットワークから合成画像を統合することで, この課題に対処する。
ECgrは、生成された画像の忠実性を保証するために品質保証アルゴリズムを組み込んでいる。
4つの多様な表情データセットに対する実験結果から,擬似リハーサル法により生成されたイメージを組み込むことで,ターゲットとするデータセットとソースデータセットのトレーニングが促進されることが示された。
論文 参考訳(メタデータ) (2024-04-18T15:28:34Z) - Enhancing EEG-to-Text Decoding through Transferable Representations from Pre-trained Contrastive EEG-Text Masked Autoencoder [69.7813498468116]
コントラスト型脳波テキストマスケード自動エンコーダ(CET-MAE)を提案する。
また、E2T-PTR(Pretrained Transferable Representationsを用いたEEG-to-Text decoding)と呼ばれるフレームワークを開発し、EEGシーケンスからテキストをデコードする。
論文 参考訳(メタデータ) (2024-02-27T11:45:21Z) - Learning Robust Deep Visual Representations from EEG Brain Recordings [13.768240137063428]
本研究は,脳波に基づく深部表現の頑健な学習を行うための2段階の手法を提案する。
ディープラーニングアーキテクチャを用いて,3つのデータセットにまたがる特徴抽出パイプラインの一般化性を実証する。
本稿では,未知の画像を脳波空間に変換し,近似を用いて再構成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-25T10:26:07Z) - Decoding Natural Images from EEG for Object Recognition [8.411976038504589]
本稿では,脳波信号からの学習画像表現の実現可能性を示すための自己教師型フレームワークを提案する。
我々はトップ1の精度を15.6%、トップ5の精度を42.8%で達成し、200ウェイゼロショットタスクに挑戦する。
これらの発見は、実世界のシナリオにおける神経復号と脳-コンピュータインタフェースの貴重な洞察をもたらす。
論文 参考訳(メタデータ) (2023-08-25T08:05:37Z) - DreamDiffusion: Generating High-Quality Images from Brain EEG Signals [42.30835251506628]
DreamDiffusionは、脳脳波(EEG)信号から直接高品質な画像を生成する新しい方法である。
提案手法は、ノイズ、限られた情報、個人差などの画像生成に脳波信号を使用する際の課題を克服する。
論文 参考訳(メタデータ) (2023-06-29T13:33:02Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。