論文の概要: Decoding Visual Neural Representations by Multimodal with Dynamic Balancing
- arxiv url: http://arxiv.org/abs/2509.03433v1
- Date: Wed, 03 Sep 2025 16:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.587823
- Title: Decoding Visual Neural Representations by Multimodal with Dynamic Balancing
- Title(参考訳): 動的バランシングを用いたマルチモーダルによる視覚神経表現のデコード
- Authors: Kaili sun, Xingyu Miao, Bing Zhai, Haoran Duan, Yang Long,
- Abstract要約: 脳波、画像、テキストデータを統合し、低信号対雑音比の脳波信号から視覚神経表現をデコードすることを目的とした革新的なフレームワークを提案する。
脳波信号と視覚的内容のセマンティック対応を高めるためにテキストモダリティを導入する。
提案手法は,Top-1およびTop-5の精度測定値において,従来の最先端手法を上回り,それぞれ2.0%,4.7%向上した。
- 参考スコア(独自算出の注目度): 8.355081324607537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose an innovative framework that integrates EEG, image, and text data, aiming to decode visual neural representations from low signal-to-noise ratio EEG signals. Specifically, we introduce text modality to enhance the semantic correspondence between EEG signals and visual content. With the explicit semantic labels provided by text, image and EEG features of the same category can be more closely aligned with the corresponding text representations in a shared multimodal space. To fully utilize pre-trained visual and textual representations, we propose an adapter module that alleviates the instability of high-dimensional representation while facilitating the alignment and fusion of cross-modal features. Additionally, to alleviate the imbalance in multimodal feature contributions introduced by the textual representations, we propose a Modal Consistency Dynamic Balance (MCDB) strategy that dynamically adjusts the contribution weights of each modality. We further propose a stochastic perturbation regularization (SPR) term to enhance the generalization ability of semantic perturbation-based models by introducing dynamic Gaussian noise in the modality optimization process. The evaluation results on the ThingsEEG dataset show that our method surpasses previous state-of-the-art methods in both Top-1 and Top-5 accuracy metrics, improving by 2.0\% and 4.7\% respectively.
- Abstract(参考訳): 本研究では,低信号対雑音比脳波信号から視覚神経表現をデコードすることを目的とした,脳波,画像,テキストデータを統合した革新的なフレームワークを提案する。
具体的には,脳波信号と視覚コンテンツ間の意味的対応性を高めるために,テキストモダリティを導入する。
テキストによって提供される明示的なセマンティックラベルにより、同じカテゴリのイメージとEEG特徴は、共有マルチモーダル空間における対応するテキスト表現とより密に一致させることができる。
事前学習した視覚的およびテキスト的表現を十分に活用するために,高次元表現の不安定性を軽減し,多目的特徴のアライメントと融合を容易にするアダプタモジュールを提案する。
さらに,テキスト表現によって導入されたマルチモーダル特徴量の不均衡を軽減するために,各モーダルの寄与重みを動的に調整するモーダル一貫性動的バランス(MCDB)戦略を提案する。
さらに,モーダリティ最適化プロセスにおいて動的ガウス雑音を導入することにより,意味摂動に基づくモデルの一般化能力を高めるための確率摂動正規化(SPR)項を提案する。
ThingsEEGデータセットによる評価結果から,提案手法はTop-1およびTop-5の精度指標において,従来の最先端手法を上回り,それぞれ2.0 %,4.7 %の改善が見られた。
関連論文リスト
- EGRA:Toward Enhanced Behavior Graphs and Representation Alignment for Multimodal Recommendation [50.848374648774374]
MMR(MultiModal Recommendation)システムは、リッチな項目側モダリティ情報を活用することで、推奨品質を改善するための有望なソリューションとして登場した。
本稿では,事前学習したMMRモデルにより生成された表現から構築されたアイテム-イムグラフの挙動グラフを組み込んだEGRAを提案する。
また、両レベルの動的アライメント重み付け機構を導入し、モダリティ・ビヘイビアのアライメントアライメントを改善する。
論文 参考訳(メタデータ) (2025-08-22T07:47:54Z) - Semantic Item Graph Enhancement for Multimodal Recommendation [49.66272783945571]
マルチモーダルレコメンデーションシステムは、商品のマルチモーダル情報を活用することで、パフォーマンスの向上に注目が集まっている。
先行する手法は、しばしばモダリティ固有のアイテム・イテム意味グラフを生のモダリティの特徴から構築する。
これらのセマンティックグラフは、アイテム間の協調信号のモデリングが不十分ななど、セマンティックな欠陥に悩まされている。
論文 参考訳(メタデータ) (2025-08-08T09:20:50Z) - Modeling and Performance Analysis for Semantic Communications Based on Empirical Results [53.805458017074294]
終端計測とSNRの関係をモデル化するためのAlpha-Beta-Gamma (ABG) 式を提案する。
画像再構成タスクでは、提案されたABG公式は、SCUNetやVision Transformerといった一般的なDLネットワークに適合する。
我々の知る限りでは、これはエンドツーエンドのパフォーマンス指標と意味コミュニケーションのためのSNRの間の最初の理論的表現である。
論文 参考訳(メタデータ) (2025-04-29T06:07:50Z) - DualKanbaFormer: An Efficient Selective Sparse Framework for Multimodal Aspect-based Sentiment Analysis [0.6187939267100836]
マルチモーダル解析のための並列テキストおよびVisual KanbaFormerモジュールを利用する新しいフレームワークであるDual KanbaFormerを紹介する。
当社のアプローチでは、アスペクト指向スパース注意(ADSA)を導入して、粗粒度の凝集とアスペクト指向の精度のためのきめ細かい選択のバランスを取る。
従来のフィードフォワードネットワークと正規化をKAN(Kolmogorov-Arnold Networks)とDyT(Dynamic Tanh)に置き換え、非線形表現性と推論安定性を向上させる。
論文 参考訳(メタデータ) (2024-08-27T19:33:15Z) - Harmonizing Visual Text Comprehension and Generation [31.605599298507293]
視覚テキストの理解と生成に長けた,統一的で汎用的なマルチモーダル生成モデルであるTextHarmonyを提案する。
我々は,多モード生成空間を部分的に分離して,モダリティ特化およびモダリティ非依存のLoRAエキスパートを集約するSlide-LoRAを提案する。
様々なベンチマークによる総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-23T10:11:56Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。