論文の概要: Unveiling Deep Semantic Uncertainty Perception for Language-Anchored Multi-modal Vision-Brain Alignment
- arxiv url: http://arxiv.org/abs/2511.04078v1
- Date: Thu, 06 Nov 2025 05:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.315957
- Title: Unveiling Deep Semantic Uncertainty Perception for Language-Anchored Multi-modal Vision-Brain Alignment
- Title(参考訳): 言語適応型マルチモーダル視覚脳アライメントのための深部意味的不確かさ認識
- Authors: Zehui Feng, Chenqi Zhang, Mingru Wang, Minuo Wei, Shiwei Cheng, Cuntai Guan, Ting Han,
- Abstract要約: Bratrixはマルチモーダル言語-アンコレッドビジョン-ブレインアライメントを実現するためのエンドツーエンドフレームワークである。
ブラトリクスは視覚刺激を階層的な視覚的・言語的意味論コンポーネントに分解し、視覚的・脳的表現を共有潜在空間に投影する。
EEG、MEG、fMRIベンチマークの実験では、Bratrixは最先端の手法と比較して検索、再構築、キャプション性能を改善している。
- 参考スコア(独自算出の注目度): 12.210878855224278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unveiling visual semantics from neural signals such as EEG, MEG, and fMRI remains a fundamental challenge due to subject variability and the entangled nature of visual features. Existing approaches primarily align neural activity directly with visual embeddings, but visual-only representations often fail to capture latent semantic dimensions, limiting interpretability and deep robustness. To address these limitations, we propose Bratrix, the first end-to-end framework to achieve multimodal Language-Anchored Vision-Brain alignment. Bratrix decouples visual stimuli into hierarchical visual and linguistic semantic components, and projects both visual and brain representations into a shared latent space, enabling the formation of aligned visual-language and brain-language embeddings. To emulate human-like perceptual reliability and handle noisy neural signals, Bratrix incorporates a novel uncertainty perception module that applies uncertainty-aware weighting during alignment. By leveraging learnable language-anchored semantic matrices to enhance cross-modal correlations and employing a two-stage training strategy of single-modality pretraining followed by multimodal fine-tuning, Bratrix-M improves alignment precision. Extensive experiments on EEG, MEG, and fMRI benchmarks demonstrate that Bratrix improves retrieval, reconstruction, and captioning performance compared to state-of-the-art methods, specifically surpassing 14.3% in 200-way EEG retrieval task. Code and model are available.
- Abstract(参考訳): 脳波、MEG、fMRIなどの神経信号から視覚的意味を解き放つことは、主観的変動と視覚的特徴の絡み合った性質のために、依然として根本的な課題である。
既存のアプローチは、主に視覚的な埋め込みとニューラルアクティビティを結びつけるが、視覚のみの表現は、解釈可能性と深い堅牢性を制限するために、潜時的なセマンティック次元のキャプチャに失敗することが多い。
これらの制約に対処するため,マルチモーダル言語-アンコール型視覚脳アライメントを実現する最初のエンドツーエンドフレームワークであるBratrixを提案する。
ブラトリクスは視覚刺激を階層的な視覚的・言語的意味要素に分離し、視覚表現と脳表現の両方を共有潜在空間に投影し、協調した視覚言語と脳言語埋め込みの形成を可能にする。
人間のような知覚信頼性をエミュレートし、ノイズの多い神経信号を処理するために、Bratrixは、アライメント中に不確実性を認識した重み付けを適用する新しい不確実性認識モジュールを組み込んでいる。
学習可能な言語文のセマンティック行列を活用して、クロスモーダル相関を強化し、単一モーダル事前学習とマルチモーダル微調整による2段階のトレーニング戦略を用いることで、ブラトリクス-Mはアライメント精度を向上させる。
EEG、MEG、fMRIベンチマークの大規模な実験により、Bratrixは最先端の方法と比較して検索、再構築、キャプションのパフォーマンスが向上し、特に200ウェイのEEG検索タスクでは14.3%を超えたことが示されている。
コードとモデルは利用可能である。
関連論文リスト
- Video-STAR: Reinforcing Open-Vocabulary Action Recognition with Tools [41.993750134878766]
Video-STARは、オープン語彙行動認識のためのツール強化学習とコンテキストサブモーション分解を調和させるフレームワークである。
アクションをモノリシックなエンティティとして扱う従来の方法とは異なり、我々のアプローチは、アクションをきめ細かなマッチングのための差別的なサブモーションに革新的に分解する。
本手法は,テキスト中心の推論から視覚的接地推論へ伝達する,明示的な監督を伴わずに,外部ツールを自律的に活用し,サブモーションパターンの優先順位付けを行う。
論文 参考訳(メタデータ) (2025-10-09T17:20:44Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Self-Supervised Multi-View Representation Learning using Vision-Language Model for 3D/4D Facial Expression Recognition [1.03341388090561]
SMILE-VLMは3D/4D FERのための自己教師型視覚言語モデルである。
多視点視覚表現学習と自然言語指導を一体化する。
本フレームワークは,複数のベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-01T22:47:11Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - 3D Vision-Language Gaussian Splatting [29.047044145499036]
マルチモーダルな3Dシーン理解は、ロボット工学、自律運転、バーチャル/拡張現実において重要な応用である。
本稿では,視覚的・意味的な相違点を適切に扱えるソリューションを提案する。
また、既存のビュー間のセマンティック一貫性を改善するために、カメラビューブレンディング技術を採用している。
論文 参考訳(メタデータ) (2024-10-10T03:28:29Z) - Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。
本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。
マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文 参考訳(メタデータ) (2024-04-30T10:41:23Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。