論文の概要: HyFI: Hyperbolic Feature Interpolation for Brain-Vision Alignment
- arxiv url: http://arxiv.org/abs/2603.22721v1
- Date: Tue, 24 Mar 2026 02:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.254909
- Title: HyFI: Hyperbolic Feature Interpolation for Brain-Vision Alignment
- Title(参考訳): HyFI:脳ビジョンアライメントのための双曲的特徴補間
- Authors: Sangmin Jo, Wootaek Jeong, Da-Woon Heo, Yoohwan Hwang, Heung-Il Suk,
- Abstract要約: 本稿では,双曲的測地線に沿った意味的特徴と知覚的視覚的特徴を補間する新しい枠組みである双曲的特徴補間(HyFI)を提案する。
HyFIはゼロショットの脳画像検索において最先端のパフォーマンスを達成し、Top-1の精度を最大+17.3%向上させる以前の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 12.235537797397798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in artificial intelligence has encouraged numerous attempts to understand and decode human visual system from brain signals. These prior works typically align neural activity independently with semantic and perceptual features extracted from images using pre-trained vision models. However, they fail to account for two key challenges: (1) the modality gap arising from the natural difference in the information level of representation between brain signals and images, and (2) the fact that semantic and perceptual features are highly entangled within neural activity. To address these issues, we utilize hyperbolic space, which is well-suited for considering differences in the amount of information and has the geometric property that geodesics between two points naturally bend toward the origin, where the representational capacity is lower. Leveraging these properties, we propose a novel framework, Hyperbolic Feature Interpolation (HyFI), which interpolates between semantic and perceptual visual features along hyperbolic geodesics. This enables both the fusion and compression of perceptual and semantic information, effectively reflecting the limited expressiveness of brain signals and the entangled nature of these features. As a result, it facilitates better alignment between brain and visual features. We demonstrate that HyFI achieves state-of-the-art performance in zero-shot brain-to-image retrieval, outperforming prior methods with Top-1 accuracy improvements of up to +17.3% on THINGS-EEG and +9.1% on THINGS-MEG.
- Abstract(参考訳): 人工知能の最近の進歩は、人間の視覚システムを脳信号から理解し、復号しようとする多くの試みを奨励している。
これらの先行研究は、通常、事前訓練された視覚モデルを用いて画像から抽出された意味的特徴と知覚的特徴と独立して神経活動を調整する。
しかし,1)脳信号と画像の表現の自然な違いから生じるモダリティギャップ,2)意味的特徴と知覚的特徴が神経活動に強く絡み合っているという事実,の2つの主要な課題を考慮できなかった。
これらの問題に対処するために、情報量の違いを考慮するのに適した双曲空間を用い、2点間の測地線が自然に原点に向かって曲がり、表現能力が低い幾何学的性質を持つ。
これらの特性を活用することで,双曲的測地線に沿った意味的特徴と知覚的視覚的特徴を補間する新しい枠組みである双曲的特徴補間(HyFI)を提案する。
これにより、知覚情報と意味情報の融合と圧縮の両方が可能となり、脳信号の限られた表現力とこれらの特徴の絡み合った性質を効果的に反映する。
その結果、脳と視覚の特徴の整合性が向上する。
我々は、HyFIがゼロショット脳画像検索における最先端性能を達成し、Top-1精度の改善をTHINGS-EEGで+17.3%、THINGS-MEGで+9.1%に向上させることを実証した。
関連論文リスト
- Learning Brain Representation with Hierarchical Visual Embeddings [30.701493890961284]
本稿では,事前学習した視覚エンコーダの帰納的バイアスを利用した脳画像アライメント戦略を提案し,階層的,マルチスケールな視覚表現を捉える。
本手法は,検索精度と再現精度のバランスが良好である。
論文 参考訳(メタデータ) (2026-02-07T11:14:03Z) - Deep Models, Shallow Alignment: Uncovering the Granularity Mismatch in Neural Decoding [8.822848795081693]
本稿では,ニューラルネットワークを最終的な出力ではなく,視覚エンコーダの中間表現と整合させる新しいコントラスト学習戦略を提案する。
提案手法は,ニューラル・ビジュアル・デコードにおけるスケーリングの法則を効果的に解き明かし,事前学習された視覚バックボーンの容量でデコード性能を予測可能とした。
論文 参考訳(メタデータ) (2026-01-29T16:30:32Z) - NeuroCLIP: Brain-Inspired Prompt Tuning for EEG-to-Image Multimodal Contrastive Learning [13.254096454986318]
脳波から画像へのコントラスト学習に適したプロンプトチューニングフレームワークであるNeuroCLIPを提案する。
我々は初めて視覚的プロンプトトークンを脳波画像アライメントに導入し、グローバルなモダリティレベルのプロンプトとして機能する。
THINGS-EEG2データセットでは、NeuroCLIPはゼロショット画像検索において63.2%のTop-1精度を達成した。
論文 参考訳(メタデータ) (2025-11-12T12:13:24Z) - NeuroBridge: Bio-Inspired Self-Supervised EEG-to-Image Decoding via Cognitive Priors and Bidirectional Semantic Alignment [7.860082818617649]
視覚神経復号は、脳の活動パターンから知覚される視覚刺激を再構成または推論しようとする。
現在のアプローチは、高品質な刺激脳応答対の不足によって制約されている。
本稿では,NuroBridgeという自己教師型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-11-10T08:29:09Z) - SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning [54.390403684665834]
視覚刺激が皮質反応にどのように変換されるかを理解することは、計算神経科学の基本的な課題である。
視覚的意味論から神経反応への変換を確率的かつ生物学的に解釈可能な方法でシミュレートする生成フレームワークであるSynBrainを提案する。
実験結果から,SynBrainは被写体特異的視覚-fMRI符号化性能において最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2025-08-14T03:01:05Z) - Artificial Kuramoto Oscillatory Neurons [65.16453738828672]
神経科学とAIの両方では、ニューロン間の'バインディング'が、ネットワークの深い層においてより抽象的な概念を表現するために表現を圧縮する、競争的な学習の形式につながることが知られている。
完全に接続された畳み込みや注意機構などの任意の接続設計とともに人工的再考を導入する。
このアイデアは、教師なしオブジェクト発見、敵対的ロバスト性、不確実性、定量化、推論など、幅広いタスクにわたるパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2024-10-17T17:47:54Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Deep Representations for Time-varying Brain Datasets [4.129225533930966]
本稿では、領域マップされたfMRIシーケンスと構造接続性の両方を入力として組み込んだ効率的なグラフニューラルネットワークモデルを構築する。
サンプルレベルの適応的隣接行列を学習することで、潜伏する脳のダイナミクスのよい表現を見つけ出す。
これらのモジュールは容易に適応でき、神経科学領域以外の用途にも有用である可能性がある。
論文 参考訳(メタデータ) (2022-05-23T21:57:31Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。