論文の概要: Feature Visualization Recovers Known Cortical Selectivity from TRIBE v2
- arxiv url: http://arxiv.org/abs/2605.13904v1
- Date: Wed, 13 May 2026 00:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.40686
- Title: Feature Visualization Recovers Known Cortical Selectivity from TRIBE v2
- Title(参考訳): TRIBE v2から皮質選択性として知られる特徴可視化
- Authors: Stuart Bladon, Brinnae Bent,
- Abstract要約: 脳エンコーダモデルは、事前訓練された視覚と言語ネットワークの内部活性化から皮質fMRI応答を予測する。
本稿では,補完的解釈可能性手法として特徴可視化を提案する。
プローブは単純で微分可能で、任意の脳エンコーダに異なるバックボーンを持つ。
- 参考スコア(独自算出の注目度): 0.19336815376402716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Brain encoder models predict cortical fMRI responses from the internal activations of pretrained vision and language networks, and are typically evaluated by held-out prediction accuracy. This is a useful signal for training but a poor one for interpretation: it tells us an encoder fits the data without telling us whether it has internalized the functional organization of the brain. We propose feature visualization -- gradient ascent on the encoder's predicted activation for a target region of interest (ROI) -- as a complementary interpretability technique, and apply it to TRIBE v2 composed with V-JEPA 2 (ViT-G, 40 layers), holding both frozen and synthesizing still images for seven regions spanning the ventral and dorsal visual hierarchies. Under identical hyperparameters, the probe recovers a visible progression of increasing spatial scale and feature complexity across V1 to V4, matching the ventral-stream hierarchy. It also produces three distinctive downstream regimes: radial "frozen-motion" streaks for the middle temporal area (MT) despite static-only optimization, face-like features for the fusiform face area (FFA), and consistent rectilinear line patterns for the parahippocampal place area (PPA). Optimized FFA stimuli drive the predicted region ~4x as much as a natural face photograph, consistent with feature visualization producing adversarial super-stimuli rather than canonical exemplars. The probe is simple, differentiable, and applicable to any brain encoder with a differentiable backbone, allowing for qualitative evaluation of brain encoders.
- Abstract(参考訳): 脳エンコーダモデルは、事前訓練された視覚と言語ネットワークの内部アクティベーションから皮質fMRI応答を予測し、通常、ホールドアウト予測精度によって評価される。
エンコーダが脳の機能的組織を内包したかどうかを知らせることなく、データに適合するように教えてくれます。
本稿では,V-JEPA2(ViT-G, 40層)からなるTRIBE v2に応用し,腹側および背側視覚階層にまたがる7領域の静止画像を凍結合成する機能可視化手法を提案する。
同一のハイパーパラメータの下で、プローブは空間スケールの増大とV1からV4にまたがる特徴的複雑さの可視的な進行を回復し、腹側-腹側階層と一致する。
静的な最適化にもかかわらず、中側頭領域(MT)の放射状「凍結運動」(radial "frozen-motion")ストリーク(radial "frozen-motion")ストリーク(radial "frozen-motion" streaks)、ファシフォーム・フェイス・エリア(FFA)の顔のような特徴(face-like features)、傍海馬の位置領域(PPA)の直線パターン(retilinear line pattern)の3つの特徴がある。
最適化されたFFA刺激は、予測された領域を自然の顔写真と同じくらい4倍に駆動する。
プローブは単純で微分可能で、異なるバックボーンを持つ任意の脳エンコーダに適用でき、脳エンコーダの質的評価を可能にする。
関連論文リスト
- UniV2D: Bridging Visual Restoration and Semantic Perception for Underwater Salient Object Detection [71.83097731030254]
視覚的回復と有能な物体検出を協調的に最適化するUnified Vision-to-Detection Network (UniV2D)を提案する。
UniV2Dは、セマンティック駆動学習パラダイムを導入している。
定量評価と定性評価の両方において最先端の手法を著しく上回る。
論文 参考訳(メタデータ) (2026-05-08T02:31:45Z) - Interpreting V1 Population Activity via Image-Neural Latent Representation Alignment [8.749824371158454]
最近のアライメントに基づくアプローチにより、脳活動からの視覚刺激の復号精度が向上した。
一次視覚野における集団レベルの視覚計算を解析するための解釈可能なコントラストフレームワークであるDual-Tower Image-Neural Alignment (DINA)を提案する(V1)。
DINAは、視覚刺激と対応するV1集団応答を中間特徴写像のレベルで共有潜在空間で整列させる生物学的に動機付けられた二重塔構造を共同で訓練する。
論文 参考訳(メタデータ) (2026-05-05T21:15:41Z) - HyFI: Hyperbolic Feature Interpolation for Brain-Vision Alignment [12.235537797397798]
本稿では,双曲的測地線に沿った意味的特徴と知覚的視覚的特徴を補間する新しい枠組みである双曲的特徴補間(HyFI)を提案する。
HyFIはゼロショットの脳画像検索において最先端のパフォーマンスを達成し、Top-1の精度を最大+17.3%向上させる以前の手法よりも優れていた。
論文 参考訳(メタデータ) (2026-03-24T02:35:54Z) - Hi-DREAM: Brain Inspired Hierarchical Diffusion for fMRI Reconstruction via ROI Encoder and visuAl Mapping [5.019958634393433]
Hi-DREAMは、皮質組織を明確にする条件拡散フレームワークである。
軽量で深度にマッチしたControlNetは、デノイング中にスケール固有のヒントを注入する。
実験により、Hi-DREAMは高レベルのセマンティックメトリクスで最先端のパフォーマンスを得ることができた。
論文 参考訳(メタデータ) (2025-11-14T16:05:44Z) - Subsampled Randomized Fourier GaLore for Adapting Foundation Models in Depth-Driven Liver Landmark Segmentation [6.91206648866302]
本稿では,視覚基盤エンコーダを用いた意味的および幾何学的手がかりを組み込んだディープガイド型肝ランドマークセグメンテーションフレームワークを提案する。
SAM2 を効率よく適応させるために,SRFT-GaLore は,計算コストの高い SVD をサブサンプリングランダム化フーリエ変換に置き換える,新しい低ランク勾配投影法である。
本手法は,D2GPLandと比較して,Dice類似度係数が4.85%向上し,平均対称表面距離が11.78ポイント削減された。
論文 参考訳(メタデータ) (2025-11-05T04:16:49Z) - Sparse Autoencoders Bridge The Deep Learning Model and The Brain [18.058358411706052]
SAE-BrainMapは、ディープラーニングの視覚モデル表現とボクセルレベルのfMRI応答を一致させる新しいフレームワークである。
ViT-B/16$_CLIP$は、初期層で高レベルなセマンティック情報を生成するために低レベルな情報を利用する傾向がある。
我々の結果は、ディープニューラルネットワークと人間の視覚野の間に直接、下流でタスクのない橋を架け、モデル解釈可能性に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-06-10T06:35:14Z) - Empowering Sparse-Input Neural Radiance Fields with Dual-Level Semantic Guidance from Dense Novel Views [66.1245505423179]
レンダリングされたセマンティクスは、レンダリングされたRGBよりも堅牢な拡張データとして扱うことができることを示す。
提案手法は, セマンティクスから導出されるガイダンスを組み込むことで, NeRFの性能を向上させる。
論文 参考訳(メタデータ) (2025-03-04T03:13:44Z) - It Takes Two: Accurate Gait Recognition in the Wild via Cross-granularity Alignment [72.75844404617959]
本稿では,XGait という新しい粒度アライメント歩行認識手法を提案する。
この目的を達成するために、XGaitはまず2つのバックボーンエンコーダの分岐を含み、シルエットシーケンスとパーシングシーケンスを2つの潜在空間にマッピングする。
2つの大規模な歩行データセットの総合的な実験では、ランク1の精度が80.5%、CCPGが88.3%である。
論文 参考訳(メタデータ) (2024-11-16T08:54:27Z) - KFD-NeRF: Rethinking Dynamic NeRF with Kalman Filter [49.85369344101118]
KFD-NeRFは,Kalmanフィルタに基づく効率的かつ高品質な運動再構成フレームワークと統合された,新しい動的ニューラル放射場である。
我々のキーとなる考え方は、動的放射場を、観測と予測という2つの知識源に基づいて時間的に異なる状態が推定される動的システムとしてモデル化することである。
我々のKFD-NeRFは、同等の計算時間と最先端の視線合成性能で、徹底的な訓練を施した類似または優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-18T05:48:24Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。