論文の概要: BrainExplore: Large-Scale Discovery of Interpretable Visual Representations in the Human Brain
- arxiv url: http://arxiv.org/abs/2512.08560v2
- Date: Fri, 12 Dec 2025 06:48:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 13:50:29.086696
- Title: BrainExplore: Large-Scale Discovery of Interpretable Visual Representations in the Human Brain
- Title(参考訳): BrainExplore:人間の脳における解釈可能な視覚表現の大規模発見
- Authors: Navve Wasserman, Matias Cosarinsky, Yuval Golbari, Aude Oliva, Antonio Torralba, Tamar Rott Shaham, Michal Irani,
- Abstract要約: 本研究では,ヒト大脳皮質における視覚的表現の発見と説明のための大規模かつ自動化された枠組みを提案する。
まず、教師なしデータ駆動分解法を用いて、fMRI活動の候補解釈パターンを探索する。
次に、最も強く引き起こす自然画像の集合を同定し、その共有された視覚的意味の自然言語記述を生成することにより、各パターンを説明する。
- 参考スコア(独自算出の注目度): 33.91441575463702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding how the human brain represents visual concepts, and in which brain regions these representations are encoded, remains a long-standing challenge. Decades of work have advanced our understanding of visual representations, yet brain signals remain large and complex, and the space of possible visual concepts is vast. As a result, most studies remain small-scale, rely on manual inspection, focus on specific regions and properties, and rarely include systematic validation. We present a large-scale, automated framework for discovering and explaining visual representations across the human cortex. Our method comprises two main stages. First, we discover candidate interpretable patterns in fMRI activity through unsupervised, data-driven decomposition methods. Next, we explain each pattern by identifying the set of natural images that most strongly elicit it and generating a natural-language description of their shared visual meaning. To scale this process, we introduce an automated pipeline that tests multiple candidate explanations, assigns quantitative reliability scores, and selects the most consistent description for each voxel pattern. Our framework reveals thousands of interpretable patterns spanning many distinct visual concepts, including fine-grained representations previously unreported.
- Abstract(参考訳): 人間の脳がどのように視覚概念を表現し、どの脳領域でこれらの表現がコード化されているかを理解することは、長年にわたる課題である。
何十年もの間、視覚的表現の理解は進歩してきたが、脳の信号は巨大で複雑であり、可能な視覚概念の空間は広大な。
その結果、ほとんどの研究は小規模のままで、手動検査に頼り、特定の地域や特性に焦点を合わせており、体系的な検証はめったにない。
本研究では,ヒト大脳皮質における視覚的表現の発見と説明のための大規模かつ自動化された枠組みを提案する。
本手法は2つの主要な段階からなる。
まず、教師なしデータ駆動分解法を用いて、fMRI活動の候補解釈パターンを発見する。
次に、最も強く引き起こす自然画像の集合を同定し、その共有された視覚的意味の自然言語記述を生成することにより、各パターンを説明する。
このプロセスをスケールするために、複数の候補説明をテストし、定量的な信頼性スコアを割り当てる自動パイプラインを導入し、各ボクセルパターンに対して最も一貫した記述を選択する。
我々のフレームワークは、これまで報告されていない細かい表現を含む、多くの異なる視覚概念にまたがる何千もの解釈可能なパターンを明らかにする。
関連論文リスト
- Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models [51.900488744931785]
視覚抽象化のためのAIシステムの能力を評価し改善するためのビジュアルグラフアリーナ(VGA)を導入する。
人間はタスク間でほぼ完璧な精度を達成し、モデルは同型検出で完全に失敗し、パス/サイクルタスクにおいて限られた成功を示した。
表現不変推論の課題を分離することにより、VGAは、AIビジュアルモデルにおける人間のような概念化に向けた前進を促進するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2025-06-06T17:06:25Z) - Exploring The Visual Feature Space for Multimodal Neural Decoding [5.19485079754946]
MLLM(Multimodal Large Language Models)における事前学習された視覚成分からの視覚特徴空間の選択について分析する。
MG-BrainDub(Multi-Granularity Brain Detail Understanding Benchmark)を提案する。
このベンチマークには2つの重要なタスクが含まれている。詳細な説明と、オブジェクト、属性、リレーションシップといった重要な視覚要素をハイライトするメトリクスを含む。
論文 参考訳(メタデータ) (2025-05-21T17:01:08Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。
まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文 参考訳(メタデータ) (2024-11-11T16:51:17Z) - Brain Mapping with Dense Features: Grounding Cortical Semantic Selectivity in Natural Images With Vision Transformers [5.265058307999745]
本稿では,自然界における空間分布型視覚概念とニューラルセレクティビティを関連付ける方法であるBrainSAILを紹介する。
BrainSAILは、事前訓練された視覚モデルから意味的に一貫性があり、密集した空間的特徴を利用する。
カテゴリー選択性のある大脳皮質領域におけるBrainSAILの評価を行った。
論文 参考訳(メタデータ) (2024-10-07T17:59:45Z) - What Makes a Maze Look Like a Maze? [92.80800000328277]
本稿では,Deep Grounding(DSG)という,視覚的抽象化の明示的な構造化表現を活用してグラウンド化と推論を行うフレームワークを紹介する。
DSGの中核はスキーマ-依存性グラフによる抽象概念の記述で、より原始的なシンボルに分解される。
DSGは視覚言語モデルの抽象的視覚的推論性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-09-12T16:41:47Z) - Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。
本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。
マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文 参考訳(メタデータ) (2024-04-30T10:41:23Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Natural Language Rationales with Full-Stack Visual Reasoning: From
Pixels to Semantic Frames to Commonsense Graphs [106.15931418425906]
本研究は,複数の複雑な視覚的推論課題にまたがる自然言語の有理性の生成に焦点を当てた最初の研究である。
RationaleVT Transformerは、事前学習された言語モデルとオブジェクト認識、接地された視覚的セマンティックフレーム、視覚的コモンセンスグラフを組み合わせることで、自由テキスト論理を生成することを学習する統合モデルである。
実験の結果, 基礎となる事前学習言語モデルは視覚適応の恩恵を受けており, 複雑な視覚的・テキスト的推論タスクに対するモデル解釈可能性の補完として, 自由文合理化が有望な研究方向であることを示唆した。
論文 参考訳(メタデータ) (2020-10-15T05:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。