論文の概要: Multigranular Evaluation for Brain Visual Decoding
- arxiv url: http://arxiv.org/abs/2507.07993v1
- Date: Thu, 10 Jul 2025 17:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.537897
- Title: Multigranular Evaluation for Brain Visual Decoding
- Title(参考訳): 脳視覚復号のための多粒性評価
- Authors: Weihao Xia, Cengiz Oztireli,
- Abstract要約: 既存の脳視覚復号のための評価プロトコルは、モデル間の違いを曖昧にし、神経科学的な基礎を欠き、きめ細かい視覚的区別を捉えることができない粗いメトリクスに依存している。
本稿では, 構造的忠実度, 推論的アライメント, 文脈的コヒーレンスを両立する, 統合された多粒性評価フレームワークであるBASICを紹介する。
構造レベルでは,フォアグラウンド,セマンティック,インスタンス,コンポーネントマスクなど,階層的なセグメンテーションに基づくメトリクススイートを導入する。
意味レベルでは、多目的大を用いてオブジェクト、属性、関係を含む構造化されたシーン表現を抽出する。
- 参考スコア(独自算出の注目度): 5.19485079754946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing evaluation protocols for brain visual decoding predominantly rely on coarse metrics that obscure inter-model differences, lack neuroscientific foundation, and fail to capture fine-grained visual distinctions. To address these limitations, we introduce BASIC, a unified, multigranular evaluation framework that jointly quantifies structural fidelity, inferential alignment, and contextual coherence between decoded and ground truth images. For the structural level, we introduce a hierarchical suite of segmentation-based metrics, including foreground, semantic, instance, and component masks, anchored in granularity-aware correspondence across mask structures. For the semantic level, we extract structured scene representations encompassing objects, attributes, and relationships using multimodal large language models, enabling detailed, scalable, and context-rich comparisons with ground-truth stimuli. We benchmark a diverse set of visual decoding methods across multiple stimulus-neuroimaging datasets within this unified evaluation framework. Together, these criteria provide a more discriminative, interpretable, and comprehensive foundation for measuring brain visual decoding methods.
- Abstract(参考訳): 既存の脳視覚復号のための評価プロトコルは、主にモデル間の違いを曖昧にし、神経科学的な基礎を欠き、きめ細かい視覚的区別を捉えることができない粗いメトリクスに依存している。
これらの制約に対処するために、構造的忠実度、推論的アライメント、およびデコードされた真理画像間の文脈的コヒーレンスを共同で定量化する、統一された多粒性評価フレームワークであるBASICを導入する。
構造レベルでは,フォアグラウンド,セマンティック,インスタンス,コンポーネントマスクなど,階層的なセグメンテーションに基づくメトリクススイートを導入する。
意味レベルでは、多モーダルな大言語モデルを用いて、オブジェクト、属性、関係を含む構造化されたシーン表現を抽出し、より詳細に、スケーラブルで、文脈に富んだ比較を可能にする。
我々は、この統合評価フレームワーク内で、複数の刺激神経画像データセットにまたがる多様な視覚的復号法をベンチマークする。
これらの基準は、より識別され、解釈され、包括的に脳の視覚的復号法を測定する基盤を提供する。
関連論文リスト
- Analysis and Visualization of Linguistic Structures in Large Language Models: Neural Representations of Verb-Particle Constructions in BERT [0.0]
本研究では,大言語モデル(LLM)における動詞-助詞の組み合わせの内部表現について検討する。
我々は'agree on'、'come back'、'give up'といった様々な動詞粒子構築のための各層の表現効果を分析する。
その結果,BERTの中間層は,各動詞カテゴリの表現精度に有意なばらつきがあり,構文構造を効果的に捉えていることがわかった。
論文 参考訳(メタデータ) (2024-12-19T09:21:39Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - PRIOR: Prototype Representation Joint Learning from Medical Images and
Reports [19.336988866061294]
医用画像とレポートのグローバルなアライメントとローカルなアライメントを組み合わせた表現学習フレームワークを提案する。
標準的なグローバルな多モードアライメント手法とは対照的に、細粒度表現に局所アライメントモジュールを用いる。
低レベルのローカライズされた視覚的および高レベルの臨床言語的特徴に焦点を合わせることができる文量プロトタイプメモリバンクを構築する。
論文 参考訳(メタデータ) (2023-07-24T07:49:01Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Self-paced Multi-grained Cross-modal Interaction Modeling for Referring
Expression Comprehension [21.000045864213327]
参照表現理解(REC)は一般的に、正確な推論を実現するために、視覚的・言語的モダリティの多種多様な情報を必要とする。
異なるモダリティから多粒度情報を集約し、ハードな例から豊富な知識を抽出する方法は、RECタスクにおいて不可欠である。
本稿では,言語と視覚のローカライズ機能を改善するセルフペースト・マルチモーダル・インタラクション・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T08:32:47Z) - Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文 参考訳(メタデータ) (2021-06-10T00:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。