論文の概要: Exploring The Visual Feature Space for Multimodal Neural Decoding
- arxiv url: http://arxiv.org/abs/2505.15755v1
- Date: Wed, 21 May 2025 17:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.793069
- Title: Exploring The Visual Feature Space for Multimodal Neural Decoding
- Title(参考訳): マルチモーダルニューラルデコーディングのための視覚的特徴空間の探索
- Authors: Weihao Xia, Cengiz Oztireli,
- Abstract要約: MLLM(Multimodal Large Language Models)における事前学習された視覚成分からの視覚特徴空間の選択について分析する。
MG-BrainDub(Multi-Granularity Brain Detail Understanding Benchmark)を提案する。
このベンチマークには2つの重要なタスクが含まれている。詳細な説明と、オブジェクト、属性、リレーションシップといった重要な視覚要素をハイライトするメトリクスを含む。
- 参考スコア(独自算出の注目度): 5.19485079754946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The intrication of brain signals drives research that leverages multimodal AI to align brain modalities with visual and textual data for explainable descriptions. However, most existing studies are limited to coarse interpretations, lacking essential details on object descriptions, locations, attributes, and their relationships. This leads to imprecise and ambiguous reconstructions when using such cues for visual decoding. To address this, we analyze different choices of vision feature spaces from pre-trained visual components within Multimodal Large Language Models (MLLMs) and introduce a zero-shot multimodal brain decoding method that interacts with these models to decode across multiple levels of granularities. % To assess a model's ability to decode fine details from brain signals, we propose the Multi-Granularity Brain Detail Understanding Benchmark (MG-BrainDub). This benchmark includes two key tasks: detailed descriptions and salient question-answering, with metrics highlighting key visual elements like objects, attributes, and relationships. Our approach enhances neural decoding precision and supports more accurate neuro-decoding applications. Code will be available at https://github.com/weihaox/VINDEX.
- Abstract(参考訳): 脳信号の複雑化は、マルチモーダルAIを活用して、説明可能な説明のための視覚的およびテキスト的データと脳のモダリティを整合させる研究を促進する。
しかし、既存の研究のほとんどは粗い解釈に限られており、オブジェクトの記述、場所、属性、およびそれらの関係に関する重要な詳細は欠如している。
これにより、視覚的復号化のためにこのようなキューを使用する場合、不正確で曖昧な再構築が行われる。
そこで我々は,Multimodal Large Language Models (MLLM) 内の事前学習された視覚成分から,視覚特徴空間の異なる選択を解析し,これらのモデルと相互作用するゼロショットマルチモーダル脳復号法を導入する。
% モデルが脳信号から細部まで詳細を復号する能力を評価するために,Multi-Granularity Brain Detail Understanding Benchmark (MG-BrainDub)を提案する。
このベンチマークには2つの重要なタスクが含まれている。詳細な説明と、オブジェクト、属性、リレーションシップといった重要な視覚要素をハイライトするメトリクスを含む。
我々のアプローチは、神経復号精度を高め、より正確な神経復号アプリケーションをサポートする。
コードはhttps://github.com/weihaox/VINDEX.comで入手できる。
関連論文リスト
- Improving Multi-modal Large Language Model through Boosting Vision Capabilities [54.344077285545005]
視覚言語モデルを強化するための視覚理解能力の改善に注力する。
マルチモーダル言語モデルである textbfArcana を提案する。
論文 参考訳(メタデータ) (2024-10-17T16:36:38Z) - Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.41055673919895]
本研究では,視覚エンコーダと解像度の混合を用いたMLLMの設計空間について検討する。
視覚トークンを補完的な視覚エンコーダの集合から簡単に結合することは、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることがわかった。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文 参考訳(メタデータ) (2024-08-28T17:59:31Z) - Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。
本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。
マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文 参考訳(メタデータ) (2024-04-30T10:41:23Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Modality-Agnostic fMRI Decoding of Vision and Language [4.837421245886033]
我々は、画像とテキスト記述の両方を見ている人々の大規模なfMRIデータセット(被験者あたり8,500トライアル)を導入し、使用します。
この新しいデータセットは、被験者が見ている刺激を予測できる単一のデコーダである、モダリティに依存しないデコーダの開発を可能にする。
我々はこのようなデコーダをトレーニングし、脳の信号を様々な利用可能な視覚、言語、マルチモーダル(ビジョン+言語)モデルから刺激表現にマッピングする。
論文 参考訳(メタデータ) (2024-03-18T13:30:03Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Decoding Visual Neural Representations by Multimodal Learning of
Brain-Visual-Linguistic Features [9.783560855840602]
本稿では,脳-視覚-言語的特徴の多モーダル学習を用いたBraVLと呼ばれる汎用的ニューラルデコーディング手法を提案する。
マルチモーダル深部生成モデルを用いて,脳,視覚,言語的特徴の関係をモデル化することに注力する。
特に、BraVLモデルは、様々な半教師付きシナリオの下でトレーニングでき、余分なカテゴリから得られる視覚的特徴とテキスト的特徴を組み込むことができる。
論文 参考訳(メタデータ) (2022-10-13T05:49:33Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。