論文の概要: Explainable Emotion Decoding for Human and Computer Vision
- arxiv url: http://arxiv.org/abs/2408.00493v1
- Date: Thu, 1 Aug 2024 11:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 20:46:24.437544
- Title: Explainable Emotion Decoding for Human and Computer Vision
- Title(参考訳): 人間とコンピュータビジョンのための説明可能な感情デコーディング
- Authors: Alessio Borriero, Martina Milazzo, Matteo Diano, Davide Orsenigo, Maria Chiara Villa, Chiara Di Fazio, Marco Tamietto, Alan Perotti,
- Abstract要約: 説明可能なAI(XAI)を使用して、マシンラーニング(ML)モデルの内部決定プロセスの理解を支援します。
本稿では,機能的磁気共鳴イメージング(fMRI)と映画フレームに基づく2つのMLモデルの訓練と説明を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Machine Learning (ML) has significantly advanced various research fields, but the opaque nature of ML models hinders their adoption in several domains. Explainable AI (XAI) addresses this challenge by providing additional information to help users understand the internal decision-making process of ML models. In the field of neuroscience, enriching a ML model for brain decoding with attribution-based XAI techniques means being able to highlight which brain areas correlate with the task at hand, thus offering valuable insights to domain experts. In this paper, we analyze human and Computer Vision (CV) systems in parallel, training and explaining two ML models based respectively on functional Magnetic Resonance Imaging (fMRI) and movie frames. We do so by leveraging the "StudyForrest" dataset, which includes functional Magnetic Resonance Imaging (fMRI) scans of subjects watching the "Forrest Gump" movie, emotion annotations, and eye-tracking data. For human vision the ML task is to link fMRI data with emotional annotations, and the explanations highlight the brain regions strongly correlated with the label. On the other hand, for computer vision, the input data is movie frames, and the explanations are pixel-level heatmaps. We cross-analyzed our results, linking human attention (obtained through eye-tracking) with XAI saliency on CV models and brain region activations. We show how a parallel analysis of human and computer vision can provide useful information for both the neuroscience community (allocation theory) and the ML community (biological plausibility of convolutional models).
- Abstract(参考訳): 現代の機械学習(ML)は、様々な研究分野を著しく進歩させてきたが、MLモデルの不透明な性質は、いくつかの領域で採用を妨げる。
説明可能なAI(XAI)は、MLモデルの内部決定プロセスを理解するための追加情報を提供することによって、この問題に対処する。
神経科学の分野では、帰属に基づくXAI技術で脳のデコードのためのMLモデルを強化することは、どの脳領域が与えられたタスクに関連しているかを強調できることを意味しており、ドメインの専門家に貴重な洞察を提供する。
本稿では,機能的磁気共鳴イメージング(fMRI)と映画フレームに基づく2つのMLモデルの訓練と説明を行う。
我々は、"Forrest Gump" 映画、感情アノテーション、およびアイトラッキングデータを見ている被験者の機能的磁気共鳴イメージング(fMRI)スキャンを含む、"StudyForrest"データセットを活用する。
人間の視覚では、MLタスクはfMRIデータを感情的なアノテーションと結びつけることであり、説明はラベルと強く相関している脳領域を強調する。
一方、コンピュータビジョンでは、入力データは映画フレームであり、説明はピクセルレベルのヒートマップである。
CVモデルと脳領域の活性化について,人間の注意(視線追跡による)とXAI塩分濃度を相互に関連づけて分析した。
本稿では、人間の視覚とコンピュータビジョンの並列解析が、神経科学のコミュニティ(アロケーション理論)とMLのコミュニティ(畳み込みモデルの生物学的妥当性)の両方に有用な情報を提供する方法を示す。
関連論文リスト
- LLM4Brain: Training a Large Language Model for Brain Video Understanding [9.294352205183726]
映像刺激によって引き起こされるfMRI信号から視覚的意味情報を再構成するためのLCMに基づく手法を提案する。
我々は、適応器を備えたfMRIエンコーダに微調整技術を用いて、脳の反応を映像刺激に合わせた潜在表現に変換する。
特に,視覚的セマンティック情報と脳反応のアライメントを高めるために,自己教師付きドメイン適応手法を統合する。
論文 参考訳(メタデータ) (2024-09-26T15:57:08Z) - Teaching CORnet Human fMRI Representations for Enhanced Model-Brain Alignment [2.035627332992055]
認知神経科学において広く用いられる技術として機能的磁気共鳴イメージング(fMRI)は、視覚知覚の過程における人間の視覚野の神経活動を記録することができる。
本研究では,SOTAビジョンモデルCORnetに基づくモデルであるReAlnet-fMRIを提案する。
fMRIを最適化したReAlnet-fMRIは、CORnetと制御モデルの両方においてヒトの脳との類似性が高く、また、内・内・対モダリティモデル脳(fMRI、EEG)も高い類似性を示した。
論文 参考訳(メタデータ) (2024-07-15T03:31:42Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Brain3D: Generating 3D Objects from fMRI [76.41771117405973]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。
予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T06:06:11Z) - Brainformer: Mimic Human Visual Brain Functions to Machine Vision Models via fMRI [12.203617776046169]
本稿では,人間の知覚システムにおけるfMRIパターンを解析するためのBrainformerという新しいフレームワークを紹介する。
この研究は、人間の知覚からニューラルネットワークに知識を移すための先進的なアプローチを導入する。
論文 参考訳(メタデータ) (2023-11-30T22:39:23Z) - Unidirectional brain-computer interface: Artificial neural network
encoding natural images to fMRI response in the visual cortex [12.1427193917406]
本稿では,人間の脳を模倣する人工ニューラルネットワークVISIONを提案する。
VISIONは、人間の血行動態の反応をfMRIボクセル値として、最先端の性能を超える精度で45%の精度で予測することに成功した。
論文 参考訳(メタデータ) (2023-09-26T15:38:26Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Overcoming the Domain Gap in Neural Action Representations [60.47807856873544]
3Dポーズデータは、手動で介入することなく、マルチビュービデオシーケンスから確実に抽出できる。
本稿では,ニューラルアクション表現の符号化を,ニューラルアクションと行動拡張のセットと共に導くために使用することを提案する。
ドメインギャップを減らすために、トレーニングの間、同様の行動をしているように見える動物間で神経と行動のデータを取り替える。
論文 参考訳(メタデータ) (2021-12-02T12:45:46Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。