論文の概要: Cross-view Brain Decoding
- arxiv url: http://arxiv.org/abs/2204.09564v1
- Date: Mon, 18 Apr 2022 10:43:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 05:00:29.931210
- Title: Cross-view Brain Decoding
- Title(参考訳): クロスビュー脳デコーディング
- Authors: Subba Reddy Oota, Jashn Arora, Manish Gupta, Raju S. Bapi
- Abstract要約: クロスビューゼロショット脳デコーディングは、ビューペア平均0.68倍の精度を実現している。
画像キャプションや画像タグ付けタスクには視覚ボクセルの比率が高く,文の生成やキーワード抽出タスクには言語ボクセルの比率が高い。
- 参考スコア(独自算出の注目度): 3.735055636181383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How the brain captures the meaning of linguistic stimuli across multiple
views is still a critical open question in neuroscience. Consider three
different views of the concept apartment: (1) picture (WP) presented with the
target word label, (2) sentence (S) using the target word, and (3) word cloud
(WC) containing the target word along with other semantically related words.
Unlike previous efforts, which focus only on single view analysis, in this
paper, we study the effectiveness of brain decoding in a zero-shot cross-view
learning setup. Further, we propose brain decoding in the novel context of
cross-view-translation tasks like image captioning (IC), image tagging (IT),
keyword extraction (KE), and sentence formation (SF). Using extensive
experiments, we demonstrate that cross-view zero-shot brain decoding is
practical leading to ~0.68 average pairwise accuracy across view pairs. Also,
the decoded representations are sufficiently detailed to enable high accuracy
for cross-view-translation tasks with following pairwise accuracy: IC (78.0),
IT (83.0), KE (83.7) and SF (74.5). Analysis of the contribution of different
brain networks reveals exciting cognitive insights: (1) A high percentage of
visual voxels are involved in image captioning and image tagging tasks, and a
high percentage of language voxels are involved in the sentence formation and
keyword extraction tasks. (2) Zero-shot accuracy of the model trained on S view
and tested on WC view is better than same-view accuracy of the model trained
and tested on WC view.
- Abstract(参考訳): 脳が複数の視点にわたる言語刺激の意味をどのように捉えるかは、まだ神経科学において決定的な疑問である。
目的語ラベルを付加した画像(WP)、目的語を用いた文(S)、目的語を含む単語雲(WC)、その他の意味的関連語を含む概念アパートの3つの異なる視点を考察する。
本稿では,単一視点解析のみに焦点を当てた先行研究と異なり,ゼロショットクロスビュー学習における脳デコードの有効性について検討する。
さらに、画像キャプション(ic)、画像タグ付け(it)、キーワード抽出(ke)、文形成(sf)といった横断的翻訳タスクの新たな文脈における脳デコードを提案する。
広範にわたる実験により、クロスビューゼロショット脳デコーディングが実用的であり、ビューペアの平均対精度が約0.68になることを示した。
また、デコードされた表現は、IC (78.0)、IT (83.0)、KE (83.7)、SF (74.5) という2つのペアの精度でクロスビュー翻訳タスクの精度を高めるために十分に詳細に記述されている。
1)視覚ボクセルの高割合が画像キャプションや画像タグ付け作業に関与し、高割合の言語ボクセルが文形成やキーワード抽出作業に関与している。
2)Sビューで訓練し,WCビューでテストしたモデルのゼロショット精度は,WCビューでトレーニングおよびテストしたモデルの同ビュー精度よりも優れている。
関連論文リスト
- Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。
まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文 参考訳(メタデータ) (2024-11-11T16:51:17Z) - Towards Visual Syntactical Understanding [8.530698703124159]
本稿では,ディープニューラルネットワーク(DNN)が視覚的構文理解を備えているかを検討する。
画像中の「単語」を検出し, (ii) 検出された単語をオートエンコーダを用いて順次マスクし, 再構成し, (iii) オリジナルの部分と再構成された部分を各場所で比較し, 統語的正当性を決定する。
CelebAとAFHQのデータセットから,それぞれ92.10%,90.89%の分類精度を得た。
論文 参考訳(メタデータ) (2024-01-30T23:05:43Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Neural Language Taskonomy: Which NLP Tasks are the most Predictive of
fMRI Brain Activity? [3.186888145772382]
人気のTransformerベースの言語モデルは、テキスト駆動型ブレインエンコーディングで成功している。
本研究では,10種類の自然言語処理タスクで学習した表現からの伝達学習について検討する。
10のタスク表現にまたがる実験は、以下の認知的洞察を提供する。
論文 参考訳(メタデータ) (2022-05-03T10:23:08Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。