論文の概要: A Multimodal Visual Encoding Model Aided by Introducing Verbal Semantic
Information
- arxiv url: http://arxiv.org/abs/2308.15142v1
- Date: Tue, 29 Aug 2023 09:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 14:59:59.525694
- Title: A Multimodal Visual Encoding Model Aided by Introducing Verbal Semantic
Information
- Title(参考訳): 言語意味情報の導入によるマルチモーダル視覚符号化モデル
- Authors: Shuxiao Ma and Linyuan Wang and Bin Yan
- Abstract要約: 従来の視覚符号化モデルは、生物学的発見と矛盾する言語意味情報を含まない。
本稿では,刺激画像と関連するテキスト情報に基づくマルチモーダル視覚情報符号化ネットワークモデルを提案する。
実験により,提案したマルチモーダル視覚情報符号化ネットワークモデルが従来モデルより優れていたことを示す。
- 参考スコア(独自算出の注目度): 5.142858130898767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biological research has revealed that the verbal semantic information in the
brain cortex, as an additional source, participates in nonverbal semantic
tasks, such as visual encoding. However, previous visual encoding models did
not incorporate verbal semantic information, contradicting this biological
finding. This paper proposes a multimodal visual information encoding network
model based on stimulus images and associated textual information in response
to this issue. Our visual information encoding network model takes stimulus
images as input and leverages textual information generated by a text-image
generation model as verbal semantic information. This approach injects new
information into the visual encoding model. Subsequently, a Transformer network
aligns image and text feature information, creating a multimodal feature space.
A convolutional network then maps from this multimodal feature space to voxel
space, constructing the multimodal visual information encoding network model.
Experimental results demonstrate that the proposed multimodal visual
information encoding network model outperforms previous models under the exact
training cost. In voxel prediction of the left hemisphere of subject 1's brain,
the performance improves by approximately 15.87%, while in the right
hemisphere, the performance improves by about 4.6%. The multimodal visual
encoding network model exhibits superior encoding performance. Additionally,
ablation experiments indicate that our proposed model better simulates the
brain's visual information processing.
- Abstract(参考訳): 生物学的研究により、脳皮質の言語意味情報は、追加の情報源として、視覚的エンコーディングのような非言語意味タスクに参加することが明らかとなった。
しかし、従来の視覚符号化モデルは、この生物学的発見と矛盾する言語意味情報を含まない。
本稿では,刺激画像と関連するテキスト情報に基づくマルチモーダル視覚情報符号化ネットワークモデルを提案する。
視覚情報符号化ネットワークモデルは、刺激画像を入力として、テキスト画像生成モデルによって生成されたテキスト情報を言語意味情報として活用する。
このアプローチは、ビジュアルエンコーディングモデルに新しい情報を注入する。
その後、Transformerネットワークは画像とテキストの特徴情報を整列し、マルチモーダルな特徴空間を作成する。
畳み込みネットワークは、このマルチモーダル特徴空間からボクセル空間にマッピングし、マルチモーダル視覚情報符号化ネットワークモデルを構築する。
実験の結果,ネットワークモデルを用いたマルチモーダル視覚情報符号化が,トレーニングコストで先行モデルを上回ることがわかった。
被験者1の脳の左半球のボクセル予測では、パフォーマンスが約15.87%向上し、右半球では約4.6%向上する。
マルチモーダルビジュアルエンコーディングネットワークモデルは、優れたエンコーディング性能を示す。
さらに, アブレーション実験により, 提案モデルが脳の視覚情報処理をシミュレートする可能性が示唆された。
関連論文リスト
- From Redundancy to Relevance: Enhancing Explainability in Multimodal Large Language Models [34.59056945192777]
ブラックボックス設計は、視覚言語モデルの解釈可能性を妨げる。
本稿では,インタラクションメカニズムを可視化する情報フロー手法を提案する。
このアプローチは、複数のモデルにわたる実験を通じて検証されている。
論文 参考訳(メタデータ) (2024-06-04T13:52:54Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Modality-Agnostic fMRI Decoding of Vision and Language [4.837421245886033]
我々は、画像とテキスト記述の両方を見ている人々の大規模なfMRIデータセット(被験者あたり8,500トライアル)を導入し、使用します。
この新しいデータセットは、被験者が見ている刺激を予測できる単一のデコーダである、モダリティに依存しないデコーダの開発を可能にする。
我々はこのようなデコーダをトレーニングし、脳の信号を様々な利用可能な視覚、言語、マルチモーダル(ビジョン+言語)モデルから刺激表現にマッピングする。
論文 参考訳(メタデータ) (2024-03-18T13:30:03Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - Brain encoding models based on multimodal transformers can transfer
across language and vision [60.72020004771044]
我々は、マルチモーダルトランスフォーマーの表現を用いて、fMRI応答を物語や映画に転送できるエンコーディングモデルを訓練した。
1つのモードに対する脳の反応に基づいて訓練された符号化モデルは、他のモードに対する脳の反応をうまく予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-20T17:38:44Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Visio-Linguistic Brain Encoding [3.944020612420711]
脳のエンコーディングにおける画像変換器とマルチモーダル変換器の有効性を体系的に検討した。
マルチモーダルトランスであるVisualBERTは,従来提案されていたシングルモードCNNよりも大幅に優れていた。
視覚言語モデルの優位性は、視覚領域で引き起こされる応答が言語処理によって暗黙的に影響を受けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2022-04-18T11:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。