論文の概要: Decoding fMRI Data into Captions using Prefix Language Modeling
- arxiv url: http://arxiv.org/abs/2501.02570v1
- Date: Sun, 05 Jan 2025 15:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:10:06.727329
- Title: Decoding fMRI Data into Captions using Prefix Language Modeling
- Title(参考訳): プレフィックス言語モデリングを用いたfMRIデータのキャプションへのデコード
- Authors: Vyacheslav Shen, Kassymzhomart Kunanbayev, Dae-Shik Kim,
- Abstract要約: 本稿では、DINOv2モデルによる画像の埋め込みを、対応するfMRI信号から予測することにより、脳信号を画像キャプションにデコードする方法を提案する。
また,fMRI信号から画像埋め込み空間への3次元畳み込みニューラルネットワークマッピングについて検討し,ボクセルの位置情報のより良い説明を行う。
- 参考スコア(独自算出の注目度): 3.4328283704703866
- License:
- Abstract: With the advancements in Large Language and Latent Diffusion models, brain decoding has achieved remarkable results in recent years. The works on the NSD dataset, with stimuli images from the COCO dataset, leverage the embeddings from the CLIP model for image reconstruction and GIT for captioning. However, the current captioning approach introduces the challenge of potential data contamination given that the GIT model was trained on the COCO dataset. In this work, we present an alternative method for decoding brain signals into image captions by predicting a DINOv2 model's embedding of an image from the corresponding fMRI signal and then providing its [CLS] token as the prefix to the GPT-2 language model which decreases computational requirements considerably. Additionally, instead of commonly used Linear Regression, we explore 3D Convolutional Neural Network mapping of fMRI signals to image embedding space for better accounting positional information of voxels.
- Abstract(参考訳): 大規模言語と潜在拡散モデルの進歩により、脳の復号化は近年顕著な成果を上げている。
NSDデータセットの作業は、COCOデータセットからの刺激画像とともに、画像再構成のためのCLIPモデルからの埋め込みとキャプションのためのGITを活用する。
しかし、現在のキャプション手法は、GITモデルがCOCOデータセットでトレーニングされたことを考えると、潜在的なデータ汚染の課題を提起している。
本稿では、対応するfMRI信号から画像のDINOv2モデルの埋め込みを予測し、その[CLS]トークンをGPT-2言語モデルのプレフィックスとして提供することにより、脳信号を画像キャプションにデコードする方法を提案する。
さらに、一般的な線形回帰の代わりに、fMRI信号の3次元畳み込みニューラルネットワークマッピングを画像埋め込み空間に探索し、ボクセルの位置情報のより良い説明を行う。
関連論文リスト
- Cover-separable Fixed Neural Network Steganography via Deep Generative Models [37.08937194546323]
我々は、Cs-FNNSという、カバー分離可能な固定ニューラルネットワークステレオグラフィーを提案する。
Cs-FNNSでは,シークレットデータを受容不能な摂動に直接エンコードするSPSアルゴリズムを提案する。
本稿では,視覚的品質と非検出性の観点から,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-16T05:47:06Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation
for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。
近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。
提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文 参考訳(メタデータ) (2023-11-05T01:14:02Z) - CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training [6.292642131180376]
本稿では,胸部X線における画像テキストデータの欠如に対処し,画像テキストペアを一般プロンプトを介して画像テキストペアとして拡張する。
また,医学画像とレポートの学習レベルの特徴を学習するために,ICLとTCLという2つの対照的な損失を設計した。
我々のモデルは、同じ条件下で訓練された最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-10-20T05:44:55Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - SD-RSIC: Summarization Driven Deep Remote Sensing Image Captioning [0.0]
本稿では,SD-RSIC(Summarization Driven Remote Sensing Image Captioning)アプローチを提案する。
提案手法は3つの主要なステップから構成される。第1ステップは、畳み込みニューラルネットワーク(CNN)と長期記憶(LSTM)ネットワークを併用することで、標準的な画像キャプションを取得する。
第2のステップは、トレーニングセットに存在する配列をシーケンスニューラルネットワークに利用し、トレーニングセットに存在する冗長性を排除して、各トレーニングイメージのグランドトゥルースキャプションを単一のキャプションに要約する。
第3ステップでは、各RS画像に関連する適応重みを自動的に定義し、その意味に基づいて標準キャプションと要約キャプションを結合する。
論文 参考訳(メタデータ) (2020-06-15T14:29:12Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。