Fugu-MT 論文翻訳(概要): Brain Captioning: Decoding human brain activity into images and text

論文の概要: Brain Captioning: Decoding human brain activity into images and text

arxiv url: http://arxiv.org/abs/2305.11560v1
Date: Fri, 19 May 2023 09:57:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-22 15:06:03.966997
Title: Brain Captioning: Decoding human brain activity into images and text
Title（参考訳）: 脳のキャプション:人間の脳活動を画像とテキストにデコードする
Authors: Matteo Ferrante, Furkan Ozcelik, Tommaso Boccato, Rufin VanRullen, Nicola Toschi
Abstract要約: 本稿では,脳活動を意味のある画像やキャプションにデコードする革新的な手法を提案する。提案手法は,最先端画像キャプションモデルを活用し,ユニークな画像再構成パイプラインを組み込んだものである。生成したキャプションと画像の両方の定量的指標を用いて,本手法の評価を行った。
参考スコア（独自算出の注目度）: 1.5486926490986461
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Every day, the human brain processes an immense volume of visual information, relying on intricate neural mechanisms to perceive and interpret these stimuli. Recent breakthroughs in functional magnetic resonance imaging (fMRI) have enabled scientists to extract visual information from human brain activity patterns. In this study, we present an innovative method for decoding brain activity into meaningful images and captions, with a specific focus on brain captioning due to its enhanced flexibility as compared to brain decoding into images. Our approach takes advantage of cutting-edge image captioning models and incorporates a unique image reconstruction pipeline that utilizes latent diffusion models and depth estimation. We utilized the Natural Scenes Dataset, a comprehensive fMRI dataset from eight subjects who viewed images from the COCO dataset. We employed the Generative Image-to-text Transformer (GIT) as our backbone for captioning and propose a new image reconstruction pipeline based on latent diffusion models. The method involves training regularized linear regression models between brain activity and extracted features. Additionally, we incorporated depth maps from the ControlNet model to further guide the reconstruction process. We evaluate our methods using quantitative metrics for both generated captions and images. Our brain captioning approach outperforms existing methods, while our image reconstruction pipeline generates plausible images with improved spatial relationships. In conclusion, we demonstrate significant progress in brain decoding, showcasing the enormous potential of integrating vision and language to better understand human cognition. Our approach provides a flexible platform for future research, with potential applications in various fields, including neural art, style transfer, and portable devices.
Abstract（参考訳）: 毎日、人間の脳は大量の視覚情報を処理し、これらの刺激を知覚し、解釈するために複雑な神経機構に依存する。機能的磁気共鳴イメージング(fMRI)の最近の進歩は、人間の脳活動パターンから視覚情報を抽出することを可能にする。本研究では,脳活動を意味のある画像やキャプションにデコードするための革新的な手法を提案する。提案手法は最先端画像キャプションモデルを利用しており,遅延拡散モデルと深度推定を利用した独自の画像再構成パイプラインを組み込んでいる。 cocoデータセットから画像を見た8名の被験者による総合的fmriデータセットであるnatural scenes datasetを用いた。我々は,画像からテキストへ変換する生成変換器(GIT)をキャプションのバックボーンとして使用し,潜時拡散モデルに基づく新しい画像再構成パイプラインを提案する。この方法は、脳活動と抽出された特徴の間の正規化線形回帰モデルを訓練することを含む。さらに,制御ネットモデルから深度マップを組み込んで,再構築プロセスをさらにガイドした。本手法は,生成キャプションと画像の両方に対して定量的指標を用いて評価する。脳のキャプションアプローチは既存の手法よりも優れており、画像再構成パイプラインは空間的関係を改善した可視画像を生成する。結論として,人間の認知をよりよく理解するための視覚と言語の統合の可能性を示すとともに,脳デコーディングの著しい進歩を示す。われわれのアプローチは将来の研究に柔軟なプラットフォームを提供し、ニューラルアート、スタイル転送、ポータブルデバイスなど様々な分野に応用できる可能性がある。

関連論文リスト

Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文参考訳（メタデータ） (2024-11-11T16:51:17Z)
Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance [3.74142789780782]
現代のLCDは、構造的かつ意味論的に妥当な画像生成のためのマルチモーダルガイダンスをいかに取り入れているかを示す。 Brain-StreamsはfMRI信号を脳の領域から適切な埋め込みにマッピングする。我々は,実fMRIデータセットを用いて,Brain-Streamsの定量的および定性的に再構成能力を検証する。
論文参考訳（メタデータ） (2024-09-18T16:19:57Z)
MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文参考訳（メタデータ） (2024-04-11T15:46:42Z)
Learning Multimodal Volumetric Features for Large-Scale Neuron Tracing [72.45257414889478]
オーバーセグメントニューロン間の接続を予測し,人間の作業量を削減することを目的としている。最初はFlyTracingという名前のデータセットを構築しました。本稿では,高密度なボリュームEM画像の埋め込みを生成するための,新しい接続性を考慮したコントラスト学習手法を提案する。
論文参考訳（メタデータ） (2024-01-05T19:45:12Z)
UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion Model from Human Brain Activity [2.666777614876322]
人間の脳活動からの1つの拡散モデルにおける画像再構成とキャプションを統一するUniBrainを提案する。我々はfMRIボクセルをテキストに変換し、低レベル情報に潜入して現実的なキャプションや画像を生成する。 UniBrainは、画像再構成の点で現在の手法を質的にも量的にも優れており、Natural Scenesデータセットで初めて画像キャプションの結果を報告している。
論文参考訳（メタデータ） (2023-08-14T19:49:29Z)
Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文参考訳（メタデータ） (2023-08-03T05:27:12Z)
Seeing through the Brain: Image Reconstruction of Visual Perception from Human Brain Signals [27.92796103924193]
脳波信号から視覚刺激像を再構成するための包括的パイプラインNeuroImagenを提案する。我々は、与えられた脳波データから複数の粒度の出力を引き出すために、新しいマルチレベル知覚情報デコーディングを組み込んだ。
論文参考訳（メタデータ） (2023-07-27T12:54:16Z)
Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。 CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文参考訳（メタデータ） (2023-05-17T11:36:40Z)
Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文参考訳（メタデータ） (2023-03-26T14:14:58Z)
Mind Reader: Reconstructing complex images from brain activities [16.78619734818198]
我々はfMRI(機能的磁気共鳴画像)信号から複雑な画像刺激を再構成することに集中する。単一の物体や単純な形状で画像を再構成する従来の研究とは異なり、本研究は意味論に富んだイメージ刺激を再構成することを目的としている。脳の信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
論文参考訳（メタデータ） (2022-09-30T06:32:46Z)
Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。 COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文参考訳（メタデータ） (2022-07-26T19:35:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。