論文の概要: Improving visual image reconstruction from human brain activity using
latent diffusion models via multiple decoded inputs
- arxiv url: http://arxiv.org/abs/2306.11536v1
- Date: Tue, 20 Jun 2023 13:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 14:15:22.613844
- Title: Improving visual image reconstruction from human brain activity using
latent diffusion models via multiple decoded inputs
- Title(参考訳): 複数のデコード入力を用いた潜在拡散モデルを用いた脳活動からの視覚画像再構成の改善
- Authors: Yu Takagi, Shinji Nishimoto
- Abstract要約: 深層学習と神経科学の統合は、脳活動の分析の改善につながった。
人間の脳活動による視覚体験の再構築は、特に恩恵を受けている分野である。
様々な復号化技術が視覚体験再構成の性能に与える影響について検討する。
- 参考スコア(独自算出の注目度): 2.4366811507669124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of deep learning and neuroscience has been advancing rapidly,
which has led to improvements in the analysis of brain activity and the
understanding of deep learning models from a neuroscientific perspective. The
reconstruction of visual experience from human brain activity is an area that
has particularly benefited: the use of deep learning models trained on large
amounts of natural images has greatly improved its quality, and approaches that
combine the diverse information contained in visual experiences have
proliferated rapidly in recent years. In this technical paper, by taking
advantage of the simple and generic framework that we proposed (Takagi and
Nishimoto, CVPR 2023), we examine the extent to which various additional
decoding techniques affect the performance of visual experience reconstruction.
Specifically, we combined our earlier work with the following three techniques:
using decoded text from brain activity, nonlinear optimization for structural
image reconstruction, and using decoded depth information from brain activity.
We confirmed that these techniques contributed to improving accuracy over the
baseline. We also discuss what researchers should consider when performing
visual reconstruction using deep generative models trained on large datasets.
Please check our webpage at
https://sites.google.com/view/stablediffusion-with-brain/. Code is also
available at https://github.com/yu-takagi/StableDiffusionReconstruction.
- Abstract(参考訳): 深層学習と神経科学の統合は急速に進展しており、脳活動の分析や、神経科学の観点からの深層学習モデルの理解の改善につながっている。
大量の自然画像に基づいて訓練されたディープラーニングモデルを使用することで、その品質が大幅に向上し、視覚的体験に含まれる多様な情報を組み合わせたアプローチが近年急速に普及している。
本稿では,我々が提案したシンプルで汎用的な枠組み(高木・西本・CVPR2023)を活かして,様々な復号化技術が視覚体験再構成の性能に与える影響について検討する。
具体的には、脳活動からの復号テキストの使用、構造画像再構成のための非線形最適化、脳活動からの復号深度情報の利用の3つの手法と組み合わせた。
これらの手法がベースラインの精度向上に寄与していることを確認した。
また,大規模データセット上で訓練された深層生成モデルを用いて,視覚再構成を行う際に研究者が考慮すべきことを論じる。
https://sites.google.com/view/stablediffusion-with-brain/
コードはhttps://github.com/yu-takagi/stablediffusionrestructionでも利用できる。
関連論文リスト
- Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。
まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文 参考訳(メタデータ) (2024-11-11T16:51:17Z) - Knowledge-Guided Prompt Learning for Lifespan Brain MR Image Segmentation [53.70131202548981]
本稿では,脳MRIにKGPL(Knowledge-Guided Prompt Learning)を用いた2段階のセグメンテーションフレームワークを提案する。
具体的には,大規模データセットと準最適ラベルを用いたトレーニング前セグメンテーションモデルについて述べる。
知識的プロンプトの導入は、解剖学的多様性と生物学的プロセスの間の意味的関係を捉えている。
論文 参考訳(メタデータ) (2024-07-31T04:32:43Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - Brain-optimized inference improves reconstructions of fMRI brain
activity [0.0]
我々は、推論中の脳活動と再構成の整合性を最適化することで、最近の復号法をさらに改善する可能性を評価する。
基本復号法からシード再構成をサンプリングし,脳に最適化された符号化モデルを用いて繰り返し改良する。
脳活動分布にデコードを明示的にアライメントすることで,再現性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-12-12T20:08:59Z) - UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion
Model from Human Brain Activity [2.666777614876322]
人間の脳活動からの1つの拡散モデルにおける画像再構成とキャプションを統一するUniBrainを提案する。
我々はfMRIボクセルをテキストに変換し、低レベル情報に潜入して現実的なキャプションや画像を生成する。
UniBrainは、画像再構成の点で現在の手法を質的にも量的にも優れており、Natural Scenesデータセットで初めて画像キャプションの結果を報告している。
論文 参考訳(メタデータ) (2023-08-14T19:49:29Z) - Seeing through the Brain: Image Reconstruction of Visual Perception from
Human Brain Signals [27.92796103924193]
脳波信号から視覚刺激像を再構成するための包括的パイプラインNeuroImagenを提案する。
我々は、与えられた脳波データから複数の粒度の出力を引き出すために、新しいマルチレベル知覚情報デコーディングを組み込んだ。
論文 参考訳(メタデータ) (2023-07-27T12:54:16Z) - Brain Captioning: Decoding human brain activity into images and text [1.5486926490986461]
本稿では,脳活動を意味のある画像やキャプションにデコードする革新的な手法を提案する。
提案手法は,最先端画像キャプションモデルを活用し,ユニークな画像再構成パイプラインを組み込んだものである。
生成したキャプションと画像の両方の定量的指標を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-05-19T09:57:19Z) - Compositional Scene Representation Learning via Reconstruction: A Survey [48.33349317481124]
構成シーン表現学習はそのような能力を実現するタスクである。
ディープニューラルネットワークは表現学習において有利であることが証明されている。
大量のラベルのないデータを使用し、費用がかかるデータアノテーションを避けることができるため、再構築による学習は有利である。
論文 参考訳(メタデータ) (2022-02-15T02:14:05Z) - Is Deep Image Prior in Need of a Good Education? [57.3399060347311]
画像再構成に有効な先行画像として, 奥行き画像が導入された。
その印象的な再建性にもかかわらず、学習技術や伝統的な再建技術と比べてアプローチは遅い。
計算課題に対処する2段階の学習パラダイムを開発する。
論文 参考訳(メタデータ) (2021-11-23T15:08:26Z) - Neural Fields in Visual Computing and Beyond [54.950885364735804]
機械学習の最近の進歩は、座標ベースニューラルネットワークを用いた視覚コンピューティング問題の解決への関心が高まっている。
ニューラルネットワークは、3D形状と画像の合成、人体のアニメーション、3D再構成、ポーズ推定に成功している。
本報告は、文脈、数学的基礎、および、ニューラルネットワークに関する文献の広範なレビューを提供する。
論文 参考訳(メタデータ) (2021-11-22T18:57:51Z) - NAS-DIP: Learning Deep Image Prior with Neural Architecture Search [65.79109790446257]
近年の研究では、深部畳み込みニューラルネットワークの構造が、以前に構造化された画像として利用できることが示されている。
我々は,より強い画像の先行を捉えるニューラルネットワークの探索を提案する。
既存のニューラルネットワーク探索アルゴリズムを利用して,改良されたネットワークを探索する。
論文 参考訳(メタデータ) (2020-08-26T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。