論文の概要: HAVIR: HierArchical Vision to Image Reconstruction using CLIP-Guided Versatile Diffusion
- arxiv url: http://arxiv.org/abs/2510.03122v1
- Date: Fri, 03 Oct 2025 15:50:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.468146
- Title: HAVIR: HierArchical Vision to Image Reconstruction using CLIP-Guided Versatile Diffusion
- Title(参考訳): HAVIR: CLIP-Guided Versatile Diffusion を用いた画像再構成のための階層的ビジョン
- Authors: Shiyi Zhang, Dong Liang, Hairong Zheng, Yihang Zhou,
- Abstract要約: HAVIRモデルは視覚野を2つの階層領域に分離し、それぞれの特徴を抽出する。
以上の結果から,HAVIRは複雑なシーンにおいても,再構成の構造的品質と意味的品質を両立させることが示された。
- 参考スコア(独自算出の注目度): 11.802381972880447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reconstruction of visual information from brain activity fosters interdisciplinary integration between neuroscience and computer vision. However, existing methods still face challenges in accurately recovering highly complex visual stimuli. This difficulty stems from the characteristics of natural scenes: low-level features exhibit heterogeneity, while high-level features show semantic entanglement due to contextual overlaps. Inspired by the hierarchical representation theory of the visual cortex, we propose the HAVIR model, which separates the visual cortex into two hierarchical regions and extracts distinct features from each. Specifically, the Structural Generator extracts structural information from spatial processing voxels and converts it into latent diffusion priors, while the Semantic Extractor converts semantic processing voxels into CLIP embeddings. These components are integrated via the Versatile Diffusion model to synthesize the final image. Experimental results demonstrate that HAVIR enhances both the structural and semantic quality of reconstructions, even in complex scenes, and outperforms existing models.
- Abstract(参考訳): 脳活動からの視覚情報の再構築は神経科学とコンピュータビジョンの学際的な統合を促進する。
しかし、既存の手法は、非常に複雑な視覚刺激を正確に回復する上で、依然として課題に直面している。
低レベルの特徴は異質性を示し、高レベルの特徴は文脈的重複による意味的絡み合いを示す。
視覚野の階層的表現理論に着想を得て,視覚野を2つの階層的領域に分離し,それぞれの特徴を抽出するHAVIRモデルを提案する。
具体的には、構造生成器は、空間処理ボクセルから構造情報を抽出し、遅延拡散先に変換する一方、セマンティックエクストラクタはセマンティック処理ボクセルをCLIP埋め込みに変換する。
これらのコンポーネントはVersatile Diffusionモデルを介して統合され、最終的なイメージを合成する。
実験結果から,HAVIRは複雑なシーンにおいても再構成の構造的品質と意味的品質を向上し,既存モデルより優れていることが示された。
関連論文リスト
- HAVIR: HierArchical Vision to Image Reconstruction using CLIP-Guided Versatile Diffusion [3.9136086794667597]
脳の活動から視覚情報を再構築することは神経科学とコンピュータビジョンのギャップを埋める。
HAVIRは複雑なシナリオにおいても視覚刺激の構造的特徴と意味的情報の両方を再構築する。
論文 参考訳(メタデータ) (2025-06-06T12:33:49Z) - Manifold-aware Representation Learning for Degradation-agnostic Image Restoration [135.90908995927194]
画像復元(IR)は、ノイズ、ぼかし、迷路、雨、低照度といった様々な汚職に影響を受ける劣化した入力から高品質な画像を復元することを目的としている。
我々は、入力特徴空間を3つのセマンティックに整列した並列分岐に明示的に分解する1つのIRにおいて、すべてに統一されたフレームワークであるMIRAGEを提案する。
このモジュラ分解は、多種多様な分解の一般化と効率を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-24T12:52:10Z) - ArtGS: Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting [66.29782808719301]
コンピュータビジョンにおいて、音声で表現されたオブジェクトを構築することが重要な課題である。
既存のメソッドは、しばしば異なるオブジェクト状態間で効果的に情報を統合できない。
3次元ガウスを柔軟かつ効率的な表現として活用する新しいアプローチであるArtGSを紹介する。
論文 参考訳(メタデータ) (2025-02-26T10:25:32Z) - Unpaired Deblurring via Decoupled Diffusion Model [55.21345354747609]
UID-Diffは,未知領域における劣化性能の向上を目的とした生成拡散モデルである。
構造的特徴とぼかしパターン抽出器を別々に用いて, 抽出した特徴は, 合成データに対する教師付きデブロアリングタスクと教師なしのぼかし転送タスクに使用される。
実世界のデータセットの実験では、UID-Diffが既存の最先端の手法よりも、ぼやけた除去と構造保存に優れていることが示されている。
論文 参考訳(メタデータ) (2025-02-03T17:00:40Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [7.597218661195779]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みが安定拡散される。
ステージ2では、fMRIからデコードされたCLIP視覚特徴を監視情報として利用し、バックパゲーションによりステージ1でデコードされた2つの特徴ベクトルを継続的に調整し、構造情報を整列させる。
論文 参考訳(メタデータ) (2023-08-08T13:28:34Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [8.299415606889024]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、fMRIからデコードされたVQ-VAE潜在表現とCLIPテキスト埋め込みが、安定拡散のイメージ・ツー・イメージのプロセスに置かれる。
ステージ2では、fMRIからデコードされた低レベルCLIP視覚特徴を監視情報として利用する。
論文 参考訳(メタデータ) (2023-03-24T16:41:42Z) - Bridging Component Learning with Degradation Modelling for Blind Image
Super-Resolution [69.11604249813304]
視覚障害者のためのコンポーネント分解・協調最適化ネットワーク(CDCN)を提案する。
CDCNは入力LR画像を特徴空間の構造と詳細成分に分解する。
本稿では,HR画像の細部と構造復元過程を協調的に監督する,劣化駆動型学習戦略を提案する。
論文 参考訳(メタデータ) (2022-12-03T14:53:56Z) - High-resolution Face Swapping via Latent Semantics Disentanglement [50.23624681222619]
本稿では,事前学習したGANモデルの事前知識を用いた,新しい高分解能幻覚顔交換法を提案する。
我々は、ジェネレータの進行的な性質を利用して、潜在意味論を明示的に解き放つ。
我々は,2時間制約を潜時空間と画像空間に課すことにより,映像面スワップに拡張する。
論文 参考訳(メタデータ) (2022-03-30T00:33:08Z) - NeuS: Learning Neural Implicit Surfaces by Volume Rendering for
Multi-view Reconstruction [88.02850205432763]
物体やシーンを2次元画像入力から高忠実度に再構成するニュートラルサーフェス(NeuS)を提案する。
DVRやIDRのような既存の神経表面再構成アプローチでは、フォアグラウンドマスクを監督する必要がある。
本研究では,従来のボリュームレンダリング手法が表面再構成に固有の幾何学的誤差を引き起こすことを観察する。
マスクの監督なしでもより正確な表面再構成を実現するため,第一次近似ではバイアスのない新しい定式化を提案する。
論文 参考訳(メタデータ) (2021-06-20T12:59:42Z) - Reconstructing Perceptive Images from Brain Activity by Shape-Semantic
GAN [16.169414324390218]
fMRI記録からの画像の再構成は神経科学の吸収研究領域である。
脳内の視覚的エンコーディングは非常に複雑で、完全には明らかになっていない。
視覚的特徴が大脳皮質で階層的に表現されるという理論に着想を得て,複雑な視覚信号を多段階成分に分解することを提案する。
論文 参考訳(メタデータ) (2021-01-28T16:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。