論文の概要: Neural-Driven Image Editing
- arxiv url: http://arxiv.org/abs/2507.05397v1
- Date: Mon, 07 Jul 2025 18:31:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.301641
- Title: Neural-Driven Image Editing
- Title(参考訳): ニューラル駆動画像編集
- Authors: Pengfei Zhou, Jie Xia, Xiaopeng Peng, Wangbo Zhao, Zilong Ye, Zekai Li, Suorong Yang, Jiadong Pan, Yuanxiang Chen, Ziqiao Wang, Kai Wang, Qian Zheng, Xiaojun Chang, Gang Pan, Shurong Dong, Kaipeng Zhang, Yang You,
- Abstract要約: 従来の画像編集は手動のプロンプトに依存しており、運動制御や言語能力に制限のある個人には労働集約的でアクセスできない。
神経生理学的信号によるハンズフリー画像編集手法であるLoongXを提案する。
LoongXは、23,928の画像編集ペアの包括的なデータセットに基づいてトレーニングされた最先端の拡散モデルを使用している。
- 参考スコア(独自算出の注目度): 51.11173675034121
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional image editing typically relies on manual prompting, making it labor-intensive and inaccessible to individuals with limited motor control or language abilities. Leveraging recent advances in brain-computer interfaces (BCIs) and generative models, we propose LoongX, a hands-free image editing approach driven by multimodal neurophysiological signals. LoongX utilizes state-of-the-art diffusion models trained on a comprehensive dataset of 23,928 image editing pairs, each paired with synchronized electroencephalography (EEG), functional near-infrared spectroscopy (fNIRS), photoplethysmography (PPG), and head motion signals that capture user intent. To effectively address the heterogeneity of these signals, LoongX integrates two key modules. The cross-scale state space (CS3) module encodes informative modality-specific features. The dynamic gated fusion (DGF) module further aggregates these features into a unified latent space, which is then aligned with edit semantics via fine-tuning on a diffusion transformer (DiT). Additionally, we pre-train the encoders using contrastive learning to align cognitive states with semantic intentions from embedded natural language. Extensive experiments demonstrate that LoongX achieves performance comparable to text-driven methods (CLIP-I: 0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) and outperforms them when neural signals are combined with speech (CLIP-T: 0.2588 vs. 0.2549). These results highlight the promise of neural-driven generative models in enabling accessible, intuitive image editing and open new directions for cognitive-driven creative technologies. Datasets and code will be released to support future work and foster progress in this emerging area.
- Abstract(参考訳): 従来の画像編集は手動のプロンプトに依存しており、運動制御や言語能力に制限のある個人には労働集約的でアクセスできない。
脳-コンピュータインタフェース(BCI)と生成モデルにおける最近の進歩を活用して,マルチモーダルな神経生理学的信号によって駆動されるハンズフリーな画像編集手法であるLoongXを提案する。
LoongXは23,928枚の画像編集ペアの包括的なデータセットに基づいてトレーニングされた最先端拡散モデルを使用しており、それぞれに同期脳波(EEG)、機能近赤外分光(fNIRS)、光胸腺撮影(PPG)、ユーザーの意図を捉えるヘッドモーション信号が組み合わされている。
これらの信号の不均一性に効果的に対処するために、LoongXは2つの重要なモジュールを統合する。
クロススケール状態空間(CS3)モジュールは情報モダリティ固有の特徴を符号化する。
動的ゲート融合(DGF)モジュールはこれらの機能を統一潜在空間に集約し、拡散変圧器(DiT)の微調整によってセマンティクスを編集する。
さらに、コントラスト学習を用いてエンコーダを事前訓練し、認識状態を組み込み自然言語からの意味的意図と整合させる。
広汎な実験により、LoongXはテキスト駆動手法(CLIP-I: 0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636)に匹敵する性能を達成し、音声(CLIP-T: 0.2588 vs. 0.2549)と組み合わせると、それらを上回る性能を発揮する。
これらの結果は、アクセシブルで直感的な画像編集を可能にし、認知駆動型創造技術のための新しい方向を開くことにおける、ニューラル駆動生成モデルの約束を強調している。
データセットとコードは、将来の作業をサポートし、この新興領域の進歩を促進するためにリリースされます。
関連論文リスト
- Neuro2Semantic: A Transfer Learning Framework for Semantic Reconstruction of Continuous Language from Human Intracranial EEG [11.531598524209969]
頭蓋内脳波(iEEG)記録から知覚音声の意味内容を再構築する新しい枠組みであるNeuro2Semanticを紹介する。
まず、LSTMベースのアダプタが、トレーニング済みのテキスト埋め込みとニューラルネットワークをアライメントし、次に、修正モジュールがこれらのアライメントされた埋め込みから直接、連続した自然なテキストを生成する。
Neuro2Semanticは、30分以内のニューラルデータで強力なパフォーマンスを達成し、ローデータ設定における最新の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2025-05-31T04:17:19Z) - CoSimGen: Controllable Diffusion Model for Simultaneous Image and Mask Generation [1.9393128408121891]
既存の生成モデルは、高品質で同時画像マスク生成の必要性に対処できない。
本稿では,同時画像生成とマスク生成を同時に行うための拡散型フレームワークであるCoSimGenを提案する。
CoSimGenはすべてのデータセットで最先端のパフォーマンスを達成し、データセットで0.11、LPIPSで0.53の最低KIDを達成した。
論文 参考訳(メタデータ) (2025-03-25T13:48:22Z) - Gen-SIS: Generative Self-augmentation Improves Self-supervised Learning [52.170253590364545]
Gen-SISは、ラベルのない画像データにのみ訓練された拡散ベースの拡張技術である。
これらの自己増強、すなわちバニラSSLエンコーダの埋め込みに基づく生成増強は、より強力なSSLエンコーダのトレーニングを促進することを示す。
論文 参考訳(メタデータ) (2024-12-02T16:20:59Z) - Mind's Eye: Image Recognition by EEG via Multimodal Similarity-Keeping Contrastive Learning [2.087148326341881]
本稿では,ゼロショット脳波画像分類のためのMUltimodal similarity-keeper contrastivE学習フレームワークを提案する。
我々は、脳波信号に適した多変量時系列エンコーダを開発し、正規化コントラスト脳波画像事前学習の有効性を評価する。
本手法は,200方向ゼロショット画像分類において,トップ1の精度が19.3%,トップ5の精度が48.8%の最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-05T16:42:23Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。