論文の概要: Dual-Control Frequency-Aware Diffusion Model for Depth-Dependent Optical Microrobot Microscopy Image Generation
- arxiv url: http://arxiv.org/abs/2604.11680v1
- Date: Mon, 13 Apr 2026 16:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.681248
- Title: Dual-Control Frequency-Aware Diffusion Model for Depth-Dependent Optical Microrobot Microscopy Image Generation
- Title(参考訳): 奥行き依存型光マイクロロボット顕微鏡画像生成のためのデュアルコントラル周波数対応拡散モデル
- Authors: Lan Wei, Zongcai Tan, Kangyi Lu, Jian-Qing Zheng, Dandan Zhang,
- Abstract要約: 物理的に一貫した顕微鏡画像合成のための二重制御・周波数認識拡散モデルであるDu-FreqNetを提案する。
微分可能なFFTベースの監視を活用することで、Du-FreqNetは物理的に意味のある周波数分布を、ピクセル空間法で欠落することが多い。
我々のモデルは制御可能な深度依存画像合成を実現し、ベースライン上でSSIMを20.7%改善する。
- 参考スコア(独自算出の注目度): 7.32096324372237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical microrobots actuated by optical tweezers (OT) are important for cell manipulation and microscale assembly, but their autonomous operation depends on accurate 3D perception. Developing such perception systems is challenging because large-scale, high-quality microscopy datasets are scarce, owing to complex fabrication processes and labor-intensive annotation. Although generative AI offers a promising route for data augmentation, existing generative adversarial network (GAN)-based methods struggle to reproduce key optical characteristics, particularly depth-dependent diffraction and defocus effects. To address this limitation, we propose Du-FreqNet, a dual-control, frequency-aware diffusion model for physically consistent microscopy image synthesis. The framework features two independent ControlNet branches to encode microrobot 3D point clouds and depth-specific mesh layers, respectively. We introduce an adaptive frequency-domain loss that dynamically reweights high- and low-frequency components based on the distance to the focal plane. By leveraging differentiable FFT-based supervision, Du-FreqNet captures physically meaningful frequency distributions often missed by pixel-space methods. Trained on a limited dataset (e.g., 80 images per pose), our model achieves controllable, depth-dependent image synthesis, improving SSIM by 20.7% over baselines. Extensive experiments demonstrate that Du-FreqNet generalizes effectively to unseen poses and significantly enhances downstream tasks, including 3D pose and depth estimation, thereby facilitating robust closed-loop control in microrobotic systems.
- Abstract(参考訳): 光ツイーザー(OT)によって活性化される光マイクロロボットは、細胞操作やマイクロスケールの組み立てにおいて重要であるが、それらの自律的な操作は正確な3D知覚に依存している。
このような認識システムの開発は、複雑な製造プロセスと労働集約的なアノテーションのため、大規模で高品質な顕微鏡データセットが不足しているため、難しい。
生成AIは、データ拡張のための有望な経路を提供するが、既存の生成逆数ネットワーク(GAN)ベースの手法は、重要な光学特性、特に深さ依存性の回折とデフォーカス効果を再現するのに苦労する。
この制限に対処するために、物理的に一貫した顕微鏡画像合成のための二重制御・周波数認識拡散モデルであるDu-FreqNetを提案する。
フレームワークには2つの独立したControlNetブランチがあり、それぞれ3Dポイントクラウドとディープ固有のメッシュレイヤをエンコードする。
本稿では,焦点面の距離に基づいて,高域と低域の成分を動的に重み付けする適応周波数領域損失を提案する。
微分可能なFFTベースの監視を活用することで、Du-FreqNetは物理的に意味のある周波数分布を、ピクセル空間法で欠落することが多い。
限られたデータセット(例えば1ポーズあたり80画像)でトレーニングし、制御可能で深度に依存した画像合成を実現し、ベースラインを20.7%上回るSSIMを改善する。
広汎な実験により、Du-FreqNetは、目に見えないポーズに効果的に一般化し、3Dポーズや深さ推定を含む下流タスクを大幅に強化し、マイクロロボティックシステムにおける堅牢な閉ループ制御を容易にすることが示されている。
関連論文リスト
- Deep learning EPI-TIRF cross-modality enables background subtraction and axial super-resolution for widefield fluorescence microscopy [22.180941479385755]
深層学習に基づくEPI-TIRFクロスモダリティネットワークET2dNetを開発し,TIRF対応のバックグラウンドサブトラクションと軸超解像を実現する。
また,成果物を再現する専用3次元再構成ネットワークET3dNetを開発した。
論文 参考訳(メタデータ) (2025-11-10T08:52:56Z) - Accelerating 3D Photoacoustic Computed Tomography with End-to-End Physics-Aware Neural Operators [74.65171736966131]
光音響計算トモグラフィ(PACT)は、光コントラストと超音波分解能を組み合わせることで、光拡散限界を超える深部像を実現する。
現在の実装では、高密度トランスデューサアレイと長い取得時間を必要とし、臨床翻訳を制限している。
本研究では,センサ計測からボリューム再構成まで,逆音響マッピングを直接学習する物理認識モデルであるPanoを紹介する。
論文 参考訳(メタデータ) (2025-09-11T23:12:55Z) - Latent Wavelet Diffusion For Ultra-High-Resolution Image Synthesis [56.311477476580926]
超高分解能(2K-4K)画像合成におけるディテールとテクスチャの忠実度を大幅に向上させる軽量トレーニングフレームワークであるLatent Wavelet Diffusion (LWD)を提案する。
LWDはウェーブレットエネルギーマップから導かれる新しい周波数対応マスキング戦略を導入し、潜在空間の詳細な領域にトレーニングプロセスを動的に焦点をあてる。
論文 参考訳(メタデータ) (2025-05-31T07:28:32Z) - V2V3D: View-to-View Denoised 3D Reconstruction for Light-Field Microscopy [12.356249860549472]
光電場顕微鏡(LFM)は、スナップショットベースで大規模な3D蛍光画像の撮影が可能であるため、注目されている。
既存のLFM再構成アルゴリズムは、センサーノイズに非常に敏感であるか、あるいはトレーニングのためにハード・トゥ・ザ・グラウンド・トゥルース・アノテート・データを必要とする。
本稿では,V2V3Dについて紹介する。V2V3Dは教師なしのビュー2ビューベースのフレームワークで,画像復調と3D再構成の協調最適化のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-04-10T15:29:26Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Enhancing Free-hand 3D Photoacoustic and Ultrasound Reconstruction using Deep Learning [3.8426872518410997]
本研究では,携帯型光音響・超音波(PAUS)画像における3次元再構成を支援するため,グローバルローカル自己保持モジュール(MoGLo-Net)を用いたモーションベース学習ネットワークを提案する。
MoGLo-Netは、連続した超音波画像内の完全に発達したスペックル領域や高発癌組織領域などの臨界領域を利用して、運動パラメータを正確に推定する。
論文 参考訳(メタデータ) (2025-02-05T11:59:23Z) - GPU-Accelerated RSF Level Set Evolution for Large-Scale Microvascular Segmentation [2.5003043942194236]
本稿では,地域スケーラブルフィッティング(RSF)レベルセットモデルの改訂と実装を提案する。
これにより、単命令多重データ(SIMD)と単プログラム多重データ(SPMD)並列処理の両方を用いて3次元評価が可能となる。
我々は、最先端イメージング技術を用いて取得した複数のデータセットに対して、この3次元並列RSF手法を用いて、微小血管データを取得することを試みた。
論文 参考訳(メタデータ) (2024-04-03T15:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。