論文の概要: Holo-VQVAE: VQ-VAE for phase-only holograms
- arxiv url: http://arxiv.org/abs/2404.01330v1
- Date: Fri, 29 Mar 2024 15:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-03 21:06:49.623383
- Title: Holo-VQVAE: VQ-VAE for phase-only holograms
- Title(参考訳): 位相限定ホログラムのためのホロVQVAE:VQ-VAE
- Authors: Joohyun Park, Hyeongyeop Kang,
- Abstract要約: ホログラフィーは視覚技術革新の最前線にあり、光波振幅と位相の操作による没入型3次元可視化を提供する。
ホログラム生成に関する最近の研究は、主に画像からホログラムへの変換に焦点を当てており、既存の画像からホログラムを生成する。
位相限定ホログラム(POHs)に適した新規な生成フレームワークであるHolo-VQVAEについて述べる。
- 参考スコア(独自算出の注目度): 1.534667887016089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Holography stands at the forefront of visual technology innovation, offering immersive, three-dimensional visualizations through the manipulation of light wave amplitude and phase. Contemporary research in hologram generation has predominantly focused on image-to-hologram conversion, producing holograms from existing images. These approaches, while effective, inherently limit the scope of innovation and creativity in hologram generation. In response to this limitation, we present Holo-VQVAE, a novel generative framework tailored for phase-only holograms (POHs). Holo-VQVAE leverages the architecture of Vector Quantized Variational AutoEncoders, enabling it to learn the complex distributions of POHs. Furthermore, it integrates the Angular Spectrum Method into the training process, facilitating learning in the image domain. This framework allows for the generation of unseen, diverse holographic content directly from its intricately learned latent space without requiring pre-existing images. This pioneering work paves the way for groundbreaking applications and methodologies in holographic content creation, opening a new era in the exploration of holographic content.
- Abstract(参考訳): ホログラフィーは視覚技術革新の最前線にあり、光波振幅と位相の操作による没入型3次元可視化を提供する。
ホログラム生成に関する現代の研究は、主に画像からホログラムへの変換に焦点を当てており、既存の画像からホログラムを生成する。
これらのアプローチは効果的であるが、本質的にホログラム生成における革新と創造性の範囲を制限している。
この制限に対応するために,位相限定ホログラム(POH)に適した新しい生成フレームワークであるHolo-VQVAEを提案する。
Holo-VQVAEはベクトル量子化変分オートエンコーダのアーキテクチャを利用して、POHの複雑な分布を学習する。
さらに、Angular Spectrum Methodをトレーニングプロセスに統合し、イメージドメインでの学習を容易にする。
このフレームワークは、既存の画像を必要とすることなく、複雑に学習された潜在空間から直接、目に見えない多様なホログラフィックコンテンツを生成することができる。
この先駆的な研究はホログラフィックコンテンツ作成における基礎的な応用と方法論の道を開き、ホログラフィックコンテンツ探索の新しい時代を開く。
関連論文リスト
- EndoGen: Conditional Autoregressive Endoscopic Video Generation [51.97720772069513]
本研究では,最初の条件付き内視鏡映像生成フレームワークであるEndoGenを提案する。
具体的には、時空間グリッドフレームパターンを調整した自己回帰モデルを構築する。
高品質で条件付き内視鏡コンテンツ作成におけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2025-07-23T10:32:20Z) - A Watermark for Auto-Regressive Image Generation Models [50.599325258178254]
画像生成モデル用に明示的に設計された歪みのない透かし法であるC-reweightを提案する。
C-reweightは画像の忠実性を維持しながら再起動ミスマッチを緩和する。
論文 参考訳(メタデータ) (2025-06-13T00:15:54Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - T-SVG: Text-Driven Stereoscopic Video Generation [87.62286959918566]
本稿では,テキスト駆動ステレオビデオ生成(T-SVG)システムを紹介する。
テキストプロンプトを使用してビデオ生成を合理化し、参照ビデオを作成する。
これらのビデオは、3Dポイントのクラウドシーケンスに変換され、微妙なパララックス差のある2つの視点からレンダリングされる。
論文 参考訳(メタデータ) (2024-12-12T14:48:46Z) - DreamPolish: Domain Score Distillation With Progressive Geometry Generation [66.94803919328815]
本稿では,高精細な幾何学と高品質なテクスチャの創出に優れたテキスト・ツー・3D生成モデルであるDreamPolishを紹介する。
幾何構成フェーズでは, 合成過程の安定性を高めるために, 複数のニューラル表現を利用する。
テクスチャ生成フェーズでは、そのような領域に向けて神経表現を導くために、新しいスコア蒸留、すなわちドメインスコア蒸留(DSD)を導入する。
論文 参考訳(メタデータ) (2024-11-03T15:15:01Z) - OAH-Net: A Deep Neural Network for Hologram Reconstruction of Off-axis Digital Holographic Microscope [5.835347176172883]
本稿では, 深層学習とオフ軸ホログラフィの物理原理を融合した新しい再構成手法を提案する。
我々のオフ軸ホログラムネットワーク(OAH-Net)は、ハードウェアに起因する測定誤差範囲内にある誤差のある位相および振幅画像を取得する。
この能力は、生物学的および医学の両方でオフ軸ホログラフィーの応用をさらに拡大する。
論文 参考訳(メタデータ) (2024-10-17T14:25:18Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - Quantum Generative Learning for High-Resolution Medical Image Generation [1.189046876525661]
既存のQGAN(Quantum Generative Adversarial Network)は、パッチベースのピクセル単位の学習アプローチのため、高品質な画像を生成することができない。
高品質な医用画像生成のための量子画像生成学習(QIGL)手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T04:04:32Z) - Latent Style-based Quantum GAN for high-quality Image Generation [28.3231031892146]
本稿では,GAN(Generative Adversarial Networks)の学習に古典量子アプローチを併用したLastnt Style-based Quantum GAN(LaSt-QGAN)を紹介する。
私たちのLaSt-QGANは、標準的なMNISTを超えるリアルなコンピュータビジョンデータセット、すなわちファッション製品であるFashion MNISTと10キュービットのSAT4(地球観測画像)でうまくトレーニングできます。
論文 参考訳(メタデータ) (2024-06-04T18:00:00Z) - Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。
LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。
我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-23T16:59:02Z) - Configurable Learned Holography [33.45219677645646]
本稿では,RGBのみの2次元画像から様々なホログラム表示のための3次元ホログラムをインタラクティブに計算する学習モデルを提案する。
我々は,3次元ホログラム合成タスクの深度推定と3次元ホログラム合成の相関関係の同定に,ホログラム計算を頼れるようにした。
論文 参考訳(メタデータ) (2024-03-24T13:57:30Z) - Stochastic Light Field Holography [35.73147050231529]
視覚チューリングテストはホログラフィックディスプレイのリアリズムを評価するための最終目標である。
従来の研究は、大規模な焦点音量に対する「注意」や画質の制限といった課題に対処することに注力してきた。
そこで本研究では,非コヒーレント光場の投影演算子をマッチングすることにより,ホログラム生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-12T16:20:08Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - HORIZON: High-Resolution Semantically Controlled Panorama Synthesis [105.55531244750019]
パノラマ合成は、仮想世界の中心にユーザーを没入させ、360度の視覚的な風景を再現する。
視覚合成の最近の進歩は、2次元平面画像における意味制御の可能性を解き放ったが、これらの手法のパノラマ合成への直接的応用は歪んだ内容を生み出す。
我々は,高分解能パノラマを生成するための革新的な枠組みを公表し,洗練された球面モデリングによる球面歪みとエッジ不連続性の問題に着目した。
論文 参考訳(メタデータ) (2022-10-10T09:43:26Z) - Time-multiplexed Neural Holography: A flexible framework for holographic
near-eye displays with fast heavily-quantized spatial light modulators [44.73608798155336]
ホログラフィックの近眼ディスプレイは、バーチャルおよび拡張現実システムに前例のない機能を提供する。
このようなホログラム近眼ディスプレイのカメラ校正波伝搬モデルの進歩を報告する。
我々のフレームワークは,2Dおよび2.5D RGBDイメージ,3D焦点スタック,4D光フィールドなど,さまざまなタイプのコンテンツで実行時の監視を支援するために柔軟である。
論文 参考訳(メタデータ) (2022-05-05T00:03:50Z) - Image quality enhancement of embedded holograms in holographic
information hiding using deep neural networks [0.0]
埋め込みホログラムの明るさはホストホログラムの明るさのごく一部に設定され、ホストホログラムのほとんど損傷を受けていない。
埋め込みホログラムの再構成画像は、再構成されたホスト画像よりも暗いため、知覚することは困難である。
本研究では、深層ニューラルネットワークを用いて暗色画像の復元を行う。
論文 参考訳(メタデータ) (2021-12-20T01:21:28Z) - Neural Étendue Expander for Ultra-Wide-Angle High-Fidelity Holographic Display [51.399291206537384]
現代のホログラフィックディスプレイは、表示領域と回折光の最大固体角度の積である低い「エンテンダ」を有する。
自然画像データセットから学習したニューラルな「固有拡大器」を提案する。
ニューラルネットワーク拡張器を用いて,64$times$ 'etendue expansion of natural image in full color, and expand the FOV by a magnitude of horizontal and vertically。
論文 参考訳(メタデータ) (2021-09-16T17:21:52Z) - Learned holographic light transport [2.642698101441705]
ホログラフィーアルゴリズムはしばしば物理ホログラフィーディスプレイの結果と一致するシミュレーションで不足する。
我々の研究はホログラフィックディスプレイのホログラフィック光輸送を学習することで、このミスマッチに対処する。
本手法はホログラフィックディスプレイのシミュレーション精度と画質を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-08-01T12:05:33Z) - Structure and Design of HoloGen [0.0]
CGHは焦点深度、調節度、収束度を含む光場を完全に表現することができる。
HoloGenはMITライセンスのアプリケーションで、専門家の指導なしに幅広いアルゴリズムを使ってホログラムを生成するために使われる。
論文 参考訳(メタデータ) (2020-06-18T13:29:46Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。