Fugu-MT 論文翻訳(概要): Curved Diffusion: A Generative Model With Optical Geometry Control

論文の概要: Curved Diffusion: A Generative Model With Optical Geometry Control

arxiv url: http://arxiv.org/abs/2311.17609v2
Date: Mon, 15 Jul 2024 09:47:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 02:44:20.720734
Title: Curved Diffusion: A Generative Model With Optical Geometry Control
Title（参考訳）: 曲線拡散:光学幾何学制御を用いた生成モデル
Authors: Andrey Voynov, Amir Hertz, Moab Arar, Shlomi Fruchter, Daniel Cohen-Or,
Abstract要約: 最終シーンの外観に対する異なる光学系の影響は、しばしば見過ごされる。本研究では,画像レンダリングに使用される特定のレンズとテキスト画像拡散モデルを密接に統合するフレームワークを提案する。
参考スコア（独自算出の注目度）: 56.24220665691974
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: State-of-the-art diffusion models can generate highly realistic images based on various conditioning like text, segmentation, and depth. However, an essential aspect often overlooked is the specific camera geometry used during image capture. The influence of different optical systems on the final scene appearance is frequently overlooked. This study introduces a framework that intimately integrates a text-to-image diffusion model with the particular lens geometry used in image rendering. Our method is based on a per-pixel coordinate conditioning method, enabling the control over the rendering geometry. Notably, we demonstrate the manipulation of curvature properties, achieving diverse visual effects, such as fish-eye, panoramic views, and spherical texturing using a single diffusion model.
Abstract（参考訳）: 最先端拡散モデルは、テキスト、セグメンテーション、深さといった様々な条件に基づいて、非常にリアルな画像を生成することができる。しかし、しばしば見過ごされる重要な側面は、画像キャプチャで使用される特定のカメラ形状である。最終シーンの外観に対する異なる光学系の影響は、しばしば見過ごされる。本研究では,テキスト・ツー・イメージ拡散モデルと,画像レンダリングに使用される特定のレンズ形状を密接に統合するフレームワークを提案する。本手法は画素単位の座標条件付け法に基づいて,描画形状の制御を可能にする。特に,魚眼,パノラマビュー,球面テクスチャといった多様な視覚効果を単一拡散モデルで再現し,曲率特性の操作を実演する。

関連論文リスト

AlignDiff: Learning Physically-Grounded Camera Alignment via Diffusion [0.5277756703318045]
本稿では,カメラ内在パラメータと外在パラメータをジェネリック・レイ・カメラ・モデルを用いて扱う新しいフレームワークを提案する。従来のアプローチとは異なり、AlignDiffは意味論から幾何学的特徴へ焦点を移し、局所歪みのより正確なモデリングを可能にした。実験により,提案手法は,推定光束の角誤差を8.2度,全体のキャリブレーション精度で著しく低減し,課題のある実世界のデータセットに対する既存手法よりも優れていることを示した。
論文参考訳（メタデータ） (2025-03-27T14:59:59Z)
Bokeh Diffusion: Defocus Blur Control in Text-to-Image Diffusion Models [26.79219274697864]
現在の拡散モデルは通常、そのような効果を模倣するために急進的な工学に依存している。シーン一貫性のあるボケ制御フレームワークであるボケ拡散を提案する。提案手法は、フレキシブルでレンズライクなぼかし制御を実現し、インバージョンによる実際の画像編集などのアプリケーションをサポートする。
論文参考訳（メタデータ） (2025-03-11T13:49:12Z)
RMAFF-PSN: A Residual Multi-Scale Attention Feature Fusion Photometric Stereo Network [37.759675702107586]
複雑な構造空間材料変化領域における2次元画像からの物体の正確な地図の予測は困難である。画像の解像度の異なるステージとスケールから特徴情報を校正する手法を提案する。このアプローチは、複雑な領域における物体のテクスチャや幾何学といった、より物理的な情報を保存する。
論文参考訳（メタデータ） (2024-04-11T14:05:37Z)
SphereDiffusion: Spherical Geometry-Aware Distortion Resilient Diffusion Model [63.685132323224124]
制御可能な球状パノラマ画像生成は、様々な領域でかなりの応用可能性を持っている。本稿では,これらの課題に対処するために,SphereDiffusionの新しいフレームワークを提案する。 Structured3Dデータセットの実験では、SphereDiffusionは制御可能な球面画像生成の品質を大幅に改善し、平均して約35%のFIDを相対的に削減している。
論文参考訳（メタデータ） (2024-03-15T06:26:46Z)
Geo-SIC: Learning Deformable Geometric Shapes in Deep Image Classifiers [8.781861951759948]
本稿では,画像分類の性能向上のために,変形空間における変形可能な形状を学習する最初のディープラーニングモデルGeo-SICを提案する。画像空間と潜時形状空間の両方から特徴を同時に導出する,クラス内変動の大きい新設計のフレームワークを提案する。幾何学的形状表現の教師なし学習を取り入れた強化型分類網を開発した。
論文参考訳（メタデータ） (2022-10-25T01:55:17Z)
Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文参考訳（メタデータ） (2022-04-21T03:42:31Z)
NeROIC: Neural Rendering of Objects from Online Image Collections [42.02832046768925]
本稿では,オンライン画像コレクションからオブジェクト表現を取得し,任意のオブジェクトの高品質な形状と材料特性をキャプチャする手法を提案する。これにより、新規ビュー合成、リライト、調和した背景合成など、さまざまなオブジェクト中心のレンダリングアプリケーションが可能になる。
論文参考訳（メタデータ） (2022-01-07T16:45:15Z)
Light Field Neural Rendering [47.7586443731997]
幾何再構成に基づく手法はスパースビューのみを必要とするが、非ランベルト効果を正確にモデル化することはできない。強みを組み合わせたモデルを導入し、これらの2つの方向の制限を緩和する。我々のモデルは、複数の前方向きデータセットと360degデータセットで最先端のモデルより優れています。
論文参考訳（メタデータ） (2021-12-17T18:58:05Z)
Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文参考訳（メタデータ） (2021-02-04T14:26:42Z)
SIR: Self-supervised Image Rectification via Seeing the Same Scene from Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文参考訳（メタデータ） (2020-11-30T08:23:25Z)
Wide-angle Image Rectification: A Survey [86.36118799330802]
広角画像は、基礎となるピンホールカメラモデルに反する歪みを含む。これらの歪みを補正することを目的とした画像修正は、これらの問題を解決することができる。本稿では、異なるアプローチで使用されるカメラモデルについて、詳細な説明と議論を行う。次に,従来の幾何学に基づく画像修正手法と深層学習法の両方について検討する。
論文参考訳（メタデータ） (2020-10-30T17:28:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。