論文の概要: Scene Depth Estimation from Traditional Oriental Landscape Paintings
- arxiv url: http://arxiv.org/abs/2403.03408v1
- Date: Wed, 6 Mar 2024 02:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:23:06.830205
- Title: Scene Depth Estimation from Traditional Oriental Landscape Paintings
- Title(参考訳): 伝統的東洋景観絵画からの景観深度推定
- Authors: Sungho Kang, YeongHyeon Park, Hyunkyu Park and Juneho Yi
- Abstract要約: 絵画からのシーン深度推定は、視覚障害者が触覚で絵画を鑑賞できるように、3D彫刻作成の過程を合理化することができる。
しかし、奥行きや保存不足を描写する独自の手法により、東洋の風景画の奥行きを計測することは極めて困難である。
本稿では,CLIPに基づく画像マッチングをフロントエンドで行う2段階画像変換手法を提案する。
- 参考スコア(独自算出の注目度): 2.3436859057833885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene depth estimation from paintings can streamline the process of 3D
sculpture creation so that visually impaired people appreciate the paintings
with tactile sense. However, measuring depth of oriental landscape painting
images is extremely challenging due to its unique method of depicting depth and
poor preservation. To address the problem of scene depth estimation from
oriental landscape painting images, we propose a novel framework that consists
of two-step Image-to-Image translation method with CLIP-based image matching at
the front end to predict the real scene image that best matches with the given
oriental landscape painting image. Then, we employ a pre-trained SOTA depth
estimation model for the generated real scene image. In the first step,
CycleGAN converts an oriental landscape painting image into a pseudo-real scene
image. We utilize CLIP to semantically match landscape photo images with an
oriental landscape painting image for training CycleGAN in an unsupervised
manner. Then, the pseudo-real scene image and oriental landscape painting image
are fed into DiffuseIT to predict a final real scene image in the second step.
Finally, we measure depth of the generated real scene image using a pre-trained
depth estimation model such as MiDaS. Experimental results show that our
approach performs well enough to predict real scene images corresponding to
oriental landscape painting images. To the best of our knowledge, this is the
first study to measure the depth of oriental landscape painting images. Our
research potentially assists visually impaired people in experiencing paintings
in diverse ways. We will release our code and resulting dataset.
- Abstract(参考訳): 絵画からのシーン深度推定は、視覚障害者が触覚で絵画を鑑賞できるように、3D彫刻作成の過程を合理化することができる。
しかし、奥行きや保存不足を描写する独自の方法により、東洋の風景画の深さを測定することは極めて困難である。
東洋の風景画画像からシーン深度を推定する問題に対処するため,CLIPをベースとした2段階の画像変換手法を前面に配置し,与えられた東洋の風景画画像と最もよく一致する実景画像を予測する新しい枠組みを提案する。
次に,生成された実シーン画像に対して,事前学習したSOTA深度推定モデルを用いる。
最初のステップでは、CycleGANは、東洋の風景画画像を擬似現実の風景画に変換する。
我々はCLIPを用いて風景画像と東洋の風景画像とをセマンティックにマッチングし、CycleGANを教師なしで訓練する。
そして、擬似現実風景画像と東洋風景絵画画像とをDiffuseITに入力し、第2ステップで最終現実風景画像を予測する。
最後に,midasのような事前学習した深度推定モデルを用いて,生成した実景画像の深さを測定する。
実験結果から,本手法はオリエンタル・ランドスケープ・ペインティング・イメージに対応する実際のシーン画像を予測するのに十分な性能を示した。
我々の知る限りでは、これは東洋の風景画の深さを測定する最初の研究である。
私たちの研究は、視覚障害者が様々な方法で絵を体験するのに役立つ可能性がある。
コードと結果のデータセットをリリースします。
関連論文リスト
- Sketch-Guided Scene Image Generation [11.009579131371018]
スケッチ入力からシーン画像を生成するタスクを分解したスケッチ誘導シーン画像生成フレームワークを提案する。
事前学習した拡散モデルを用いて、個々のオブジェクトの描画をオブジェクトのイメージに変換し、余分なスケッチ構造を維持しながら追加の詳細を推測する。
シーンレベルの画像構築において、分離した背景プロンプトを用いてシーン画像の潜在表現を生成する。
論文 参考訳(メタデータ) (2024-07-09T00:16:45Z) - Boosting Self-Supervision for Single-View Scene Completion via Knowledge Distillation [39.08243715525956]
Structure from Motionを通して画像からシーン幾何学を推定することは、コンピュータビジョンにおける長年の根本的問題である。
ニューラルレイディアンス場(NeRF)の人気が高まり、暗黙の表現もシーン完了のために人気になった。
本稿では,複数の画像からシーン再構成を融合させ,その知識をより正確な単一視点のシーン再構成に変換することを提案する。
論文 参考訳(メタデータ) (2024-04-11T17:30:24Z) - DLP-GAN: learning to draw modern Chinese landscape photos with
generative adversarial network [20.74857981451259]
中国の風景画は独特で芸術的な様式であり、その画法は色と現実的な物体表現の両方において非常に抽象的である。
従来は、近代の絵から古代の墨画への移行に焦点が当てられていたが、風景画を近代の絵に翻訳することにはほとんど関心が向けられていない。
論文 参考訳(メタデータ) (2024-03-06T04:46:03Z) - Stroke-based Neural Painting and Stylization with Dynamically Predicted
Painting Region [66.75826549444909]
ストロークベースのレンダリングは、ストロークのセットで画像を再現することを目的としている。
本研究では,現在のキャンバスに基づいて絵画領域を予測する合成ニューラルネットワークを提案する。
我々は、新しい微分可能な距離変換損失を伴って、ストロークベースのスタイル転送に拡張する。
論文 参考訳(メタデータ) (2023-09-07T06:27:39Z) - RIC: Rotate-Inpaint-Complete for Generalizable Scene Reconstruction [43.63574200858472]
一般的なシーン再構成は、以前は目に見えない物体を含むシーンの完全な3次元形状とテクスチャを推定する作業である。
本稿では,2次元から3次元のシーンリフティングによる新しいビューのレンダリングと2次元から3次元のシーンリフティングという2つのステップに分割して,シーン再構築手法を提案する。
論文 参考訳(メタデータ) (2023-07-21T22:39:41Z) - Scene-aware Egocentric 3D Human Pose Estimation [72.57527706631964]
頭部に1台の魚眼カメラを装着したエゴセントリックな3Dポーズ推定は、仮想現実や拡張現実における多くの応用により、近年注目を集めている。
既存の方法はまだ、人間の体が非常に隠蔽されている、あるいはシーンと密接な相互作用がある、挑戦的なポーズに苦慮している。
本研究では,シーン制約による自己中心型ポーズの予測を導くシーン認識型自己中心型ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T21:35:39Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Designing An Illumination-Aware Network for Deep Image Relighting [69.750906769976]
本稿では、階層的なサンプリングから1つの画像からシーンを段階的にリライトするためのガイダンスに従うイルミネーション・アウェア・ネットワーク(IAN)を提案する。
さらに、物理レンダリングプロセスの近似として、イルミネーション・アウェア・残留ブロック(IARB)が設計されている。
実験の結果,提案手法は従来の最先端手法よりも定量的,定性的な照準結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-07-21T16:21:24Z) - Estimating Image Depth in the Comics Domain [59.275961069130304]
市販の教師なし画像を用いて、漫画の画像を自然なものに翻訳する画像変換を行う。
次に、注意誘導単眼深度推定器を用いて深度を推定する。
本モデルでは,コミックパネル内のテキストと画像の区別を学習し,奥行き推定におけるテキストベースアーティファクトの低減を図る。
論文 参考訳(メタデータ) (2021-10-07T15:54:27Z) - Guidance and Evaluation: Semantic-Aware Image Inpainting for Mixed
Scenes [54.836331922449666]
本稿では,SGE-Net(Semantic Guidance and Evaluation Network)を提案する。
セマンティックセグメンテーションマップをインペイントの各尺度のガイダンスとして利用し、そこで位置依存推論を再評価する。
混合シーンの現実画像に対する実験により,提案手法が最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-15T17:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。