論文の概要: Oitijjo-3D: Generative AI Framework for Rapid 3D Heritage Reconstruction from Street View Imagery
- arxiv url: http://arxiv.org/abs/2511.00362v1
- Date: Sat, 01 Nov 2025 02:09:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.740609
- Title: Oitijjo-3D: Generative AI Framework for Rapid 3D Heritage Reconstruction from Street View Imagery
- Title(参考訳): Oitijjo-3D: ストリートビュー画像からの3D遺産の迅速な復元のための生成AIフレームワーク
- Authors: Momen Khandoker Ope, Akif Islam, Mohd Ruhul Ameen, Abu Saleh Musa Miah, Md Rashedul Islam, Jungpil Shin,
- Abstract要約: Oitijjo-3Dは3D文化保存を民主化する無償のジェネレーティブAIフレームワークである。
Oitijjo-3Dは、2段階のパイプラインを通して、遺産構造の忠実な3Dモデルを再構築する。
システムは数秒でフォトリアリスティックで計量的にコヒーレントな再構成を生成する。
- 参考スコア(独自算出の注目度): 1.4658400971135652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cultural heritage restoration in Bangladesh faces a dual challenge of limited resources and scarce technical expertise. Traditional 3D digitization methods, such as photogrammetry or LiDAR scanning, require expensive hardware, expert operators, and extensive on-site access, which are often infeasible in developing contexts. As a result, many of Bangladesh's architectural treasures, from the Paharpur Buddhist Monastery to Ahsan Manzil, remain vulnerable to decay and inaccessible in digital form. This paper introduces Oitijjo-3D, a cost-free generative AI framework that democratizes 3D cultural preservation. By using publicly available Google Street View imagery, Oitijjo-3D reconstructs faithful 3D models of heritage structures through a two-stage pipeline - multimodal visual reasoning with Gemini 2.5 Flash Image for structure-texture synthesis, and neural image-to-3D generation through Hexagen for geometry recovery. The system produces photorealistic, metrically coherent reconstructions in seconds, achieving significant speedups compared to conventional Structure-from-Motion pipelines, without requiring any specialized hardware or expert supervision. Experiments on landmarks such as Ahsan Manzil, Choto Sona Mosque, and Paharpur demonstrate that Oitijjo-3D preserves both visual and structural fidelity while drastically lowering economic and technical barriers. By turning open imagery into digital heritage, this work reframes preservation as a community-driven, AI-assisted act of cultural continuity for resource-limited nations.
- Abstract(参考訳): バングラデシュの文化遺産の修復は、限られた資源と専門知識の不足という2つの課題に直面している。
従来の3Dデジタル化手法であるフォトグラム法やLiDARスキャンでは、高価なハードウェア、エキスパート演算子、広範囲のオンサイトアクセスが必要であり、開発環境では利用できないことが多い。
結果として、パハルプル・仏教修道院からアフサン・マンジルまで、バングラデシュの建築遺産の多くは、崩壊に弱いままであり、デジタル形式ではアクセスできないままである。
本稿では,3次元文化保存を民主化するコストフリーな生成型AIフレームワークであるOitijjo-3Dを紹介する。
Oitijjo-3Dは、公開されたGoogleストリートビューの画像を使用することで、2段階のパイプラインを通じて、遺産構造の忠実な3Dモデルを再構築する。
このシステムは、特定のハードウェアや専門家の監督を必要とせず、従来のStructure-from-Motionパイプラインに比べて大幅にスピードアップする。
Ahsan Manzil、Choto Sona Mosque、Paharpurといったランドマークの実験では、Oitijjo-3Dは視覚的および構造的忠実さを保ちながら、経済的および技術的な障壁を劇的に減らすことを示した。
オープンイメージをデジタル遺産にすることで、この研究は、資源制限国に対するコミュニティ主導のAI支援的な文化的連続性行為として保存を再構築する。
関連論文リスト
- WorldGrow: Generating Infinite 3D World [75.81531067447203]
我々は、無限に拡張可能な3D世界、すなわちコヒーレントな幾何学と現実的な外観を持つ大規模で連続的な環境を生み出すという課題に取り組む。
本研究では,非有界な3次元シーン合成のための階層的フレームワークWorldGrowを提案する。
提案手法は,(1)高品質なシーンブロックを抽出し,シーン生成に適した3D構造化潜在表現を作成するデータキュレーションパイプライン,(2)コンテキスト認識シーン拡張を可能にする3Dブロックインペイント機構,(3)グローバルなレイアウトの妥当性と局所幾何学的/音声的忠実性の両立を保証する粗大かつ微細な生成戦略,の3つのコアコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2025-10-24T17:39:52Z) - PE3R: Perception-Efficient 3D Reconstruction [54.730257992806116]
Perception-Efficient 3D Reconstruction (PE3R) は、精度と効率の両立を図った新しいフレームワークである。
このフレームワークは3次元のセマンティックフィールド再構成において最小9倍のスピードアップを実現し、認識精度と再現精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-10T16:29:10Z) - Enhancement of 3D Gaussian Splatting using Raw Mesh for Photorealistic Recreation of Architectures [12.96911281844627]
本研究では,3次元ガウスモデルを用いて建物の基本形状を抽出する手法を提案する。
この調査は,建築設計分野における3次元再構築技術の有効性を向上する新たな可能性を開くものである。
論文 参考訳(メタデータ) (2024-07-22T07:29:38Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Tirtha -- An Automated Platform to Crowdsource Images and Create 3D
Models of Heritage Sites [0.0]
文化遺産のデジタル保存は、自然災害や人的活動による被害から保護するために重要である。
CHサイトの3Dモデルの作成は、コンピュータビジョンとフォトグラムメトリーの進歩により、デジタル保存の一般的な方法となっている。
我々は,CHサイトの画像をクラウドソーシングし,それらの3Dモデルを作成するためのWebプラットフォームであるTirthaを提案する。
論文 参考訳(メタデータ) (2023-08-02T16:00:39Z) - Towers of Babel: Combining Images, Language, and 3D Geometry for
Learning Multimodal Vision [50.07532560364523]
本稿では,字幕と階層的カテゴリ名という形で記述テキストを含む,ランドマーク写真コレクションの大規模データセットを提案する。
WikiScenesは、画像、テキスト、および3D幾何学を含むマルチモーダル推論のための新しいテストベッドを形成する。
論文 参考訳(メタデータ) (2021-08-12T17:16:49Z) - Image-based underwater 3D reconstruction for Cultural Heritage: from
image collection to 3D. Critical steps and considerations [2.1407984396023583]
海底文化遺産(CH)の遺跡は、海岸線の遺跡から深海難破船まで広く広がっている。
この遺産の文書化及び保存は,「物の回収よりも優先して非破壊的技術及び調査用メソドの使用を奨励する水中文化財保護条約」などの国際条約により規定された人類の義務である。
論文 参考訳(メタデータ) (2020-10-02T11:32:33Z) - AvatarMe: Realistically Renderable 3D Facial Reconstruction
"in-the-wild" [105.28776215113352]
AvatarMe は、1つの "in-the-wild" 画像から高精細度で光リアルな3D顔を再構成できる最初の方法である。
6K解像度の3D画像を1枚の低解像度画像から再現する。
論文 参考訳(メタデータ) (2020-03-30T22:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。