論文の概要: SounDiT: Geo-Contextual Soundscape-to-Landscape Generation
- arxiv url: http://arxiv.org/abs/2505.12734v1
- Date: Mon, 19 May 2025 05:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.4264
- Title: SounDiT: Geo-Contextual Soundscape-to-Landscape Generation
- Title(参考訳): SounDiT: ジオテクスチュアなサウンドスケープ-ランドスケープ生成
- Authors: Junbo Wang, Haofeng Tan, Bowen Liao, Albert Jiang, Teng Fei, Qixing Huang, Zhengzhong Tu, Shan Ye, Yuhao Kang,
- Abstract要約: 本稿では,新しい問題-Geo-Contextual Soundscape-to-Landscape (GeoS2L) を提案する。
GeoS2Lは環境音環境から地理的にリアルな景観画像を合成することを目的としている。
- 参考スコア(独自算出の注目度): 28.099729084181092
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a novel and practically significant problem-Geo-Contextual Soundscape-to-Landscape (GeoS2L) generation-which aims to synthesize geographically realistic landscape images from environmental soundscapes. Prior audio-to-image generation methods typically rely on general-purpose datasets and overlook geographic and environmental contexts, resulting in unrealistic images that are misaligned with real-world environmental settings. To address this limitation, we introduce a novel geo-contextual computational framework that explicitly integrates geographic knowledge into multimodal generative modeling. We construct two large-scale geo-contextual multimodal datasets, SoundingSVI and SonicUrban, pairing diverse soundscapes with real-world landscape images. We propose SounDiT, a novel Diffusion Transformer (DiT)-based model that incorporates geo-contextual scene conditioning to synthesize geographically coherent landscape images. Furthermore, we propose a practically-informed geo-contextual evaluation framework, the Place Similarity Score (PSS), across element-, scene-, and human perception-levels to measure consistency between input soundscapes and generated landscape images. Extensive experiments demonstrate that SounDiT outperforms existing baselines in both visual fidelity and geographic settings. Our work not only establishes foundational benchmarks for GeoS2L generation but also highlights the importance of incorporating geographic domain knowledge in advancing multimodal generative models, opening new directions at the intersection of generative AI, geography, urban planning, and environmental sciences.
- Abstract(参考訳): 環境音景観から地理的にリアルな景観イメージを合成することを目的としたジオ・コンテクチュアル・サウンドスケープ・ツー・ランドスケープ(GeoS2L)生成法を提案する。
従来の音声画像生成手法は一般的に汎用データセットに依存しており、地理的・環境的な文脈を見落としているため、現実の環境設定と不一致な非現実的なイメージが生じる。
この制限に対処するために,地理的知識をマルチモーダル生成モデルに明示的に統合する新しい地理コンテキスト計算フレームワークを導入する。
本研究では,2つの大規模ジオテクスチュアルなマルチモーダルデータセット,SoundingSVIとSonicUrbanを構築し,多様なサウンドスケープと実世界のランドスケープ画像とのペアリングを行う。
本研究では,ジオコンテクストのシーン条件を組み込んだ新しい拡散変換器(DiT)モデルであるSounDiTを提案し,地理的に一貫性のある景観画像の合成を行う。
さらに、入力された音環境と生成された風景画像との整合性を測定するために、要素レベル、シーンレベル、人間の知覚レベルをまたいだ実用的なインフォームドジオコンテクスト評価フレームワーク、PSS(Place similarity Score)を提案する。
大規模な実験により、SounDiTは視覚的忠実度と地理的設定の両方において、既存のベースラインを上回っていることが示された。
我々の研究は、GeoS2L生成の基礎ベンチマークを確立するだけでなく、マルチモーダル生成モデルの発展において地理的領域知識を取り入れ、生成AI、地理、都市計画、環境科学の交差点に新たな方向性を開くことの重要性も強調している。
関連論文リスト
- Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:37:06Z) - MetaEarth: A Generative Foundation Model for Global-Scale Remote Sensing Image Generation [24.193486441413803]
生成基盤モデルであるMetaEarthについて,画像生成をグローバルなレベルに拡大することで障壁を破る。
MetaEarthでは,地理的解像度の広い任意の領域で画像を生成するための自己カスケード型自己カスケード生成フレームワークを提案する。
我々のモデルは、革新的なオーバヘッドの観点から地球視覚をシミュレートすることで、生成的世界モデルを構築する新たな可能性を開く。
論文 参考訳(メタデータ) (2024-05-22T12:07:47Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。