論文の概要: SounDiT: Geo-Contextual Soundscape-to-Landscape Generation
- arxiv url: http://arxiv.org/abs/2505.12734v1
- Date: Mon, 19 May 2025 05:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.4264
- Title: SounDiT: Geo-Contextual Soundscape-to-Landscape Generation
- Title(参考訳): SounDiT: ジオテクスチュアなサウンドスケープ-ランドスケープ生成
- Authors: Junbo Wang, Haofeng Tan, Bowen Liao, Albert Jiang, Teng Fei, Qixing Huang, Zhengzhong Tu, Shan Ye, Yuhao Kang,
- Abstract要約: 本稿では,新しい問題-Geo-Contextual Soundscape-to-Landscape (GeoS2L) を提案する。
GeoS2Lは環境音環境から地理的にリアルな景観画像を合成することを目的としている。
- 参考スコア(独自算出の注目度): 28.099729084181092
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a novel and practically significant problem-Geo-Contextual Soundscape-to-Landscape (GeoS2L) generation-which aims to synthesize geographically realistic landscape images from environmental soundscapes. Prior audio-to-image generation methods typically rely on general-purpose datasets and overlook geographic and environmental contexts, resulting in unrealistic images that are misaligned with real-world environmental settings. To address this limitation, we introduce a novel geo-contextual computational framework that explicitly integrates geographic knowledge into multimodal generative modeling. We construct two large-scale geo-contextual multimodal datasets, SoundingSVI and SonicUrban, pairing diverse soundscapes with real-world landscape images. We propose SounDiT, a novel Diffusion Transformer (DiT)-based model that incorporates geo-contextual scene conditioning to synthesize geographically coherent landscape images. Furthermore, we propose a practically-informed geo-contextual evaluation framework, the Place Similarity Score (PSS), across element-, scene-, and human perception-levels to measure consistency between input soundscapes and generated landscape images. Extensive experiments demonstrate that SounDiT outperforms existing baselines in both visual fidelity and geographic settings. Our work not only establishes foundational benchmarks for GeoS2L generation but also highlights the importance of incorporating geographic domain knowledge in advancing multimodal generative models, opening new directions at the intersection of generative AI, geography, urban planning, and environmental sciences.
- Abstract(参考訳): 環境音景観から地理的にリアルな景観イメージを合成することを目的としたジオ・コンテクチュアル・サウンドスケープ・ツー・ランドスケープ(GeoS2L)生成法を提案する。
従来の音声画像生成手法は一般的に汎用データセットに依存しており、地理的・環境的な文脈を見落としているため、現実の環境設定と不一致な非現実的なイメージが生じる。
この制限に対処するために,地理的知識をマルチモーダル生成モデルに明示的に統合する新しい地理コンテキスト計算フレームワークを導入する。
本研究では,2つの大規模ジオテクスチュアルなマルチモーダルデータセット,SoundingSVIとSonicUrbanを構築し,多様なサウンドスケープと実世界のランドスケープ画像とのペアリングを行う。
本研究では,ジオコンテクストのシーン条件を組み込んだ新しい拡散変換器(DiT)モデルであるSounDiTを提案し,地理的に一貫性のある景観画像の合成を行う。
さらに、入力された音環境と生成された風景画像との整合性を測定するために、要素レベル、シーンレベル、人間の知覚レベルをまたいだ実用的なインフォームドジオコンテクスト評価フレームワーク、PSS(Place similarity Score)を提案する。
大規模な実験により、SounDiTは視覚的忠実度と地理的設定の両方において、既存のベースラインを上回っていることが示された。
我々の研究は、GeoS2L生成の基礎ベンチマークを確立するだけでなく、マルチモーダル生成モデルの発展において地理的領域知識を取り入れ、生成AI、地理、都市計画、環境科学の交差点に新たな方向性を開くことの重要性も強調している。
関連論文リスト
- Cross-Modal Urban Sensing: Evaluating Sound-Vision Alignment Across Street-Level and Aerial Imagery [13.86994497464469]
そこで我々は,ジオレファレンス・サウンド・レコーディングをストリートレベルとリモートセンシングの両方に統合するマルチモーダル・アプローチを採用した。
埋め込みモデルではセグメンテーションに基づく手法が視覚構造と音響生態学の解釈可能なリンクを提供するのに対し、セグメンテーションベースのモデルは優れたセグメンテーションアライメントを提供する。
論文 参考訳(メタデータ) (2025-06-03T20:56:37Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:37:06Z) - MetaEarth: A Generative Foundation Model for Global-Scale Remote Sensing Image Generation [24.193486441413803]
生成基盤モデルであるMetaEarthについて,画像生成をグローバルなレベルに拡大することで障壁を破る。
MetaEarthでは,地理的解像度の広い任意の領域で画像を生成するための自己カスケード型自己カスケード生成フレームワークを提案する。
我々のモデルは、革新的なオーバヘッドの観点から地球視覚をシミュレートすることで、生成的世界モデルを構築する新たな可能性を開く。
論文 参考訳(メタデータ) (2024-05-22T12:07:47Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z) - PetroGAN: A novel GAN-based approach to generate realistic, label-free
petrographic datasets [0.0]
本研究では,GAN(Generative Adversarial Network)に基づく新しいディープラーニングフレームワークを開発し,最初のリアルな合成石油写真データセットを作成する。
トレーニングデータセットは、平面光と横偏光の両方で岩石の薄い部分の10070枚の画像で構成されている。
このアルゴリズムは264のGPU時間で訓練され、ペトログラフ画像のFr'echet Inception Distance(FID)スコアが12.49に達した。
論文 参考訳(メタデータ) (2022-04-07T01:55:53Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - Visual and Object Geo-localization: A Comprehensive Survey [11.120155713865918]
ジオローカライゼーション(ジオローカライゼーション)とは、地球上の「ある実体がどこにあるか」を決定する過程のこと。
本稿では、画像の撮影場所(画像ジオローカライゼーション)や画像内の物体の位置決め(オブジェクトジオローカライゼーション)を含む、画像を含む画像の地理的ローカライゼーションに関する包括的調査を行う。
本稿では、一般的なアルゴリズムの要約、提案したデータセットの説明、各分野の現状を説明するためのパフォーマンス結果の分析など、詳細な研究を行う。
論文 参考訳(メタデータ) (2021-12-30T20:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。