論文の概要: GPS as a Control Signal for Image Generation
- arxiv url: http://arxiv.org/abs/2501.12390v1
- Date: Tue, 21 Jan 2025 18:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:04.014616
- Title: GPS as a Control Signal for Image Generation
- Title(参考訳): 画像生成のための制御信号としてのGPS
- Authors: Chao Feng, Ziyang Chen, Aleksander Holynski, Alexei A. Efros, Andrew Owens,
- Abstract要約: 画像メタデータに含まれるGPSタグは,画像生成に有用な制御信号であることを示す。
私たちはGPSと画像のモデルをトレーニングし、都市内の画像がどのように変化するかの詳細な理解を必要とするタスクにそれらを使用します。
- 参考スコア(独自算出の注目度): 95.43433150105385
- License:
- Abstract: We show that the GPS tags contained in photo metadata provide a useful control signal for image generation. We train GPS-to-image models and use them for tasks that require a fine-grained understanding of how images vary within a city. In particular, we train a diffusion model to generate images conditioned on both GPS and text. The learned model generates images that capture the distinctive appearance of different neighborhoods, parks, and landmarks. We also extract 3D models from 2D GPS-to-image models through score distillation sampling, using GPS conditioning to constrain the appearance of the reconstruction from each viewpoint. Our evaluations suggest that our GPS-conditioned models successfully learn to generate images that vary based on location, and that GPS conditioning improves estimated 3D structure.
- Abstract(参考訳): 画像メタデータに含まれるGPSタグは,画像生成に有用な制御信号であることを示す。
私たちはGPSと画像のモデルをトレーニングし、都市内の画像がどのように変化するかの詳細な理解を必要とするタスクにそれらを使用します。
特に,GPSとテキストの両方で条件付き画像を生成するために拡散モデルを訓練する。
学習されたモデルは、異なる地区、公園、ランドマークの独特の外観をキャプチャする画像を生成する。
また,GPSコンディショニングを用いて2次元GPS画像モデルから3次元モデルを抽出し,それぞれの視点から再現の外観を制約する。
評価の結果,GPS条件付きモデルは位置によって異なる画像を生成することができ,GPS条件が推定3次元構造を改善することが示唆された。
関連論文リスト
- GAReT: Cross-view Video Geolocalization with Adapters and Auto-Regressive Transformers [53.80009458891537]
クロスビュービデオのジオローカライゼーションは、ストリートビュービデオからGPSトラジェクトリを空中ビュー画像と整列させることを目的としている。
現在のCVGL法では、現実のシナリオでは一般的に欠落しているカメラとオドメトリーのデータを使用する。
本稿では,カメラやオドメトリーデータを必要としないCVGLのフルトランスフォーマ方式であるGAReTを提案する。
論文 参考訳(メタデータ) (2024-08-05T21:29:33Z) - G3R: Generating Rich and Fine-grained mmWave Radar Data from 2D Videos for Generalized Gesture Recognition [19.95047010486547]
我々は、リッチな2Dビデオを利用してリアルなレーダデータを生成するソフトウェアパイプラインを開発した。
ユーザジェスチャの多彩できめ細かな反射特性をシミュレートする課題に対処する。
我々は、公開データソースと自己収集現実レーダデータからの2Dビデオを用いて、G3Rを実装し、評価する。
論文 参考訳(メタデータ) (2024-04-23T11:22:59Z) - Parsing is All You Need for Accurate Gait Recognition in the Wild [51.206166843375364]
本稿では,GPS(Gait Parsing Sequence)という新しい歩行表現を提案する。
GPSは、ビデオフレームから抽出された微細な人間のセグメンテーションのシーケンスなので、より高い情報エントロピーを持つ。
また,ParsingGaitという,新しいパーシングに基づく歩行認識フレームワークを提案する。
実験結果から,GPS表現による精度の向上とParsingGaitの優越性が示唆された。
論文 参考訳(メタデータ) (2023-08-31T13:57:38Z) - GeoMIM: Towards Better 3D Knowledge Transfer via Masked Image Modeling
for Multi-view 3D Understanding [42.780417042750315]
マルチビューカメラによる3D検出は、コンピュータビジョンにおいて難しい問題である。
最近の研究は、事前訓練されたLiDAR検出モデルを利用して、知識をカメラベースの学生ネットワークに転送する。
我々は,LiDARモデルの知識を事前学習のパラダイムに伝達するための拡張幾何マスク画像モデリング(GeoMIM)を提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:03Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z) - 3D generation on ImageNet [76.0440752186121]
3DGP: トレーニングデータに関するより一般的な仮定を持つ3D合成フレームワークを開発した。
私たちのモデルは3つの新しいアイデアに基づいている。
SDIP Dogs 256x256, SDIP Elephants 256x256, LSUN Horses 256x256, ImageNet 256x256の4つのデータセットについて検討を行った。
論文 参考訳(メタデータ) (2023-03-02T17:06:57Z) - Unsupervised Visual Odometry and Action Integration for PointGoal
Navigation in Indoor Environment [14.363948775085534]
屋内環境におけるポイントゴールナビゲーションは、個人ロボットが特定の地点に向かうための基本的なタスクである。
GPS信号を使わずにPointGoalナビゲーションの精度を向上させるために、ビジュアル・オドメトリー(VO)を用い、教師なしで訓練された新しいアクション統合モジュール(AIM)を提案する。
実験により,提案システムは良好な結果が得られ,Gibsonデータセット上で部分的に教師付き学習アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2022-10-02T03:12:03Z) - Multimodal Scale Consistency and Awareness for Monocular Self-Supervised
Depth Estimation [1.1470070927586016]
単眼ビデオの自己監督アプローチは、長いシーケンスにわたってスケール不整合に苦しむ。
外観ベースの損失を補うために、動的に重み付けされたGPS-to-Scale(g2s)損失を提案する。
低周波GPSデータによるトレーニングでも性能を向上させるため、推論時のスケール一貫性と認識深度推定を実証します。
論文 参考訳(メタデータ) (2021-03-03T15:39:41Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。