論文の概要: Diffusion-Based Image Augmentation for Semantic Segmentation in Outdoor Robotics
- arxiv url: http://arxiv.org/abs/2507.00153v1
- Date: Mon, 30 Jun 2025 18:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.532113
- Title: Diffusion-Based Image Augmentation for Semantic Segmentation in Outdoor Robotics
- Title(参考訳): 拡散画像を用いた屋外ロボットのセマンティックセグメンテーション
- Authors: Peter Mortimer, Mirko Maehlisch,
- Abstract要約: 本稿では,展開環境をより緊密に表現するための拡散に基づく画像拡張手法を提案する。
開語彙セマンティックセマンティクスモデルを用いて、幻覚を含む拡張候補をフィルタリングする。
拡散に基づく画像強調は,雪面以外の多くの環境にも適用できると考えている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of leaning-based perception algorithms suffer when deployed in out-of-distribution and underrepresented environments. Outdoor robots are particularly susceptible to rapid changes in visual scene appearance due to dynamic lighting, seasonality and weather effects that lead to scenes underrepresented in the training data of the learning-based perception system. In this conceptual paper, we focus on preparing our autonomous vehicle for deployment in snow-filled environments. We propose a novel method for diffusion-based image augmentation to more closely represent the deployment environment in our training data. Diffusion-based image augmentations rely on the public availability of vision foundation models learned on internet-scale datasets. The diffusion-based image augmentations allow us to take control over the semantic distribution of the ground surfaces in the training data and to fine-tune our model for its deployment environment. We employ open vocabulary semantic segmentation models to filter out augmentation candidates that contain hallucinations. We believe that diffusion-based image augmentations can be extended to many other environments apart from snow surfaces, like sandy environments and volcanic terrains.
- Abstract(参考訳): 傾きに基づく知覚アルゴリズムの性能は、アウト・オブ・ディストリビューション(out-of-distribution)およびアンダーレ表現環境に展開するときに低下する。
屋外ロボットは, 動的照明, 季節性, 天候の影響により, 視覚環境の急速な変化に特に敏感であり, 学習ベース知覚システムのトレーニングデータに過小評価される。
本稿では,雪が積もった環境に展開する自動運転車の開発に焦点をあてる。
本稿では,我々のトレーニングデータにおける展開環境をより正確に表現するために,拡散に基づく画像拡張手法を提案する。
拡散に基づく画像拡張は、インターネットスケールのデータセットで学んだビジョン基盤モデルの一般公開に依存している。
拡散に基づく画像拡張により、トレーニングデータの地上面のセマンティックな分布を制御でき、その展開環境のモデルを微調整できる。
開語彙セマンティックセマンティクスモデルを用いて、幻覚を含む拡張候補をフィルタリングする。
拡散に基づく画像の増大は、砂地や火山の地形など、雪面以外の多くの環境に拡張できると考えている。
関連論文リスト
- Toward a Diffusion-Based Generalist for Dense Vision Tasks [141.03236279493686]
近年の研究では、画像自体が汎用的な視覚知覚のための自然なインタフェースとして利用できることが示されている。
我々は,画素空間での拡散を行い,高密度視覚タスクのための事前学習されたテキスト・画像拡散モデルを微調整するためのレシピを提案する。
実験では,4種類のタスクに対して評価を行い,他のビジョンジェネラリストと競合する性能を示す。
論文 参考訳(メタデータ) (2024-06-29T17:57:22Z) - Diff-Mosaic: Augmenting Realistic Representations in Infrared Small Target Detection via Diffusion Prior [63.64088590653005]
本稿では拡散モデルに基づくデータ拡張手法であるDiff-Mosaicを提案する。
我々は,モザイク画像を高度に調整し,リアルな画像を生成するPixel-Priorという拡張ネットワークを導入する。
第2段階では,Diff-Prior という画像強調戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:23:05Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation [11.80682025950519]
本研究では,拡散(機械学習)特性の拡散(物理学)について検討する。
拡散現象の方向を制御するために,循環一流拡散法(COW)を提案する。
本手法は,タスクニーズを理解するための新しい視点を提供し,より広い範囲のカスタマイズシナリオに適用可能である。
論文 参考訳(メタデータ) (2023-06-14T05:25:06Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。