論文の概要: Identifying Systematic Errors in Object Detectors with the SCROD
Pipeline
- arxiv url: http://arxiv.org/abs/2309.13489v1
- Date: Sat, 23 Sep 2023 22:41:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 19:35:51.270644
- Title: Identifying Systematic Errors in Object Detectors with the SCROD
Pipeline
- Title(参考訳): SCRODパイプラインを用いた物体検出器の系統誤差の同定
- Authors: Valentyn Boreiko, Matthias Hein, Jan Hendrik Metzen
- Abstract要約: オブジェクト検出器における系統的エラーの識別と除去は、安全クリティカルなアプリケーションへの展開の前提条件となる。
粒度制御による合成画像の生成により,この制限を克服する。
両手法の強みを組み合わせた新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 46.52729366461028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The identification and removal of systematic errors in object detectors can
be a prerequisite for their deployment in safety-critical applications like
automated driving and robotics. Such systematic errors can for instance occur
under very specific object poses (location, scale, orientation), object
colors/textures, and backgrounds. Real images alone are unlikely to cover all
relevant combinations. We overcome this limitation by generating synthetic
images with fine-granular control. While generating synthetic images with
physical simulators and hand-designed 3D assets allows fine-grained control
over generated images, this approach is resource-intensive and has limited
scalability. In contrast, using generative models is more scalable but less
reliable in terms of fine-grained control. In this paper, we propose a novel
framework that combines the strengths of both approaches. Our meticulously
designed pipeline along with custom models enables us to generate street scenes
with fine-grained control in a fully automated and scalable manner. Moreover,
our framework introduces an evaluation setting that can serve as a benchmark
for similar pipelines. This evaluation setting will contribute to advancing the
field and promoting standardized testing procedures.
- Abstract(参考訳): 物体検出装置における系統的エラーの同定と除去は、自動運転やロボット工学のような安全クリティカルなアプリケーションへの展開の前提条件となる。
このような体系的なエラーは、例えば、非常に特定のオブジェクトのポーズ(位置、スケール、方向)、オブジェクトの色/テクスチャ、バックグラウンドで起こりうる。
実際の画像だけでは、すべての関連する組み合わせをカバーできない。
粒度制御による合成画像の生成により,この制限を克服する。
物理シミュレータと手作りの3dアセットで合成画像を生成すると、生成された画像に対するきめ細かい制御が可能になるが、このアプローチはリソース集約的でスケーラビリティに制限がある。
対照的に、生成モデルの使用はよりスケーラブルだが、きめ細かい制御では信頼性が低い。
本稿では,両アプローチの強みを組み合わせた新しい枠組みを提案する。
念入りに設計されたパイプラインとカスタムモデルにより、完全に自動化されたスケーラブルな方法で、きめ細かい制御でストリートシーンを生成することができます。
さらに,同様のパイプラインのベンチマークとして機能する評価設定を導入する。
この評価設定は、フィールドの前進と標準化されたテスト手順の促進に寄与する。
関連論文リスト
- Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。
コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。
OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。
本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。
実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文 参考訳(メタデータ) (2024-11-16T23:44:14Z) - Perturb, Attend, Detect and Localize (PADL): Robust Proactive Image Defense [5.150608040339816]
本稿では,クロスアテンションに基づく符号化と復号の対称スキームを用いて,画像固有の摂動を生成する新しいソリューションであるPADLを紹介する。
提案手法は,StarGANv2,BlendGAN,DiffAE,StableDiffusion,StableDiffusionXLなど,さまざまなアーキテクチャ設計の未確認モデルに一般化する。
論文 参考訳(メタデータ) (2024-09-26T15:16:32Z) - Identification of Fine-grained Systematic Errors via Controlled Scene Generation [41.398080398462994]
微粒化制御によるリアルな合成シーンを生成するパイプラインを提案する。
我々のアプローチであるBEV2EGOは、道路コンテンツ制御によるシーン全体の現実的な生成を可能にする。
さらに,BEV2EGOの最適生成出力モデルを選択するために,制御シーン生成のためのベンチマークを提案する。
論文 参考訳(メタデータ) (2024-04-10T14:35:22Z) - Training-Free Location-Aware Text-to-Image Synthesis [8.503001932363704]
安定拡散モデルの生成機構を解析し,新しい対話型生成パラダイムを提案する。
本手法は,制御能力と画質の両面において最先端の手法より優れる。
論文 参考訳(メタデータ) (2023-04-26T10:25:15Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Self-Supervised Object Detection via Generative Image Synthesis [106.65384648377349]
本稿では,自己教師対象検出のための制御可能なGANを用いたエンドツーエンド分析合成フレームワークを提案する。
オブジェクトの合成と検出を学習するために、ボックスアノテーションを使用せずに、実世界のイメージのコレクションを使用します。
我々の研究は、制御可能なGAN画像合成という新しいパラダイムを導入することで、自己教師対象検出の分野を前進させる。
論文 参考訳(メタデータ) (2021-10-19T11:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。