論文の概要: Can We Challenge Open-Vocabulary Object Detectors with Generated Content in Street Scenes?
- arxiv url: http://arxiv.org/abs/2506.23751v1
- Date: Mon, 30 Jun 2025 11:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.037202
- Title: Can We Challenge Open-Vocabulary Object Detectors with Generated Content in Street Scenes?
- Title(参考訳): ストリートシーンにおける生成コンテンツを用いたオープンボキャブラリオブジェクト検出器に挑戦できるか?
- Authors: Annika Mütze, Sadia Ilyas, Christian Dörpelkus, Matthias Rottmann,
- Abstract要約: 塗り絵は、見渡せる物体の観点で、オープン語彙オブジェクト検出器に挑戦することができる。
オープン語彙モデルのオブジェクト位置への強い依存は、オブジェクトのセマンティクスではなく、オブジェクト位置への強い依存である。
- 参考スコア(独自算出の注目度): 4.299840769087443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary object detectors such as Grounding DINO are trained on vast and diverse data, achieving remarkable performance on challenging datasets. Due to that, it is unclear where to find their limitations, which is of major concern when using in safety-critical applications. Real-world data does not provide sufficient control, required for a rigorous evaluation of model generalization. In contrast, synthetically generated data allows to systematically explore the boundaries of model competence/generalization. In this work, we address two research questions: 1) Can we challenge open-vocabulary object detectors with generated image content? 2) Can we find systematic failure modes of those models? To address these questions, we design two automated pipelines using stable diffusion to inpaint unusual objects with high diversity in semantics, by sampling multiple substantives from WordNet and ChatGPT. On the synthetically generated data, we evaluate and compare multiple open-vocabulary object detectors as well as a classical object detector. The synthetic data is derived from two real-world datasets, namely LostAndFound, a challenging out-of-distribution (OOD) detection benchmark, and the NuImages dataset. Our results indicate that inpainting can challenge open-vocabulary object detectors in terms of overlooking objects. Additionally, we find a strong dependence of open-vocabulary models on object location, rather than on object semantics. This provides a systematic approach to challenge open-vocabulary models and gives valuable insights on how data could be acquired to effectively improve these models.
- Abstract(参考訳): Grounding DINOのようなオープンボキャブラリオブジェクト検出器は、多種多様なデータに基づいて訓練されており、挑戦的なデータセットで顕著なパフォーマンスを実現している。
そのため、安全クリティカルなアプリケーションで使用する場合の大きな懸念点である、その制限をどこで見つけるべきかは明らかではない。
実世界のデータはモデル一般化の厳密な評価に必要な十分な制御を提供していない。
対照的に、合成されたデータは、モデル能力/一般化の境界を体系的に探索することができる。
本研究では,2つの研究課題に対処する。
1) 生成した画像量でオープン語彙オブジェクト検出器に挑戦できるか?
2) これらのモデルのシステマティックな障害モードを見つけることはできますか?
これらの問題に対処するため,WordNet と ChatGPT から複数の実体を抽出し,安定拡散を用いた2つの自動パイプラインを設計した。
合成したデータを用いて,複数の開語彙オブジェクト検出器と古典的対象検出器を評価・比較した。
合成データは、LostAndFoundという、OOD(out-of-distribution)検出ベンチマークとNuImagesデータセットという、2つの実世界のデータセットから導かれる。
以上の結果から, 塗布は対象物を見渡すという点で, オープンボキャブラリオブジェクト検出器に挑戦できる可能性が示唆された。
さらに、オープン語彙モデルがオブジェクトのセマンティクスよりも、オブジェクトの位置に強く依存していることが分かる。
これはオープン語彙モデルに挑戦する体系的なアプローチを提供し、これらのモデルを効果的に改善するためにデータを取得する方法について貴重な洞察を提供する。
関連論文リスト
- Sim2Real Transfer for Vision-Based Grasp Verification [7.9471205712560264]
本稿では,ロボットグリップが物体の把握に成功しているかどうかを判断するために,視力に基づく検証手法を提案する。
本手法は,ロボットのグリップを検知し,検出するための,最初のYOLOに基づく物体検出モデルである2段階アーキテクチャを用いている。
実世界のデータキャプチャの限界に対処するために,多様な把握シナリオをシミュレートする合成データセットであるHSR-Grasp Synthを導入する。
論文 参考訳(メタデータ) (2025-05-05T22:04:12Z) - CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting [59.830657530592255]
Amodally for Patterns Through Unseen Regions (CAPTURe)は、視覚言語モデルを評価するためのテストベッドである。
CAPTUReでは、4つの強力な視覚言語モデルを評価し、隠蔽パターンと隠蔽パターンの両方でモデルがカウントできないことを発見した。
論文 参考訳(メタデータ) (2025-04-21T23:38:43Z) - Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis [20.316056261749946]
本稿では,明示的な知識グラフを取り入れたエンドツーエンドのビジョンと言語モデルを提案する。
また,暗黙的ネットワーク演算子を用いた対話型アウト・オブ・ディストリビューション・レイヤを導入する。
実際に,視覚的質問応答,視覚的推論,画像テキスト検索など,複数の視覚および言語下流タスクにモデルを適用した。
論文 参考訳(メタデータ) (2023-02-11T05:46:21Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Neural-Sim: Learning to Generate Training Data with NeRF [31.81496344354997]
本稿では,ニューラルレージアンスフィールド(NeRF)を対象アプリケーションの損失関数を持つ閉ループに使用した,最初の完全微分可能な合成データパイプラインを提案する。
提案手法は,人的負担を伴わないオンデマンドでデータを生成し,目標タスクの精度を最大化する。
論文 参考訳(メタデータ) (2022-07-22T22:48:33Z) - Exploring Multi-Modal Representations for Ambiguity Detection &
Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。
具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。
以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文 参考訳(メタデータ) (2022-02-25T12:10:02Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。