論文の概要: DADO: A Depth-Attention framework for Object Discovery
- arxiv url: http://arxiv.org/abs/2510.07089v1
- Date: Wed, 08 Oct 2025 14:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.570202
- Title: DADO: A Depth-Attention framework for Object Discovery
- Title(参考訳): DADO:オブジェクト発見のための奥行き注意フレームワーク
- Authors: Federico Gonzalez, Estefania Talavera, Petia Radeva,
- Abstract要約: 本稿では,注目機構と奥行きモデルを組み合わせたDADO(Depth-Attention Self-supervised Technique for Discovering Unseen Objects)を紹介する。
DADOは動的重み付けを用いて、各画像のグローバルな特徴に基づいて注意や深度の特徴を適応的に強調する。
微調整を必要とせずに、オブジェクト発見の精度と堅牢性において最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 10.734943654499821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised object discovery, the task of identifying and localizing objects in images without human-annotated labels, remains a significant challenge and a growing focus in computer vision. In this work, we introduce a novel model, DADO (Depth-Attention self-supervised technique for Discovering unseen Objects), which combines an attention mechanism and a depth model to identify potential objects in images. To address challenges such as noisy attention maps or complex scenes with varying depth planes, DADO employs dynamic weighting to adaptively emphasize attention or depth features based on the global characteristics of each image. We evaluated DADO on standard benchmarks, where it outperforms state-of-the-art methods in object discovery accuracy and robustness without the need for fine-tuning.
- Abstract(参考訳): 非教師対象発見(unsupervised object discovery)は、人間の注釈付きラベルなしで画像中の物体を識別し、ローカライズするタスクであり、コンピュータビジョンにおける重要な課題であり続けている。
本研究では,注目機構と深度モデルを組み合わせたDADO(Depth-Attention Self-supervised Technique for Discovering Unseen Objects)を提案する。
ノイズの多い注目マップや様々な深度平面を持つ複雑なシーンなどの課題に対処するため、DADOは動的重み付けを用いて、各画像のグローバルな特徴に基づいて、注意や深度の特徴を適応的に強調する。
我々は、DADOを標準ベンチマークで評価し、オブジェクト発見精度とロバスト性において、微調整を必要とせず、最先端の手法よりも優れていた。
関連論文リスト
- OD-VIRAT: A Large-Scale Benchmark for Object Detection in Realistic Surveillance Environments [1.6997584834278812]
本稿では,OD-VIRAT Large と OD-VIRAT Tiny という2つのビジュアルオブジェクト検出ベンチマークを提案する。
両ベンチマークのビデオシーケンスは、高度と距離から記録された10の異なる人間の監視シーンをカバーしている。
提案されたベンチマークはバウンディングボックスとカテゴリの豊富なアノテーションを提供しており、OD-VIRAT Largeは599,996イメージに870万のアノテートインスタンスを持ち、OD-VIRAT Tinyは19,860イメージに288,901のアノテートインスタンスがある。
論文 参考訳(メタデータ) (2025-07-16T16:41:47Z) - Oh-A-DINO: Understanding and Enhancing Attribute-Level Information in Self-Supervised Object-Centric Representations [9.949149600332836]
自己教師付き視覚モデルとスロットベース表現はエッジ由来の幾何学の同定に優れるが、幾何学的でない表面レベルの手がかりを保存できない。
VAE正則化はコンパクトで不整合なオブジェクト中心の表現を強制し、これらの欠落した属性を復元する。
論文 参考訳(メタデータ) (2025-03-12T21:57:41Z) - Towards Flexible 3D Perception: Object-Centric Occupancy Completion Augments 3D Object Detection [54.78470057491049]
占領は3Dシーンの知覚に有望な代替手段として現れてきた。
オブジェクトbboxのサプリメントとして,オブジェクト中心の占有率を導入する。
これらの特徴は,最先端の3Dオブジェクト検出器の検出結果を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-12-06T16:12:38Z) - PEEKABOO: Hiding parts of an image for unsupervised object localization [7.161489957025654]
教師なしの方法でオブジェクトをローカライズすることは、重要な視覚情報がないために大きな課題となる。
教師なしオブジェクトローカライゼーションのための単段階学習フレームワークPEEKABOOを提案する。
キーとなるアイデアは、画像の一部を選択的に隠し、残りの画像情報を活用して、明示的な監督なしにオブジェクトの位置を推測することである。
論文 参考訳(メタデータ) (2024-07-24T20:35:20Z) - OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection [102.0744303467713]
OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案する。
我々の主目的は、提案したオブジェクト指向位置埋め込みを通して、オブジェクトワイド情報をネットワークに効果的に注入することである。
OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T14:29:15Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Slender Object Detection: Diagnoses and Improvements [74.40792217534]
本稿では,超高アスペクト比,すなわちtextbfslender オブジェクトの特定タイプの検出について検討する。
古典的物体検出法では、細い物体に対してのみ評価される場合、COCO上の18.9%のmAPの劇的な低下が観察される。
論文 参考訳(メタデータ) (2020-11-17T09:39:42Z) - Co-training for On-board Deep Object Detection [0.0]
人間のラベル付きバウンディングボックスを頼りにすることにより、最高のディープビジョンベースのオブジェクト検出器を教師付きで訓練する。
共同学習は、未ラベル画像における自己ラベルオブジェクトの半教師付き学習手法である。
我々は、協調学習がオブジェクトのラベル付けを緩和し、タスクに依存しないドメイン適応と単独で作業するためのパラダイムであることを示す。
論文 参考訳(メタデータ) (2020-08-12T19:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。