論文の概要: On Utilizing Relationships for Transferable Few-Shot Fine-Grained Object
Detection
- arxiv url: http://arxiv.org/abs/2212.00770v1
- Date: Thu, 1 Dec 2022 18:54:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 15:02:29.938825
- Title: On Utilizing Relationships for Transferable Few-Shot Fine-Grained Object
Detection
- Title(参考訳): 移動可能な極細粒度物体検出のための関係性の利用について
- Authors: Ambar Pal, Arnau Ramisa, Amit Kumar K C, Ren\'e Vidal
- Abstract要約: 本稿では,粗い対象カテゴリーの既製の検出器を微細なカテゴリの検出器に変換する確率モデルを提案する。
提案手法であるRelDetectは,最先端オブジェクト検出器のベースラインの微調整に競争力を発揮することを示す。
- 参考スコア(独自算出の注目度): 6.824692201913679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art object detectors are fast and accurate, but they require a
large amount of well annotated training data to obtain good performance.
However, obtaining a large amount of training annotations specific to a
particular task, i.e., fine-grained annotations, is costly in practice. In
contrast, obtaining common-sense relationships from text, e.g., "a table-lamp
is a lamp that sits on top of a table", is much easier. Additionally,
common-sense relationships like "on-top-of" are easy to annotate in a
task-agnostic fashion. In this paper, we propose a probabilistic model that
uses such relational knowledge to transform an off-the-shelf detector of coarse
object categories (e.g., "table", "lamp") into a detector of fine-grained
categories (e.g., "table-lamp"). We demonstrate that our method, RelDetect,
achieves performance competitive to finetuning based state-of-the-art object
detector baselines when an extremely low amount of fine-grained annotations is
available ($0.2\%$ of entire dataset). We also demonstrate that RelDetect is
able to utilize the inherent transferability of relationship information to
obtain a better performance ($+5$ mAP points) than the above baselines on an
unseen dataset (zero-shot transfer). In summary, we demonstrate the power of
using relationships for object detection on datasets where fine-grained object
categories can be linked to coarse-grained categories via suitable
relationships.
- Abstract(参考訳): 最先端の物体検出器は高速かつ精度が高いが、優れた性能を得るためには大量の注釈付きトレーニングデータが必要である。
しかし、特定のタスクに特化した大量のトレーニングアノテーション、すなわちきめ細かいアノテーションを得ることは、実際にコストがかかる。
対照的に、「テーブルランプはテーブルの上に座るランプである」といったテキストから常識的な関係を得るのは非常に容易である。
さらに、"オン・トップ・オブ"のような常識的な関係はタスクに依存しない方法で注釈を付けるのが容易です。
本稿では,そのような関係知識を用いて,粗い対象カテゴリー(例えば「テーブル」,「ランプ」)のオフザシェルフ検出器を,きめ細かいカテゴリ(例えば「テーブルランプ」)の検出器に変換する確率論的モデルを提案する。
提案手法であるRelDetectは,細粒度アノテーションが極めて少ない場合(全データセットの0.2 %$)に,細粒度に基づくオブジェクト検出器のベースラインの微調整に競争力を発揮することを示す。
また、RelDetectは、関係情報の固有の転送可能性を利用して、上述したベースライン(ゼロショット転送)よりも優れたパフォーマンス(+5$mAPポイント)を得ることができることを示す。
要約すると,細粒度オブジェクトのカテゴリを適切な関係を通じて粗粒度カテゴリに関連付けることのできるデータセット上で,オブジェクト検出にリレーションシップを使用する能力を示す。
関連論文リスト
- Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Knowledge Combination to Learn Rotated Detection Without Rotated
Annotation [53.439096583978504]
回転バウンディングボックスは、伸長したオブジェクトの出力あいまいさを劇的に減少させる。
この効果にもかかわらず、回転検出器は広く使われていない。
本稿では,モデルが正確な回転ボックスを予測できるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-05T03:07:36Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - ComplETR: Reducing the cost of annotations for object detection in dense
scenes with vision transformers [73.29057814695459]
ComplETRは、部分的にアノテートされた高密度なシーンデータセットで欠落したアノテーションを明示的に補完するように設計されている。
これにより、シーン内のすべてのオブジェクトインスタンスに注釈を付ける必要がなくなり、アノテーションのコストが削減される。
本稿では, 高速R-CNN, カスケードR-CNN, CenterNet2, Deformable DETRなどの人気検出器の性能向上を示す。
論文 参考訳(メタデータ) (2022-09-13T00:11:16Z) - Mixed Supervised Object Detection by Transferring Mask Prior and
Semantic Similarity [22.706462533761986]
我々は、弱いアノテーションを用いて新しいオブジェクトカテゴリを学習する、複合的な監視によるオブジェクト検出について考察する。
さらに、新しいカテゴリと基本カテゴリのギャップを埋めるために、マスクの先行と意味的類似性を転送する。
3つのベンチマークデータセットによる実験結果から,既存手法に対する提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-10-27T05:43:09Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Dense Relation Distillation with Context-aware Aggregation for Few-Shot
Object Detection [18.04185751827619]
新規なオブジェクトのきめ細かい特徴を、ほんのわずかなデータで簡単に見落としてしまうため、オブジェクト検出は困難である。
本稿では,少数の検出問題に対処するために,DCNet (Context-aware Aggregation) を用いたDense Relation Distillationを提案する。
論文 参考訳(メタデータ) (2021-03-30T05:34:49Z) - Relation-aware Instance Refinement for Weakly Supervised Visual
Grounding [44.33411132188231]
visual groundingは、ビジュアルオブジェクトとその言語エンティティ間の対応を構築することを目的としている。
本稿では,オブジェクトの細粒化とエンティティ関係モデリングを組み込んだ,新しい弱教師付き学習手法を提案する。
2つの公開ベンチマークの実験は、我々のフレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2021-03-24T05:03:54Z) - Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection [33.25064323136447]
フェーショット物体検出は、実世界のデータの固有の長尾分布のために、必要かつ長続きする問題である。
この研究は、新しい物体検出の学習に明確な関係推論を導入する。
実験では、SRR-FSDは、より高いショットで競争力のある結果を達成することができ、さらに重要なことは、より低い明示的なショットと暗黙的なショットの両方で、大幅にパフォーマンスが向上します。
論文 参考訳(メタデータ) (2021-03-02T18:04:38Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - iFAN: Image-Instance Full Alignment Networks for Adaptive Object
Detection [48.83883375118966]
iFANは、イメージレベルとインスタンスレベルの両方で、機能の分散を正確に調整することを目的としている。
ソースのみのベースライン上で10%以上のAPで、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2020-03-09T13:27:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。