Fugu-MT 論文翻訳(概要): Revisiting Few-Shot Object Detection with Vision-Language Models

論文の概要: Revisiting Few-Shot Object Detection with Vision-Language Models

arxiv url: http://arxiv.org/abs/2312.14494v2
Date: Sat, 20 Apr 2024 22:00:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 00:03:25.528106
Title: Revisiting Few-Shot Object Detection with Vision-Language Models
Title（参考訳）: ビジョンランゲージモデルによるFew-Shot物体検出の再検討
Authors: Anish Madan, Neehar Peri, Shu Kong, Deva Ramanan,
Abstract要約: FSOD(Few-shot Object Detection)ベンチマークは、アノテーションを限定した新しいカテゴリを検出するための高度な技術を持っている。我々は,任意の外部データセット上で事前トレーニングされた検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
参考スコア（独自算出の注目度）: 49.79495118650838
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Few-shot object detection (FSOD) benchmarks have advanced techniques for detecting new categories with limited annotations. Existing benchmarks repurpose well-established datasets like COCO by partitioning categories into base and novel classes for pre-training and fine-tuning respectively. However, these benchmarks do not reflect how FSOD is deployed in practice. Rather than only pre-training on a small number of base categories, we argue that it is more practical to fine-tune a foundation model (e.g., a vision-language model (VLM) pre-trained on web-scale data) for a target domain. Surprisingly, we find that zero-shot inference from VLMs like GroundingDINO significantly outperforms the state-of-the-art (48.3 vs. 33.1 AP) on COCO. However, such zero-shot models can still be misaligned to target concepts of interest. For example, trailers on the web may be different from trailers in the context of autonomous vehicles. In this work, we propose Foundational FSOD, a new benchmark protocol that evaluates detectors pre-trained on any external datasets and fine-tuned on K-shots per target class. Further, we note that current FSOD benchmarks are actually federated datasets containing exhaustive annotations for each category on a subset of the data. We leverage this insight to propose simple strategies for fine-tuning VLMs with federated losses. We demonstrate the effectiveness of our approach on LVIS and nuImages, improving over prior work by 5.9 AP. Our code is available at https://github.com/anishmadan23/foundational_fsod
Abstract（参考訳）: FSOD(Few-shot Object Detection)ベンチマークは、アノテーションを限定した新しいカテゴリを検出するための高度な技術を持っている。既存のベンチマークでは、COCOのような確立されたデータセットを、それぞれ、事前トレーニングと微調整のためのベースクラスと新しいクラスに分割することで再利用している。しかし、これらのベンチマークは、FSODが実際にどのようにデプロイされているかを反映していない。少数の基本カテゴリを事前学習するよりは、対象ドメインに対して基礎モデル(例えば、Webスケールデータに基づいて事前学習された視覚言語モデル(VLM))を微調整することがより現実的であると論じる。驚いたことに、GroundingDINOのようなVLMからのゼロショット推論はCOCO上の最先端(48.3対33.1 AP)よりも著しく優れている。しかし、そのようなゼロショットモデルは、それでも対象とする興味ある概念と一致しない。例えば、ウェブ上のトレーラーは、自動運転車の文脈におけるトレーラーとは異なるかもしれない。本研究では,任意の外部データセット上で事前学習し,ターゲットクラス毎のKショットを微調整した検出器を評価するための新しいベンチマークプロトコルであるFoundational FSODを提案する。さらに、現在のFSODベンチマークは、データのサブセット上の各カテゴリに対する徹底的なアノテーションを含む、実際にフェデレーションされたデータセットである点に留意する。我々はこの知見を利用して、フェデレートされた損失を伴う微調整VLMの簡単な戦略を提案する。我々は LVIS と nu Images に対するアプローチの有効性を実証し,5.9 AP による先行作業よりも改善した。私たちのコードはhttps://github.com/anishmadan23/foundational_fsodで利用可能です。

関連論文リスト

Universal Sparse Autoencoders: Interpretable Cross-Model Concept Alignment [6.614005142754584]
ユニバーサルスパースオートエンコーダ(英: Universal Sparse Autoencoders、USAEs)は、複数のディープニューラルネットワークにまたがる解釈可能な概念を明らかにするためのフレームワークである。 USAEは、複数のモデルの内部アクティベーションを一度に再構築し解釈できる普遍的な概念空間を学ぶ。
論文参考訳（メタデータ） (2025-02-06T02:06:16Z)
An analysis of HOI: using a training-free method with multimodal visual foundation models when only the test set is available, without the training set [0.0]
デフォルト設定では、Human-Object Interaction(HOI)のパフォーマンスはほぼ飽和している。本研究は、真理とランダムな任意の組み合わせの2つの実験的な設定を用いる。マルチモーダル視覚基盤モデルのオープン語彙能力は,まだ完全には実現されていない。
論文参考訳（メタデータ） (2024-08-11T13:40:02Z)
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文参考訳（メタデータ） (2023-12-13T18:28:09Z)
Learning Cross-Modal Affinity for Referring Video Object Segmentation Targeting Limited Samples [61.66967790884943]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のシーンに十分なデータに依存する。より現実的なシナリオでは、新しいシーンで利用できるのは最小限のアノテーションだけです。トランスフォーマーアーキテクチャに基づいた,新たに設計したクロスモーダル親和性(CMA)モジュールを用いたモデルを提案する。 CMAモジュールは、いくつかのサンプルでマルチモーダル親和性を構築し、新しいセマンティック情報を素早く学習し、モデルが異なるシナリオに適応できるようにする。
論文参考訳（メタデータ） (2023-09-05T08:34:23Z)
Multi-Modal Few-Shot Object Detection with Meta-Learning-Based Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文参考訳（メタデータ） (2022-04-16T16:45:06Z)
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文参考訳（メタデータ） (2022-03-10T08:58:18Z)
A Closer Look at Few-Shot Video Classification: A New Baseline and Benchmark [33.86872697028233]
本研究は,3つのコントリビューションを生かした映像分類の詳細な研究である。まず,既存のメートル法を一貫した比較研究を行い,表現学習の限界を明らかにする。第2に,新しいアクションクラスとImageNetオブジェクトクラスとの間には高い相関関係があることが判明した。第3に,事前学習をせずに将来的な数ショットビデオ分類を容易にするため,より多くのベースデータを持つ新しいベンチマークを提案する。
論文参考訳（メタデータ） (2021-10-24T06:01:46Z)
Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文参考訳（メタデータ） (2021-03-25T22:34:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。