Fugu-MT 論文翻訳(概要): Revisiting Few-Shot Object Detection with Vision-Language Models

論文の概要: Revisiting Few-Shot Object Detection with Vision-Language Models

arxiv url: http://arxiv.org/abs/2312.14494v1
Date: Fri, 22 Dec 2023 07:42:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-25 15:53:57.584852
Title: Revisiting Few-Shot Object Detection with Vision-Language Models
Title（参考訳）: ビジョンランゲージモデルによるFew-Shot物体検出の再検討
Authors: Anish Madan, Neehar Peri, Shu Kong, Deva Ramanan
Abstract要約: FSOD(Few-shot Object Detection)ベンチマークは、アノテーションを限定した新しいカテゴリを検出するための高度な技術を持っている。我々は,任意の外部データセット上で事前訓練された検出器と,ターゲットクラス毎のKショットに微調整された検出器を評価するための,新しいベンチマークプロトコルであるFoundational FSODを提案する。
参考スコア（独自算出の注目度）: 54.39740692635763
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Few-shot object detection (FSOD) benchmarks have advanced techniques for detecting new categories with limited annotations. Existing benchmarks repurpose well-established datasets like COCO by partitioning categories into base and novel classes for pre-training and fine-tuning respectively. However, these benchmarks do not reflect how FSOD is deployed in practice. Rather than only pre-training on a small number of base categories, we argue that it is more practical to fine-tune a foundation model (e.g., a vision-language model (VLM) pre-trained on web-scale data) for a target domain. Surprisingly, we find that zero-shot inference from VLMs like GroundingDINO significantly outperforms the state-of-the-art (48.3 vs. 33.1 AP) on COCO. However, such zero-shot models can still be misaligned to target concepts of interest. For example, trailers on the web may be different from trailers in the context of autonomous vehicles. In this work, we propose Foundational FSOD, a new benchmark protocol that evaluates detectors pre-trained on any external datasets and fine-tuned on K-shots per target class. Further, we note that current FSOD benchmarks are actually federated datasets containing exhaustive annotations for each category on a subset of the data. We leverage this insight to propose simple strategies for fine-tuning VLMs with federated losses. We demonstrate the effectiveness of our approach on LVIS and nuImages, improving over prior work by 5.9 AP.
Abstract（参考訳）: few-shot object detection (fsod)ベンチマークには、制限されたアノテーションで新しいカテゴリを検出するための高度な技術がある。既存のベンチマークでは、COCOのような確立されたデータセットを、それぞれ、事前トレーニングと微調整のためのベースクラスと新しいクラスに分割することで再利用している。しかし、これらのベンチマークは、実際にfsodをデプロイする方法を反映していない。少数のベースカテゴリを事前学習するよりも、ターゲットドメインに対して基礎モデル(例えば、webスケールデータで事前学習された視覚言語モデル(vlm))を微調整することがより実用的であると主張する。驚いたことに、GroundingDINOのようなVLMからのゼロショット推論はCOCO上の最先端(48.3対33.1 AP)よりも著しく優れている。しかし、そのようなゼロショットモデルは、それでも対象とする興味ある概念と一致しない。例えば、web上のトレーラーは、自動運転車の文脈でトレーラーとは異なるかもしれない。本研究では,任意の外部データセット上で事前学習し,ターゲットクラス毎のKショットを微調整した検出器を評価するための新しいベンチマークプロトコルであるFoundational FSODを提案する。さらに、現在のfsodベンチマークは、実際にはデータサブセット上の各カテゴリに対する徹底したアノテーションを含むフェデレーションデータセットである点にも注目する。我々はこの知見を利用して、連合的損失を伴う微調整VLMの簡単な戦略を提案する。我々は LVIS と nu Images に対するアプローチの有効性を実証し,5.9 AP による先行作業よりも改善した。

関連論文リスト

Universal Sparse Autoencoders: Interpretable Cross-Model Concept Alignment [6.614005142754584]
ユニバーサルスパースオートエンコーダ(英: Universal Sparse Autoencoders、USAEs)は、複数のディープニューラルネットワークにまたがる解釈可能な概念を明らかにするためのフレームワークである。 USAEは、複数のモデルの内部アクティベーションを一度に再構築し解釈できる普遍的な概念空間を学ぶ。
論文参考訳（メタデータ） (2025-02-06T02:06:16Z)
An analysis of HOI: using a training-free method with multimodal visual foundation models when only the test set is available, without the training set [0.0]
デフォルト設定では、Human-Object Interaction(HOI)のパフォーマンスはほぼ飽和している。本研究は、真理とランダムな任意の組み合わせの2つの実験的な設定を用いる。マルチモーダル視覚基盤モデルのオープン語彙能力は,まだ完全には実現されていない。
論文参考訳（メタデータ） (2024-08-11T13:40:02Z)
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文参考訳（メタデータ） (2023-12-13T18:28:09Z)
Learning Cross-Modal Affinity for Referring Video Object Segmentation Targeting Limited Samples [61.66967790884943]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のシーンに十分なデータに依存する。より現実的なシナリオでは、新しいシーンで利用できるのは最小限のアノテーションだけです。トランスフォーマーアーキテクチャに基づいた,新たに設計したクロスモーダル親和性(CMA)モジュールを用いたモデルを提案する。 CMAモジュールは、いくつかのサンプルでマルチモーダル親和性を構築し、新しいセマンティック情報を素早く学習し、モデルが異なるシナリオに適応できるようにする。
論文参考訳（メタデータ） (2023-09-05T08:34:23Z)
Multi-Modal Few-Shot Object Detection with Meta-Learning-Based Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文参考訳（メタデータ） (2022-04-16T16:45:06Z)
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文参考訳（メタデータ） (2022-03-10T08:58:18Z)
A Closer Look at Few-Shot Video Classification: A New Baseline and Benchmark [33.86872697028233]
本研究は,3つのコントリビューションを生かした映像分類の詳細な研究である。まず,既存のメートル法を一貫した比較研究を行い,表現学習の限界を明らかにする。第2に,新しいアクションクラスとImageNetオブジェクトクラスとの間には高い相関関係があることが判明した。第3に,事前学習をせずに将来的な数ショットビデオ分類を容易にするため,より多くのベースデータを持つ新しいベンチマークを提案する。
論文参考訳（メタデータ） (2021-10-24T06:01:46Z)
Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文参考訳（メタデータ） (2021-03-25T22:34:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。