Fugu-MT 論文翻訳(概要): Few-shot target-driven instance detection based on open-vocabulary object detection models

論文の概要: Few-shot target-driven instance detection based on open-vocabulary object detection models

arxiv url: http://arxiv.org/abs/2410.16028v1
Date: Mon, 21 Oct 2024 14:03:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.479051
Title: Few-shot target-driven instance detection based on open-vocabulary object detection models
Title（参考訳）: オープンボキャブラリオブジェクト検出モデルに基づくターゲット駆動型インスタンス検出
Authors: Ben Crulis, Barthelemy Serres, Cyril De Runz, Gilles Venturini,
Abstract要約: オープンボキャブラリオブジェクト検出モデルは、同じ潜在空間において、より近い視覚的およびテキスト的概念をもたらす。テキスト記述を必要とせずに,後者をワンショットあるいは少数ショットのオブジェクト認識モデルに変換する軽量な手法を提案する。
参考スコア（独自算出の注目度）: 1.0749601922718608
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current large open vision models could be useful for one and few-shot object recognition. Nevertheless, gradient-based re-training solutions are costly. On the other hand, open-vocabulary object detection models bring closer visual and textual concepts in the same latent space, allowing zero-shot detection via prompting at small computational cost. We propose a lightweight method to turn the latter into a one-shot or few-shot object recognition models without requiring textual descriptions. Our experiments on the TEgO dataset using the YOLO-World model as a base show that performance increases with the model size, the number of examples and the use of image augmentation.
Abstract（参考訳）: 現在の大きなオープンビジョンモデルは、1ショットと数ショットのオブジェクト認識に有用である。それでも、勾配に基づく再学習ソリューションはコストがかかる。一方、オープン語彙オブジェクト検出モデルは、同じ潜在空間において、より近い視覚的およびテキスト的概念をもたらし、少ない計算コストで、ゼロショット検出を可能にする。テキスト記述を必要とせずに,後者をワンショットあるいは少数ショットのオブジェクト認識モデルに変換する軽量な手法を提案する。 YOLO-WorldモデルをベースとしてTEgOデータセットを実験した結果,モデルのサイズ,サンプル数,画像拡張の利用により,性能が向上することが示された。

関連論文リスト

Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文参考訳（メタデータ） (2024-10-26T12:00:33Z)
Automatic Discovery of Visual Circuits [66.99553804855931]
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
論文参考訳（メタデータ） (2024-04-22T17:00:57Z)
Exploring Robust Features for Few-Shot Object Detection in Satellite Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文参考訳（メタデータ） (2024-03-08T15:20:27Z)
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文参考訳（メタデータ） (2023-12-13T18:28:09Z)
One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。 2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文参考訳（メタデータ） (2023-11-29T16:23:06Z)
Detection and Captioning with Unseen Object Classes [12.894104422808242]
テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
論文参考訳（メタデータ） (2021-08-13T10:43:20Z)
Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文参考訳（メタデータ） (2021-03-25T22:34:16Z)
Few-shot Object Detection on Remote Sensing Images [11.40135025181393]
リモートセンシング画像におけるオブジェクト検出のための数ショットの学習手法を提案する。我々は、YOLOv3アーキテクチャに基づいて、少数ショットオブジェクト検出モデルを構築し、マルチスケールオブジェクト検出フレームワークを開発する。
論文参考訳（メタデータ） (2020-06-14T07:18:10Z)
One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文参考訳（メタデータ） (2020-05-08T01:59:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。