Fugu-MT 論文翻訳(概要): Few-shot Object Localization

論文の概要: Few-shot Object Localization

arxiv url: http://arxiv.org/abs/2403.12466v1
Date: Tue, 19 Mar 2024 05:50:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 15:12:20.566319
Title: Few-shot Object Localization
Title（参考訳）: オブジェクトローカライゼーション
Authors: Yunhan Ren, Bo Li, Chengyang Zhang, Yong Zhang,
Abstract要約: 本稿では,Few-Shot Object Localization (FSOL) の課題を紹介する。本課題は、少数のラベル付きサポートサンプルを利用して、対応する画像内のオブジェクトの位置情報をクエリすることで、一般化されたオブジェクトのローカライゼーションを実現する。本モデルでは,サポート画像とクエリ画像間の形状の関連性や勾配差を高めるために,デュアルパス機能拡張モジュールを統合した。
参考スコア（独自算出の注目度）: 9.391936429907673
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing few-shot object counting tasks primarily focus on quantifying the number of objects in an image, neglecting precise positional information. To bridge this research gap, this paper introduces the novel task of Few-Shot Object Localization (FSOL), which aims to provide accurate object positional information. This task achieves generalized object localization by leveraging a small number of labeled support samples to query the positional information of objects within corresponding images. To advance this research field, we propose an innovative high-performance baseline model. Our model integrates a dual-path feature augmentation module to enhance shape association and gradient differences between supports and query images, alongside a self-query module designed to explore the association between feature maps and query images. Experimental results demonstrate a significant performance improvement of our approach in the FSOL task, establishing an efficient benchmark for further research.
Abstract（参考訳）: 既存の少数のオブジェクトカウントタスクは、画像中のオブジェクトの数を定量化することに集中し、正確な位置情報を無視する。本稿では,この研究ギャップを埋めるため,Few-Shot Object Localization (FSOL) の新たな課題を紹介した。本課題は、少数のラベル付きサポートサンプルを利用して、対応する画像内のオブジェクトの位置情報をクエリすることで、一般化されたオブジェクトのローカライゼーションを実現する。そこで本研究では,革新的な高性能ベースラインモデルを提案する。本モデルでは,特徴マップと問合せ画像の関連性を探るための自己問合せモジュールとともに,サポート画像と問合せ画像間の形状関連と勾配差を高めるために,デュアルパス機能拡張モジュールを統合した。実験の結果,FSOLタスクにおけるアプローチの大幅な性能向上が示され,さらなる研究のための効率的なベンチマークが確立された。

関連論文リスト

Instance-Level Generation for Representation Learning [20.97048848139392]
インスタンスレベルの認識(ILR)は、幅広いカテゴリではなく個々のオブジェクトを特定することに焦点を当てている。本稿では,複数のドメインから多様なオブジェクトインスタンスを合成的に生成する新しいアプローチを提案する。本手法は,実画像に頼らずにILR固有の課題に最初に対処する手法である。
論文参考訳（メタデータ） (2025-10-10T09:14:33Z)
Efficient Feature Fusion for UAV Object Detection [9.632727117779178]
特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-29T20:39:16Z)
Boosting Salient Object Detection with Knowledge Distillated from Large Foundation Models [7.898092154590899]
Salient Object Detectionは、シーン内の顕著な領域を特定し、セグメンテーションすることを目的としている。従来のモデルは、正確なピクセルレベルの精度で手動でアノテートされた擬似ラベルに依存している。本研究では,低コストで高精度なアノテーション手法を開発し,課題に対処する。
論文参考訳（メタデータ） (2025-01-08T15:56:21Z)
RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations [55.74675012171316]
RELOCATEは、長いビデオにおけるビジュアルクエリローカライゼーションの難しいタスクを実行するために設計された、トレーニング不要のベースラインである。タスク固有のトレーニングを不要にするために、RELOCATEは事前訓練された視覚モデルから派生した領域ベースの表現を利用する。
論文参考訳（メタデータ） (2024-12-02T18:59:53Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Imagining the Unseen: Generative Location Modeling for Object Placement [49.71690795831461]
対象物に対する可塑性境界ボックスの予測を学習する生成的位置モデルを開発する。我々のアプローチはまずイメージとターゲットオブジェクトクラスをトークン化し、次に自動回帰変換器を通して境界ボックス座標をデコードする。実験により,OPAデータセットの配置精度が向上することが確認された。
論文参考訳（メタデータ） (2024-10-17T14:00:41Z)
ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文参考訳（メタデータ） (2024-08-29T07:32:01Z)
SQLNet: Scale-Modulated Query and Localization Network for Few-Shot Class-Agnostic Counting [71.38754976584009]
CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。我々は、スケール変調クエリーおよびローカライズネットワーク(Net)と呼ばれる、新しいローカライズベースのCACアプローチを提案する。クエリとローカライゼーションの段階において、模範者のスケールを完全に探求し、各オブジェクトを正確に位置付けし、その近似サイズを予測することで、効果的なカウントを実現している。
論文参考訳（メタデータ） (2023-11-16T16:50:56Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
An Object SLAM Framework for Association, Mapping, and High-Level Tasks [12.62957558651032]
本稿では,オブジェクト指向認識とオブジェクト指向ロボットタスクに焦点を当てた包括的オブジェクトSLAMフレームワークを提案する。提案したオブジェクトSLAMフレームワークを効率よく評価するために,さまざまな公開データセットと実世界の結果が使用されている。
論文参考訳（メタデータ） (2023-05-12T08:10:14Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
Dense Relation Distillation with Context-aware Aggregation for Few-Shot Object Detection [18.04185751827619]
新規なオブジェクトのきめ細かい特徴を、ほんのわずかなデータで簡単に見落としてしまうため、オブジェクト検出は困難である。本稿では,少数の検出問題に対処するために,DCNet (Context-aware Aggregation) を用いたDense Relation Distillationを提案する。
論文参考訳（メタデータ） (2021-03-30T05:34:49Z)
Pairwise Similarity Knowledge Transfer for Weakly Supervised Object Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。 COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文参考訳（メタデータ） (2020-03-18T17:53:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。