論文の概要: On-the-Fly OVD Adaptation with FLAME: Few-shot Localization via Active Marginal-Samples Exploration
- arxiv url: http://arxiv.org/abs/2510.17670v1
- Date: Mon, 20 Oct 2025 15:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.507419
- Title: On-the-Fly OVD Adaptation with FLAME: Few-shot Localization via Active Marginal-Samples Exploration
- Title(参考訳): FLAMEを用いたオンザフライOVD適応:アクティブマージナルサンプルズ探索によるFew-shotローカライゼーション
- Authors: Yehonathan Refael, Amit Aides, Aviad Barzilai, George Leifman, Genady Beryozkin, Vered Silverman, Bolous Jaber, Tomer Shekel,
- Abstract要約: オープンボキャブラリオブジェクト検出(OVD)モデルは、任意のテキストクエリからオブジェクトを検出することで、顕著な柔軟性を提供する。
リモートセンシング(RS)のような特殊なドメインにおけるゼロショットのパフォーマンスは、自然言語固有の曖昧さによってしばしば損なわれる。
そこで本研究では,大規模な事前学習型OVDモデルの広範な一般化と,軽量な数ショット分類器を併用したケースケード手法を提案する。
- 参考スコア(独自算出の注目度): 1.7975230539002824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary object detection (OVD) models offer remarkable flexibility by detecting objects from arbitrary text queries. However, their zero-shot performance in specialized domains like Remote Sensing (RS) is often compromised by the inherent ambiguity of natural language, limiting critical downstream applications. For instance, an OVD model may struggle to distinguish between fine-grained classes such as "fishing boat" and "yacht" since their embeddings are similar and often inseparable. This can hamper specific user goals, such as monitoring illegal fishing, by producing irrelevant detections. To address this, we propose a cascaded approach that couples the broad generalization of a large pre-trained OVD model with a lightweight few-shot classifier. Our method first employs the zero-shot model to generate high-recall object proposals. These proposals are then refined for high precision by a compact classifier trained in real-time on only a handful of user-annotated examples - drastically reducing the high costs of RS imagery annotation.The core of our framework is FLAME, a one-step active learning strategy that selects the most informative samples for training. FLAME identifies, on the fly, uncertain marginal candidates near the decision boundary using density estimation, followed by clustering to ensure sample diversity. This efficient sampling technique achieves high accuracy without costly full-model fine-tuning and enables instant adaptation, within less then a minute, which is significantly faster than state-of-the-art alternatives.Our method consistently surpasses state-of-the-art performance on RS benchmarks, establishing a practical and resource-efficient framework for adapting foundation models to specific user needs.
- Abstract(参考訳): オープンボキャブラリオブジェクト検出(OVD)モデルは、任意のテキストクエリからオブジェクトを検出することで、顕著な柔軟性を提供する。
しかし、Remote Sensing (RS)のような特殊なドメインにおけるゼロショットのパフォーマンスは、しばしば自然言語固有の曖昧さによって損なわれ、重要な下流アプリケーションを制限する。
例えば、OVDモデルは「漁船」や「ヨット」のような微細なクラスを区別するのに苦労することがある。
これは、無関係な検出を生成することによって、違法な釣りの監視など、特定のユーザ目標を阻害する可能性がある。
そこで本研究では,大規模な事前学習型OVDモデルの広範な一般化と,軽量な数ショット分類器を併用したカスケード手法を提案する。
提案手法はまずゼロショットモデルを用いてハイリコールオブジェクトの提案を生成する。
これらの提案は,一握りのユーザアノテート例に基づいて,リアルタイムに学習したコンパクトな分類器によって高精度に改良され,RS画像アノテーションの高コストを大幅に削減する。
FLAMEは、密度推定を用いて決定境界付近で不確実な限界候補を特定し、続いてクラスタリングを行い、サンプルの多様性を確実にする。
この効率的なサンプリング技術は,コストのかかるフルモデルファインチューニングを伴わずに高精度に実現し,最先端の代替品よりもはるかに高速な1分以内の即時適応を可能にし,我々の手法は,RSベンチマークの最先端性能を一貫して上回り,基礎モデルを特定のユーザのニーズに適応するための実用的で資源効率のよいフレームワークを確立する。
関連論文リスト
- Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [81.93945602120453]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models [19.17722702457403]
現状のArtETLアプローチは、狭義の実験的な設定でのみ強力な性能を示すことを示す。
一般化されたラグランジアン法を適応させることにより,バランス項を最適化したCLAP(CLass-Adaptive linear Probe)の目的を提案する。
論文 参考訳(メタデータ) (2023-12-20T02:58:25Z) - Soft ascent-descent as a stable and flexible alternative to flooding [6.527016551650139]
我々は,軟化・ポイントワイド機構であるSoftADを提案する。この機構は,降水量と降水量の影響を制限し,洪水の上昇・昇華効果を維持できる。
我々は,より小さな損失一般化ギャップとモデル規範を享受しながら,浸水と競合する分類精度をSoftADが実現できることを実証する。
論文 参考訳(メタデータ) (2023-10-16T02:02:56Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。