Fugu-MT 論文翻訳(概要): GiPL: Generative augmented iterative Pseudo-Labeling for Cross-Domain Few-Shot Object Detection

論文の概要: GiPL: Generative augmented iterative Pseudo-Labeling for Cross-Domain Few-Shot Object Detection

arxiv url: http://arxiv.org/abs/2605.29539v2
Date: Sun, 31 May 2026 07:12:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 18:24:16.737505
Title: GiPL: Generative augmented iterative Pseudo-Labeling for Cross-Domain Few-Shot Object Detection
Title（参考訳）: GiPL: クロスドメインFew-Shotオブジェクト検出のための拡張反復擬似ラベル生成
Authors: Jiacong Liu, Shu Luo, Yikai Qin, Yaze Zhao, Yongwei Jiang, Yixiong Zou,
Abstract要約: GiPLは、クロスドメインFew-Shotオブジェクト検出のための効率的な2ブランチトレーニングフレームワークである。パフォーマンスが大幅に向上した最先端のメソッドを一貫して上回る。
参考スコア（独自算出の注目度）: 11.145284589736635
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language foundation models have shown promising zero-shot generalization for Cross-Domain Few-Shot Object Detection (CD-FSOD). However, they face two critical challenges in fine-tuning: insufficient support set utilization due to sparse single-instance annotations, and severe overfitting under extremely limited target-domain samples. To address these issues, this paper proposes GiPL, an efficient two-branch training framework. In the first branch, we design an iterative pseudo-label self-training paradigm, which performs zero-shot inference on the support set to generate reliable pseudo-annotations, fuses them with ground-truth labels, and iteratively optimizes the model to fully exploit support set data. In the second branch, we introduce generative data augmentation pipeline using large vision-language models, which synthesizes domain-aligned, multi-object annotated images to enrich training samples and suppress overfitting. Extensive experiments on three challenging CD-FSOD datasets (RUOD, CARPK, CarDD) under 1/5/10-shot settings demonstrate that GiPL consistently outperforms state-of-the-art methods with significant performance gains. Code is available at \href{https://github.com/z-yaz/CDiscover}{CDiscover}.
Abstract（参考訳）: 視覚言語基礎モデルでは、クロスドメインFew-Shot Object Detection (CD-FSOD) のゼロショットの一般化が期待できる。しかし、それらは微調整において2つの重要な課題に直面している: 不足した単一インスタンスアノテーションによるサポートセットの利用不足と、極めて限定されたターゲットドメインサンプルによる過度なオーバーフィッティングである。これらの課題に対処するために,効率的な2分岐学習フレームワークであるGiPLを提案する。第1のブランチでは,信頼度の高い擬似アノテーションを生成するために,サポートセット上でゼロショット推論を実行し,ベーストラストラベルと融合する反復的擬似ラベル自己学習パラダイムを設計し,サポートセットデータを完全に活用するためにモデルを反復的に最適化する。第2のブランチでは、ドメイン整合したマルチオブジェクトのアノテーション付き画像を合成し、トレーニングサンプルを充実させ、オーバーフィッティングを抑制する、大規模な視覚言語モデルを用いた生成データ拡張パイプラインを導入する。 1/5/10ショット設定下での3つの挑戦CD-FSODデータセット(RUOD、CARPK、CarDD)の大規模な実験により、GiPLは、パフォーマンスが大幅に向上した最先端のメソッドを一貫して上回ることを示した。コードは \href{https://github.com/z-yaz/CDiscover}{CDiscover} で公開されている。

関連論文リスト

FSOD-VFM: Few-Shot Object Detection with Vision Foundation Models and Graph Diffusion [18.996022873991596]
FSOD-VFM:Few-Shot Object Detector with Vision Foundation Modelsについて述べる。 FSOD-VFMは、カテゴリに依存しない境界ボックス生成のためのユニバーサルプロポーザルネットワーク(UPN)、正確なマスク抽出のためのSAM2、新しいオブジェクトカテゴリに効率的に適応するためのDINOv2特徴の3つの主要なコンポーネントを統合している。提案手法では,予測境界ボックスを有向グラフのノードとしてモデル化し,ネットワーク全体の信頼度を伝搬するグラフ拡散操作を適用した。
論文参考訳（メタデータ） (2026-02-03T05:45:22Z)
Beyond Frequency: Scoring-Driven Debiasing for Object Detection via Blueprint-Prompted Image Synthesis [97.37770785712475]
オブジェクト検出のための世代ベースデバイアスフレームワークを提案する。提案手法は,未表現オブジェクト群の性能ギャップを著しく狭める。
論文参考訳（メタデータ） (2025-10-21T02:19:12Z)
First RAG, Second SEG: A Training-Free Paradigm for Camouflaged Object Detection [14.070196423996045]
既存のアプローチは、しばしば重い訓練と大きな計算資源に依存している。 RAG-SEGはCODを2段階に分離し,粗いマスクをプロンプトとして生成するRAG(Retrieval-Augmented Generation)と,改良のためのSAMベースセグメンテーション(SEG)の2つを提案する。 RAG-SEGは、教師なしクラスタリングによってコンパクトな検索データベースを構築し、高速かつ効果的な特徴検索を可能にする。ベンチマークCODデータセットの実験では、RAG-SEGが最先端の手法に匹敵する性能を示した。
論文参考訳（メタデータ） (2025-08-21T07:14:18Z)
Self-Enhanced Image Clustering with Cross-Modal Semantic Consistency [57.961869351897384]
効率的な画像クラスタリングのためのクロスモーダルなセマンティック一貫性に基づくフレームワークを提案する。当社のフレームワークはまず,クロスモーダルセマンティック一貫性を通じて,強力な基盤を構築します。最初の段階では、トレーニング済みモデルのリッチなセマンティクスに合わせて、軽量クラスタリングヘッドをトレーニングします。第2段階では、自己強化微調整戦略を導入する。
論文参考訳（メタデータ） (2025-08-02T08:12:57Z)
Concept-Aware LoRA for Domain-Aligned Segmentation Dataset Generation [66.66243874361103]
1) 生成されたサンプルを対象のドメインに整列させ、2) トレーニングデータ以外の情報的なサンプルを生成する。本稿では,ドメインアライメントに必要な概念に関連する重みのみを選択的に識別・更新する,新しい微調整手法であるConcept-Aware LoRAを提案する。都市・シーンのセグメンテーション, ベースライン, 最先端の手法をドメイン内設定で生成する上での有効性を実証する。
論文参考訳（メタデータ） (2025-03-28T06:23:29Z)
Collaborative Propagation on Multiple Instance Graphs for 3D Instance Segmentation with Single-point Supervision [63.429704654271475]
本稿では,1つのオブジェクトを1つのポイントでラベル付けするだけでよい,弱教師付き手法RWSegを提案する。これらの疎いラベルにより、セマンティック情報とインスタンス情報を伝達する2つの分岐を持つ統一的なフレームワークを導入する。具体的には、異なるインスタンスグラフ間の競合を促進するクロスグラフ競合ランダムウォークス(CRW)アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-08-10T02:14:39Z)
One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文参考訳（メタデータ） (2020-05-08T01:59:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。