論文の概要: Language-Driven Dual Style Mixing for Single-Domain Generalized Object Detection
- arxiv url: http://arxiv.org/abs/2505.07219v1
- Date: Mon, 12 May 2025 04:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.257995
- Title: Language-Driven Dual Style Mixing for Single-Domain Generalized Object Detection
- Title(参考訳): 単一ドメイン汎用オブジェクト検出のための言語駆動型デュアルスタイルミキシング
- Authors: Hongda Qin, Xiao Lu, Zhiyong Wei, Yihong Cao, Kailun Yang, Ningjiang Chen,
- Abstract要約: 単一のドメインでトレーニングされたオブジェクト検出器を複数の見えないドメインに一般化することは、難しい作業である。
ビジョンランゲージモデル(VLM)に基づく拡張技術は有効であることが証明されているが、検出器のバックボーンはVLMの画像エンコーダと同じ構造を持つ必要がある。
単一ドメインの一般化のための言語駆動型デュアルスタイル混合(LDDS)を提案する。
- 参考スコア(独自算出の注目度): 12.5655114431805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizing an object detector trained on a single domain to multiple unseen domains is a challenging task. Existing methods typically introduce image or feature augmentation to diversify the source domain to raise the robustness of the detector. Vision-Language Model (VLM)-based augmentation techniques have been proven to be effective, but they require that the detector's backbone has the same structure as the image encoder of VLM, limiting the detector framework selection. To address this problem, we propose Language-Driven Dual Style Mixing (LDDS) for single-domain generalization, which diversifies the source domain by fully utilizing the semantic information of the VLM. Specifically, we first construct prompts to transfer style semantics embedded in the VLM to an image translation network. This facilitates the generation of style diversified images with explicit semantic information. Then, we propose image-level style mixing between the diversified images and source domain images. This effectively mines the semantic information for image augmentation without relying on specific augmentation selections. Finally, we propose feature-level style mixing in a double-pipeline manner, allowing feature augmentation to be model-agnostic and can work seamlessly with the mainstream detector frameworks, including the one-stage, two-stage, and transformer-based detectors. Extensive experiments demonstrate the effectiveness of our approach across various benchmark datasets, including real to cartoon and normal to adverse weather tasks. The source code and pre-trained models will be publicly available at https://github.com/qinhongda8/LDDS.
- Abstract(参考訳): 単一のドメインでトレーニングされたオブジェクト検出器を複数の見えないドメインに一般化することは、難しい作業である。
既存の手法は通常、検出器の堅牢性を高めるためにソースドメインを多様化するために画像または特徴拡張を導入する。
VLM(Vision-Language Model)ベースの拡張技術は有効であることが証明されているが、検出器のバックボーンはVLMの画像エンコーダと同じ構造であり、検出器フレームワークの選択を制限する必要がある。
この問題に対処するため,単一ドメインの一般化のための言語駆動型デュアルスタイル混合(LDDS)を提案し,VLMのセマンティック情報を完全に活用してソースドメインを多様化する。
具体的には、VLMに埋め込まれたスタイル意味を画像翻訳ネットワークに転送するプロンプトを最初に構築する。
これにより、明示的な意味情報を持つスタイルの多様化画像の生成が容易になる。
そこで本研究では,多様な画像とソース・ドメイン・イメージ間の画像レベル・スタイルの混合を提案する。
これにより、特定の拡張選択に頼ることなく、画像拡張のための意味情報を効果的にマイニングする。
最後に,2段式,2段型,変圧器型などの主流検出器フレームワークとシームレスに機能拡張を行うことができる機能レベルの混合方式を提案する。
大規模な実験は、リアル・マンガや正常・悪天候タスクなど、様々なベンチマーク・データセットにまたがるアプローチの有効性を実証している。
ソースコードと事前トレーニングされたモデルは、https://github.com/qinhongda8/LDDSで公開される。
関連論文リスト
- A Recipe for Improving Remote Sensing VLM Zero Shot Generalization [0.4427533728730559]
本稿では,リモートセンシング基礎モデルのトレーニングのための2つの新しい画像キャプチャーデータセットを提案する。
最初のデータセットは、Google Mapsから抽出されたランドマークを使用して、Geminiによって生成されたキャプションと航空画像と衛星画像のペアである。
第2のデータセットは、リモートセンシングドメインのためにフィルタリングされたパブリックWebイメージとそれに対応するalt-textを利用する。
論文 参考訳(メタデータ) (2025-03-10T21:09:02Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation [16.58381088280145]
我々は,OVRSISS(Open-Vocabulary Remote Sensing Image Semantic)を導入し,任意のセマンティッククラスをリモートセンシング画像に分割する。
OVRSISSデータセットの欠如に対処するため、40の多様なセマンティッククラスをカバーする51,846イメージの包括的なデータセットであるLandDiscover50Kを開発した。
さらに,特殊なリモートセンシングモデルと汎用視覚言語モデルの汎用機能から,ドメインの事前情報を統合したGSNetという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-27T07:20:30Z) - I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:44:50Z) - WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - I2F: A Unified Image-to-Feature Approach for Domain Adaptive Semantic
Segmentation [55.633859439375044]
意味的セグメンテーションのための教師なしドメイン適応(UDA)は、重いアノテーション作業から人々を解放する有望なタスクである。
この問題に対処する主要なアイデアは、画像レベルと特徴レベルの両方を共同で実行することである。
本稿では,画像レベルと特徴レベルを統一したセマンティックセグメンテーションのための新しいUDAパイプラインを提案する。
論文 参考訳(メタデータ) (2023-01-03T15:19:48Z) - Federated Domain Generalization for Image Recognition via Cross-Client
Style Transfer [60.70102634957392]
ドメイン一般化(Domain Generalization, DG)は、画像認識においてホットなトピックであり、目に見えないドメインでうまく機能する一般的なモデルを訓練することを目的としている。
本稿では,データサンプルを交換することなく,クロスクライアント型転送(CCST)による画像認識のための新しい領域一般化手法を提案する。
本手法は2つのDGベンチマーク(PACS, OfficeHome)とFL設定における大規模医用画像データセット(Camelyon17)において,最近のSOTA DG法より優れている。
論文 参考訳(メタデータ) (2022-10-03T13:15:55Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。