論文の概要: Style Evolving along Chain-of-Thought for Unknown-Domain Object Detection
- arxiv url: http://arxiv.org/abs/2503.09968v1
- Date: Thu, 13 Mar 2025 02:14:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:10.619300
- Title: Style Evolving along Chain-of-Thought for Unknown-Domain Object Detection
- Title(参考訳): 未知領域オブジェクト検出のためのチェーン・オブ・サートに沿って進化するスタイル
- Authors: Zihao Zhang, Aming Wu, Yahong Han,
- Abstract要約: 単ドメイン汎用物体検出(Single-DGOD)の課題は、トレーニング中に見たことのない複数の未知領域に検出器を一般化することを目的としている。
そこで我々は,思考の連鎖に沿ったスタイル情報を段階的に統合し,拡張することを目的とした,スタイル進化という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 35.35239718038119
- License:
- Abstract: Recently, a task of Single-Domain Generalized Object Detection (Single-DGOD) is proposed, aiming to generalize a detector to multiple unknown domains never seen before during training. Due to the unavailability of target-domain data, some methods leverage the multimodal capabilities of vision-language models, using textual prompts to estimate cross-domain information, enhancing the model's generalization capability. These methods typically use a single textual prompt, often referred to as the one-step prompt method. However, when dealing with complex styles such as the combination of rain and night, we observe that the performance of the one-step prompt method tends to be relatively weak. The reason may be that many scenes incorporate not just a single style but a combination of multiple styles. The one-step prompt method may not effectively synthesize combined information involving various styles. To address this limitation, we propose a new method, i.e., Style Evolving along Chain-of-Thought, which aims to progressively integrate and expand style information along the chain of thought, enabling the continual evolution of styles. Specifically, by progressively refining style descriptions and guiding the diverse evolution of styles, this approach enables more accurate simulation of various style characteristics and helps the model gradually learn and adapt to subtle differences between styles. Additionally, it exposes the model to a broader range of style features with different data distributions, thereby enhancing its generalization capability in unseen domains. The significant performance gains over five adverse-weather scenarios and the Real to Art benchmark demonstrate the superiorities of our method.
- Abstract(参考訳): 近年,Single-DGOD(Single-Domain Generalized Object Detection)の課題が提案されている。
対象ドメインデータの有効性がないため、テキストプロンプトを使用してドメイン間の情報を推定し、モデルの一般化能力を向上する、視覚言語モデルのマルチモーダル機能を利用する方法もある。
これらのメソッドは通常、単一のテキストプロンプトを使用し、しばしばワンステッププロンプトメソッドと呼ばれる。
しかし、雨と夜の組合せのような複雑なスタイルを扱う場合、1段階のプロンプト法の性能は比較的弱い傾向にある。
その理由は、一つの様式だけでなく、複数の様式の組み合わせが組み合わさった場面が多いからかもしれない。
1段階のプロンプト法は、様々なスタイルを含む複合情報を効果的に合成することができない。
この制限に対処するため,我々は,思考の連鎖に沿ったスタイル情報を段階的に統合・拡張し,スタイルの継続的な進化を可能にする新しい手法,すなわちChain-of-Thoughtに沿って進化するスタイル・エボルディングを提案する。
具体的には、スタイル記述を段階的に洗練し、多様なスタイルの進化を導くことにより、様々なスタイル特性のより正確なシミュレーションを可能にし、スタイル間の微妙な違いを徐々に学習し、適応するのに役立つ。
さらに、異なるデータ分布を持つ幅広いスタイルの特徴にモデルを公開し、見えない領域における一般化能力を向上する。
5つの悪天候シナリオとReal to Artベンチマークによる性能向上は,本手法の優位性を実証している。
関連論文リスト
- Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Domain Generalization with Correlated Style Uncertainty [4.844240089234632]
スタイル拡張は、インスタンス固有の特徴統計を利用する強力なDG手法である。
我々はCSU(Correlated Style Uncertainty)を導入し、スタイル統計空間における線形一般化の限界を超越した。
本手法の有効性は,多様なクロスドメインコンピュータビジョンと医用画像分類タスクの広範な実験を通じて確立される。
論文 参考訳(メタデータ) (2022-12-20T01:59:27Z) - MultiStyleGAN: Multiple One-shot Image Stylizations using a Single GAN [14.373091259972666]
一般的なシナリオはワンショットスタイリングであり、参照スタイルごとに1つの例しか使用できない。
JoJoGANファインチューンのようなワンショットスタイリングのための最近のアプローチは、単一のスタイル参照画像上に事前訓練されたStyleGAN2ジェネレータである。
単一発電機を微調整することで,複数のスタイルを同時に生成できるMultiStyleGAN法を提案する。
論文 参考訳(メタデータ) (2022-10-08T23:05:29Z) - Adversarial Style Augmentation for Domain Generalized Urban-Scene
Segmentation [120.96012935286913]
そこで本研究では,学習中にハードなスタイリング画像を生成可能な,新たな対向型拡張手法を提案する。
2つの合成から実のセマンティックセグメンテーションベンチマークの実験により、AdvStyleは目に見えない実領域におけるモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-07-11T14:01:25Z) - Style Interleaved Learning for Generalizable Person Re-identification [69.03539634477637]
DG ReIDトレーニングのための新しいスタイルインターリーブラーニング(IL)フレームワークを提案する。
従来の学習戦略とは異なり、ILには2つの前方伝播と1つの後方伝播が組み込まれている。
我々のモデルはDG ReIDの大規模ベンチマークにおいて最先端の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-07-07T07:41:32Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Distribution Aligned Multimodal and Multi-Domain Image Stylization [76.74823384524814]
マルチモーダルおよびマルチドメインスタイル転送のための統一フレームワークを提案する。
提案手法の鍵となるコンポーネントは,新しいスタイル分布アライメントモジュールである。
我々は,様々な芸術様式やジャンルで絵画の様式を伝達する枠組みを検証した。
論文 参考訳(メタデータ) (2020-06-02T07:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。