論文の概要: A Theory-Inspired Framework for Few-Shot Cross-Modal Sketch Person Re-Identification
- arxiv url: http://arxiv.org/abs/2511.18677v1
- Date: Mon, 24 Nov 2025 01:26:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.967109
- Title: A Theory-Inspired Framework for Few-Shot Cross-Modal Sketch Person Re-Identification
- Title(参考訳): Few-Shot クロスモーダル・スケッチ・パーソンの再同定のための理論に着想を得たフレームワーク
- Authors: Yunpeng Gong, Yongjie Hou, Jiangming Shi, Kim Long Diep, Min Jiang,
- Abstract要約: スケッチをベースとした人物の再識別は、手描きのスケッチとRGBの監視画像とをマッチングすることを目的としている。
KTCAAは,数発のクロスモーダル一般化のためのフレームワークである。
我々は,KTCAAが特にデータスカース条件下で,最先端の性能を達成することを示す。
- 参考スコア(独自算出の注目度): 5.499165736807566
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sketch based person re-identification aims to match hand-drawn sketches with RGB surveillance images, but remains challenging due to significant modality gaps and limited annotated data. To address this, we introduce KTCAA, a theoretically grounded framework for few-shot cross-modal generalization. Motivated by generalization theory, we identify two key factors influencing target domain risk: (1) domain discrepancy, which quantifies the alignment difficulty between source and target distributions; and (2) perturbation invariance, which evaluates the model's robustness to modality shifts. Based on these insights, we propose two components: (1) Alignment Augmentation (AA), which applies localized sketch-style transformations to simulate target distributions and facilitate progressive alignment; and (2) Knowledge Transfer Catalyst (KTC), which enhances invariance by introducing worst-case perturbations and enforcing consistency. These modules are jointly optimized under a meta-learning paradigm that transfers alignment knowledge from data-rich RGB domains to sketch-based scenarios. Experiments on multiple benchmarks demonstrate that KTCAA achieves state-of-the-art performance, particularly in data-scarce conditions.
- Abstract(参考訳): スケッチをベースとした人物の再識別は、手描きのスケッチとRGBの監視画像とをマッチングすることを目的としている。
そこで本研究では,数発のクロスモーダル一般化のための理論的基盤となるフレームワークであるKTCAAを紹介する。
一般化理論により, 対象領域のリスクに影響を及ぼす2つの要因を同定した。(1) 震源分布と目標分布の整合困難を定量化する領域差, (2) 摂動不変性, モデルがモダリティシフトに頑健性を評価する領域差である。
これらの知見に基づいて,(1)目標分布をシミュレートし,進行的アライメントを促進するために局所的なスケッチスタイルの変換を適用するアライメント拡張(AA)と,(2)最悪の場合の摂動の導入と一貫性の強制による不変性を高める知識伝達触媒(KTC)の2成分を提案する。
これらのモジュールは、データリッチなRGBドメインからスケッチベースのシナリオへのアライメント知識の転送というメタラーニングパラダイムの下で、共同で最適化されている。
複数のベンチマーク実験により、KTCAAは、特にデータスカース条件下で、最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Concept Regions Matter: Benchmarking CLIP with a New Cluster-Importance Approach [20.898059440239603]
クラスタベースの概念重要度(CCI)は、新しい解釈可能性手法である。
CCIは、忠実度ベンチマークの新たな最先端を定めている。
今回,18種類のCLIPの包括的評価を行った。
論文 参考訳(メタデータ) (2025-11-17T05:01:24Z) - Domain Adaptation via Feature Refinement [0.3867363075280543]
本稿では,分散シフト下での非教師付きドメイン適応のための簡易かつ効果的なフレームワークであるDAFR(Domain Adaptation via Feature Refinement)を提案する。
提案手法は, ラベルなし対象データを用いたバッチ正規化統計の適応, ソース学習モデルからの特徴蒸留, 仮説伝達の3つの重要な要素を組み合わせた。
論文 参考訳(メタデータ) (2025-08-22T06:32:19Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。
ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:50:34Z) - Invariant Representation via Decoupling Style and Spurious Features from Images [27.965593857283316]
本稿では,スタイル分布シフトと突発的特徴の両方が存在すること,ドメインラベルが欠落していることを前提として,アウト・オブ・ディストリビューション(OOD)の一般化問題を考察する。
本稿では,画像生成プロセスのための構造因果モデル(SCM)を提案する。
提案したSCMにより,IRSSと呼ばれる新しいフレームワークを設計することができる。
論文 参考訳(メタデータ) (2023-12-11T09:14:42Z) - Relation Matters: Foreground-aware Graph-based Relational Reasoning for
Domain Adaptive Object Detection [81.07378219410182]
我々は、FGRR(Fearground-aware Graph-based Reasoning)というドメインDのための新しい汎用フレームワークを提案する。
FGRRはグラフ構造を検出パイプラインに組み込んで、ドメイン内およびドメイン間フォアグラウンドオブジェクト関係を明示的にモデル化する。
実験の結果、提案したFGRRは4つのDomainDベンチマークの最先端よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-06-06T05:12:48Z) - BDA-SketRet: Bi-Level Domain Adaptation for Zero-Shot SBIR [52.78253400327191]
BDA-SketRetは、視覚データペアの空間的特徴と意味的特徴を整合させるために、バイレベルドメイン適応を実行する新しいフレームワークである。
拡張されたSketchy、TU-Berlin、QuickDrawの実験結果は、文献よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-01-17T18:45:55Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - G$^2$DA: Geometry-Guided Dual-Alignment Learning for RGB-Infrared Person
Re-Identification [3.909938091041451]
RGB-IRの人物再識別は、異種間の興味のある人物を検索することを目的としている。
本稿では,サンプルレベルのモダリティ差に対処するための幾何誘導デュアルアライメント学習フレームワーク(G$2$DA)を提案する。
論文 参考訳(メタデータ) (2021-06-15T03:14:31Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。