論文の概要: DRFormer: A Dual-Regularized Bidirectional Transformer for Person Re-identification
- arxiv url: http://arxiv.org/abs/2602.01059v1
- Date: Sun, 01 Feb 2026 06:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.565688
- Title: DRFormer: A Dual-Regularized Bidirectional Transformer for Person Re-identification
- Title(参考訳): DRFormer: 人物再識別のための二重正規化双方向変換器
- Authors: Ying Shu, Pujian Zhan, Huiqi Yang, Hehe Fan, Youfang Lin, Kai Lv,
- Abstract要約: 微粒な識別的詳細とグローバルな意味的特徴は、人物の再識別の課題の解決に寄与する。
視覚基礎モデルは局所的なテクスチャのマイニングに優れており、視覚言語モデルは強いグローバルな意味の違いを捉えている。
我々は,textbfDual-textbfRegularized Bidirectional textbfTransformerを用いて,その強みを相乗化するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.61695934257133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Both fine-grained discriminative details and global semantic features can contribute to solving person re-identification challenges, such as occlusion and pose variations. Vision foundation models (\textit{e.g.}, DINO) excel at mining local textures, and vision-language models (\textit{e.g.}, CLIP) capture strong global semantic difference. Existing methods predominantly rely on a single paradigm, neglecting the potential benefits of their integration. In this paper, we analyze the complementary roles of these two architectures and propose a framework to synergize their strengths by a \textbf{D}ual-\textbf{R}egularized Bidirectional \textbf{Transformer} (\textbf{DRFormer}). The dual-regularization mechanism ensures diverse feature extraction and achieves a better balance in the contributions of the two models. Extensive experiments on five benchmarks show that our method effectively harmonizes local and global representations, achieving competitive performance against state-of-the-art methods.
- Abstract(参考訳): 微粒な識別的詳細とグローバルな意味的特徴の両方が、オクルージョンやポーズのバリエーションといった人物の再識別の課題の解決に寄与する。
ビジョン基盤モデル (\textit{e g }, DINO) は局所的なテクスチャのマイニングに優れ、ビジョン言語モデル (\textit{e g }, CLIP) は強力なグローバルセマンティックな違いを捉えている。
既存のメソッドは主に単一のパラダイムに依存しており、統合の潜在的な利点を無視している。
本稿では,これら2つのアーキテクチャの相補的役割を解析し,その強みを \textbf{D}ual-\textbf{R}egularized Bidirectional \textbf{Transformer} (\textbf{DRFormer}) を用いて相乗化するためのフレームワークを提案する。
二重規則化機構は多様な特徴抽出を保証し、2つのモデルの貢献のバランスを良くする。
5つのベンチマークにおいて,本手法は局所的および大域的表現を効果的に調和させ,最先端の手法と競合する性能を達成できることを示す。
関連論文リスト
- CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval [54.15776146365823]
Composed Image Retrieval (CIR)では、ユーザーは参照画像と操作テキストの両方を使用してターゲットイメージを検索できる。
CSMCIRは3つの相乗的コンポーネントを通して効率的なクエリターゲットアライメントを実現する統一表現フレームワークである。
論文 参考訳(メタデータ) (2026-01-07T09:21:38Z) - Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion [31.189038928192648]
Co2Sは半教師付きRSセグメンテーションフレームワークで、ビジョン言語モデルと自己教師型モデルとを融合する。
テキスト埋め込みと学習可能なクエリを利用した,明示的でシンプルなセマンティックコガイダンス機構が導入された。
6つの一般的なデータセットに対する実験は,提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2025-12-28T18:24:19Z) - Divide, Conquer and Unite: Hierarchical Style-Recalibrated Prototype Alignment for Federated Medical Image Segmentation [66.82598255715696]
フェデレートラーニング(Federated Learning)は、複数の医療機関がデータを共有することなく、グローバルなモデルをトレーニングすることを可能にする。
現在のアプローチは主に、重要なマルチレベルキューを見下ろす最終層機能に重点を置いている。
我々は,ドメイン不変のコンテキスト型プロトタイプアライメントを介して特徴表現ギャップをブリッジするFedBCSを提案する。
論文 参考訳(メタデータ) (2025-11-14T04:15:34Z) - Gait Recognition via Collaborating Discriminative and Generative Diffusion Models [46.47230169653599]
CoD$2$は、拡散モデルのデータ分散モデリング能力と識別モデルの意味表現学習強度を組み合わせた、新しいフレームワークである。
CoD$2$は最先端のパフォーマンスを実現し、既存の差別的手法とシームレスに統合できることを示す。
論文 参考訳(メタデータ) (2025-11-09T06:10:35Z) - Enhancing Self-Supervised Learning with Semantic Pairs A New Dataset and Empirical Study [2.4405762029252465]
インスタンス識別は、データセット内の個々のインスタンスを別々のクラスとして扱う、自己教師付き表現学習パラダイムである。
モデル表現の一般化性を高めるためにセマンティックペアを利用するための技術基盤を提供する。
論文 参考訳(メタデータ) (2025-10-09T18:31:55Z) - MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing [117.58619053719251]
MinerU2.5は、例外的な計算効率を維持しつつ、最先端の認識精度を実現する文書解析モデルである。
提案手法では,局所的なコンテンツ認識からグローバルなレイアウト解析を分離する,粗大な2段階解析戦略を採用している。
論文 参考訳(メタデータ) (2025-09-26T10:45:48Z) - SUDER: Self-Improving Unified Large Multimodal Models for Understanding and Generation with Dual Self-Rewards [55.99492656542475]
textbfSDER (textbfSelf-improving textbfUnified LMMs with textbfDual stextbfElf-textbfRewards) を提案する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - DualKanbaFormer: An Efficient Selective Sparse Framework for Multimodal Aspect-based Sentiment Analysis [0.6187939267100836]
マルチモーダル解析のための並列テキストおよびVisual KanbaFormerモジュールを利用する新しいフレームワークであるDual KanbaFormerを紹介する。
当社のアプローチでは、アスペクト指向スパース注意(ADSA)を導入して、粗粒度の凝集とアスペクト指向の精度のためのきめ細かい選択のバランスを取る。
従来のフィードフォワードネットワークと正規化をKAN(Kolmogorov-Arnold Networks)とDyT(Dynamic Tanh)に置き換え、非線形表現性と推論安定性を向上させる。
論文 参考訳(メタデータ) (2024-08-27T19:33:15Z) - Robust Training of Federated Models with Extremely Label Deficiency [84.00832527512148]
フェデレーション半教師付き学習(FSSL)は、ラベル不足を伴う分散データを用いて機械学習モデルを協調訓練するための強力なパラダイムとして登場した。
我々は,ラベル付きおよびラベルなしデータの異なる視点から洞察を提供することにより相互指導を強化するために,ツインサイトと呼ばれる新しいツインモデルパラダイムを提案する。
4つのベンチマークデータセットに関する包括的な実験は、Twin-sightが様々な実験環境において最先端の手法を著しく上回っていることを示す重要な証拠となる。
論文 参考訳(メタデータ) (2024-02-22T10:19:34Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - G$^2$DA: Geometry-Guided Dual-Alignment Learning for RGB-Infrared Person
Re-Identification [3.909938091041451]
RGB-IRの人物再識別は、異種間の興味のある人物を検索することを目的としている。
本稿では,サンプルレベルのモダリティ差に対処するための幾何誘導デュアルアライメント学習フレームワーク(G$2$DA)を提案する。
論文 参考訳(メタデータ) (2021-06-15T03:14:31Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。