論文の概要: DRFormer: A Dual-Regularized Bidirectional Transformer for Person Re-identification
- arxiv url: http://arxiv.org/abs/2602.01059v1
- Date: Sun, 01 Feb 2026 06:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.565688
- Title: DRFormer: A Dual-Regularized Bidirectional Transformer for Person Re-identification
- Title(参考訳): DRFormer: 人物再識別のための二重正規化双方向変換器
- Authors: Ying Shu, Pujian Zhan, Huiqi Yang, Hehe Fan, Youfang Lin, Kai Lv,
- Abstract要約: 微粒な識別的詳細とグローバルな意味的特徴は、人物の再識別の課題の解決に寄与する。
視覚基礎モデルは局所的なテクスチャのマイニングに優れており、視覚言語モデルは強いグローバルな意味の違いを捉えている。
我々は,textbfDual-textbfRegularized Bidirectional textbfTransformerを用いて,その強みを相乗化するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.61695934257133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Both fine-grained discriminative details and global semantic features can contribute to solving person re-identification challenges, such as occlusion and pose variations. Vision foundation models (\textit{e.g.}, DINO) excel at mining local textures, and vision-language models (\textit{e.g.}, CLIP) capture strong global semantic difference. Existing methods predominantly rely on a single paradigm, neglecting the potential benefits of their integration. In this paper, we analyze the complementary roles of these two architectures and propose a framework to synergize their strengths by a \textbf{D}ual-\textbf{R}egularized Bidirectional \textbf{Transformer} (\textbf{DRFormer}). The dual-regularization mechanism ensures diverse feature extraction and achieves a better balance in the contributions of the two models. Extensive experiments on five benchmarks show that our method effectively harmonizes local and global representations, achieving competitive performance against state-of-the-art methods.
- Abstract(参考訳): 微粒な識別的詳細とグローバルな意味的特徴の両方が、オクルージョンやポーズのバリエーションといった人物の再識別の課題の解決に寄与する。
ビジョン基盤モデル (\textit{e g }, DINO) は局所的なテクスチャのマイニングに優れ、ビジョン言語モデル (\textit{e g }, CLIP) は強力なグローバルセマンティックな違いを捉えている。
既存のメソッドは主に単一のパラダイムに依存しており、統合の潜在的な利点を無視している。
本稿では,これら2つのアーキテクチャの相補的役割を解析し,その強みを \textbf{D}ual-\textbf{R}egularized Bidirectional \textbf{Transformer} (\textbf{DRFormer}) を用いて相乗化するためのフレームワークを提案する。
二重規則化機構は多様な特徴抽出を保証し、2つのモデルの貢献のバランスを良くする。
5つのベンチマークにおいて,本手法は局所的および大域的表現を効果的に調和させ,最先端の手法と競合する性能を達成できることを示す。
関連論文リスト
- Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion [31.189038928192648]
Co2Sは半教師付きRSセグメンテーションフレームワークで、ビジョン言語モデルと自己教師型モデルとを融合する。
テキスト埋め込みと学習可能なクエリを利用した,明示的でシンプルなセマンティックコガイダンス機構が導入された。
6つの一般的なデータセットに対する実験は,提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2025-12-28T18:24:19Z) - Divide, Conquer and Unite: Hierarchical Style-Recalibrated Prototype Alignment for Federated Medical Image Segmentation [66.82598255715696]
フェデレートラーニング(Federated Learning)は、複数の医療機関がデータを共有することなく、グローバルなモデルをトレーニングすることを可能にする。
現在のアプローチは主に、重要なマルチレベルキューを見下ろす最終層機能に重点を置いている。
我々は,ドメイン不変のコンテキスト型プロトタイプアライメントを介して特徴表現ギャップをブリッジするFedBCSを提案する。
論文 参考訳(メタデータ) (2025-11-14T04:15:34Z) - MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing [117.58619053719251]
MinerU2.5は、例外的な計算効率を維持しつつ、最先端の認識精度を実現する文書解析モデルである。
提案手法では,局所的なコンテンツ認識からグローバルなレイアウト解析を分離する,粗大な2段階解析戦略を採用している。
論文 参考訳(メタデータ) (2025-09-26T10:45:48Z) - SUDER: Self-Improving Unified Large Multimodal Models for Understanding and Generation with Dual Self-Rewards [55.99492656542475]
textbfSDER (textbfSelf-improving textbfUnified LMMs with textbfDual stextbfElf-textbfRewards) を提案する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - DualKanbaFormer: An Efficient Selective Sparse Framework for Multimodal Aspect-based Sentiment Analysis [0.6187939267100836]
マルチモーダル解析のための並列テキストおよびVisual KanbaFormerモジュールを利用する新しいフレームワークであるDual KanbaFormerを紹介する。
当社のアプローチでは、アスペクト指向スパース注意(ADSA)を導入して、粗粒度の凝集とアスペクト指向の精度のためのきめ細かい選択のバランスを取る。
従来のフィードフォワードネットワークと正規化をKAN(Kolmogorov-Arnold Networks)とDyT(Dynamic Tanh)に置き換え、非線形表現性と推論安定性を向上させる。
論文 参考訳(メタデータ) (2024-08-27T19:33:15Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - G$^2$DA: Geometry-Guided Dual-Alignment Learning for RGB-Infrared Person
Re-Identification [3.909938091041451]
RGB-IRの人物再識別は、異種間の興味のある人物を検索することを目的としている。
本稿では,サンプルレベルのモダリティ差に対処するための幾何誘導デュアルアライメント学習フレームワーク(G$2$DA)を提案する。
論文 参考訳(メタデータ) (2021-06-15T03:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。