論文の概要: ROGLE: Robust Global-Local Alignment with Automated Region Supervision for Text-Based Person Search
- arxiv url: http://arxiv.org/abs/2606.01825v1
- Date: Mon, 01 Jun 2026 07:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.501281
- Title: ROGLE: Robust Global-Local Alignment with Automated Region Supervision for Text-Based Person Search
- Title(参考訳): ROGLE:ロバストなグローバルローカルアライメントとテキストベースの人物検索のための自動領域スーパービジョン
- Authors: Zequn Xie, Xibei Jia, Sihang Cai, Shulei Wang, Tao Jin,
- Abstract要約: テキストベースパーソンサーチモデルは、大域的な表現バイアスと短いキャプションでのトレーニングから受け継がれた意味空間性のために、きめ細かな理解に苦慮している。
ROGLEは、自動化された領域間マッチング戦略により、コストのかかる手作業によるアノテーションへの依存を克服する統合フレームワークである。
また、P-VLGベンチマーク(P-VLG Benchmark)についても紹介する。
- 参考スコア(独自算出の注目度): 12.859616063162491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-Based Person Search (TBPS) aims to retrieve pedestrian images using natural language queries. However, existing TBPS models, especially those based on CLIP, struggle with fine-grained understanding due to global representational bias and semantic sparsity inherited from training on short captions. This results in weak fine-grained alignment, exacerbated by the scarcity of region-level annotations. To address this, we propose ROGLE (Robust Global-Local Embedding), a unified framework that overcomes reliance on costly manual annotations through an automated Region-to-Sentence Matching (RSM) strategy. RSM automatically mines pseudo region-sentence pairs for scalable fine-grained supervision. Furthermore, ROGLE employs a multi-granular learning strategy that fuses global contrastive learning with region-level local alignment. We also introduce the P-VLG Benchmark, a large-scale dataset constructed by curating and enriching images from established public benchmarks. It features over 100,000 annotated regions and rich long-form captions, making it the first TBPS benchmark to support both global and local assessment protocols. Extensive experiments show that ROGLE significantly outperforms existing approaches, particularly on challenging long-form queries. Code and the P-VLG benchmark will be made publicly available.
- Abstract(参考訳): Text-Based Person Search (TBPS) は、自然言語クエリーを用いて歩行者画像を取得することを目的としている。
しかし、既存のTBPSモデル、特にCLIPに基づくモデルでは、グローバルな表現バイアスと短いキャプションでのトレーニングから受け継がれた意味空間が原因で、きめ細かな理解に苦慮している。
これにより、領域レベルのアノテーションの不足により悪化する微粒なアライメントが弱まる。
これを解決するために,ROGLE (Robust Global-Local Embedding) というフレームワークを提案する。
RSMは、拡張性のあるきめ細かな監視のために、擬似領域文ペアを自動的にマイニングする。
さらに、ROGLEは、グローバルなコントラスト学習と地域レベルの局所的アライメントを融合する多言語学習戦略を採用している。
また、P-VLGベンチマーク(P-VLG Benchmark)についても紹介する。
10万以上の注釈付きリージョンと豊富な長文キャプションを備えており、グローバルおよびローカルアセスメントプロトコルをサポートする最初のTBPSベンチマークとなっている。
広汎な実験により、ROGLEは既存のアプローチ、特に長文クエリーにおいて著しく優れていた。
コードとP-VLGベンチマークが公開される。
関連論文リスト
- Zero-Shot Chinese Character Recognition via Global-Local Dual-Branch Alignment and Hierarchical Inference [15.854290215907179]
漢字のカテゴリーは非常に大きく、未確認の文字はオープンワールドのシナリオでしばしば現れる。
既存のIDSベースの検索手法は通常、文字画像とそのイデオロギー記述シーケンスを1つのグローバルベクトルに符号化してマッチングする。
文字画像とIDSシーケンスのグローバルおよびローカル表現を共同で学習するグローバルローカル階層知覚ネットワーク(GL-HPN)を提案する。
論文 参考訳(メタデータ) (2026-05-09T09:05:59Z) - Efficiency Follows Global-Local Decoupling [62.05489838893081]
ConvNeurは、軽量なニューラルメモリブランチがトークンの集合にグローバルなコンテキストを集約する2分岐アーキテクチャである。
学習ゲートは、グローバルなキューが目的を絞ることなく、局所的な特徴を調整できる。
標準的な分類、検出、セグメンテーションのベンチマークでは、ConvNeurは同等または低い計算で同等の選択肢にマッチするか、超えている。
論文 参考訳(メタデータ) (2026-03-20T02:20:16Z) - Local-Global Prompt Learning via Sparse Optimal Transport [3.7098626170498643]
CLIPのような視覚言語モデル(VLM)のわずかな適応は、一般的に、グローバルな画像埋め込みにマッチしたテキストプロンプトの学習に依存している。
近年の研究では、局所的な画像テキストアライメントを取り入れて、微細な視覚的手がかりを捉えることで、このパラダイムを拡張している。
本稿では,共有スパースパッチと最適トランスポートアロケーションのバランスをとるSOT-GLPを提案する。
論文 参考訳(メタデータ) (2026-03-09T13:09:55Z) - Large Language Model with Region-guided Referring and Grounding for CT Report Generation [4.804660464589285]
既存の方法は主にボリューム全体のグローバルな特徴についてのみ考慮する。
我々は,CTレポート生成のための第1の領域誘導参照およびグラウンドディングフレームワークであるReg2RGを提案する。
論文 参考訳(メタデータ) (2024-11-23T12:25:06Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。
我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。
本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-03-04T18:58:08Z) - Contrastive Region Guidance: Improving Grounding in Vision-Language
Models without Training [79.27663870280038]
Contrastive Region Guidance (CRG) は、オープンソースの視覚言語モデルで視覚的プロンプトに応答できる訓練不要のガイダンス手法である。
領域アノテーションが提供されると、CRGはViP-Benchで最大11.1%精度が向上する。
また,空間推論へのCRGの適用性を示すとともに,What'sUpでは10%の改善が見られた。
論文 参考訳(メタデータ) (2024-03-04T18:55:30Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z) - Watching You: Global-guided Reciprocal Learning for Video-based Person
Re-identification [82.6971648465279]
映像に基づくRe-IDのための新しいグローバルガイド相互学習フレームワークを提案する。
我々のアプローチは他の最先端のアプローチよりも優れたパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2021-03-07T12:27:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。