論文の概要: SA-Person: Text-Based Person Retrieval with Scene-aware Re-ranking
- arxiv url: http://arxiv.org/abs/2505.24466v1
- Date: Fri, 30 May 2025 11:10:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.916093
- Title: SA-Person: Text-Based Person Retrieval with Scene-aware Re-ranking
- Title(参考訳): SA-Person:Scene-Aware Re-levelによるテキストベースの人物検索
- Authors: Yingjia Xu, Jinlin Wu, Zhen Chen, Daming Gao, Yang Yang, Zhen Lei, Min Cao,
- Abstract要約: 既存の手法は主に外観に基づくクロスモーダル検索に重点を置いており、しばしばシーン内に埋め込まれたコンテキスト情報を無視する。
SCENEPERSON-13Wは,歩行者の外観と環境条件の両方を多用した10万シーンを超える大規模データセットである。
第1段階では、テキストの手がかりを歩行者固有の地域と整列させることにより、差別的な接地を行う。
第2段階では、SceneRankerを紹介した。SceneRankerは、マルチモーダルな大規模言語モデルを利用して、歩行者の外観とグローバルなシーンコンテキストを共同で推論する、トレーニング不要でシーン対応のリグレード手法である。
- 参考スコア(独自算出の注目度): 20.515788520147453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based person retrieval aims to identify a target individual from a gallery of images based on a natural language description. It presents a significant challenge due to the complexity of real-world scenes and the ambiguity of appearance-related descriptions. Existing methods primarily emphasize appearance-based cross-modal retrieval, often neglecting the contextual information embedded within the scene, which can offer valuable complementary insights for retrieval. To address this, we introduce SCENEPERSON-13W, a large-scale dataset featuring over 100,000 scenes with rich annotations covering both pedestrian appearance and environmental cues. Based on this, we propose SA-Person, a two-stage retrieval framework. In the first stage, it performs discriminative appearance grounding by aligning textual cues with pedestrian-specific regions. In the second stage, it introduces SceneRanker, a training-free, scene-aware re-ranking method leveraging multimodal large language models to jointly reason over pedestrian appearance and the global scene context. Experiments on SCENEPERSON-13W validate the effectiveness of our framework in challenging scene-level retrieval scenarios. The code and dataset will be made publicly available.
- Abstract(参考訳): テキストに基づく人物検索は、自然言語記述に基づく画像ギャラリーから対象個人を特定することを目的としている。
現実のシーンの複雑さと外見に関する記述のあいまいさが大きな課題となっている。
既存の手法は主に外見に基づくクロスモーダル検索に重点を置いており、しばしばシーン内に埋め込まれたコンテキスト情報を無視し、検索に有用な補完的な洞察を提供する。
SCENEPERSON-13Wは10万シーンを超える大規模データセットで、歩行者の外観と環境条件の両方を豊富なアノテーションで表現する。
そこで本研究では,2段階検索フレームワークSA-Personを提案する。
第1段階では、テキストの手がかりを歩行者固有の地域と整列させることにより、差別的な接地を行う。
第2段階では、SceneRankerを紹介した。SceneRankerは、マルチモーダルな大規模言語モデルを活用して、歩行者の外観とグローバルなシーンコンテキストを共同で推論する、トレーニング不要でシーン対応のリグレード手法である。
SCENEPERSON-13Wの実験は、シーンレベルの検索シナリオにおける我々のフレームワークの有効性を検証する。
コードとデータセットは一般公開される予定だ。
関連論文リスト
- VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - BEV-TSR: Text-Scene Retrieval in BEV Space for Autonomous Driving [46.84729450920804]
本稿では,BEV-TSRフレームワークを提案する。BEV-TSRフレームワークは,バードアイビュー空間内の対応するシーンを検索するために,記述テキストを入力として利用する。
我々は,大言語モデル(LLM)を用いてテキスト入力の意味的特徴を抽出し,知識グラフの埋め込みを取り入れ,言語埋め込みの意味的豊かさを高める。
マルチレベルnuScenes-Retrievalの実験結果によると、BEV-TSRは、例えば85.78%と87.66%のトップ1の精度をシーン・トゥ・テキスト・ツー・シーンで達成している。
論文 参考訳(メタデータ) (2024-01-02T06:56:23Z) - GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives [69.36723767339001]
我々は,より正確で包括的なシーングラフ信号を得るために,textitGPT4SGという新しいフレームワークを提案する。
textitGPT4SGGは、画像キャプチャーデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-07T14:11:00Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval [66.66400551173619]
単一$textbfVi$sionでクロスモーダル検索シナリオを統合するためのフルトランスフォーマーアーキテクチャを提案する。
画像-テキストペアと融合-テキストペアの両方を共通モード空間に埋め込むために、二重対照的な学習損失を発生させる。
実験の結果、ViSTAはシーンテキスト認識検索タスクに対して少なくとも$bf8.4%のRecall@1で他のメソッドよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-31T03:40:21Z) - Global-Local Context Network for Person Search [125.51080862575326]
パーソンサーチは、自然に切り刻まれた画像からクエリーを共同でローカライズし、識別することを目的としている。
我々は,対象人物を取り巻く環境情報を多様かつ局所的に利用し,それぞれがシーンとグループコンテキストを参照する。
本稿では,機能強化を目的としたグローバル・ローカル・コンテキスト・ネットワーク(GLCNet)を提案する。
論文 参考訳(メタデータ) (2021-12-05T07:38:53Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - StacMR: Scene-Text Aware Cross-Modal Retrieval [19.54677614738065]
クロスモーダル検索モデルは、視覚シーンのより豊かな理解の恩恵を受けている。
現在のモデルは重要な側面を見下ろす:画像に現れるテキストは、検索のための重要な情報を含む可能性があります。
画像にシーン-テキストインスタンスを含むクロスモーダル検索の探索を可能にする新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-12-08T10:04:25Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。