論文の概要: Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search
- arxiv url: http://arxiv.org/abs/2502.03230v1
- Date: Wed, 05 Feb 2025 14:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:26:37.297122
- Title: Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search
- Title(参考訳): テキストに基づく人物異常検索のための視覚言語モデルファインタニング
- Authors: Jiayi He, Shengeng Tang, Ao Liu, Lechao Cheng, Jingjing Wu, Yanyan Wei,
- Abstract要約: 本稿では,テキストベースPerson Anomaly Search(TPAS)におけるWWW 2025チャレンジに対するHFUT-LMCチームのソリューションについて述べる。
この課題の主な目的は、歩行者画像の大きな図書館内で正常または異常な行動を示す歩行者を正確に識別することである。
類似したテキスト記述による認識の難しさに対処するために、SCA(Simisity Coverage Analysis)戦略を導入する。
- 参考スコア(独自算出の注目度): 20.695290280579858
- License:
- Abstract: This paper presents the HFUT-LMC team's solution to the WWW 2025 challenge on Text-based Person Anomaly Search (TPAS). The primary objective of this challenge is to accurately identify pedestrians exhibiting either normal or abnormal behavior within a large library of pedestrian images. Unlike traditional video analysis tasks, TPAS significantly emphasizes understanding and interpreting the subtle relationships between text descriptions and visual data. The complexity of this task lies in the model's need to not only match individuals to text descriptions in massive image datasets but also accurately differentiate between search results when faced with similar descriptions. To overcome these challenges, we introduce the Similarity Coverage Analysis (SCA) strategy to address the recognition difficulty caused by similar text descriptions. This strategy effectively enhances the model's capacity to manage subtle differences, thus improving both the accuracy and reliability of the search. Our proposed solution demonstrated excellent performance in this challenge.
- Abstract(参考訳): 本稿では,テキストベースPerson Anomaly Search (TPAS) における WWW 2025 チャレンジに対する HFUT-LMC チームのソリューションについて述べる。
この課題の主な目的は、歩行者画像の大きな図書館内で正常または異常な行動を示す歩行者を正確に識別することである。
従来のビデオ解析タスクとは異なり、TPASはテキスト記述と視覚データの間の微妙な関係の理解と解釈を著しく強調する。
このタスクの複雑さは、個人と大量の画像データセットのテキスト記述とをマッチングするだけでなく、類似した記述に直面した場合に検索結果を正確に区別する必要性にある。
これらの課題を克服するために、類似したテキスト記述による認識困難に対処するために、SCA(Simisity Coverage Analysis)戦略を導入する。
この戦略により、微妙な違いを管理するためのモデルの能力が効果的に向上し、検索の精度と信頼性が向上する。
提案手法は, この課題において優れた性能を示した。
関連論文リスト
- Improving Text-based Person Search via Part-level Cross-modal Correspondence [29.301950609839796]
粗大な埋め込みベクトルを抽出する効率的なエンコーダデコーダモデルを提案する。
また、個人IDのみを監督として、きめ細かい情報を捉えることを学ぶという課題もある。
本稿では,各部位の共通度を定量化する,共通性に基づく新たなランキング損失を提案する。
論文 参考訳(メタデータ) (2024-12-31T07:29:50Z) - Enhancing Visual Representation for Text-based Person Searching [9.601697802095119]
VFE-TPSは、ビジュアルフィーチャ強化テキストベースのPerson Searchモデルである。
基本的なマルチモーダル機能を学ぶために、トレーニング済みのバックボーンCLIPを導入する。
Text Guided Masked Image Modelingタスクを構築し、局所的な視覚的詳細を学習するモデルの能力を強化する。
論文 参考訳(メタデータ) (2024-12-30T01:38:14Z) - Beyond Walking: A Large-Scale Image-Text Benchmark for Text-based Person Anomaly Search [25.907668574771705]
そこで本研究では,日常的・異常な活動に従事する歩行者をテキストで検索するタスクを提案する。
このタスクのトレーニングと評価を可能にするため,大規模画像テキストによる歩行者異常行動ベンチマークを構築した。
我々は、人物のポーズパターンをアイデンティティベースのハード・ネガティブ・ペア・サンプリングと統合するクロスモーダル・ポーズ・アウェア・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T09:50:15Z) - Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - Beat: Bi-directional One-to-Many Embedding Alignment for Text-based Person Retrieval [66.61856014573742]
テキストベースの人物検索(TPR)は、テキスト記述に基づいて特定の個人を検索する難題である。
これまでは、テキストと画像のサンプルをモーダルシェード空間で整列させようと試みてきた。
本稿では,各サンプルに対して明確な最適化方向を提供する,効果的な双方向一対多埋め込みパラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-09T03:06:55Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - PRIME: Prioritizing Interpretability in Failure Mode Extraction [49.93565079216376]
訓練された画像分類モデルにおいて、故障モードに対する人間の理解可能な記述を提供することの課題について検討する。
本稿では,この問題における解釈可能性を重視した新しい手法を提案する。
本手法は,障害モードの同定に成功し,それに関連する高品質なテキスト記述を生成する。
論文 参考訳(メタデータ) (2023-09-29T22:00:12Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - Exploring Multi-Modal Representations for Ambiguity Detection &
Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。
具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。
以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文 参考訳(メタデータ) (2022-02-25T12:10:02Z) - Learning Semantic-Aligned Feature Representation for Text-based Person
Search [8.56017285139081]
テキストに基づく人物検索のためのセマンティック・アライン・埋め込み手法を提案する。
特徴アライメントは、意味的に整った視覚的特徴とテキスト的特徴を自動的に学習することで達成される。
CUHK-PEDESおよびFlickr30Kデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-12-13T14:54:38Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。