Fugu-MT 論文翻訳(概要): Beyond Walking: A Large-Scale Image-Text Benchmark for Text-based Person Anomaly Search

論文の概要: Beyond Walking: A Large-Scale Image-Text Benchmark for Text-based Person Anomaly Search

arxiv url: http://arxiv.org/abs/2411.17776v2
Date: Mon, 31 Mar 2025 10:47:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 15:20:30.99909
Title: Beyond Walking: A Large-Scale Image-Text Benchmark for Text-based Person Anomaly Search
Title（参考訳）: Beyond Walking: テキストベースの異常検索のための大規模画像テキストベンチマーク
Authors: Shuyu Yang, Yaxiong Wang, Li Zhu, Zhedong Zheng,
Abstract要約: そこで本研究では,日常的・異常な活動に従事する歩行者をテキストで検索するタスクを提案する。このタスクのトレーニングと評価を可能にするため,大規模画像テキストによる歩行者異常行動ベンチマークを構築した。提案したベンチマーク実験により, 合成学習データにより詳細な動作の検索が容易となり, 提案手法は84.93%のリコール@1精度で到達した。
参考スコア（独自算出の注目度）: 25.907668574771705
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-based person search aims to retrieve specific individuals across camera networks using natural language descriptions. However, current benchmarks often exhibit biases towards common actions like walking or standing, neglecting the critical need for identifying abnormal behaviors in real-world scenarios. To meet such demands, we propose a new task, text-based person anomaly search, locating pedestrians engaged in both routine or anomalous activities via text. To enable the training and evaluation of this new task, we construct a large-scale image-text Pedestrian Anomaly Behavior (PAB) benchmark, featuring a broad spectrum of actions, e.g., running, performing, playing soccer, and the corresponding anomalies, e.g., lying, being hit, and falling of the same identity. The training set of PAB comprises 1,013,605 synthesized image-text pairs of both normalities and anomalies, while the test set includes 1,978 real-world image-text pairs. To validate the potential of PAB, we introduce a cross-modal pose-aware framework, which integrates human pose patterns with identity-based hard negative pair sampling. Extensive experiments on the proposed benchmark show that synthetic training data facilitates the fine-grained behavior retrieval, and the proposed pose-aware method arrives at 84.93% recall@1 accuracy, surpassing other competitive methods. The dataset, model, and code are available at https://github.com/Shuyu-XJTU/CMP.
Abstract（参考訳）: テキストベースの人物検索は、自然言語記述を用いて、カメラネットワークを介して特定の個人を検索することを目的としている。しかしながら、現在のベンチマークでは、実際のシナリオにおける異常な振る舞いを特定するための重要な必要性を無視して、歩いたり立っていたりといった一般的な行動に対するバイアスがしばしば示される。このような要求に応えるために,本研究では,日常的・異常な活動に従事する歩行者をテキストで検索するタスクを提案する。このタスクのトレーニングと評価を可能にするため,大規模な画像テキストによる歩行者異常行動(PAB)ベンチマークを構築し,例えば,ランニング,実行,サッカー,および対応する異常(例えば,嘘,ヒット,転倒)を特徴とする。 PABのトレーニングセットは、正常と異常の両方の画像テキスト対を1,013,605で合成し、テストセットは1,978個の実世界の画像テキスト対を含む。 PABの可能性を検証するために、人間のポーズパターンとアイデンティティベースのハードネガティブペアサンプリングを統合するクロスモーダル・ポーズアウェア・フレームワークを導入する。提案したベンチマーク実験では, 合成トレーニングデータにより詳細な動作の検索が容易になり, 提案手法は84.93%のリコール@1精度で到達し, 他の競合手法を上回った。データセット、モデル、コードはhttps://github.com/Shuyu-XJTU/CMPで入手できる。

関連論文リスト

MultiHuman-Testbench: Benchmarking Image Generation for Multiple Humans [60.6183017400517]
マルチヒューマンテストベンチ(MultiHuman-Testbench)は、マルチヒューマン生成のための生成モデルを厳格に評価するための新しいベンチマークである。ベンチマークには1800のサンプルが含まれており、慎重にキュレートされたテキストプロンプトが含まれており、単純で複雑な人間の動作を記述している。顔数,ID類似度,迅速なアライメント,行動検出を定量化するために,4つの重要な指標を用いた多面評価スイートを提案する。
論文参考訳（メタデータ） (2025-06-25T23:00:57Z)
CAMeL: Cross-modality Adaptive Meta-Learning for Text-based Person Retrieval [22.01591564940522]
モデル一般化能力を高めるために,クロスモーダル適応メタラーニング(CAMeL)に基づくドメインに依存しない事前学習フレームワークを提案する。特に,現実シナリオの多様性と複雑さを反映した一連のタスクを開発する。提案手法は,実世界のベンチマークにおける既存手法を超越するだけでなく,ロバスト性やスケーラビリティも示す。
論文参考訳（メタデータ） (2025-04-26T03:26:30Z)
Evaluating Hallucination in Text-to-Image Diffusion Models with Scene-Graph based Question-Answering Agent [9.748808189341526]
有効なテキスト・ツー・イメージ(T2I)評価指標は以下のとおりである: 生成された画像がテキストのプロンプトと一致しないインスタンスを検出する。抽出したシーングラフを用いて質問応答を行うための大規模言語モデル (LLM) に基づく手法を提案し, 生成された画像に対する評価スコアを用いたデータセットを作成する。
論文参考訳（メタデータ） (2024-12-07T18:44:38Z)
Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文参考訳（メタデータ） (2024-10-12T04:34:46Z)
Beat: Bi-directional One-to-Many Embedding Alignment for Text-based Person Retrieval [66.61856014573742]
テキストベースの人物検索(TPR)は、テキスト記述に基づいて特定の個人を検索する難題である。これまでは、テキストと画像のサンプルをモーダルシェード空間で整列させようと試みてきた。本稿では,各サンプルに対して明確な最適化方向を提供する,効果的な双方向一対多埋め込みパラダイムを提案する。
論文参考訳（メタデータ） (2024-06-09T03:06:55Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
Stellar: Systematic Evaluation of Human-Centric Personalized Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文参考訳（メタデータ） (2023-12-11T04:47:39Z)
Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-11-15T16:26:49Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文参考訳（メタデータ） (2023-05-22T12:13:08Z)
On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。 GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文参考訳（メタデータ） (2023-04-10T17:47:39Z)
Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文参考訳（メタデータ） (2022-04-29T03:53:54Z)
Text-based Person Search in Full Images via Semantic-Driven Proposal Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文参考訳（メタデータ） (2021-09-27T11:42:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。