Fugu-MT 論文翻訳(概要): Automatic Synthetic Data and Fine-grained Adaptive Feature Alignment for Composed Person Retrieval

論文の概要: Automatic Synthetic Data and Fine-grained Adaptive Feature Alignment for Composed Person Retrieval

arxiv url: http://arxiv.org/abs/2311.16515v4
Date: Tue, 20 May 2025 16:29:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:50.866413
Title: Automatic Synthetic Data and Fine-grained Adaptive Feature Alignment for Composed Person Retrieval
Title（参考訳）: 構成者検索のための自動合成データと微粒化適応的特徴アライメント
Authors: Delong Liu, Haiwen Li, Zhaohui Hou, Zhicheng Zhao, Fei Su, Yuan Dong,
Abstract要約: 本稿では,大規模人物画像データベースから興味のある人物を特定するために,視覚的・テキスト的クエリを組み合わせた新しい人物検索タスクを提案する。 CPRタスクの最大の難しさは、利用可能な注釈付きデータセットがないことだ。マルチモーダルフィルタリング法は、結果のSynCPRデータセットが1.15百万の高品質で完全な合成三重項を保持するように設計されている。
参考スコア（独自算出の注目度）: 20.225737169253826
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Person retrieval has attracted rising attention. Existing methods are mainly divided into two retrieval modes, namely image-only and text-only. However, they are unable to make full use of the available information and are difficult to meet diverse application requirements. To address the above limitations, we propose a new Composed Person Retrieval (CPR) task, which combines visual and textual queries to identify individuals of interest from large-scale person image databases. Nevertheless, the foremost difficulty of the CPR task is the lack of available annotated datasets. Therefore, we first introduce a scalable automatic data synthesis pipeline, which decomposes complex multimodal data generation into the creation of textual quadruples followed by identity-consistent image synthesis using fine-tuned generative models. Meanwhile, a multimodal filtering method is designed to ensure the resulting SynCPR dataset retains 1.15 million high-quality and fully synthetic triplets. Additionally, to improve the representation of composed person queries, we propose a novel Fine-grained Adaptive Feature Alignment (FAFA) framework through fine-grained dynamic alignment and masked feature reasoning. Moreover, for objective evaluation, we manually annotate the Image-Text Composed Person Retrieval (ITCPR) test set. The extensive experiments demonstrate the effectiveness of the SynCPR dataset and the superiority of the proposed FAFA framework when compared with the state-of-the-art methods. All code and data will be provided at https://github.com/Delong-liu-bupt/Composed_Person_Retrieval.
Abstract（参考訳）: 人の検索が注目を集めています。既存の方法は、主に画像のみとテキストのみの2つの検索モードに分けられる。しかし、利用可能な情報を十分に活用することができず、多様なアプリケーション要件を満たすことは困難である。上記の制約に対処するため,大規模人物画像データベースから興味のある個人を特定するために,視覚的およびテキスト的クエリを組み合わせた新しい構成人検索タスクを提案する。それでも、CPRタスクの最大の難しさは、利用可能な注釈付きデータセットの欠如である。そこで我々はまず,複雑なマルチモーダルデータ生成をテキスト四重項生成に分解するスケーラブルな自動データ合成パイプラインを導入する。一方、マルチモーダルフィルタリング法は、結果のSynCPRデータセットが1.15百万の高品質で完全な合成三重項を保持するように設計されている。さらに, 合成された人物クエリの表現を改善するために, きめ細かな動的アライメントとマスク付き特徴推論により, FAFA(Fin-fine Adaptive Feature Alignment)フレームワークを提案する。さらに、客観的評価のために、画像合成人検索(ITCPR)テストセットを手動で注釈付けする。この実験は,SynCPRデータセットの有効性と,最先端手法と比較して提案したFAFAフレームワークの優位性を示すものである。すべてのコードとデータはhttps://github.com/Delong-liu-bupt/Composed_Person_Retrievalで提供される。

関連論文リスト

Automatic Synthesis of High-Quality Triplet Data for Composed Image Retrieval [19.520776313567737]
Composed Image Retrieval (CIR)は、マルチモーダル(image+text)クエリを使ってターゲット画像を取得することを目的としている。完全合成データセットであるComposeed Image Retrieval on High-quality Synthetic Triplets (CIRHS)とともに,自動三重項生成のためのスケーラブルパイプラインを提案する。
論文参考訳（メタデータ） (2025-07-08T13:24:05Z)
An Empirical Study of Validating Synthetic Data for Text-Based Person Retrieval [51.10419281315848]
我々は,テキストベース人検索(TBPR)研究における合成データの可能性を探るため,実証的研究を行った。本稿では,自動プロンプト構築戦略を導入するクラス間画像生成パイプラインを提案する。我々は、画像のさらなる編集に生成AIモデルを応用した、クラス内画像拡張パイプラインを開発する。
論文参考訳（メタデータ） (2025-03-28T06:18:15Z)
Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval [13.315951821189538]
シーンテキスト検索は、画像ギャラリーからクエリテキストを含むすべての画像を見つけることを目的としている。現在の取り組みでは、複雑なテキスト検出および/または認識プロセスを必要とする光学文字認識(OCR)パイプラインを採用する傾向にある。我々は,OCRのないシーンテキスト検索のためのCLIP(Contrastive Language- Image Pre-Trening)の本質的な可能性について検討する。
論文参考訳（メタデータ） (2024-08-01T10:25:14Z)
Beat: Bi-directional One-to-Many Embedding Alignment for Text-based Person Retrieval [66.61856014573742]
テキストベースの人物検索(TPR)は、テキスト記述に基づいて特定の個人を検索する難題である。これまでは、テキストと画像のサンプルをモーダルシェード空間で整列させようと試みてきた。本稿では,各サンプルに対して明確な最適化方向を提供する,効果的な双方向一対多埋め込みパラダイムを提案する。
論文参考訳（メタデータ） (2024-06-09T03:06:55Z)
Data Augmentation for Text-based Person Retrieval Using Large Language Models [16.120524750964016]
テキストベースのPerson Retrieval (TPR)は、テキストクエリが与えられた記述と一致する人物画像の検索を目的としている。高価なアノテーションとプライバシー保護のため、大規模で高品質なTPRデータセットを構築するのは難しい。本稿では,TPRのためのLLM-DA法を提案する。
論文参考訳（メタデータ） (2024-05-20T11:57:50Z)
RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文参考訳（メタデータ） (2024-05-11T16:22:00Z)
Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。 CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文参考訳（メタデータ） (2024-05-06T06:30:17Z)
Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文参考訳（メタデータ） (2024-03-25T14:46:51Z)
Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文参考訳（メタデータ） (2023-12-23T11:10:43Z)
Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-11-15T16:26:49Z)
Unified Pre-training with Pseudo Texts for Text-To-Image Person Re-identification [42.791647210424664]
事前訓練タスクは、T2I-ReID(text-to-image person re-identification)タスクに必須である。これら2つのタスクの間には、パフォーマンスに影響を及ぼす2つの根本的な矛盾がある。本稿では,T2I-ReIDタスクに特化して設計された統合事前学習パイプライン(UniPT)を提案する。
論文参考訳（メタデータ） (2023-09-04T08:11:36Z)
Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文参考訳（メタデータ） (2023-06-12T17:56:01Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文参考訳（メタデータ） (2023-05-22T12:13:08Z)
Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening [53.1711708318581]
現在の画像テキスト検索法は、N$関連時間複雑さに悩まされている。本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-14T09:36:42Z)
LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文参考訳（メタデータ） (2022-03-11T18:53:12Z)
Unsupervised Domain Adaptive Learning via Synthetic Data for Person Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文参考訳（メタデータ） (2021-09-12T15:51:41Z)
Part2Whole: Iteratively Enrich Detail for Cross-Modal Retrieval with Partial Query [25.398090300086302]
本稿では,この問題に対処する対話型検索フレームワークPart2Wholeを提案する。 Interactive Retrieval Agentは、初期クエリを洗練するための最適なポリシーを構築するために訓練される。テキスト画像データセット以外の人手による注釈データを必要としない弱教師付き強化学習法を提案する。
論文参考訳（メタデータ） (2021-03-02T11:27:05Z)
TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。 TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文参考訳（メタデータ） (2020-12-08T18:55:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。