論文の概要: PLOT: Text-based Person Search with Part Slot Attention for Corresponding Part Discovery
- arxiv url: http://arxiv.org/abs/2409.13475v1
- Date: Fri, 20 Sep 2024 13:05:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 06:53:09.660843
- Title: PLOT: Text-based Person Search with Part Slot Attention for Corresponding Part Discovery
- Title(参考訳): PLOT: 部品発見に対応する部分スロットアテンション付きテキストベースの人物検索
- Authors: Jicheol Park, Dongwon Kim, Boseung Jeong, Suha Kwak,
- Abstract要約: 本稿では、スロットアテンションに基づく部分発見モジュールを活用して、特徴部分を自律的に識別し、モダリティ間で整合させる新しいフレームワークを提案する。
提案手法は3つの公開ベンチマークで評価され,既存手法よりも優れていた。
- 参考スコア(独自算出の注目度): 29.301950609839796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based person search, employing free-form text queries to identify individuals within a vast image collection, presents a unique challenge in aligning visual and textual representations, particularly at the human part level. Existing methods often struggle with part feature extraction and alignment due to the lack of direct part-level supervision and reliance on heuristic features. We propose a novel framework that leverages a part discovery module based on slot attention to autonomously identify and align distinctive parts across modalities, enhancing interpretability and retrieval accuracy without explicit part-level correspondence supervision. Additionally, text-based dynamic part attention adjusts the importance of each part, further improving retrieval outcomes. Our method is evaluated on three public benchmarks, significantly outperforming existing methods.
- Abstract(参考訳): 膨大な画像コレクション内の個人を特定するために自由形式のテキストクエリを利用するテキストベースの人物検索は、視覚的およびテキスト的表現、特に人間の部分レベルでの調整において、ユニークな課題を提示する。
既存の手法は、直接的な部分レベルの監督やヒューリスティックな特徴への依存が欠如しているため、部分的な特徴抽出とアライメントに苦慮することが多い。
本稿では、スロットアテンションに基づく部分発見モジュールを活用して、特異部分をモジュール間で自律的に識別・整列し、明示的な部分レベルの対応監督を伴わずに解釈可能性と検索精度を向上させる新しいフレームワークを提案する。
さらに、テキストベースの動的部分注意は各部分の重要性を調整し、検索結果をさらに改善する。
提案手法は3つの公開ベンチマークで評価され,既存手法よりも優れていた。
関連論文リスト
- From Attributes to Natural Language: A Survey and Foresight on Text-based Person Re-identification [4.400729890122927]
テキストベースのRe-IDの目的は、属性や自然言語の記述を精査することで、特定の歩行者を認識することである。
技術的観点からは、テキストベースの人物であるRe-IDを要約する包括的なレビューが欠落している。
本稿では,評価,戦略,アーキテクチャ,最適化の分野にまたがる分類を導入し,テキストベースの人物Re-IDタスクの総合的な調査を行う。
論文 参考訳(メタデータ) (2024-07-31T18:16:18Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - A Context-Contrastive Inference Approach To Partial Diacritization [0.5575959989491791]
ダイアクリプティゼーションは、読みやすさを改善し、アラビア語のテキストの意味を曖昧にする上で重要な役割を担っている。
partial Diacritzation (PD) は、必要に応じて理解を助けるためにマークされる文字のサブセットの選択である。
我々は,既存のアラビア語発音システムとシームレスに統合されたPDの新しいアプローチである,文脈コントラスト部分発音システム(CCPD)を紹介する。
論文 参考訳(メタデータ) (2024-01-17T02:04:59Z) - Integrating Language-Derived Appearance Elements with Visual Cues in Pedestrian Detection [51.66174565170112]
本研究では,大言語モデルの強みを文脈的外見の変化の理解に活用するための新しいアプローチを提案する。
本稿では,言語由来の外観要素を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。
論文 参考訳(メタデータ) (2023-11-02T06:38:19Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Learning Semantic-Aligned Feature Representation for Text-based Person
Search [8.56017285139081]
テキストに基づく人物検索のためのセマンティック・アライン・埋め込み手法を提案する。
特徴アライメントは、意味的に整った視覚的特徴とテキスト的特徴を自動的に学習することで達成される。
CUHK-PEDESおよびFlickr30Kデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-12-13T14:54:38Z) - Attention-based Feature Decomposition-Reconstruction Network for Scene
Text Detection [20.85468268945721]
シーンテキスト検出のための注意に基づく特徴分解再構成ネットワークを提案する。
我々は文脈情報と低レベル特徴を用いてセグメンテーションに基づくテキスト検出の性能を向上させる。
2つの公開ベンチマークデータセットを用いて実験を行い,提案手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2021-11-29T06:15:25Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。