論文の概要: TaCo: Textual Attribute Recognition via Contrastive Learning
- arxiv url: http://arxiv.org/abs/2208.10180v1
- Date: Mon, 22 Aug 2022 09:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:34:29.756900
- Title: TaCo: Textual Attribute Recognition via Contrastive Learning
- Title(参考訳): TaCo:コントラスト学習によるテキスト属性認識
- Authors: Chang Nie, Yiqing Hu, Yanqiu Qu, Hao Liu, Deqiang Jiang, Bo Ren
- Abstract要約: TaCoは、最も一般的な文書シーンに適したテキスト属性認識のための対照的なフレームワークである。
1)属性ビューの生成,2)微妙だが重要な詳細の抽出,3)学習のための価値あるビューペアの利用,の3つの視点から学習パラダイムを設計する。
実験によると、TaCoは監督対象を超越し、複数の属性認識タスクにおいて最先端の技術を著しく向上している。
- 参考スコア(独自算出の注目度): 9.042957048594825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As textual attributes like font are core design elements of document format
and page style, automatic attributes recognition favor comprehensive practical
applications. Existing approaches already yield satisfactory performance in
differentiating disparate attributes, but they still suffer in distinguishing
similar attributes with only subtle difference. Moreover, their performance
drop severely in real-world scenarios where unexpected and obvious imaging
distortions appear. In this paper, we aim to tackle these problems by proposing
TaCo, a contrastive framework for textual attribute recognition tailored toward
the most common document scenes. Specifically, TaCo leverages contrastive
learning to dispel the ambiguity trap arising from vague and open-ended
attributes. To realize this goal, we design the learning paradigm from three
perspectives: 1) generating attribute views, 2) extracting subtle but crucial
details, and 3) exploiting valued view pairs for learning, to fully unlock the
pre-training potential. Extensive experiments show that TaCo surpasses the
supervised counterparts and advances the state-of-the-art remarkably on
multiple attribute recognition tasks. Online services of TaCo will be made
available.
- Abstract(参考訳): フォントのようなテキスト属性は文書形式やページスタイルの中核設計要素であるため、自動属性認識は包括的な実用的応用を好む。
既存のアプローチはすでに、異なる属性を区別する上で満足なパフォーマンスをもたらしているが、それでも微妙な違いだけで類似属性を区別することに苦慮している。
さらに、予期せぬ画像の歪みが現れる現実のシナリオでは、パフォーマンスが著しく低下する。
本稿では,最も一般的な文書シーンに合わせたテキスト属性認識のためのコントラストフレームワークであるTaCoを提案することによって,これらの課題に対処することを目的とする。
具体的には、TaCoは対照的な学習を活用して、曖昧でオープンな属性から生じるあいまいなトラップを排除します。
この目標を達成するために、3つの視点から学習パラダイムを設計する。
1)属性ビューの生成。
2)微妙に重要な詳細を抽出し、
3) 学習のための価値あるビューペアを活用し, 事前学習の可能性を完全に解き放つ。
大規模な実験により、TaCoは監督対象を超越し、複数の属性認識タスクにおける最先端の進歩を示す。
TaCoのオンラインサービスは利用可能になる。
関連論文リスト
- MARS: Paying more attention to visual attributes for text-based person search [6.438244172631555]
本稿ではMARS(Mae-Attribute-Relation-Sensitive)という新しいTBPSアーキテクチャを提案する。
ビジュアルレコンストラクションロスと属性ロスという2つの重要なコンポーネントを導入することで、現在の最先端モデルを強化する。
CUHK-PEDES、ICFG-PEDES、RSTPReidの3つの一般的なデータセットの実験では、パフォーマンス改善が報告されている。
論文 参考訳(メタデータ) (2024-07-05T06:44:43Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - DualFocus: Integrating Plausible Descriptions in Text-based Person Re-identification [6.381155145404096]
我々は、パーソナライゼーションタスクにおける視覚言語モデルの解釈精度を高めるために、もっともらしい記述を統合する統合フレームワークであるDualFocusを紹介する。
視覚的およびテキスト的埋め込みの粗いアライメントときめ細かなアライメントのバランスを実現するために,DTS(Dynamic Tokenwise similarity)損失を提案する。
The comprehensive experiment on CUHK-PEDES, ICFG-PEDES, and RSTPReid, DualFocus shows superior performance than the State-of-the-art method。
論文 参考訳(メタデータ) (2024-05-13T04:21:00Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z) - Semi-supervised Learning with a Teacher-student Network for Generalized
Attribute Prediction [7.462336024223667]
本稿では,視覚特性予測問題を解くための半教師付き学習について述べる。
提案手法は,ファッション属性予測のための様々なベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2020-07-14T02:06:24Z) - ViTAA: Visual-Textual Attributes Alignment in Person Search by Natural
Language [36.319953919737245]
自然言語による人物検索は、与えられたテキスト記述にマッチする大規模な画像プールにおいて、特定の人物を検索することを目的としている。
そこで本稿では,特定の属性句を対応する視覚領域に接地できる属性適応型視点を提案する。
私たちは、堅牢な機能学習によってパフォーマンスが向上するだけでなく、成功も達成しています。
論文 参考訳(メタデータ) (2020-05-15T02:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。