論文の概要: Person Text-Image Matching via Text-Featur Interpretability Embedding
and External Attack Node Implantation
- arxiv url: http://arxiv.org/abs/2211.08657v1
- Date: Wed, 16 Nov 2022 04:15:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 14:01:28.313267
- Title: Person Text-Image Matching via Text-Featur Interpretability Embedding
and External Attack Node Implantation
- Title(参考訳): text-featur interpretability embedded と external attack node implantation による人物のテキスト画像マッチング
- Authors: Fan Li, Hang Zhou, Huafeng Li, Yafei Zhang, and Zhengtao Yu
- Abstract要約: 人物のテキスト画像マッチングは、テキスト記述を用いて特定の歩行者の画像を取得することを目的としている。
テキスト機能の解釈可能性の欠如は、それらと対応する画像の特徴を効果的に整合させることを困難にしている。
テキスト特徴解釈能力と外部攻撃ノードを組み込んだ人物画像マッチング手法を提案する。
- 参考スコア(独自算出の注目度): 22.070781214170164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person text-image matching, also known as textbased person search, aims to
retrieve images of specific pedestrians using text descriptions. Although
person text-image matching has made great research progress, existing methods
still face two challenges. First, the lack of interpretability of text features
makes it challenging to effectively align them with their corresponding image
features. Second, the same pedestrian image often corresponds to multiple
different text descriptions, and a single text description can correspond to
multiple different images of the same identity. The diversity of text
descriptions and images makes it difficult for a network to extract robust
features that match the two modalities. To address these problems, we propose a
person text-image matching method by embedding text-feature interpretability
and an external attack node. Specifically, we improve the interpretability of
text features by providing them with consistent semantic information with image
features to achieve the alignment of text and describe image region features.To
address the challenges posed by the diversity of text and the corresponding
person images, we treat the variation caused by diversity to features as caused
by perturbation information and propose a novel adversarial attack and defense
method to solve it. In the model design, graph convolution is used as the basic
framework for feature representation and the adversarial attacks caused by text
and image diversity on feature extraction is simulated by implanting an
additional attack node in the graph convolution layer to improve the robustness
of the model against text and image diversity. Extensive experiments
demonstrate the effectiveness and superiority of text-pedestrian image matching
over existing methods. The source code of the method is published at
- Abstract(参考訳): 人物画像マッチングは、テキストベースの人物検索としても知られ、テキスト記述を用いて特定の歩行者の画像を取得することを目的としている。
人物のテキスト画像マッチングは大きな研究進歩を遂げてきたが、既存の手法はまだ2つの課題に直面している。
第一に、テキストの特徴の解釈性の欠如は、それらと対応する画像特徴を効果的に一致させることを困難にしている。
第二に、同一の歩行者画像は複数の異なるテキスト記述に対応し、単一のテキスト記述は同じアイデンティティの複数の異なる画像に対応できる。
テキスト記述や画像の多様性により、ネットワークが2つのモダリティにマッチするロバストな特徴を抽出することが困難になる。
これらの問題に対処するために,テキスト特徴解釈性と外部攻撃ノードを組み込んだ人物画像マッチング手法を提案する。
具体的には,テキストのアライメントを実現し,画像領域の特徴を記述するために,画像特徴と一貫した意味情報を提供し,テキスト特徴の解釈性を向上させるとともに,テキストと対応する人物画像の多様性によって生じる課題に対処するため,摂動情報に起因する特徴の多様性による変化を扱い,それを解決するための新しい逆攻撃・防御手法を提案する。
モデル設計では、特徴表現の基本的なフレームワークとしてグラフ畳み込みを使用し、特徴抽出におけるテキストや画像の多様性に起因する敵攻撃を、グラフ畳み込み層に追加の攻撃ノードを埋め込むことでシミュレートし、テキストや画像の多様性に対するモデルの堅牢性を向上させる。
大規模な実験は、既存の手法よりもテキストペトリアン画像マッチングの有効性と優位性を示す。
メソッドのソースコードが公開されています
関連論文リスト
- Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - DreamInpainter: Text-Guided Subject-Driven Image Inpainting with
Diffusion Models [37.133727797607676]
本研究は,テキストガイドによる主題駆動画像の描画について紹介する。
我々は、被写体再現の精度を確保するために、密集した被写体特徴を計算する。
我々は、余分な被写体の詳細を排除するために識別トークン選択モジュールを使用します。
論文 参考訳(メタデータ) (2023-12-05T22:23:19Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Learning Semantic-Aligned Feature Representation for Text-based Person
Search [8.56017285139081]
テキストに基づく人物検索のためのセマンティック・アライン・埋め込み手法を提案する。
特徴アライメントは、意味的に整った視覚的特徴とテキスト的特徴を自動的に学習することで達成される。
CUHK-PEDESおよびFlickr30Kデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-12-13T14:54:38Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z) - STEFANN: Scene Text Editor using Font Adaptive Neural Network [18.79337509555511]
画像中のテキストを文字レベルで修正する手法を提案する。
本稿では,(a)FANnetと(b)Colornetという2つの異なるニューラルネットワークアーキテクチャを提案する。
本手法は画像中のテキストを編集するための統一的なプラットフォームとして機能する。
論文 参考訳(メタデータ) (2019-03-04T11:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。