論文の概要: Unleashing the Imagination of Text: A Novel Framework for Text-to-image
Person Retrieval via Exploring the Power of Words
- arxiv url: http://arxiv.org/abs/2307.09059v1
- Date: Tue, 18 Jul 2023 08:23:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 15:42:43.999758
- Title: Unleashing the Imagination of Text: A Novel Framework for Text-to-image
Person Retrieval via Exploring the Power of Words
- Title(参考訳): テキストの想像力を解き放つ : 単語の力の探索による人物のテキスト対画像検索のための新しい枠組み
- Authors: Delong Liu, Haiwen Li
- Abstract要約: 文中の単語のパワーを探索する新しい枠組みを提案する。
このフレームワークは、トレーニング済みのフルCLIPモデルをイメージとテキストのデュアルエンコーダとして採用している。
ハードサンプルの処理に適したクロスモーダル三重項損失を導入し,微妙な違いを識別するモデルの能力を高めた。
- 参考スコア(独自算出の注目度): 0.951828574518325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of Text-to-image person retrieval is to retrieve person images from
a large gallery that match the given textual descriptions. The main challenge
of this task lies in the significant differences in information representation
between the visual and textual modalities. The textual modality conveys
abstract and precise information through vocabulary and grammatical structures,
while the visual modality conveys concrete and intuitive information through
images. To fully leverage the expressive power of textual representations, it
is essential to accurately map abstract textual descriptions to specific
images.
To address this issue, we propose a novel framework to Unleash the
Imagination of Text (UIT) in text-to-image person retrieval, aiming to fully
explore the power of words in sentences. Specifically, the framework employs
the pre-trained full CLIP model as a dual encoder for the images and texts ,
taking advantage of prior cross-modal alignment knowledge. The Text-guided
Image Restoration auxiliary task is proposed with the aim of implicitly mapping
abstract textual entities to specific image regions, facilitating alignment
between textual and visual embeddings. Additionally, we introduce a cross-modal
triplet loss tailored for handling hard samples, enhancing the model's ability
to distinguish minor differences.
To focus the model on the key components within sentences, we propose a novel
text data augmentation technique. Our proposed methods achieve state-of-the-art
results on three popular benchmark datasets, and the source code will be made
publicly available shortly.
- Abstract(参考訳): テキスト対画像検索の目標は、与えられたテキスト記述にマッチする大きなギャラリーから人物画像を取得することである。
このタスクの主な課題は、視覚的モダリティとテキスト的モダリティの間の情報表現の顕著な違いにある。
テクストモダリティは語彙や文法構造を通して抽象的で正確な情報を伝達し、視覚モダリティは画像を通して具体的で直感的な情報を伝達する。
テキスト表現の表現力を完全に活用するには、抽象的なテキスト記述を特定の画像に正確にマッピングすることが不可欠である。
この問題に対処するために,文中の単語のパワーを十分に探求することを目的として,テキストから画像への人物検索において,UIT(Imagination of Text)を解き放つ新しい枠組みを提案する。
具体的には、事前トレーニングされた完全なCLIPモデルをイメージとテキストのデュアルエンコーダとして使用し、以前のクロスモーダルアライメントの知識を活用する。
抽象的なテキストエンティティを特定の画像領域に暗黙的にマッピングすることを目的として,テキストと視覚の埋め込みの調整を容易にするテキストガイド画像復元補助タスクを提案する。
さらに, 厳密なサンプル処理に適したクロスモーダル三重項損失を導入し, 微妙な差分を識別するモデルの能力を高めた。
そこで本研究では,文中のキー成分に着目し,新しいテキストデータ拡張手法を提案する。
提案手法は3つのベンチマークデータセットで最新の結果を得ることができ,ソースコードも間もなく公開される予定だ。
関連論文リスト
- You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image
Retrieval [127.67444974452411]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。
本システムは, 合成画像検索, ドメイン転送, 微粒化生成における新しい応用にまで拡張する。
論文 参考訳(メタデータ) (2024-03-12T00:27:18Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - StacMR: Scene-Text Aware Cross-Modal Retrieval [19.54677614738065]
クロスモーダル検索モデルは、視覚シーンのより豊かな理解の恩恵を受けている。
現在のモデルは重要な側面を見下ろす:画像に現れるテキストは、検索のための重要な情報を含む可能性があります。
画像にシーン-テキストインスタンスを含むクロスモーダル検索の探索を可能にする新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-12-08T10:04:25Z) - VICTR: Visual Information Captured Text Representation for Text-to-Image
Multimodal Tasks [5.840117063192334]
テキスト入力からオブジェクトのリッチな視覚的意味情報をキャプチャするマルチモーダルタスクであるVICTRを提案する。
本稿では,シーングラフとそれに対応する幾何学的関係情報をグラフ畳み込みネットワークを用いて学習する。
テキスト表現は、単語レベルと文レベルの埋め込みで集約され、視覚的文脈表現と文表現の両方を生成する。
論文 参考訳(メタデータ) (2020-10-07T05:25:30Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Fine-grained Image Classification and Retrieval by Combining Visual and
Locally Pooled Textual Features [8.317191999275536]
特に、テキストの存在は、コンピュータビジョンタスクの多様性に対処するために使用されるべき強力なガイドコンテンツを提供する。
本稿では,テキスト情報と視覚的手がかりを併用した細粒度分類と画像検索の課題に対処し,両者の本質的な関係を解明する。
論文 参考訳(メタデータ) (2020-01-14T12:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。