論文の概要: Language Guided Local Infiltration for Interactive Image Retrieval
- arxiv url: http://arxiv.org/abs/2304.07747v1
- Date: Sun, 16 Apr 2023 10:33:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 17:28:12.629471
- Title: Language Guided Local Infiltration for Interactive Image Retrieval
- Title(参考訳): 対話型画像検索のための言語ガイド付き局所浸透
- Authors: Fuxiang Huang and Lei Zhang
- Abstract要約: Interactive Image Retrieval (IIR) は、一般的に参照画像と似ているが、要求されたテキスト修正の下で画像を取得することを目的としている。
テキスト情報を完全に活用し,画像特徴にテキスト特徴を浸透させる言語ガイド型局所浸透システム(LGLI)を提案する。
我々の手法は、最先端のIIR手法よりも優れています。
- 参考スコア(独自算出の注目度): 12.324893780690918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive Image Retrieval (IIR) aims to retrieve images that are generally
similar to the reference image but under the requested text modification. The
existing methods usually concatenate or sum the features of image and text
simply and roughly, which, however, is difficult to precisely change the local
semantics of the image that the text intends to modify. To solve this problem,
we propose a Language Guided Local Infiltration (LGLI) system, which fully
utilizes the text information and penetrates text features into image features
as much as possible. Specifically, we first propose a Language Prompt Visual
Localization (LPVL) module to generate a localization mask which explicitly
locates the region (semantics) intended to be modified. Then we introduce a
Text Infiltration with Local Awareness (TILA) module, which is deployed in the
network to precisely modify the reference image and generate image-text
infiltrated representation. Extensive experiments on various benchmark
databases validate that our method outperforms most state-of-the-art IIR
approaches.
- Abstract(参考訳): Interactive Image Retrieval (IIR) は、一般的に参照画像と似ているが要求されたテキスト修正の下で画像を取得することを目的としている。
既存の手法は通常、画像とテキストの特徴を単純に大まかに結合または要約するが、テキストが修正しようとする画像の局所的意味論を正確に変更することは困難である。
この問題を解決するために,テキスト情報を完全に活用し,できるだけ画像特徴にテキスト機能を浸透させるLanguage Guided Local Infiltration (LGLI)システムを提案する。
具体的には,まずLanguage Prompt Visual Localization (LPVL) モジュールを提案する。
次に, TILA (Text Infiltration with Local Awareness) モジュールを導入し, 参照画像を正確に修正し, 画像テキストの浸透表現を生成する。
各種ベンチマークデータベースにおける大規模な実験により,本手法が最先端IIR手法よりも優れていることを確認した。
関連論文リスト
- Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.95875467352853]
本稿では,視覚的および言語的表現を完全に活用する新たな参照リモートセンシング画像分割手法であるFIANetを提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - Towards Robust Scene Text Image Super-resolution via Explicit Location
Enhancement [59.66539728681453]
シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。
既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。
超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
論文 参考訳(メタデータ) (2023-07-19T05:08:47Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Blended Diffusion for Text-driven Editing of Natural Images [18.664733153082146]
本稿では,局所的な(地域をベースとした)編集を自然言語で行うための最初のソリューションを提案する。
我々は、事前訓練された言語画像モデル(CLIP)を活用し、組み合わせることで、目標を達成する。
画像の異なる部分で編集された領域をシームレスに融合させるため、入力画像のノイズバージョンと局所テキスト誘導拡散潜時を空間的にブレンドする。
論文 参考訳(メタデータ) (2021-11-29T18:58:49Z) - Integrating Image Captioning with Rule-based Entity Masking [23.79124007406315]
本稿では,画像キャプションを明示的なオブジェクト(知識グラフエンティティなど)で選択するための新しいフレームワークを提案する。
モデルでは、まず、人解釈マスクに従ってキャプションに含まれるどのローカルエンティティを明示的に選択し、選択したエンティティに出席して適切なキャプションを生成する。
論文 参考訳(メタデータ) (2020-07-22T21:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。