論文の概要: A Sketch Is Worth a Thousand Words: Image Retrieval with Text and Sketch
- arxiv url: http://arxiv.org/abs/2208.03354v1
- Date: Fri, 5 Aug 2022 18:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:40:06.986626
- Title: A Sketch Is Worth a Thousand Words: Image Retrieval with Text and Sketch
- Title(参考訳): スケッチは千語分の価値がある - テキストとスケッチによる画像検索
- Authors: Patsorn Sangkloy, Wittawat Jitkrittum, Diyi Yang, James Hays
- Abstract要約: テキスト記述とスケッチを入力として,画像検索のためのエンドツーエンドのトレーニング可能なモデルを提案する。
テキストに加え、入力スケッチ(下図)を使用することで、従来のテキストベースの画像検索と比較して、検索リコールが大幅に増加することを実証的に実証した。
- 参考スコア(独自算出の注目度): 63.12810494378133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of retrieving images with both a sketch and a text
query. We present TASK-former (Text And SKetch transformer), an end-to-end
trainable model for image retrieval using a text description and a sketch as
input. We argue that both input modalities complement each other in a manner
that cannot be achieved easily by either one alone. TASK-former follows the
late-fusion dual-encoder approach, similar to CLIP, which allows efficient and
scalable retrieval since the retrieval set can be indexed independently of the
queries. We empirically demonstrate that using an input sketch (even a poorly
drawn one) in addition to text considerably increases retrieval recall compared
to traditional text-based image retrieval. To evaluate our approach, we collect
5,000 hand-drawn sketches for images in the test set of the COCO dataset. The
collected sketches are available a https://janesjanes.github.io/tsbir/.
- Abstract(参考訳): スケッチとテキストクエリの両方で画像を取得するという問題に対処する。
テキスト記述とスケッチを入力として用いた画像検索のためのエンドツーエンドトレーニングモデルであるTASK-former(Text And SKetch transformer)を提案する。
我々は、両方の入力モダリティが互いに、どちらか一方だけでは容易に達成できない方法で補完すると主張する。
TASK-formerは、CLIPと同様、遅延融合デュアルエンコーダアプローチに従っており、クエリとは独立して検索セットをインデックス化できるため、効率的でスケーラブルな検索を可能にする。
従来のテキストベースの画像検索に比べて,テキストに加えて入力スケッチ(貧弱な描画でも)を使うことが検索リコールを大幅に増加させることを示す。
提案手法を評価するため,COCOデータセットのテストセットで5000枚の手描きスケッチを画像として収集した。
収集されたスケッチはhttps://janesjanes.github.io/tsbir/で入手できる。
関連論文リスト
- Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions [6.8273484064357515]
語彙が限られている非ネイティブ話者は、それを視覚化できるにもかかわらず、特定のオブジェクトを名付けるのに苦労することが多い。
そこで本研究では,手描きスケッチを用いて自然シーン画像中の関連オブジェクトをローカライズする,事前学習型マルチモーダルトランスフォーマーベースラインSTNET(Sketch+Text Network)を提案する。
提案手法は,テキストのみの,スケッチのみの,複合的なクエリモダリティに対する,最先端の検索手法よりも優れている。
論文 参考訳(メタデータ) (2025-02-12T14:22:59Z) - You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。
我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文 参考訳(メタデータ) (2024-03-12T00:27:18Z) - Towards Interactive Image Inpainting via Sketch Refinement [13.34066589008464]
そこで本研究では,SketchRefinerと呼ばれる2段階画像のインペイント手法を提案する。
第1段階では,クロス相関損失関数を用いて,ユーザが提供するスケッチを堅牢に校正し,洗練する。
第2段階では,特徴空間の抽象的スケッチから情報的特徴を抽出し,着色過程を変調する。
論文 参考訳(メタデータ) (2023-06-01T07:15:54Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - FS-COCO: Towards Understanding of Freehand Sketches of Common Objects in
Context [112.07988211268612]
フリーハンドシーンスケッチの最初のデータセットであるFS-COCOを用いてスケッチ研究を進めた。
本データセットは,100名の非専門家による1点あたりの時空間情報付きフリーハンドシーンベクトルスケッチからなる。
フリーハンドシーンのスケッチやスケッチのキャプションからきめ細かい画像検索の問題が初めて研究された。
論文 参考訳(メタデータ) (2022-03-04T03:00:51Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z) - Sketch Less for More: On-the-Fly Fine-Grained Sketch Based Image
Retrieval [203.2520862597357]
きめ細かいスケッチベースの画像検索(FG-SBIR)は、ユーザのクエリのスケッチから特定の写真インスタンスを検索する問題に対処する。
これらの課題に対処するため、従来のFG-SBIRフレームワークを再構築する。
ユーザが絵を描き始めるとすぐに検索を開始できるオンザフライ設計を提案する。
論文 参考訳(メタデータ) (2020-02-24T15:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。