論文の概要: Modality-Agnostic Attention Fusion for visual search with text feedback
- arxiv url: http://arxiv.org/abs/2007.00145v1
- Date: Tue, 30 Jun 2020 22:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 04:27:45.870873
- Title: Modality-Agnostic Attention Fusion for visual search with text feedback
- Title(参考訳): テキストフィードバックによる視覚検索のためのモダリティ非依存型注意融合
- Authors: Eric Dodds, Jack Culpepper, Simao Herdade, Yang Zhang, Kofi Boakye
- Abstract要約: 我々の Modality-Agnostic Attention Fusion (MAAF) モデルは、画像とテキストの特徴を組み合わせて、既存の2つのビジュアル検索データセットよりも優れている。
Birds-to-WordsとSpot-the-Diffの2つの新しい挑戦的ベンチマークを導入し、リッチな言語入力で新しい設定を提供する。
モデルをよりよく理解するために、Fashion IQの詳細な説明を行い、参照する画像領域に「入らない」単語の驚くべき現象を可視化する。
- 参考スコア(独自算出の注目度): 5.650501970986438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image retrieval with natural language feedback offers the promise of catalog
search based on fine-grained visual features that go beyond objects and binary
attributes, facilitating real-world applications such as e-commerce. Our
Modality-Agnostic Attention Fusion (MAAF) model combines image and text
features and outperforms existing approaches on two visual search with
modifying phrase datasets, Fashion IQ and CSS, and performs competitively on a
dataset with only single-word modifications, Fashion200k. We also introduce two
new challenging benchmarks adapted from Birds-to-Words and Spot-the-Diff, which
provide new settings with rich language inputs, and we show that our approach
without modification outperforms strong baselines. To better understand our
model, we conduct detailed ablations on Fashion IQ and provide visualizations
of the surprising phenomenon of words avoiding "attending" to the image region
they refer to.
- Abstract(参考訳): 自然言語フィードバックによる画像検索は、オブジェクトやバイナリ属性を超えたきめ細かいビジュアル機能に基づいたカタログ検索を約束し、eコマースのような現実世界のアプリケーションを促進する。
maaf(modality-agnostic attention fusion)モデルでは,画像とテキストの機能を組み合わせることで,2つのビジュアル検索における既存のアプローチを上回り,フレーズデータセットである fashion iq と css を改良し,シングルワードのみの修正である fashion200k で競争的に実行する。
また,鳥から単語へ適応した2つの新しい難易度ベンチマークを導入し,リッチな言語入力による新しい設定を提供するとともに,強固なベースラインよりも修正を伴わない手法が優れていることを示す。
本モデルをよりよく理解するために,ファッションiqの詳細なアブレーションを行い,参照する画像領域への「接近」を避ける単語の驚くべき現象を可視化する。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。
本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。
本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-04-29T14:46:35Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - LRVS-Fashion: Extending Visual Search with Referring Instructions [13.590668564555195]
提案するReferred Visual Search(RVS)は,ユーザが希望する類似性をより正確に定義できるタスクである。
ファッションカタログから842kの画像が抽出された272kのファッション製品からなる、新しい大規模パブリックデータセットLRVS-Fashionをリリースする。
論文 参考訳(メタデータ) (2023-06-05T14:45:38Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Conversational Fashion Image Retrieval via Multiturn Natural Language
Feedback [36.623221002330226]
マルチターン自然言語による対話型ファッション画像検索の課題について検討する。
本稿では,対話型ファッション画像検索を多ターン自然言語フィードバックテキストで効果的に処理できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T06:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。