論文の概要: The Contemporary Art of Image Search: Iterative User Intent Expansion
via Vision-Language Model
- arxiv url: http://arxiv.org/abs/2312.01656v1
- Date: Mon, 4 Dec 2023 06:14:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 16:11:47.550779
- Title: The Contemporary Art of Image Search: Iterative User Intent Expansion
via Vision-Language Model
- Title(参考訳): 画像検索の現代的技術 : 視覚言語モデルによる反復的ユーザインテント拡張
- Authors: Yilin Ye, Qian Zhu, Shishi Xiao, Kang Zhang, Wei Zeng
- Abstract要約: 画像検索は、膨大なデジタル画像のギャラリーを探索するための、不可欠かつユーザフレンドリな方法である。
ユーザの検索意図の正確な理解を可能にする現代画像検索エンジンの需要の高まりに対応するために,革新的なユーザ意図拡張フレームワークを導入する。
本フレームワークでは,視覚モデルを用いてマルチモーダルなユーザ入力を解析・構成し,より正確かつ満足な結果を提供する。
- 参考スコア(独自算出の注目度): 4.531548217880843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image search is an essential and user-friendly method to explore vast
galleries of digital images. However, existing image search methods heavily
rely on proximity measurements like tag matching or image similarity, requiring
precise user inputs for satisfactory results.To meet the growing demand for a
contemporary image search engine that enables accurate comprehension of users'
search intentions, we introduce an innovative user intent expansion framework.
Our framework leverages visual-language models to parse and compose multi-modal
user inputs to provide more accurate and satisfying results. It comprises
two-stage processes: 1) a parsing stage that incorporates a language parsing
module with large language models to enhance the comprehension of textual
inputs, along with a visual parsing module that integrates an interactive
segmentation module to swiftly identify detailed visual elements within images;
and 2) a logic composition stage that combines multiple user search intents
into a unified logic expression for more sophisticated operations in complex
searching scenarios. Moreover, the intent expansion framework enables users to
perform flexible contextualized interactions with the search results to further
specify or adjust their detailed search intents iteratively. We implemented the
framework into an image search system for NFT (non-fungible token) search and
conducted a user study to evaluate its usability and novel properties. The
results indicate that the proposed framework significantly improves users'
image search experience. Particularly the parsing and contextualized
interactions prove useful in allowing users to express their search intents
more accurately and engage in a more enjoyable iterative search experience.
- Abstract(参考訳): 画像検索は、デジタル画像の広大なギャラリーを探索するための必須かつユーザフレンドリーな方法である。
しかし,既存の画像検索手法は,タグマッチングや画像類似性などの近接測定に大きく依存しており,精度の高いユーザ入力を必要とするため,ユーザの検索意図の正確な理解を可能にする現代画像検索エンジンの需要が増大する中で,革新的なユーザ意図拡張フレームワークを導入している。
本フレームワークでは,視覚モデルを用いてマルチモーダルなユーザ入力を解析・構成し,より正確かつ満足な結果を提供する。
2段階からなる。
1) 大きな言語モデルを持つ言語解析モジュールを組み込んだ解析ステージは、テキスト入力の理解を深めるとともに、画像内の詳細な視覚要素を迅速に識別するインタラクティブセグメンテーションモジュールを統合したビジュアル解析モジュールである。
2) 複雑な検索シナリオにおいて,複数のユーザ検索意図を統一された論理式に組み合わせた論理合成ステージ。
さらに、インテント拡張フレームワークにより、ユーザは検索結果との柔軟な文脈的相互作用を実行でき、より詳細な検索インテントを反復的に指定または調整することができる。
nft(non-fungible token)検索のための画像検索システムとして実装し,ユーザビリティと新しい特性を評価するためのユーザ調査を行った。
その結果,提案フレームワークはユーザの画像検索体験を大幅に改善することがわかった。
特に、パースとコンテキスト化されたインタラクションは、ユーザーが検索意図をより正確に表現し、より楽しい反復的な検索体験に役立ちます。
関連論文リスト
- Leveraging Large Language Models for Multimodal Search [0.6249768559720121]
本稿では,Fashion200Kデータセット上での新たなパフォーマンスマイルストーンを実現する,新しいマルチモーダル検索モデルを提案する。
また,Large Language Models (LLM) を統合した新たな検索インタフェースを提案する。
論文 参考訳(メタデータ) (2024-04-24T10:30:42Z) - You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。
我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文 参考訳(メタデータ) (2024-03-12T00:27:18Z) - Large Language Models for Captioning and Retrieving Remote Sensing
Images [4.499596985198142]
RS-CapRetはリモートセンシングタスクのためのVision and Languageメソッドである。
リモートセンシング画像の記述を生成し、テキスト記述から画像を取得することができる。
論文 参考訳(メタデータ) (2024-02-09T15:31:01Z) - PromptMagician: Interactive Prompt Engineering for Text-to-Image
Creation [16.41459454076984]
本研究では,画像の検索結果を探索し,入力プロンプトを洗練させる視覚解析システムであるPromptMagicianを提案する。
システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連性の高い)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。
論文 参考訳(メタデータ) (2023-07-18T07:46:25Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and
Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。
本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文 参考訳(メタデータ) (2022-03-15T17:29:20Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z) - SAC: Semantic Attention Composition for Text-Conditioned Image Retrieval [15.074592583852167]
我々は,参照画像と並行してテキストフィードバックを利用して画像を取得するテキスト条件付き画像検索の課題に焦点をあてる。
そこで我々は,これらを「見る場所」(Semantic Feature Attention) と「変化の仕方」の2つの主要なステップで解決する新しいフレームワーク SAC を提案する。
我々のアーキテクチャは、他の最先端技術で必要となる様々なモジュールを不要にすることで、テキスト認識画像機能の生成をいかに効率化するかを示す。
論文 参考訳(メタデータ) (2020-09-03T06:55:23Z) - Sequential Gallery for Interactive Visual Design Optimization [51.52002870143971]
本稿では,適切なパラメータ集合を効率的に見つけることができるループ最適化手法を提案する。
また、アダプティブグリッドビューに配置された2次元部分空間にオプションを提供するギャラリーベースのインタフェースも提案する。
合成関数を用いた実験により, 逐次平面探索は, ベースラインよりも少ないイテレーションで満足な解を見出すことができた。
論文 参考訳(メタデータ) (2020-05-08T15:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。