Fugu-MT 論文翻訳(概要): The Contemporary Art of Image Search: Iterative User Intent Expansion via Vision-Language Model

論文の概要: The Contemporary Art of Image Search: Iterative User Intent Expansion via Vision-Language Model

arxiv url: http://arxiv.org/abs/2312.01656v1
Date: Mon, 4 Dec 2023 06:14:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 16:11:47.550779
Title: The Contemporary Art of Image Search: Iterative User Intent Expansion via Vision-Language Model
Title（参考訳）: 画像検索の現代的技術 : 視覚言語モデルによる反復的ユーザインテント拡張
Authors: Yilin Ye, Qian Zhu, Shishi Xiao, Kang Zhang, Wei Zeng
Abstract要約: 画像検索は、膨大なデジタル画像のギャラリーを探索するための、不可欠かつユーザフレンドリな方法である。ユーザの検索意図の正確な理解を可能にする現代画像検索エンジンの需要の高まりに対応するために,革新的なユーザ意図拡張フレームワークを導入する。本フレームワークでは,視覚モデルを用いてマルチモーダルなユーザ入力を解析・構成し,より正確かつ満足な結果を提供する。
参考スコア（独自算出の注目度）: 4.531548217880843
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image search is an essential and user-friendly method to explore vast galleries of digital images. However, existing image search methods heavily rely on proximity measurements like tag matching or image similarity, requiring precise user inputs for satisfactory results.To meet the growing demand for a contemporary image search engine that enables accurate comprehension of users' search intentions, we introduce an innovative user intent expansion framework. Our framework leverages visual-language models to parse and compose multi-modal user inputs to provide more accurate and satisfying results. It comprises two-stage processes: 1) a parsing stage that incorporates a language parsing module with large language models to enhance the comprehension of textual inputs, along with a visual parsing module that integrates an interactive segmentation module to swiftly identify detailed visual elements within images; and 2) a logic composition stage that combines multiple user search intents into a unified logic expression for more sophisticated operations in complex searching scenarios. Moreover, the intent expansion framework enables users to perform flexible contextualized interactions with the search results to further specify or adjust their detailed search intents iteratively. We implemented the framework into an image search system for NFT (non-fungible token) search and conducted a user study to evaluate its usability and novel properties. The results indicate that the proposed framework significantly improves users' image search experience. Particularly the parsing and contextualized interactions prove useful in allowing users to express their search intents more accurately and engage in a more enjoyable iterative search experience.
Abstract（参考訳）: 画像検索は、デジタル画像の広大なギャラリーを探索するための必須かつユーザフレンドリーな方法である。しかし,既存の画像検索手法は,タグマッチングや画像類似性などの近接測定に大きく依存しており,精度の高いユーザ入力を必要とするため,ユーザの検索意図の正確な理解を可能にする現代画像検索エンジンの需要が増大する中で,革新的なユーザ意図拡張フレームワークを導入している。本フレームワークでは,視覚モデルを用いてマルチモーダルなユーザ入力を解析・構成し,より正確かつ満足な結果を提供する。 2段階からなる。 1) 大きな言語モデルを持つ言語解析モジュールを組み込んだ解析ステージは、テキスト入力の理解を深めるとともに、画像内の詳細な視覚要素を迅速に識別するインタラクティブセグメンテーションモジュールを統合したビジュアル解析モジュールである。 2) 複雑な検索シナリオにおいて,複数のユーザ検索意図を統一された論理式に組み合わせた論理合成ステージ。さらに、インテント拡張フレームワークにより、ユーザは検索結果との柔軟な文脈的相互作用を実行でき、より詳細な検索インテントを反復的に指定または調整することができる。 nft(non-fungible token)検索のための画像検索システムとして実装し,ユーザビリティと新しい特性を評価するためのユーザ調査を行った。その結果,提案フレームワークはユーザの画像検索体験を大幅に改善することがわかった。特に、パースとコンテキスト化されたインタラクションは、ユーザーが検索意図をより正確に表現し、より楽しい反復的な検索体験に役立ちます。

関連論文リスト

Composed Object Retrieval: Object-level Retrieval via Composed Expressions [71.47650333199628]
Composed Object Retrieval (COR)は、画像レベルの検索を超えてオブジェクトレベルの精度を達成するための新しいタスクである。 COR127KはCORの最初の大規模ベンチマークであり、408カテゴリの様々な意味変換を持つ127,166個の検索三重項を含む。また、参照領域エンコーディング、適応型視覚・テキストインタラクション、および領域レベルのコントラスト学習を統合した統合エンドツーエンドモデルであるCOREを提案する。
論文参考訳（メタデータ） (2025-08-06T13:11:40Z)
Enhancing Product Search Interfaces with Sketch-Guided Diffusion and Language Agents [0.6961946145048322]
Sketch-Search Agentは、マルチモーダル言語エージェントとフリーハンドスケッチを拡散モデルの制御信号として統合することにより、画像検索エクスペリエンスを変革する新しいフレームワークである。既存の方法とは異なり、Sketch-Search Agentには最小限のセットアップが必要で、追加のトレーニングはなく、スケッチベースの画像検索と自然言語インタラクションが優れている。このインタラクティブデザインにより、ユーザーはスケッチを作成し、カスタマイズされた製品提案を受け取り、ユーザー中心の画像検索における拡散モデルの可能性を示すことができる。
論文参考訳（メタデータ） (2025-03-21T05:44:15Z)
ABC: Achieving Better Control of Multimodal Embeddings using VLMs [61.396457715710774]
ビジュアル埋め込みモデルは、ビジュアル検索や分類のようなゼロショットタスクで優れている。既存のCLIPベースのアプローチでは、イメージとテキストを独立して埋め込み、結果を融合する。本稿では,視覚言語モデルバックボーンを用いたオープンソースのマルチモーダル埋め込みモデルABCを紹介する。
論文参考訳（メタデータ） (2025-03-01T03:29:02Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Leveraging Large Language Models for Multimodal Search [0.6249768559720121]
本稿では,Fashion200Kデータセット上での新たなパフォーマンスマイルストーンを実現する,新しいマルチモーダル検索モデルを提案する。また,Large Language Models (LLM) を統合した新たな検索インタフェースを提案する。
論文参考訳（メタデータ） (2024-04-24T10:30:42Z)
You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文参考訳（メタデータ） (2024-03-12T00:27:18Z)
Large Language Models for Captioning and Retrieving Remote Sensing Images [4.499596985198142]
RS-CapRetはリモートセンシングタスクのためのVision and Languageメソッドである。リモートセンシング画像の記述を生成し、テキスト記述から画像を取得することができる。
論文参考訳（メタデータ） (2024-02-09T15:31:01Z)
PromptMagician: Interactive Prompt Engineering for Text-to-Image Creation [16.41459454076984]
本研究では,画像の検索結果を探索し,入力プロンプトを洗練させる視覚解析システムであるPromptMagicianを提案する。システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連性の高い)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。
論文参考訳（メタデータ） (2023-07-18T07:46:25Z)
Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文参考訳（メタデータ） (2023-05-29T17:50:33Z)
EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。 EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文参考訳（メタデータ） (2023-05-23T02:59:19Z)
Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。新たなマルチモーダル検索フレームワーク(MoRe)を提案する。 MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文参考訳（メタデータ） (2022-12-03T13:11:32Z)
ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文参考訳（メタデータ） (2022-03-15T17:29:20Z)
Telling the What while Pointing the Where: Fine-grained Mouse Trace and Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文参考訳（メタデータ） (2021-02-09T17:54:34Z)
SAC: Semantic Attention Composition for Text-Conditioned Image Retrieval [15.074592583852167]
我々は,参照画像と並行してテキストフィードバックを利用して画像を取得するテキスト条件付き画像検索の課題に焦点をあてる。そこで我々は,これらを「見る場所」(Semantic Feature Attention) と「変化の仕方」の2つの主要なステップで解決する新しいフレームワーク SAC を提案する。我々のアーキテクチャは、他の最先端技術で必要となる様々なモジュールを不要にすることで、テキスト認識画像機能の生成をいかに効率化するかを示す。
論文参考訳（メタデータ） (2020-09-03T06:55:23Z)
Sequential Gallery for Interactive Visual Design Optimization [51.52002870143971]
本稿では,適切なパラメータ集合を効率的に見つけることができるループ最適化手法を提案する。また、アダプティブグリッドビューに配置された2次元部分空間にオプションを提供するギャラリーベースのインタフェースも提案する。合成関数を用いた実験により, 逐次平面探索は, ベースラインよりも少ないイテレーションで満足な解を見出すことができた。
論文参考訳（メタデータ） (2020-05-08T15:24:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。