Fugu-MT 論文翻訳(概要): Chatting Makes Perfect: Chat-based Image Retrieval

論文の概要: Chatting Makes Perfect: Chat-based Image Retrieval

arxiv url: http://arxiv.org/abs/2305.20062v2
Date: Thu, 5 Oct 2023 16:40:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 22:10:45.974034
Title: Chatting Makes Perfect: Chat-based Image Retrieval
Title（参考訳）: チャットによる画像検索が完璧に
Authors: Matan Levy, Rami Ben-Ari, Nir Darshan, Dani Lischinski
Abstract要約: ChatIRはチャットベースの画像検索システムで、ユーザーと会話して情報を抽出する。大規模言語モデルは、初期画像記述に対するフォローアップ質問を生成するために使用される。本システムでは、5回の対話で78%以上の成功率で50K画像のプールから目標画像を取得することができる。
参考スコア（独自算出の注目度）: 25.452015862927766
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Chats emerge as an effective user-friendly approach for information retrieval, and are successfully employed in many domains, such as customer service, healthcare, and finance. However, existing image retrieval approaches typically address the case of a single query-to-image round, and the use of chats for image retrieval has been mostly overlooked. In this work, we introduce ChatIR: a chat-based image retrieval system that engages in a conversation with the user to elicit information, in addition to an initial query, in order to clarify the user's search intent. Motivated by the capabilities of today's foundation models, we leverage Large Language Models to generate follow-up questions to an initial image description. These questions form a dialog with the user in order to retrieve the desired image from a large corpus. In this study, we explore the capabilities of such a system tested on a large dataset and reveal that engaging in a dialog yields significant gains in image retrieval. We start by building an evaluation pipeline from an existing manually generated dataset and explore different modules and training strategies for ChatIR. Our comparison includes strong baselines derived from related applications trained with Reinforcement Learning. Our system is capable of retrieving the target image from a pool of 50K images with over 78% success rate after 5 dialogue rounds, compared to 75% when questions are asked by humans, and 64% for a single shot text-to-image retrieval. Extensive evaluations reveal the strong capabilities and examine the limitations of CharIR under different settings. Project repository is available at https://github.com/levymsn/ChatIR.
Abstract（参考訳）: チャットは、情報検索の効果的なユーザフレンドリーなアプローチとして現れ、カスタマサービス、ヘルスケア、ファイナンスといった多くの領域でうまく採用されている。しかし、既存の画像検索アプローチでは、単一のクエリーツー・イメージラウンドの場合が一般的であり、画像検索におけるチャットの使用はほとんど見過ごされている。本稿では,チャットベースの画像検索システムであるchatirについて紹介する。チャットベースの画像検索システムで,ユーザの検索意図を明らかにするために,ユーザと会話して最初の問い合わせに加えて情報を引き出す。今日の基盤モデルの能力に触発されて、私たちはLarge Language Modelsを利用して、最初のイメージ記述に対するフォローアップ質問を生成します。これらの質問は、大きなコーパスから所望の画像を取得するために、ユーザとダイアログを形成する。本研究では,大規模なデータセット上でテストするシステムの機能について検討し,ダイアログへの関与が画像検索において大きな利益をもたらすことを示す。まず、既存の手動で生成されたデータセットから評価パイプラインを構築し、さまざまなモジュールとChatIRのトレーニング戦略を調査します。我々の比較は強化学習で訓練された関連アプリケーションから得られた強いベースラインを含んでいる。本システムでは、5回の対話で78%以上の成功率で50K画像のプールから目標画像を取得することができるが、人間からの質問では75%、単発のテキスト・画像検索では64%である。広範囲な評価は、強い能力を明らかにし、異なる設定下でCharIRの限界を調べる。プロジェクトリポジトリはhttps://github.com/levymsn/chatirで入手できる。

関連論文リスト

Chain-of-Thought Re-ranking for Image Retrieval Tasks [16.13448876168839]
そこで我々は,画像検索に対処する新しいChain-of-Thought Re-Ranking(CoTRR)手法を提案する。 MLLMがリストワイズ推論を行えるようにすることで,グローバル比較,一貫した推論,解釈可能な意思決定をサポートする。提案手法は,テキスト・トゥ・イメージ検索(TIR),合成画像検索(CIR),チャットベースの画像検索(Chat-IR)など,3つの画像検索タスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-09-18T08:48:46Z)
ChatSearch: a Dataset and a Generative Retrieval Model for General Conversational Image Retrieval [31.663016521987764]
オープンドメイン画像における一般会話画像検索の課題について検討する。このタスクを進めるために、ChatSearchと呼ばれるデータセットをキュレートします。本データセットは、ターゲット画像毎のマルチラウンド多モーダル会話コンテキストクエリを含む。そこで我々はChatSearcherという生成的検索モデルを提案する。
論文参考訳（メタデータ） (2024-10-24T13:19:22Z)
Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文参考訳（メタデータ） (2024-06-09T15:00:28Z)
Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach [33.231639257323536]
本稿では,対話型テキスト・画像検索タスクにおける対話型コンテキストクエリの問題に対処する。対話形式のコンテキストを再構成することにより、既存の視覚的対話データから検索モデルを微調整する必要がなくなる。対象画像の属性に関する非冗長な質問を生成するために,LLM質問機を構築した。
論文参考訳（メタデータ） (2024-06-05T16:09:01Z)
Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文参考訳（メタデータ） (2024-04-29T14:46:35Z)
GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。 GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文参考訳（メタデータ） (2023-11-24T18:59:10Z)
Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。 MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文参考訳（メタデータ） (2023-08-31T05:15:27Z)
End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文参考訳（メタデータ） (2023-06-01T08:04:12Z)
FCC: Fusing Conversation History and Candidate Provenance for Contextual Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文参考訳（メタデータ） (2023-03-31T23:58:28Z)
Part2Whole: Iteratively Enrich Detail for Cross-Modal Retrieval with Partial Query [25.398090300086302]
本稿では,この問題に対処する対話型検索フレームワークPart2Wholeを提案する。 Interactive Retrieval Agentは、初期クエリを洗練するための最適なポリシーを構築するために訓練される。テキスト画像データセット以外の人手による注釈データを必要としない弱教師付き強化学習法を提案する。
論文参考訳（メタデータ） (2021-03-02T11:27:05Z)
ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文参考訳（メタデータ） (2020-06-15T12:25:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。