Fugu-MT 論文翻訳(概要): Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach

論文の概要: Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach

arxiv url: http://arxiv.org/abs/2406.03411v1
Date: Wed, 5 Jun 2024 16:09:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 17:22:00.339588
Title: Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach
Title（参考訳）: 大規模言語モデルを用いた対話型テキスト・画像検索:プラグ・アンド・プレイアプローチ
Authors: Saehyung Lee, Sangwon Yu, Junsung Park, Jihun Yi, Sungroh Yoon,
Abstract要約: 本稿では,対話型テキスト・画像検索タスクにおける対話型コンテキストクエリの問題に対処する。対話形式のコンテキストを再構成することにより、既存の視覚的対話データから検索モデルを微調整する必要がなくなる。対象画像の属性に関する非冗長な質問を生成するために,LLM質問機を構築した。
参考スコア（独自算出の注目度）: 33.231639257323536
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we primarily address the issue of dialogue-form context query within the interactive text-to-image retrieval task. Our methodology, PlugIR, actively utilizes the general instruction-following capability of LLMs in two ways. First, by reformulating the dialogue-form context, we eliminate the necessity of fine-tuning a retrieval model on existing visual dialogue data, thereby enabling the use of any arbitrary black-box model. Second, we construct the LLM questioner to generate non-redundant questions about the attributes of the target image, based on the information of retrieval candidate images in the current context. This approach mitigates the issues of noisiness and redundancy in the generated questions. Beyond our methodology, we propose a novel evaluation metric, Best log Rank Integral (BRI), for a comprehensive assessment of the interactive retrieval system. PlugIR demonstrates superior performance compared to both zero-shot and fine-tuned baselines in various benchmarks. Additionally, the two methodologies comprising PlugIR can be flexibly applied together or separately in various situations. Our codes are available at https://github.com/Saehyung-Lee/PlugIR.
Abstract（参考訳）: 本稿では,対話型テキスト・画像検索タスクにおける対話型コンテキストクエリの問題に主に対処する。提案手法であるPlugIRは,LLMの一般的な命令追従能力を2つの方法で積極的に活用する。まず,対話形式の文脈を再構成することにより,既存の視覚的対話データに対して検索モデルを微調整する必要をなくし,任意のブラックボックスモデルの使用を可能にする。第2に、現在の文脈における検索候補画像の情報に基づいて、目標画像の属性に関する非冗長な質問を生成する。このアプローチは、生成された質問におけるノイズと冗長性の問題を緩和する。提案手法の他に,インタラクティブ検索システムの総合的な評価を行うため,新たな評価基準であるBest log Rank Integral (BRI)を提案する。 PlugIRは、さまざまなベンチマークでゼロショットベースラインと微調整ベースラインの両方と比較して、優れたパフォーマンスを示している。また、PlugIRを含む2つの方法論は、様々な状況において、柔軟に、または別々に適用することができる。私たちのコードはhttps://github.com/Saehyung-Lee/PlugIR.comで公開されています。

関連論文リスト

DIR-TIR: Dialog-Iterative Refinement for Text-to-Image Retrieval [3.5092739016434567]
本フレームワークは,2つのモジュールを対象とする画像検索を段階的に改良する。 Dialog Refinerは、ユーザに対して、重要な情報を抽出し、より正確な記述を生成するよう、積極的にクエリする。 Image Refinerは生成した画像とユーザの意図のギャップを識別し、視覚と意味の相違を戦略的に低減する。
論文参考訳（メタデータ） (2025-11-18T12:45:10Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation [21.052101309555464]
MDRG(Multimodal Dialogue Response Generation)は、テキスト、画像、あるいは両方で応答を生成する必要があるタスクである。これまでの作業は、エンドツーエンドアプローチを採用するのではなく、モデルのイメージ入力と出力の両方の中間ステップとして、テキストのモダリティに依存していた。本稿では、画像コンテンツに対するテキスト応答の関連性を高めるために、画像履歴情報を活用できるように、応答生成経路をブリッジするBI-MDRGを提案する。
論文参考訳（メタデータ） (2024-08-12T05:22:42Z)
Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文参考訳（メタデータ） (2024-04-29T14:46:35Z)
Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。 ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-02-23T06:11:50Z)
DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文参考訳（メタデータ） (2024-01-02T07:40:12Z)
Resolving References in Visually-Grounded Dialogue via Text Generation [3.8673630752805446]
視覚言語モデル(VLM)は、単純なテキストクエリに基づく画像検索に有効であることが示されているが、会話入力に基づくテキスト画像検索は依然として課題である。本稿では,言語文脈における中核的情報を要約した明確な記述を生成するために,因果的大言語モデル(LLM)の微調整を提案する。次に、予め訓練されたVLMを使用して、生成された記述、ゼロショットに基づいて参照を識別する。
論文参考訳（メタデータ） (2023-09-23T17:07:54Z)
SSP: Self-Supervised Post-training for Conversational Search [63.28684982954115]
本稿では,対話型検索モデルを効率的に初期化するための3つの自己教師型タスクを備えた学習後パラダイムであるフルモデル(モデル)を提案する。提案手法の有効性を検証するために,CAsT-19 と CAsT-20 の2つのベンチマークデータセットを用いて,会話検索タスクにモデルにより訓練後の会話エンコーダを適用した。
論文参考訳（メタデータ） (2023-07-02T13:36:36Z)
FCC: Fusing Conversation History and Candidate Provenance for Contextual Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文参考訳（メタデータ） (2023-03-31T23:58:28Z)
Collaborative Reasoning on Multi-Modal Semantic Graphs for Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文参考訳（メタデータ） (2022-10-22T14:45:29Z)
GRASP: Guiding model with RelAtional Semantics using Prompt [3.1275060062551208]
本稿では Prompt (GRASP) を用いたRelAtional Semantics を用いた誘導モデルを提案する。我々は、プロンプトベースの微調整アプローチを採用し、引数を意識したプロンプトマーカー戦略を用いて、ある対話における関係意味的手がかりをキャプチャする。実験では、DialogREデータセット上でのF1とF1cのスコアの観点から、GRASPの最先端のパフォーマンスが評価された。
論文参考訳（メタデータ） (2022-08-26T08:19:28Z)
Utterance Rewriting with Contrastive Learning in Multi-turn Dialogue [22.103162555263143]
比較学習とマルチタスク学習を導入し、問題を共同でモデル化する。提案手法は,複数の公開データセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2022-03-22T10:13:27Z)
In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文参考訳（メタデータ） (2022-03-16T11:58:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。