論文の概要: ChatSearch: a Dataset and a Generative Retrieval Model for General Conversational Image Retrieval
- arxiv url: http://arxiv.org/abs/2410.18715v1
- Date: Thu, 24 Oct 2024 13:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:50:00.022534
- Title: ChatSearch: a Dataset and a Generative Retrieval Model for General Conversational Image Retrieval
- Title(参考訳): ChatSearch:一般会話画像検索のためのデータセットと生成検索モデル
- Authors: Zijia Zhao, Longteng Guo, Tongtian Yue, Erdong Hu, Shuai Shao, Zehuan Yuan, Hua Huang, Jing Liu,
- Abstract要約: オープンドメイン画像における一般会話画像検索の課題について検討する。
このタスクを進めるために、ChatSearchと呼ばれるデータセットをキュレートします。
本データセットは、ターゲット画像毎のマルチラウンド多モーダル会話コンテキストクエリを含む。
そこで我々はChatSearcherという生成的検索モデルを提案する。
- 参考スコア(独自算出の注目度): 31.663016521987764
- License:
- Abstract: In this paper, we investigate the task of general conversational image retrieval on open-domain images. The objective is to search for images based on interactive conversations between humans and computers. To advance this task, we curate a dataset called ChatSearch. This dataset includes a multi-round multimodal conversational context query for each target image, thereby requiring the retrieval system to find the accurate image from database. Simultaneously, we propose a generative retrieval model named ChatSearcher, which is trained end-to-end to accept/produce interleaved image-text inputs/outputs. ChatSearcher exhibits strong capability in reasoning with multimodal context and can leverage world knowledge to yield visual retrieval results. It demonstrates superior performance on the ChatSearch dataset and also achieves competitive results on other image retrieval tasks and visual conversation tasks. We anticipate that this work will inspire further research on interactive multimodal retrieval systems. Our dataset will be available at https://github.com/joez17/ChatSearch.
- Abstract(参考訳): 本稿では,オープンドメイン画像における一般会話画像検索の課題について検討する。
本研究の目的は,人間とコンピュータの対話に基づく画像検索である。
このタスクを進めるために、ChatSearchと呼ばれるデータセットをキュレートします。
本データセットは、対象画像毎にマルチラウンドの会話コンテキストクエリを含むので、データベースから正確な画像を見つけるためには、検索システムが必要である。
同時にChatSearcherという生成的検索モデルを提案する。
ChatSearcherはマルチモーダルコンテキストでの推論において強力な能力を示し、世界知識を活用して視覚的検索結果を得ることができる。
ChatSearchデータセットで優れたパフォーマンスを示し、他の画像検索タスクやビジュアル会話タスクで競合する結果を達成する。
本研究は,対話型マルチモーダル検索システムに関するさらなる研究を期待する。
データセットはhttps://github.com/joez17/ChatSearchで公開されます。
関連論文リスト
- Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。
本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。
本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-04-29T14:46:35Z) - CONVERSER: Few-Shot Conversational Dense Retrieval with Synthetic Data
Generation [32.10366004426449]
対話型高密度検索のためのフレームワークであるConVERSERを提案する。
我々は,大言語モデルのテキスト内学習機能を利用して,検索コーパスの文節に与えられた会話クエリを生成する。
対話型検索ベンチマークOR-QuACとTREC CAsT 19の実験結果から,提案したConverSERは完全教師付きモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-09-13T06:40:24Z) - SSP: Self-Supervised Post-training for Conversational Search [63.28684982954115]
本稿では,対話型検索モデルを効率的に初期化するための3つの自己教師型タスクを備えた学習後パラダイムであるフルモデル(モデル)を提案する。
提案手法の有効性を検証するために,CAsT-19 と CAsT-20 の2つのベンチマークデータセットを用いて,会話検索タスクにモデルにより訓練後の会話エンコーダを適用した。
論文 参考訳(メタデータ) (2023-07-02T13:36:36Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Chatting Makes Perfect: Chat-based Image Retrieval [25.452015862927766]
ChatIRはチャットベースの画像検索システムで、ユーザーと会話して情報を抽出する。
大規模言語モデルは、初期画像記述に対するフォローアップ質問を生成するために使用される。
本システムでは、5回の対話で78%以上の成功率で50K画像のプールから目標画像を取得することができる。
論文 参考訳(メタデータ) (2023-05-31T17:38:08Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。
本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文 参考訳(メタデータ) (2022-05-11T16:01:03Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。