論文の概要: Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions
- arxiv url: http://arxiv.org/abs/2503.00501v1
- Date: Sat, 01 Mar 2025 14:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:21:31.467602
- Title: Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions
- Title(参考訳): Qilin:appレベルのユーザセッションを備えたマルチモーダル情報検索データセット
- Authors: Jia Chen, Qian Dong, Haitao Li, Xiaohui He, Yan Gao, Shaosheng Cao, Yi Wu, Ping Yang, Chen Xu, Yao Hu, Qingyao Ai, Yiqun Liu,
- Abstract要約: 検索・レコメンデーション(S&R)を伴う複雑なシステムにおけるユーザエクスペリエンス向上の課題は、学術と産業の両方から大きな注目を集めている。
本稿では,新しいマルチモーダル情報検索データセット,すなわちQilinを提案する。
データセットはXiaohongshuから収集されている。Xiaohongshuは3億人の月間アクティブユーザーがいて、平均的な検索浸透率は70%を超えている。
- 参考スコア(独自算出の注目度): 39.2477761959206
- License:
- Abstract: User-generated content (UGC) communities, especially those featuring multimodal content, improve user experiences by integrating visual and textual information into results (or items). The challenge of improving user experiences in complex systems with search and recommendation (S\&R) services has drawn significant attention from both academia and industry these years. However, the lack of high-quality datasets has limited the research progress on multimodal S\&R. To address the growing need for developing better S\&R services, we present a novel multimodal information retrieval dataset in this paper, namely Qilin. The dataset is collected from Xiaohongshu, a popular social platform with over 300 million monthly active users and an average search penetration rate of over 70\%. In contrast to existing datasets, \textsf{Qilin} offers a comprehensive collection of user sessions with heterogeneous results like image-text notes, video notes, commercial notes, and direct answers, facilitating the development of advanced multimodal neural retrieval models across diverse task settings. To better model user satisfaction and support the analysis of heterogeneous user behaviors, we also collect extensive APP-level contextual signals and genuine user feedback. Notably, Qilin contains user-favored answers and their referred results for search requests triggering the Deep Query Answering (DQA) module. This allows not only the training \& evaluation of a Retrieval-augmented Generation (RAG) pipeline, but also the exploration of how such a module would affect users' search behavior. Through comprehensive analysis and experiments, we provide interesting findings and insights for further improving S\&R systems. We hope that \textsf{Qilin} will significantly contribute to the advancement of multimodal content platforms with S\&R services in the future.
- Abstract(参考訳): ユーザ生成コンテンツ(UGC)コミュニティ、特にマルチモーダルコンテンツを含むコミュニティは、視覚情報とテキスト情報を結果(またはアイテム)に統合することでユーザエクスペリエンスを向上させる。
近年,検索・レコメンデーション(S&R)サービスによる複雑なシステムにおけるユーザエクスペリエンス向上の課題は,学術と産業の両方から大きな注目を集めている。
しかし、高品質なデータセットの欠如は、マルチモーダルS\&Rの研究の進歩を制限している。
より優れたS&Rサービス開発の必要性に対処するため,本論文では,新たなマルチモーダル情報検索データセット,すなわちQilinを提案する。
データセットはXiaohongshuから収集されている。Xiaohongshuは3億人以上の月間アクティブユーザーを持ち、平均的な検索浸透率は70%を超えている。
既存のデータセットとは対照的に、‘textsf{Qilin}’は、画像テキストノート、ビデオノート、コマーシャルノート、直接回答などの異質な結果を含む、包括的なユーザセッションの集合を提供し、多様なタスク設定にわたる高度なマルチモーダルニューラルネットワークモデルの開発を容易にする。
ユーザの満足度をモデル化し,不均一なユーザ行動の分析を支援するため,appレベルのコンテキスト信号や真のユーザフィードバックも収集する。
特に、Qilinには、ユーザの好意的な回答と、Deep Query Answering (DQA)モジュールを起動する検索要求に対する参照結果が含まれている。
これにより、Retrieval-augmented Generation (RAG)パイプラインのトレーニングと評価だけでなく、そのようなモジュールがユーザの検索行動にどのように影響するかを探索することが可能になる。
総合的な分析と実験を通じて、S&Rシステムをさらに改善するための興味深い発見と洞察を提供する。
今後,S\&R サービスによるマルチモーダルコンテンツプラットフォームの発展に,‘textsf{Qilin} が大きな貢献を期待する。
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。
MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。
本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文 参考訳(メタデータ) (2024-07-05T02:01:49Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering [25.577314828249897]
本稿では,公開データセット(MUSIC-AVQA)のテストスプリット内での質問の表現と,分割された質問に対する分散シフトの導入という,2つのステップで構築された新しいデータセットMUSIC-AVQA-Rを提案する。
実験の結果、このアーキテクチャはMUSIC-AVQA-Rの最先端性能を実現し、特に9.32%の大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-04-18T09:16:02Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Learning to Retrieve Engaging Follow-Up Queries [12.380514998172199]
ユーザが持つ可能性のある次の質問を予測するための検索ベースシステムと関連するデータセットを提案する。
このようなシステムは,ユーザの知識探索を積極的に支援することで,より活発な対話を実現する。
論文 参考訳(メタデータ) (2023-02-21T20:26:23Z) - Multimodal Recommender Systems: A Survey [50.23505070348051]
マルチモーダル・レコメンダ・システム(MRS)は近年,学界と産業の両方から注目を集めている。
本稿では,主に技術的観点から,MSSモデルに関する総合的な調査を行う。
実装コードなど、調査された論文の詳細にアクセスするために、リポジトリをオープンソース化します。
論文 参考訳(メタデータ) (2023-02-08T05:12:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。