論文の概要: STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases
- arxiv url: http://arxiv.org/abs/2404.13207v1
- Date: Fri, 19 Apr 2024 22:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:58:55.219231
- Title: STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases
- Title(参考訳): STaRK: テキストと関係知識に基づくLLM検索のベンチマーク
- Authors: Shirley Wu, Shiyu Zhao, Michihiro Yasunaga, Kexin Huang, Kaidi Cao, Qian Huang, Vassilis N. Ioannidis, Karthik Subbian, James Zou, Jure Leskovec,
- Abstract要約: テキストとリレーショナルベース知識に関する大規模半構造検索ベンチマークSTARKを開発した。
多様な情報と複雑なテキスト特性を統合した,自然かつ現実的なユーザクエリを合成する,新しいパイプラインを設計する。
本ベンチマークは,検索システムの性能評価のための総合的なテストベッドとして機能する。
- 参考スコア(独自算出の注目度): 93.96463520716759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Answering real-world user queries, such as product search, often requires accurate retrieval of information from semi-structured knowledge bases or databases that involve blend of unstructured (e.g., textual descriptions of products) and structured (e.g., entity relations of products) information. However, previous works have mostly studied textual and relational retrieval tasks as separate topics. To address the gap, we develop STARK, a large-scale Semi-structure retrieval benchmark on Textual and Relational Knowledge Bases. We design a novel pipeline to synthesize natural and realistic user queries that integrate diverse relational information and complex textual properties, as well as their ground-truth answers. Moreover, we rigorously conduct human evaluation to validate the quality of our benchmark, which covers a variety of practical applications, including product recommendations, academic paper searches, and precision medicine inquiries. Our benchmark serves as a comprehensive testbed for evaluating the performance of retrieval systems, with an emphasis on retrieval approaches driven by large language models (LLMs). Our experiments suggest that the STARK datasets present significant challenges to the current retrieval and LLM systems, indicating the demand for building more capable retrieval systems that can handle both textual and relational aspects.
- Abstract(参考訳): 製品検索のような現実世界のユーザクエリに答えるには、構造化されていない(例:製品のテキスト記述)と構造化された(例:製品のエンティティ関係)情報の混在を含む、半構造化された知識ベースやデータベースから正確な情報を取得する必要があることが多い。
しかし、以前の研究は主にテキスト検索と関係検索を別のトピックとして研究してきた。
このギャップに対処するため,テキスト・リレーショナル・ナレッジ・ベース上での大規模半構造評価ベンチマークSTARKを開発した。
多様なリレーショナル情報と複雑なテキスト特性を融合した,自然および現実的なユーザクエリを合成する,新たなパイプラインを設計する。
さらに,製品レコメンデーション,学術論文検索,精密医療調査など,さまざまな実践的応用を網羅した,ベンチマークの品質評価を厳格に実施する。
本ベンチマークは,大規模言語モデル(LLM)による検索手法に着目し,検索システムの性能評価のための総合的なテストベッドとして機能する。
実験の結果,STARKデータセットは,現在の検索システムとLLMシステムに重大な課題を呈し,テキストとリレーショナルの両面を扱える,より有能な検索システムの構築の必要性が示唆された。
関連論文リスト
- BIRCO: A Benchmark of Information Retrieval Tasks with Complex Objectives [2.3420045370973828]
複雑な目的を持つ情報検索タスクのベンチマーク(BIRCO)について述べる。
BIRCOは、多面的ユーザ目的のドキュメントを検索するIRシステムの能力を評価する。
論文 参考訳(メタデータ) (2024-02-21T22:22:30Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented
Generation of Large Language Models [55.47070014913373]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Evaluating Generative Ad Hoc Information Retrieval [58.800799175084286]
従来の文書ランキングの代わりに、多くの生成検索システムは、クエリや質問として表現された情報に対する回答として、接地された生成されたテキストを直接返します。
このような生成的アドホック検索を適切に評価するには,テキスト応答の有用性の定量化が不可欠である。
本分析は, アドホック検索に着目した生成検索システム評価のための基礎と新たな知見を提供する。
論文 参考訳(メタデータ) (2023-11-08T14:05:00Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - $\text{EFO}_{k}$-CQA: Towards Knowledge Graph Complex Query Answering
beyond Set Operation [36.77373013615789]
本稿では,データ生成,モデルトレーニング,メソッド評価のためのフレームワークを提案する。
実験的な評価のために,データセットとして$textEFO_k$-CQAを構築した。
論文 参考訳(メタデータ) (2023-07-15T13:18:20Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Semi-Structured Query Grounding for Document-Oriented Databases with
Deep Retrieval and Its Application to Receipt and POI Matching [23.52046767195031]
半構造化データにおけるクエリグラウンドリング問題に対する埋め込み型検索の実践的課題に対処することを目的としている。
クエリとデータベースの両方のエントリの埋め込みと検索において,モジュールの最も効果的な組み合わせを見つけるために,広範な実験を行う。
提案モデルでは,従来の手動パターンモデルよりも大幅に優れ,開発コストやメンテナンスコストの低減が図られている。
論文 参考訳(メタデータ) (2022-02-23T05:32:34Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。