論文の概要: STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases
- arxiv url: http://arxiv.org/abs/2404.13207v2
- Date: Mon, 20 May 2024 19:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 18:02:40.417141
- Title: STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases
- Title(参考訳): STaRK: テキストと関係知識に基づくLLM検索のベンチマーク
- Authors: Shirley Wu, Shiyu Zhao, Michihiro Yasunaga, Kexin Huang, Kaidi Cao, Qian Huang, Vassilis N. Ioannidis, Karthik Subbian, James Zou, Jure Leskovec,
- Abstract要約: テキストとKのガベージベース上での大規模半構造検索ベンチマークSTARKを開発する。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野を対象とする。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
- 参考スコア(独自算出の注目度): 93.96463520716759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Answering real-world complex queries, such as complex product search, often requires accurate retrieval from semi-structured knowledge bases that involve blend of unstructured (e.g., textual descriptions of products) and structured (e.g., entity relations of products) information. However, previous works have mostly studied textual and relational retrieval tasks as separate topics. To address the gap, we develop STARK, a large-scale Semi-structure retrieval benchmark on Textual and Relational K nowledge Bases. Our benchmark covers three domains/datasets: product search, academic paper search, and queries in precision medicine. We design a novel pipeline to synthesize realistic user queries that integrate diverse relational information and complex textual properties, together with their ground-truth answers (items). We conduct rigorous human evaluation to validate the quality of our synthesized queries. We further enhance the benchmark with high-quality human-generated queries to provide an authentic reference. STARK serves as a comprehensive testbed for evaluating the performance of retrieval systems driven by large language models (LLMs). Our experiments suggest that STARK presents significant challenges to the current retrieval and LLM systems, indicating the demand for building more capable retrieval systems. The benchmark data and code are available on https://github.com/snap-stanford/stark.
- Abstract(参考訳): 複雑な製品検索のような現実世界の複雑なクエリに答えるには、構造化されていない(例:製品のテキスト記述)と構造化された(例:製品の実体関係)情報の混在を含む、半構造化された知識ベースからの正確な検索が必要となることが多い。
しかし、以前の研究はテキスト検索と関係検索を個別のトピックとして研究していた。
このギャップに対処するため,テキストとリレーショナルKのガベージベース上での大規模半構造評価ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野を対象とする。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新たなパイプラインを設計する。
我々は,合成クエリの品質を評価するために,厳密な人的評価を行う。
さらに、高品質な人為的クエリによるベンチマークを強化し、真の参照を提供する。
STARKは、大規模言語モデル(LLM)によって駆動される検索システムの性能を評価するための総合的なテストベッドとして機能する。
実験の結果,STARKは現在の検索システムとLLMシステムに重大な課題を呈し,より有能な検索システムの構築の必要性が示唆された。
ベンチマークデータとコードはhttps://github.com/snap-stanford/stark.comで公開されている。
関連論文リスト
- SRSA: A Cost-Efficient Strategy-Router Search Agent for Real-world Human-Machine Interactions [3.5725872564627785]
現実の状況では、ユーザーはしばしばコンテキストと高度にパーソナライズされたクエリをチャットボットに入力する。
これまでの研究は、人間と機械の対話のシナリオに特に焦点を絞ってはいなかった。
これらのギャップに対処するために、戦略ベース検索エージェント(SRSA)を提案する。
SRSAは、異なるクエリを適切な検索戦略にルーティングし、よりきめ細かいシリアル検索により、比較的低コストで高品質な結果を得ることができる。
論文 参考訳(メタデータ) (2024-11-21T20:41:55Z) - ConTReGen: Context-driven Tree-structured Retrieval for Open-domain Long-form Text Generation [26.4086456393314]
長い形式のテキスト生成には、幅と深さの両方で複雑なクエリに対処する一貫性のある包括的な応答が必要である。
既存の反復的な検索拡張生成アプローチは、複雑なクエリの各側面を深く掘り下げるのに苦労することが多い。
本稿では,コンテキスト駆動型木構造検索手法を用いた新しいフレームワークであるConTReGenを紹介する。
論文 参考訳(メタデータ) (2024-10-20T21:17:05Z) - RiTeK: A Dataset for Large Language Models Complex Reasoning over Textual Knowledge Graphs [12.846097618151951]
我々は,テキスト知識グラフ(RiTeK)を用いたLLMの複雑な推論のためのデータセットを開発し,広範なトポロジ的構造を網羅する。
多様なトポロジ構造、注釈付き情報、複雑なテキスト記述を統合した現実的なユーザクエリを合成する。
そこで我々はモンテカルロ木探索法 (CTS) を導入し, 特定のクエリに対してテキストグラフから関係経路情報を自動的に抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T19:33:37Z) - Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。
文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文 参考訳(メタデータ) (2024-10-17T17:03:23Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Large Search Model: Redefining Search Stack in the Era of LLMs [63.503320030117145]
我々は,1つの大言語モデル(LLM)で検索タスクを統一することにより,従来の検索スタックを再定義する,大規模検索モデルと呼ばれる新しい概念的フレームワークを導入する。
全てのタスクは自動回帰テキスト生成問題として定式化され、自然言語のプロンプトを使ってタスクをカスタマイズできる。
提案フレームワークは,LLMの強力な言語理解と推論能力を活用し,既存の検索スタックを簡素化しつつ,検索結果の質を向上させる能力を提供する。
論文 参考訳(メタデータ) (2023-10-23T05:52:09Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。