Fugu-MT 論文翻訳(概要): STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases

論文の概要: STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases

arxiv url: http://arxiv.org/abs/2404.13207v2
Date: Mon, 20 May 2024 19:10:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-22 18:02:40.417141
Title: STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases
Title（参考訳）: STaRK: テキストと関係知識に基づくLLM検索のベンチマーク
Authors: Shirley Wu, Shiyu Zhao, Michihiro Yasunaga, Kexin Huang, Kaidi Cao, Qian Huang, Vassilis N. Ioannidis, Karthik Subbian, James Zou, Jure Leskovec,
Abstract要約: テキストとKのガベージベース上での大規模半構造検索ベンチマークSTARKを開発する。本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野を対象とする。多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
参考スコア（独自算出の注目度）: 93.96463520716759
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Answering real-world complex queries, such as complex product search, often requires accurate retrieval from semi-structured knowledge bases that involve blend of unstructured (e.g., textual descriptions of products) and structured (e.g., entity relations of products) information. However, previous works have mostly studied textual and relational retrieval tasks as separate topics. To address the gap, we develop STARK, a large-scale Semi-structure retrieval benchmark on Textual and Relational K nowledge Bases. Our benchmark covers three domains/datasets: product search, academic paper search, and queries in precision medicine. We design a novel pipeline to synthesize realistic user queries that integrate diverse relational information and complex textual properties, together with their ground-truth answers (items). We conduct rigorous human evaluation to validate the quality of our synthesized queries. We further enhance the benchmark with high-quality human-generated queries to provide an authentic reference. STARK serves as a comprehensive testbed for evaluating the performance of retrieval systems driven by large language models (LLMs). Our experiments suggest that STARK presents significant challenges to the current retrieval and LLM systems, indicating the demand for building more capable retrieval systems. The benchmark data and code are available on https://github.com/snap-stanford/stark.
Abstract（参考訳）: 複雑な製品検索のような現実世界の複雑なクエリに答えるには、構造化されていない(例:製品のテキスト記述)と構造化された(例:製品の実体関係)情報の混在を含む、半構造化された知識ベースからの正確な検索が必要となることが多い。しかし、以前の研究はテキスト検索と関係検索を個別のトピックとして研究していた。このギャップに対処するため,テキストとリレーショナルKのガベージベース上での大規模半構造評価ベンチマークSTARKを開発した。本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野を対象とする。多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新たなパイプラインを設計する。我々は,合成クエリの品質を評価するために,厳密な人的評価を行う。さらに、高品質な人為的クエリによるベンチマークを強化し、真の参照を提供する。 STARKは、大規模言語モデル(LLM)によって駆動される検索システムの性能を評価するための総合的なテストベッドとして機能する。実験の結果,STARKは現在の検索システムとLLMシステムに重大な課題を呈し,より有能な検索システムの構築の必要性が示唆された。ベンチマークデータとコードはhttps://github.com/snap-stanford/stark.comで公開されている。

関連論文リスト

Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。 RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文参考訳（メタデータ） (2025-06-29T08:34:59Z)
Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文参考訳（メタデータ） (2025-04-14T14:52:28Z)
SRSA: A Cost-Efficient Strategy-Router Search Agent for Real-world Human-Machine Interactions [3.5725872564627785]
現実の状況では、ユーザーはしばしばコンテキストと高度にパーソナライズされたクエリをチャットボットに入力する。これまでの研究は、人間と機械の対話のシナリオに特に焦点を絞ってはいなかった。これらのギャップに対処するために、戦略ベース検索エージェント(SRSA)を提案する。 SRSAは、異なるクエリを適切な検索戦略にルーティングし、よりきめ細かいシリアル検索により、比較的低コストで高品質な結果を得ることができる。
論文参考訳（メタデータ） (2024-11-21T20:41:55Z)
ConTReGen: Context-driven Tree-structured Retrieval for Open-domain Long-form Text Generation [26.4086456393314]
長い形式のテキスト生成には、幅と深さの両方で複雑なクエリに対処する一貫性のある包括的な応答が必要である。既存の反復的な検索拡張生成アプローチは、複雑なクエリの各側面を深く掘り下げるのに苦労することが多い。本稿では,コンテキスト駆動型木構造検索手法を用いた新しいフレームワークであるConTReGenを紹介する。
論文参考訳（メタデータ） (2024-10-20T21:17:05Z)
RiTeK: A Dataset for Large Language Models Complex Reasoning over Textual Knowledge Graphs [12.846097618151951]
我々は,テキスト知識グラフ(RiTeK)を用いたLLMの複雑な推論のためのデータセットを開発し,広範なトポロジ的構造を網羅する。多様なトポロジ構造、注釈付き情報、複雑なテキスト記述を統合した現実的なユーザクエリを合成する。そこで我々はモンテカルロ木探索法 (CTS) を導入し, 特定のクエリに対してテキストグラフから関係経路情報を自動的に抽出する手法を提案する。
論文参考訳（メタデータ） (2024-10-17T19:33:37Z)
Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文参考訳（メタデータ） (2024-10-17T17:03:23Z)
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文参考訳（メタデータ） (2024-07-16T17:58:27Z)
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文参考訳（メタデータ） (2024-07-03T07:58:20Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
Large Search Model: Redefining Search Stack in the Era of LLMs [63.503320030117145]
我々は,1つの大言語モデル(LLM)で検索タスクを統一することにより,従来の検索スタックを再定義する,大規模検索モデルと呼ばれる新しい概念的フレームワークを導入する。全てのタスクは自動回帰テキスト生成問題として定式化され、自然言語のプロンプトを使ってタスクをカスタマイズできる。提案フレームワークは,LLMの強力な言語理解と推論能力を活用し,既存の検索スタックを簡素化しつつ,検索結果の質を向上させる能力を提供する。
論文参考訳（メタデータ） (2023-10-23T05:52:09Z)
Synergistic Interplay between Search and Large Language Models for Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。 InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文参考訳（メタデータ） (2023-05-12T11:58:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。