Fugu-MT 論文翻訳(概要): STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases

論文の概要: STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases

arxiv url: http://arxiv.org/abs/2404.13207v1
Date: Fri, 19 Apr 2024 22:54:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 19:58:55.219231
Title: STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases
Title（参考訳）: STaRK: テキストと関係知識に基づくLLM検索のベンチマーク
Authors: Shirley Wu, Shiyu Zhao, Michihiro Yasunaga, Kexin Huang, Kaidi Cao, Qian Huang, Vassilis N. Ioannidis, Karthik Subbian, James Zou, Jure Leskovec,
Abstract要約: テキストとリレーショナルベース知識に関する大規模半構造検索ベンチマークSTARKを開発した。多様な情報と複雑なテキスト特性を統合した,自然かつ現実的なユーザクエリを合成する,新しいパイプラインを設計する。本ベンチマークは,検索システムの性能評価のための総合的なテストベッドとして機能する。
参考スコア（独自算出の注目度）: 93.96463520716759
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Answering real-world user queries, such as product search, often requires accurate retrieval of information from semi-structured knowledge bases or databases that involve blend of unstructured (e.g., textual descriptions of products) and structured (e.g., entity relations of products) information. However, previous works have mostly studied textual and relational retrieval tasks as separate topics. To address the gap, we develop STARK, a large-scale Semi-structure retrieval benchmark on Textual and Relational Knowledge Bases. We design a novel pipeline to synthesize natural and realistic user queries that integrate diverse relational information and complex textual properties, as well as their ground-truth answers. Moreover, we rigorously conduct human evaluation to validate the quality of our benchmark, which covers a variety of practical applications, including product recommendations, academic paper searches, and precision medicine inquiries. Our benchmark serves as a comprehensive testbed for evaluating the performance of retrieval systems, with an emphasis on retrieval approaches driven by large language models (LLMs). Our experiments suggest that the STARK datasets present significant challenges to the current retrieval and LLM systems, indicating the demand for building more capable retrieval systems that can handle both textual and relational aspects.
Abstract（参考訳）: 製品検索のような現実世界のユーザクエリに答えるには、構造化されていない(例:製品のテキスト記述)と構造化された(例:製品のエンティティ関係)情報の混在を含む、半構造化された知識ベースやデータベースから正確な情報を取得する必要があることが多い。しかし、以前の研究は主にテキスト検索と関係検索を別のトピックとして研究してきた。このギャップに対処するため,テキスト・リレーショナル・ナレッジ・ベース上での大規模半構造評価ベンチマークSTARKを開発した。多様なリレーショナル情報と複雑なテキスト特性を融合した,自然および現実的なユーザクエリを合成する,新たなパイプラインを設計する。さらに,製品レコメンデーション,学術論文検索,精密医療調査など,さまざまな実践的応用を網羅した,ベンチマークの品質評価を厳格に実施する。本ベンチマークは,大規模言語モデル(LLM)による検索手法に着目し,検索システムの性能評価のための総合的なテストベッドとして機能する。実験の結果,STARKデータセットは,現在の検索システムとLLMシステムに重大な課題を呈し,テキストとリレーショナルの両面を扱える,より有能な検索システムの構築の必要性が示唆された。

関連論文リスト

Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。 RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文参考訳（メタデータ） (2025-06-29T08:34:59Z)
Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文参考訳（メタデータ） (2025-04-14T14:52:28Z)
SRSA: A Cost-Efficient Strategy-Router Search Agent for Real-world Human-Machine Interactions [3.5725872564627785]
現実の状況では、ユーザーはしばしばコンテキストと高度にパーソナライズされたクエリをチャットボットに入力する。これまでの研究は、人間と機械の対話のシナリオに特に焦点を絞ってはいなかった。これらのギャップに対処するために、戦略ベース検索エージェント(SRSA)を提案する。 SRSAは、異なるクエリを適切な検索戦略にルーティングし、よりきめ細かいシリアル検索により、比較的低コストで高品質な結果を得ることができる。
論文参考訳（メタデータ） (2024-11-21T20:41:55Z)
ConTReGen: Context-driven Tree-structured Retrieval for Open-domain Long-form Text Generation [26.4086456393314]
長い形式のテキスト生成には、幅と深さの両方で複雑なクエリに対処する一貫性のある包括的な応答が必要である。既存の反復的な検索拡張生成アプローチは、複雑なクエリの各側面を深く掘り下げるのに苦労することが多い。本稿では,コンテキスト駆動型木構造検索手法を用いた新しいフレームワークであるConTReGenを紹介する。
論文参考訳（メタデータ） (2024-10-20T21:17:05Z)
RiTeK: A Dataset for Large Language Models Complex Reasoning over Textual Knowledge Graphs [12.846097618151951]
我々は,テキスト知識グラフ(RiTeK)を用いたLLMの複雑な推論のためのデータセットを開発し,広範なトポロジ的構造を網羅する。多様なトポロジ構造、注釈付き情報、複雑なテキスト記述を統合した現実的なユーザクエリを合成する。そこで我々はモンテカルロ木探索法 (CTS) を導入し, 特定のクエリに対してテキストグラフから関係経路情報を自動的に抽出する手法を提案する。
論文参考訳（メタデータ） (2024-10-17T19:33:37Z)
Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文参考訳（メタデータ） (2024-10-17T17:03:23Z)
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文参考訳（メタデータ） (2024-07-16T17:58:27Z)
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文参考訳（メタデータ） (2024-07-03T07:58:20Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
Large Search Model: Redefining Search Stack in the Era of LLMs [63.503320030117145]
我々は,1つの大言語モデル(LLM)で検索タスクを統一することにより,従来の検索スタックを再定義する,大規模検索モデルと呼ばれる新しい概念的フレームワークを導入する。全てのタスクは自動回帰テキスト生成問題として定式化され、自然言語のプロンプトを使ってタスクをカスタマイズできる。提案フレームワークは,LLMの強力な言語理解と推論能力を活用し,既存の検索スタックを簡素化しつつ,検索結果の質を向上させる能力を提供する。
論文参考訳（メタデータ） (2023-10-23T05:52:09Z)
Synergistic Interplay between Search and Large Language Models for Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。 InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文参考訳（メタデータ） (2023-05-12T11:58:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。