Fugu-MT 論文翻訳(概要): BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

論文の概要: BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

arxiv url: http://arxiv.org/abs/2407.12883v3
Date: Thu, 24 Oct 2024 04:51:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 20:25:29.554363
Title: BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval
Title（参考訳）: BRIGHT: 推論集約検索のための現実的でカオスなベンチマーク
Authors: Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu,
Abstract要約: 多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。 BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
参考スコア（独自算出の注目度）: 54.54576644403115
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing retrieval benchmarks primarily consist of information-seeking queries (e.g., aggregated questions from search engines) where keyword or semantic-based retrieval is usually sufficient. However, many complex real-world queries require in-depth reasoning to identify relevant documents that go beyond surface form matching. For example, finding documentation for a coding question requires understanding the logic and syntax of the functions involved. To better benchmark retrieval on such challenging queries, we introduce BRIGHT, the first text retrieval benchmark that requires intensive reasoning to retrieve relevant documents. Our dataset consists of 1,384 real-world queries spanning diverse domains, such as economics, psychology, mathematics, and coding. These queries are drawn from naturally occurring and carefully curated human data. Extensive evaluation reveals that even state-of-the-art retrieval models perform poorly on BRIGHT. The leading model on the MTEB leaderboard (Muennighoff et al., 2023), which achieves a score of 59.0 nDCG@10, produces a score of nDCG@10 of 18.3 on BRIGHT. We show that incorporating explicit reasoning about the query improves retrieval performance by up to 12.2 points. Moreover, incorporating retrieved documents from the top-performing retriever boosts question-answering performance by over 6.6 points. We believe that BRIGHT paves the way for future research on retrieval systems in more realistic and challenging settings.
Abstract（参考訳）: 既存の検索ベンチマークは主に、キーワードまたは意味に基づく検索が通常十分である情報検索クエリ(例えば、検索エンジンからの集約された質問)で構成されている。しかし、多くの複雑な現実世界のクエリは、サーフェスフォームマッチングを超える関連ドキュメントを特定するために、詳細な推論を必要とする。例えば、コーディング問題のためのドキュメントを見つけるには、関連する関数のロジックと構文を理解する必要がある。このような難解なクエリに対する検索のベンチマークを改善するために,関係文書の検索に集中的推論を必要とする最初のテキスト検索ベンチマークBRIGHTを導入する。私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。これらのクエリは、自然に発生し、慎重にキュレートされた人間のデータから引き出される。広範囲な評価により,最先端の検索モデルでさえBRIGHTでは性能が良くないことが明らかとなった。 MTEBのリーダーボード(Muennighoff et al , 2023)では59.0 nDCG@10のスコアを達成し、BRIGHTでは18.3のnDCG@10のスコアを生成する。クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。さらに、トップパフォーマンスレトリバーから取得した文書を組み込むことで、質問応答性能が6.6ポイント以上向上する。 BRIGHTは、より現実的で困難な環境での検索システムに関する将来の研究の道を開くものだと考えています。

関連論文リスト

ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge [49.65993318863458]
ImpliRetは、推論の課題をドキュメントサイド処理にシフトするベンチマークである。我々は,この環境下で苦戦している,疎水・密集したレトリバーの幅を評価した。
論文参考訳（メタデータ） (2025-06-17T11:08:29Z)
Hierarchical Retrieval with Evidence Curation for Open-Domain Financial Question Answering on Standardized Documents [17.506934704019226]
標準化されたドキュメントは、反復的なボイラープレートテキストや同様のテーブル構造など、同様のフォーマットを共有している。この類似性により、従来のRAGメソッドは、ほぼ重複したテキストを誤識別し、精度と完全性を損なう重複検索につながる。本稿では,これらの問題に対処するためのEvidence Curationフレームワークを用いた階層検索手法を提案する。
論文参考訳（メタデータ） (2025-05-26T11:08:23Z)
Large Language Model Can Be a Foundation for Hidden Rationale-Based Retrieval [12.83513794686623]
本稿では,隠れ合理性検索という,より困難なタイプの検索タスクを提案し,検討する。このような問題に対処するためには、命令調整付き大規模言語モデル(LLM)とクロスエンコーダアーキテクチャが妥当な選択である可能性がある。我々は、RaHoReによってこの検索フレームワークを命名し、感情支援会話(ESC)におけるゼロショットおよび微調整性能上の優位性を検証した。
論文参考訳（メタデータ） (2024-12-21T13:19:15Z)
Disentangling Questions from Query Generation for Task-Adaptive Retrieval [22.86406485412172]
本研究では,BeIRベンチマークで表現された広範囲な検索意図に適応するクエリジェネレータEGGを提案する。提案手法は,従来よりも47倍小さいクエリジェネレータを用いて,探索対象の少ない4つのタスクにおいて,ベースラインと既存モデルの性能を向上する。
論文参考訳（メタデータ） (2024-09-25T02:53:27Z)
ExcluIR: Exclusionary Neural Information Retrieval [74.08276741093317]
本稿では,排他的検索のためのリソースセットであるExcluIRを提案する。評価ベンチマークには3,452の高品質な排他的クエリが含まれている。トレーニングセットには70,293の排他的クエリが含まれており、それぞれに正のドキュメントと負のドキュメントがペアリングされている。
論文参考訳（メタデータ） (2024-04-26T09:43:40Z)
STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文参考訳（メタデータ） (2024-04-19T22:54:54Z)
Ask Optimal Questions: Aligning Large Language Models with Retriever's Preference in Conversational Search [25.16282868262589]
RetPOは、ターゲット検索システムの好みに合わせて検索クエリを再構成するための言語モデル(LM)を最適化するように設計されている。我々は、12Kの会話で410K以上のクエリを書き換えるRetrievers' Feedbackと呼ばれる大規模なデータセットを構築した。このモデルにより,最近の2つの対話型検索ベンチマークにおいて,最先端の性能が得られた。
論文参考訳（メタデータ） (2024-02-19T04:41:31Z)
Decomposing Complex Queries for Tip-of-the-tongue Retrieval [72.07449449115167]
複雑なクエリは、コンテンツ要素(例えば、書籍の文字やイベント)、ドキュメントテキスト以外の情報を記述する。この検索設定は舌の先端 (TOT) と呼ばれ、クエリと文書テキスト間の語彙的および意味的重複に依存するモデルでは特に困難である。クエリを個別のヒントに分解し、サブクエリとしてルーティングし、特定の検索者にルーティングし、結果をアンサンブルすることで、このような複雑なクエリを扱うための、シンプルで効果的なフレームワークを導入します。
論文参考訳（メタデータ） (2023-05-24T11:43:40Z)
DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。 State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文参考訳（メタデータ） (2023-05-23T10:39:57Z)
Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。 query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文参考訳（メタデータ） (2023-03-14T07:27:30Z)
CAPSTONE: Curriculum Sampling for Dense Retrieval with Document Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文参考訳（メタデータ） (2022-12-18T15:57:46Z)
Decoding a Neural Retriever's Latent Space for Query Suggestion [28.410064376447718]
本稿では,有意なクエリをその潜在表現から復号することが可能であること,また,潜在空間の正しい方向に移動すると,関連する段落を検索するクエリを復号することができることを示す。クエリデコーダを用いて、MSMarcoのクエリ再構成の大規模な合成データセットを生成する。このデータに基づいて、クエリー提案の適用のために擬似関連フィードバック(PRF)T5モデルを訓練する。
論文参考訳（メタデータ） (2022-10-21T16:19:31Z)
Improving Query Representations for Dense Retrieval with Pseudo Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。 ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。 PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文参考訳（メタデータ） (2021-08-30T18:10:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。