論文の概要: BRIGHT+: Upgrading the BRIGHT Benchmark with MARCUS, a Multi-Agent RAG Clean-Up Suite
- arxiv url: http://arxiv.org/abs/2506.07116v1
- Date: Sun, 08 Jun 2025 12:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.081387
- Title: BRIGHT+: Upgrading the BRIGHT Benchmark with MARCUS, a Multi-Agent RAG Clean-Up Suite
- Title(参考訳): BRIGHT+:マルチエージェントRAGクリーンアップスイートMARCUSでBRIGHTベンチマークをアップグレード
- Authors: Liyang Chen, Yujun Cai, Jieqiong Dong, Yiwei Wang,
- Abstract要約: MARCUSは、BRIGHTを系統的に浄化し、高品質なコーパスであるBRIGHT-Plusに変換するパイプラインである。
MARCUSは、構造的ノイズ除去とセマンティックセグメンテーションのための専用エージェントを適用し、応答を含むスパンを保存し、文脈整合性を改善する。
我々はBRIGHT-PlusコーパスとMARCUSパイプラインを共にリリースし、ロバストで推論中心の検索の今後の研究を支援する。
- 参考スコア(独自算出の注目度): 13.006716139877838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems require corpora that are both structurally clean and semantically coherent. BRIGHT is a recent and influential benchmark designed to evaluate complex multi-hop retrieval across diverse, high-reasoning domains. However, its practical effectiveness is limited by common web-crawled artifacts - such as content redundancy and semantic discontinuity - that impair retrieval accuracy and downstream reasoning. Notably, we find that such issues are concentrated in seven StackExchange-derived subdomains, while other domains (e.g., Coding and Theorem-based content) remain relatively clean. In this study, we present MARCUS, a multi-agent pipeline that leverages large language models (LLMs) to systematically clean and re-chunk BRIGHT into a higher-quality corpus: BRIGHT-Plus. MARCUS applies dedicated agents for structural noise removal and semantic segmentation, preserving answer-bearing spans while improving contextual integrity. Experimental evaluations demonstrate that BRIGHT-Plus yields consistent and significant improvements in both retrieval accuracy and multi-hop reasoning across a diverse set of retrievers. We release both the BRIGHT-Plus corpus and the MARCUS pipeline to support future research on robust, reasoning-centric retrieval.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは構造的にクリーンでセマンティックなコヒーレントなコーパスを必要とする。
BRIGHTは、多分野にわたる複雑なマルチホップ検索を評価するために設計された、最近かつ影響力のあるベンチマークである。
しかし、その実用性は、コンテンツ冗長性やセマンティック不連続性といった一般的なウェブクローリングされたアーティファクトによって制限され、検索精度や下流の推論が損なわれている。
特に、これらの問題はStackExchangeから派生した7つのサブドメインに集中しているのに対して、他のドメイン(例えば、CodingやTheoremベースのコンテンツ)は比較的クリーンである。
本研究では,大規模言語モデル(LLM)を利用したマルチエージェントパイプラインであるMARCUSを,系統的にBRIGHTを清潔にし,高品質なコーパスであるBRIGHT-Plusに変換する。
MARCUSは、構造的ノイズ除去とセマンティックセグメンテーションのための専用エージェントを適用し、応答を含むスパンを保存し、文脈整合性を改善する。
実験により,BRIGHT-Plusは検索精度とマルチホップ推論の両方において,多種多様な検索者間で一貫した,有意な改善をもたらすことが示された。
我々はBRIGHT-PlusコーパスとMARCUSパイプラインを共にリリースし、ロバストで推論中心の検索の今後の研究を支援する。
関連論文リスト
- ComposeRAG: A Modular and Composable RAG for Corpus-Grounded Multi-Hop Question Answering [42.238086712267396]
ComposeRAGは、RAGパイプラインをアトミックで構成可能なモジュールに分解する、新しいモジュラー抽象化である。
精度と接地忠実性の両方において、一貫して強いベースラインを上回ります。
検証ファーストの設計は、低品質の検索設定において、未解決の回答を10%以上削減する。
論文 参考訳(メタデータ) (2025-05-30T21:10:30Z) - On the Influence of Context Size and Model Choice in Retrieval-Augmented Generation Systems [5.69361786082969]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)の拡張手法として登場した。
我々は,様々なコンテキストサイズ,BM25,セマンティック検索を検索として評価し,8つの基本LLMについて検討した。
以上の結果から, 最終QA成績は最大15スニペットで着実に改善するが, 停滞あるいは低下がみられた。
論文 参考訳(メタデータ) (2025-02-20T17:34:34Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Pistis-RAG: Enhancing Retrieval-Augmented Generation with Human Feedback [41.88662700261036]
RAGシステムは、セマンティックな関連性だけでは生成品質の向上を保証していない場合に制限に直面している。
我々は、LLMと人間の嗜好をよりよく整合させるために、コンテンツ中心のアプローチで設計された新しいRAGフレームワークであるPristis-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-21T08:52:11Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。