論文の概要: Evaluating Hybrid Retrieval Augmented Generation using Dynamic Test Sets: LiveRAG Challenge
- arxiv url: http://arxiv.org/abs/2506.22644v1
- Date: Fri, 27 Jun 2025 21:20:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.498518
- Title: Evaluating Hybrid Retrieval Augmented Generation using Dynamic Test Sets: LiveRAG Challenge
- Title(参考訳): 動的テストセットを用いたハイブリッド検索拡張生成の評価:LiveRAGチャレンジ
- Authors: Chase Fensore, Kaustubh Dhole, Joyce C Ho, Eugene Agichtein,
- Abstract要約: 本稿では,動的テストセット上での検索強化生成システム(RAG)の評価を行うLiveRAG Challenge 2025を提案する。
我々の最後のハイブリッドアプローチはスパース (BM25) と高密度 (E5) の検索手法を組み合わせたものである。
RankLLaMA を用いたニューラルリランクでは MAP は0.523 から 0.797 に向上するが,計算コストは禁忌である。
- 参考スコア(独自算出の注目度): 8.680958290253914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present our submission to the LiveRAG Challenge 2025, which evaluates retrieval-augmented generation (RAG) systems on dynamic test sets using the FineWeb-10BT corpus. Our final hybrid approach combines sparse (BM25) and dense (E5) retrieval methods and then aims to generate relevant and faithful answers with Falcon3-10B-Instruct. Through systematic evaluation on 200 synthetic questions generated with DataMorgana across 64 unique question-user combinations, we demonstrate that neural re-ranking with RankLLaMA improves MAP from 0.523 to 0.797 (52% relative improvement) but introduces prohibitive computational costs (84s vs 1.74s per question). While DSPy-optimized prompting strategies achieved higher semantic similarity (0.771 vs 0.668), their 0% refusal rates raised concerns about over-confidence and generalizability. Our submitted hybrid system without re-ranking achieved 4th place in faithfulness and 11th place in correctness among 25 teams. Analysis across question categories reveals that vocabulary alignment between questions and documents was the strongest predictor of performance on our development set, with document-similar phrasing improving cosine similarity from 0.562 to 0.762.
- Abstract(参考訳): 我々は,FineWeb-10BTコーパスを用いた動的テストセット上での検索拡張生成(RAG)システムの評価を行うLiveRAG Challenge 2025を提案する。
我々の最後のハイブリッドアプローチはスパース (BM25) と密度 (E5) の検索手法を組み合わせて、ファルコン3-10B-インストラクトで関連性があり忠実な回答を生成することを目的としている。
64種類の質問/ユーザの組み合わせに対してDataMorganaを用いて生成した200の合成質問の体系的評価を通じて、LancLLaMAによるニューラルリランクはMAPを0.523から0.797(相対的改善)に改善するが、禁忌的な計算コスト(質問1件当たり84件対1.74件)を導入することを示した。
DSPyに最適化されたプロンプト戦略は、より意味的類似性(0.771対0.668)を達成したが、その0%の拒絶率は、過剰な自信と一般化可能性に関する懸念を提起した。
提案したハイブリッドシステムは,25チーム中4位,11位にランクインした。
質問カテゴリー間の分析から,質問と文書間の語彙的アライメントが,私たちの開発セットにおけるパフォーマンスの最も高い予測因子であること,および文書類似のフレーズが0.562から0.762に改善していることが明らかになった。
関連論文リスト
- RAGtifier: Evaluating RAG Generation Approaches of State-of-the-Art RAG Systems for the SIGIR LiveRAG Competition [0.0]
LiveRAG 2025チャレンジでは、DataMorganaのQAペアの精度を最大化するためのRAGソリューションが検討されている。
このチャレンジは、Fineweb 10BTデータセットのスパースOpenSearchと密度の高いPineconeインデックスへのアクセスを提供する。
SIGIR 2025 LiveRAG Challengeでは,正当性スコアが1.13,忠実度スコアが0.55,SIGIR 2025 LiveRAG Challengeが4位となった。
論文 参考訳(メタデータ) (2025-06-17T11:14:22Z) - ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge [53.18163869901266]
ESGeniusは、環境・社会・ガバナンス(ESG)における大規模言語モデル(LLM)の熟練度の評価と向上のためのベンチマークである。
ESGeniusはESGenius-QAとESGenius-Corpusの2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-06-02T13:19:09Z) - Deep Retrieval at CheckThat! 2025: Identifying Scientific Papers from Implicit Social Media Mentions via Hybrid Retrieval and Re-Ranking [4.275139302875217]
CLEF CheckThat! 2025コンペティションのサブタスク4bに対するDeep Retrievalチームの方法論と結果を示す。
本稿では,語彙的精度,意味的一般化,文脈的再ランク付けを併用したハイブリッド検索パイプラインを提案する。
提案手法は, 開発セットで76.46%, 隠されたテストセットで66.43%の平均相反ランクを5 (MRR@5) 達成する。
論文 参考訳(メタデータ) (2025-05-29T08:55:39Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - Scalable Unit Harmonization in Medical Informatics via Bayesian-Optimized Retrieval and Transformer-Based Re-ranking [0.14504054468850663]
我々は,大規模臨床データセットにおける一貫性のない単位を調和させるスケーラブルな手法を開発した。
フィルタリング、識別、調和提案生成、自動再ランク付け、手動検証といったマルチステージパイプラインを実装している。
このシステムはランク1で83.39%の精度、ランク5で94.66%のリコールを達成した。
論文 参考訳(メタデータ) (2025-05-01T19:09:15Z) - From Retrieval to Generation: Comparing Different Approaches [15.31883349259767]
我々は,知識集約型タスクに対する検索ベース,生成ベース,ハイブリッドモデルの評価を行った。
我々は、高密度レトリバー、特にDPRは、NQ上でトップ1の精度が50.17%のODQAにおいて高い性能を発揮することを示す。
また、WikiText-103を用いて言語モデリングタスクを解析し、BM25のような検索に基づくアプローチは、生成的手法やハイブリッド手法に比べて難易度が低いことを示す。
論文 参考訳(メタデータ) (2025-02-27T16:29:14Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - Retrieval-Augmented Generation for Domain-Specific Question Answering: A Case Study on Pittsburgh and CMU [3.1787418271023404]
我々は、ドメイン固有の質問に答えるために、関連文書を含む大規模言語モデルを提供するために、検索型拡張生成システム(RAG)を設計した。
我々は,グリーディスクレーピング戦略を用いて1,800以上のサブページを抽出し,手動とMistralの生成した質問応答ペアを組み合わせたハイブリッドアノテーションプロセスを用いた。
我々のRAGフレームワークはBM25とFAISSレトリバーを統合し、文書検索精度を向上させるリランカで強化した。
論文 参考訳(メタデータ) (2024-11-20T20:10:43Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Conformer-based Hybrid ASR System for Switchboard Dataset [99.88988282353206]
本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。
本研究は,単語誤り率の向上と学習速度向上のための異なる訓練側面と手法について検討する。
我々はSwitchboard 300hデータセットで実験を行い、コンバータベースのハイブリッドモデルは競争力のある結果を得る。
論文 参考訳(メタデータ) (2021-11-05T12:03:18Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。