論文の概要: Language Model Re-rankers are Fooled by Lexical Similarities
- arxiv url: http://arxiv.org/abs/2502.17036v2
- Date: Tue, 24 Jun 2025 14:03:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 15:36:08.218751
- Title: Language Model Re-rankers are Fooled by Lexical Similarities
- Title(参考訳): 言語モデルのリランカは語彙的類似性によってフォアリングされる
- Authors: Lovisa Hagström, Ercong Nie, Ruben Halifa, Helmut Schmid, Richard Johansson, Alexander Junge,
- Abstract要約: 言語モデル(LM)リランカは、検索強化世代(RAG)の検索結果を洗練するために使用される。
NQ, LitQA2, DRUIDデータセット上で, 6種類のLM再ランカを評価した。
- 参考スコア(独自算出の注目度): 48.10108272874251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model (LM) re-rankers are used to refine retrieval results for retrieval-augmented generation (RAG). They are more expensive than lexical matching methods like BM25 but assumed to better process semantic information and the relations between the query and the retrieved answers. To understand whether LM re-rankers always live up to this assumption, we evaluate 6 different LM re-rankers on the NQ, LitQA2 and DRUID datasets. Our results show that LM re-rankers struggle to outperform a simple BM25 baseline on DRUID. Leveraging a novel separation metric based on BM25 scores, we explain and identify re-ranker errors stemming from lexical dissimilarities. We also investigate different methods to improve LM re-ranker performance and find these methods mainly useful for NQ. Taken together, our work identifies and explains weaknesses of LM re-rankers and points to the need for more adversarial and realistic datasets for their evaluation.
- Abstract(参考訳): 言語モデル(LM)リランカは、検索強化世代(RAG)の検索結果を洗練するために使用される。
BM25のような語彙マッチング手法よりも高価であるが、セマンティック情報やクエリと検索された回答の関係をより良く処理することが想定されている。
NQ, LitQA2, DRUIDデータセット上で, LM再ランカが常にこの仮定に沿うかを理解するために, 6種類のLM再ランカを評価した。
以上の結果から,LMリランカーはDRUID上の単純なBM25ベースラインよりも優れていることが示唆された。
BM25スコアに基づく新たな分離基準を応用し,語彙的相違から生じる再ランカ誤差を説明・同定する。
また, LM再ランカの性能向上のための異なる手法についても検討し, 主にNQに有用であることを示す。
まとめて、我々の研究はLMリランカーの弱点を特定し説明し、それらの評価のためにより敵対的で現実的なデータセットの必要性を指摘する。
関連論文リスト
- Remedy: Learning Machine Translation Evaluation from Human Preferences with Reward Modeling [4.548755617115687]
本稿では、報酬モデリングタスクとして翻訳評価を再構成する新しいMTメトリックフレームワークであるReMedyを提案する。
ReMedyは、不完全な人間のレーティングを直接回帰するのではなく、ペアの好みデータを使って相対的な翻訳品質を学習する。
WMT22-24共有タスクの広範な実験において、ReMedyはセグメントレベルの評価とシステムレベルの評価の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-18T11:11:14Z) - Inference Scaling for Bridging Retrieval and Augmented Generation [47.091086803980765]
大規模言語モデル(LLM)の出力を操る一般的なアプローチとして、検索拡張世代(RAG)が登場している。
このようなバイアスは、推論スケーリングから、検索されたコンテキストの置換順序からの推論呼び出しの集約まで緩和可能であることを示す。
ROUGE-L は MS MARCO で,EM は HotpotQA ベンチマークで 7 ポイント向上した。
論文 参考訳(メタデータ) (2024-12-14T05:06:43Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - LM vs LM: Detecting Factual Errors via Cross Examination [22.50837561382647]
言語モデル(LM)の事実性評価フレームワークを提案する。
私たちのキーとなる考え方は、間違ったクレームがモデルが生成する他のクレームと矛盾する可能性があるということです。
我々は,最近の複数のLMが4つのベンチマークで行った事実的主張に対して,本手法を実証的に評価した。
論文 参考訳(メタデータ) (2023-05-22T17:42:14Z) - Discovering Language Model Behaviors with Model-Written Evaluations [18.24267922379281]
言語モデル(LM)がスケールするにつれて、彼らは多くの新しい行動、善と悪を発達させ、どのように振る舞うかを評価する必要性を悪化させます。
ここでは、LMによる評価を自動的に生成する。
我々は154のデータセットを生成し、LMがサイズによって悪化する逆スケーリングの新たなケースを発見する。
論文 参考訳(メタデータ) (2022-12-19T05:13:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。