Fugu-MT 論文翻訳(概要): JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking

論文の概要: JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking

arxiv url: http://arxiv.org/abs/2411.00142v1
Date: Thu, 31 Oct 2024 18:43:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.065691
Title: JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking
Title（参考訳）: judgeRank: 推論集約リグレードのための大規模言語モデルを活用する
Authors: Tong Niu, Shafiq Joty, Ye Liu, Caiming Xiong, Yingbo Zhou, Semih Yavuz,
Abstract要約: 本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
参考スコア（独自算出の注目度）: 81.88787401178378
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Accurate document retrieval is crucial for the success of retrieval-augmented generation (RAG) applications, including open-domain question answering and code completion. While large language models (LLMs) have been employed as dense encoders or listwise rerankers in RAG systems, they often struggle with reasoning-intensive tasks because they lack nuanced analysis when judging document relevance. To address this limitation, we introduce JudgeRank, a novel agentic reranker that emulates human cognitive processes when assessing document relevance. Our approach consists of three key steps: (1) query analysis to identify the core problem, (2) document analysis to extract a query-aware summary, and (3) relevance judgment to provide a concise assessment of document relevance. We evaluate JudgeRank on the reasoning-intensive BRIGHT benchmark, demonstrating substantial performance improvements over first-stage retrieval methods and outperforming other popular reranking approaches. In addition, JudgeRank performs on par with fine-tuned state-of-the-art rerankers on the popular BEIR benchmark, validating its zero-shot generalization capability. Through comprehensive ablation studies, we demonstrate that JudgeRank's performance generalizes well across LLMs of various sizes while ensembling them yields even more accurate reranking than individual models.
Abstract（参考訳）: 検索拡張世代(RAG)アプリケーションの成功には,オープンドメイン質問応答やコード補完など,正確な文書検索が不可欠である。大規模言語モデル(LLM)は、RAGシステムにおいて高密度エンコーダやリストワイズリランカとして採用されているが、文書関連を判断する際に、微妙な解析が欠けているため、推論集約的なタスクに苦慮することが多い。この制限に対処するために、文書関連性を評価する際に人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。提案手法は,(1)主問題を特定するための問合せ解析,(2)問合せ対応の要約を抽出する文書解析,(3)関連性判定,(3)関連性評価という3つの重要なステップから構成される。我々は、推論集約型BRIGHTベンチマークに基づいて、判定Rankを評価し、第1段階の検索手法よりも大幅に性能を向上し、他の一般的な再ランク手法よりも優れた性能を示した。さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。包括的アブレーション研究を通じて、審査ランクの性能が様々な大きさのLLMに対してよく一般化され、それらを組み立てることで個々のモデルよりもより正確なリランクが得られることを示した。

関連論文リスト

Decomposed Reasoning with Reinforcement Learning for Relevance Assessment in UGC Platforms [30.51899823655511]
Retrieval-augmented Generation (RAG)は、ユーザ生成コンテンツプラットフォームにおいて重要な役割を果たす。 1)RAGシナリオにおけるユーザフィードバックの少なさによる曖昧なユーザ意図,2)非公式言語や非構造化言語によって導入された相当なノイズ。
論文参考訳（メタデータ） (2025-08-04T15:14:09Z)
CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。 CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文参考訳（メタデータ） (2025-07-12T01:34:24Z)
FrugalRAG: Learning to retrieve and reason for multi-hop QA [10.193015391271535]
RAGメトリクスを改善するために大規模な微調整は必要ない。監督されたRLベースの微調整は、粗悪さの観点からRAGに役立つ。
論文参考訳（メタデータ） (2025-07-10T11:02:13Z)
J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。我々はReasoningJudgeBenchというベンチマークを紹介します。 EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文参考訳（メタデータ） (2025-05-19T16:50:35Z)
Breaking the Lens of the Telescope: Online Relevance Estimation over Large Retrieval Sets [15.549852480638066]
本稿では,オンライン関連度推定という新たな手法を提案する。オンライン関連度推定は、ランキングプロセスを通して、クエリの関連度推定を継続的に更新する。 TRECベンチマークの手法をハイブリッド検索と適応検索の2つのシナリオで検証する。
論文参考訳（メタデータ） (2025-04-12T22:05:50Z)
Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文参考訳（メタデータ） (2025-02-26T04:50:43Z)
JudgeBlender: Ensembling Judgments for Automatic Relevance Assessment [28.4353755578306]
大規模言語モデル(LLM)は、検索タスクの関連ラベルを生成することを約束している。我々は,より小型のオープンソースモデルを用いて妥当性判断を行うフレームワークであるJiceBlenderを紹介した。
論文参考訳（メタデータ） (2024-12-17T19:04:15Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
ExcluIR: Exclusionary Neural Information Retrieval [74.08276741093317]
本稿では,排他的検索のためのリソースセットであるExcluIRを提案する。評価ベンチマークには3,452の高品質な排他的クエリが含まれている。トレーニングセットには70,293の排他的クエリが含まれており、それぞれに正のドキュメントと負のドキュメントがペアリングされている。
論文参考訳（メタデータ） (2024-04-26T09:43:40Z)
Evaluating Retrieval Quality in Retrieval-Augmented Generation [21.115495457454365]
従来のエンドツーエンド評価手法は計算コストが高い。本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルで個別に利用するeRAGを提案する。 eRAGは、ランタイムを改善し、エンドツーエンド評価の最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。
論文参考訳（メタデータ） (2024-04-21T21:22:28Z)
GAR-meets-RAG Paradigm for Zero-Shot Information Retrieval [16.369071865207808]
本稿では,既存のパラダイムの課題を克服する新しいGAR-meets-RAG再帰の定式化を提案する。鍵となる設計原則は、リライト・検索段階がシステムのリコールを改善し、最終段階が精度を向上させることである。我々の手法はBEIRベンチマークで新たな最先端性を確立し、8つのデータセットのうち6つでRecall@100とnDCG@10の指標で過去の最高の結果を上回った。
論文参考訳（メタデータ） (2023-10-31T03:52:08Z)
Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T07:41:03Z)
Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。 3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文参考訳（メタデータ） (2023-05-03T14:45:34Z)
A Comparison of Approaches for Imbalanced Classification Problems in the Context of Retrieving Relevant Documents for an Analysis [0.0]
本研究は,クエリ拡張手法,トピックモデルに基づく分類規則,能動的および受動的教師あり学習を比較した。その結果、ほとんどの研究環境におけるクエリ拡張手法とトピックモデルに基づく分類規則は、検索性能を向上するよりも低下する傾向にあることがわかった。
論文参考訳（メタデータ） (2022-05-03T16:22:42Z)
GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。 FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文参考訳（メタデータ） (2022-04-12T03:49:35Z)
CODER: An efficient framework for improving retrieval through COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。ベース密度検索法により抽出された事前計算された文書表現を利用する。実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文参考訳（メタデータ） (2021-12-16T10:25:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。