Fugu-MT 論文翻訳(概要): LLM-RankFusion: Mitigating Intrinsic Inconsistency in LLM-based Ranking

論文の概要: LLM-RankFusion: Mitigating Intrinsic Inconsistency in LLM-based Ranking

arxiv url: http://arxiv.org/abs/2406.00231v2
Date: Tue, 26 Nov 2024 08:37:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:46:54.796414
Title: LLM-RankFusion: Mitigating Intrinsic Inconsistency in LLM-based Ranking
Title（参考訳）: LLM-RankFusion: LLMに基づくランキングにおける本質的矛盾の緩和
Authors: Yifan Zeng, Ojas Tendolkar, Raymond Baartmans, Qingyun Wu, Lizhong Chen, Huazheng Wang,
Abstract要約: 大規模言語モデル(LLM)によるランク付けは、現代の情報検索(IR)システムにおいて有望な性能を達成することができる。ソートに基づく手法では、パスを正しくソートするには一貫した比較が必要であり、LCMがしばしば違反することを示す。 LLMベースのランキングフレームワークであるLLM-RankFusionを提案する。
参考スコア（独自算出の注目度）: 17.96316956366718
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ranking passages by prompting a large language model (LLM) can achieve promising performance in modern information retrieval (IR) systems. A common approach to sort the ranking list is by prompting LLMs for a pairwise or setwise comparison which often relies on sorting algorithms. However, sorting-based methods require consistent comparisons to correctly sort the passages, which we show that LLMs often violate. We identify two kinds of intrinsic inconsistency in LLM-based pairwise comparisons: order inconsistency which leads to conflicting results when switching the passage order, and transitive inconsistency which leads to non-transitive triads among all preference pairs. Our study of these inconsistencies is relevant for understanding and improving the stability of any ranking scheme based on relative preferences. In this paper, we propose LLM-RankFusion, an LLM-based ranking framework that mitigates these inconsistencies and produces a robust ranking list. LLM-RankFusion mitigates order inconsistency using in-context learning (ICL) to demonstrate order-agnostic comparisons and calibration to estimate the underlying preference probability between two passages. We then address transitive inconsistency by aggregating the ranking results from multiple rankers. In our experiments, we empirically show that LLM-RankFusion can significantly reduce inconsistent comparison results, improving the ranking quality by making the final ranking list more robust. Our code is available at \href{https://github.com/XHMY/LLM-RankFusion}{https://github.com/XHMY/LLM-RankFusion}
Abstract（参考訳）: 大規模言語モデル(LLM)によるランク付けは、現代の情報検索(IR)システムにおいて有望な性能を達成することができる。ランクリストをソートする一般的なアプローチは、しばしばソートアルゴリズムに依存するペアワイズまたはセットワイズ比較のためのLSMを誘導することである。しかし、ソートに基づく手法では、パスを正しくソートするには一貫した比較が必要であり、LCMがしばしば違反することを示す。 LLMに基づくペアワイズ比較では、通過順序を切り替える際に矛盾する結果をもたらす順序の不整合と、全ての選好ペア間に非推移的な三元関係をもたらす過渡的不整合の2種類を同定する。これらの矛盾についての研究は、相対的嗜好に基づくランク付け方式の安定性の理解と改善に関係している。本稿では,これらの矛盾を軽減し,ロバストなランキングリストを生成するLLM-RankFusionを提案する。 LLM-RankFusionは、文脈内学習(ICL)を用いて順序不整合を緩和し、順序に依存しない比較とキャリブレーションを示し、2つの経路間の基本的嗜好確率を推定する。次に、複数のランク付け者のランク付け結果を集約することで、推移的不整合に対処する。実験の結果,LLM-RankFusion は不整合比較結果を著しく低減し,最終ランキングをより堅牢にすることでランキング品質を向上させることができることがわかった。我々のコードは \href{https://github.com/XHMY/LLM-RankFusion}{https://github.com/XHMY/LLM-RankFusion} で入手できる。

関連論文リスト

Likert or Not: LLM Absolute Relevance Judgments on Fine-Grained Ordinal Scales [3.4068099825211986]
関連性判断を求める2つの最も一般的なプロンプトは、ポイントワイズとリストワイズランキングである。現在の研究コミュニティのコンセンサスでは、リストワイドランキングは優れたパフォーマンスをもたらす。この仮説と対立する中で、十分に大きな順序関係ラベル空間を用いてポイントワイドスコアリングを行うと、ポイントワイドスコアリングとリストワイドランキングのギャップが縮むことが分かる。
論文参考訳（メタデータ） (2025-05-25T21:41:35Z)
CoRanking: Collaborative Ranking with Small and Large Ranking Agents [39.98101653077503]
大規模言語モデル(LLM)は、優れたリストワイドランキング性能を示している。 CoRankingは、小規模と大規模なランキングモデルを組み合わせて、効率的かつ効果的なランク付けを行う。
論文参考訳（メタデータ） (2025-03-30T13:00:52Z)
Ranking Unraveled: Recipes for LLM Rankings in Head-to-Head AI Combat [7.8905223445925055]
大規模言語モデル(LLM)に対する人間の嗜好を評価する新しい方法として、ペアワイズランキングが登場した。 LLMの前後比較におけるランキングシステムの有効性について検討する。我々の分析は、ランキングの精度と効率に影響を与える要因について重要な洞察を見出している。
論文参考訳（メタデータ） (2024-11-19T20:16:26Z)
TSPRank: Bridging Pairwise and Listwise Methods with a Bilinear Travelling Salesman Model [19.7255072094322]
トラベリングセールスマン問題ランキング (TSPRank) は、ハイブリッド・ペア・リストワイズ・ランキング法である。 TSPRankの堅牢性と、異なるドメインにわたる優れたパフォーマンスは、汎用的で効果的なLETORソリューションとしての可能性を強調している。
論文参考訳（メタデータ） (2024-11-18T21:10:14Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文参考訳（メタデータ） (2024-06-21T21:27:50Z)
An Investigation of Prompt Variations for Zero-shot LLM-based Rankers [28.435970994243615]
ゼロショット大言語モデル (LLMs) に基づくランク付けの有効性について, 特定のコンポーネントや単語がプロンプトに与える影響を体系的に理解する。現在、性能の違いが根底にあるランキングアルゴリズムによるものなのか、あるいはプロンプトで使われる単語の選択がより良くなるなど、急激な要因によるものなのかは定かではない。
論文参考訳（メタデータ） (2024-06-20T09:03:18Z)
LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。 LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文参考訳（メタデータ） (2024-02-02T20:08:10Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文参考訳（メタデータ） (2023-10-20T09:55:06Z)
Found in the Middle: Permutation Self-Consistency Improves Listwise Ranking in Large Language Models [63.714662435555674]
大規模言語モデル(LLM)は、文脈の使い方に位置バイアスを示す。我々は,ブラックボックスLLMのランキングリスト出力に対して,自己整合性(permutation self-consistency)を提案する。 LLaMA v2 (70B) では GPT-3.5 では 7-18% , LLaMA v2 (70B) では 8-16% である。
論文参考訳（メタデータ） (2023-10-11T17:59:02Z)
Unsupervised Contrast-Consistent Ranking with Language Models [24.696017700382665]
言語モデルはランキングベースの知識を含み、コンテキスト内ランキングタスクの強力な解法である。我々は、言語モデルのランキング知識を引き出すために、ペアワイズ、ポイントワイズ、リストワイズの各テクニックを比較した。注意深いキャリブレーションと制約付きデコーディングであっても、プロンプトベースのテクニックは、必ずしもそれらが生成するランキングにおいて自己整合であるとは限らない。
論文参考訳（メタデータ） (2023-09-13T14:36:26Z)
Bipartite Ranking Fairness through a Model Agnostic Ordering Adjustment [54.179859639868646]
本稿では,二部類ランキングにおける公平性を実現するためのモデルに依存しない後処理フレームワークxOrderを提案する。 xOrderは、教師なしおよび教師なしの公正度メトリックを含む、さまざまな分類モデルとランキングフェアネスメトリクスと互換性がある。提案アルゴリズムを,4つのベンチマークデータセットと2つの実世界の患者電子健康記録リポジトリ上で評価した。
論文参考訳（メタデータ） (2023-07-27T07:42:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。