論文の概要: LLM-RankFusion: Mitigating Intrinsic Inconsistency in LLM-based Ranking
- arxiv url: http://arxiv.org/abs/2406.00231v1
- Date: Fri, 31 May 2024 23:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 08:04:10.330106
- Title: LLM-RankFusion: Mitigating Intrinsic Inconsistency in LLM-based Ranking
- Title(参考訳): LLM-RankFusion: LLMに基づくランキングにおける本質的矛盾の緩和
- Authors: Yifan Zeng, Ojas Tendolkar, Raymond Baartmans, Qingyun Wu, Huazheng Wang, Lizhong Chen,
- Abstract要約: 大規模言語モデル(LLM)によるランク付けは、現代の情報検索(IR)システムにおいて有望な性能を達成することができる。
ソートに基づく手法では、パスを正しくソートするには一貫した比較が必要であり、LCMがしばしば違反することを示す。
LLMベースのランキングフレームワークであるLLM-RankFusionを提案する。
- 参考スコア(独自算出の注目度): 17.96316956366718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ranking passages by prompting a large language model (LLM) can achieve promising performance in modern information retrieval (IR) systems. A common approach is to sort the ranking list by prompting LLMs for pairwise comparison. However, sorting-based methods require consistent comparisons to correctly sort the passages, which we show that LLMs often violate. We identify two kinds of intrinsic inconsistency in LLM-based pairwise comparisons: order inconsistency which leads to conflicting results when switching the passage order, and transitive inconsistency which leads to non-transitive triads among all preference pairs. In this paper, we propose LLM-RankFusion, an LLM-based ranking framework that mitigates these inconsistencies and produces a robust ranking list. LLM-RankFusion mitigates order inconsistency using in-context learning (ICL) to demonstrate order-agnostic comparisons and calibration to estimate the underlying preference probability between two passages. We then address transitive inconsistency by aggregating the ranking results from multiple rankers. In our experiments, we empirically show that LLM-RankFusion can significantly reduce inconsistent pairwise comparison results, and improve the ranking quality by making the final ranking list more robust.
- Abstract(参考訳): 大規模言語モデル(LLM)によるランク付けは、現代の情報検索(IR)システムにおいて有望な性能を達成することができる。
一般的なアプローチは、ペア比較のために LLM を誘導することでランキングリストをソートすることである。
しかし、ソートに基づく手法では、パスを正しくソートするには一貫した比較が必要であり、LCMがしばしば違反することを示す。
LLMに基づくペアワイズ比較では、通過順序を切り替える際に矛盾する結果をもたらす順序の不整合と、全ての選好ペア間に非推移的な三元関係をもたらす過渡的不整合の2種類を同定する。
本稿では,これらの矛盾を軽減し,ロバストなランキングリストを生成するLLM-RankFusionを提案する。
LLM-RankFusionは、文脈内学習(ICL)を用いて順序不整合を緩和し、順序に依存しない比較とキャリブレーションを示し、2つの経路間の基本的嗜好確率を推定する。
次に、複数のランク付け者のランク付け結果を集約することで、推移的不整合に対処する。
実験の結果,LLM-RankFusionはペア比較結果の整合性を著しく低減し,最終ランクリストをより堅牢にすることでランキング品質を向上させることができることがわかった。
関連論文リスト
- An Investigation of Prompt Variations for Zero-shot LLM-based Rankers [28.435970994243615]
ゼロショット大言語モデル (LLMs) に基づくランク付けの有効性について, 特定のコンポーネントや単語がプロンプトに与える影響を体系的に理解する。
現在、性能の違いが根底にあるランキングアルゴリズムによるものなのか、あるいはプロンプトで使われる単語の選択がより良くなるなど、急激な要因によるものなのかは定かではない。
論文 参考訳(メタデータ) (2024-06-20T09:03:18Z) - Make Large Language Model a Better Ranker [20.532118635672763]
本稿では,Aligned Listwise Ranking Objectives (ALRO)を用いた大規模言語モデルフレームワークを提案する。
ALROは、LLMの能力とランキングタスクの微妙な要求とのギャップを埋めるように設計されている。
評価研究により,ALROは既存の埋め込み型レコメンデーション法とLLMベースのレコメンデーションベースラインの両方より優れていることがわかった。
論文 参考訳(メタデータ) (2024-03-28T07:22:16Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - Found in the Middle: Permutation Self-Consistency Improves Listwise Ranking in Large Language Models [63.714662435555674]
大規模言語モデル(LLM)は、文脈の使い方に位置バイアスを示す。
我々は,ブラックボックスLLMのランキングリスト出力に対して,自己整合性(permutation self-consistency)を提案する。
LLaMA v2 (70B) では GPT-3.5 では 7-18% , LLaMA v2 (70B) では 8-16% である。
論文 参考訳(メタデータ) (2023-10-11T17:59:02Z) - Unsupervised Contrast-Consistent Ranking with Language Models [24.696017700382665]
言語モデルはランキングベースの知識を含み、コンテキスト内ランキングタスクの強力な解法である。
我々は、言語モデルのランキング知識を引き出すために、ペアワイズ、ポイントワイズ、リストワイズの各テクニックを比較した。
注意深いキャリブレーションと制約付きデコーディングであっても、プロンプトベースのテクニックは、必ずしもそれらが生成するランキングにおいて自己整合であるとは限らない。
論文 参考訳(メタデータ) (2023-09-13T14:36:26Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and
Generative Fusion [33.73671362609599]
私たちのフレームワークはPairRankerとGenFuserの2つのモジュールで構成されています。
PairRankerは、候補出力間の微妙な違いを区別するために、特殊なペアワイズ比較手法を使用している。
GenFuserは、上位候補をマージし、改善されたアウトプットを生成することを目的としている。
論文 参考訳(メタデータ) (2023-06-05T03:32:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。