Fugu-MT 論文翻訳(概要): Generating Diverse Criteria On-the-Fly to Improve Point-wise LLM Rankers

論文の概要: Generating Diverse Criteria On-the-Fly to Improve Point-wise LLM Rankers

arxiv url: http://arxiv.org/abs/2404.11960v1
Date: Thu, 18 Apr 2024 07:42:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-19 19:31:17.726795
Title: Generating Diverse Criteria On-the-Fly to Improve Point-wise LLM Rankers
Title（参考訳）: 点数LLMランキングの改善のための逆基準のオンザフライ生成
Authors: Fang Guo, Wenyu Li, Honglei Zhuang, Yun Luo, Yafu Li, Le Yan, Yue Zhang,
Abstract要約: そこで本稿では,様々な視点から評価基準に基づいてランキングスコアを生成するランキング作成手法を提案する。 BEIRベンチマークから8つのデータセットを調査した本研究では,この多視点基準アンサンブルアプローチを取り入れたことにより,ポイントワイドLLMローカの性能が著しく向上したことを示す。
参考スコア（独自算出の注目度）: 26.84273656939383
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The most recent pointwise Large Language Model (LLM) rankers have achieved remarkable ranking results. However, these rankers are hindered by two major drawbacks: (1) they fail to follow a standardized comparison guidance during the ranking process, and (2) they struggle with comprehensive considerations when dealing with complicated passages. To address these shortcomings, we propose to build a ranker that generates ranking scores based on a set of criteria from various perspectives. These criteria are intended to direct each perspective in providing a distinct yet synergistic evaluation. Our research, which examines eight datasets from the BEIR benchmark demonstrates that incorporating this multi-perspective criteria ensemble approach markedly enhanced the performance of pointwise LLM rankers.
Abstract（参考訳）: 最新のポイントワイド大規模言語モデル(LLM)ランキングは、目覚ましいランキング結果を得た。しかし,2つの大きな欠点は,(1)標準化された比較指導に従わないこと,(2)複雑な通路を扱う場合の包括的考察に苦慮すること,である。これらの欠点に対処するために,様々な視点から基準のセットに基づいてランキングスコアを生成するランクラを構築することを提案する。これらの基準は、異なるが相乗的評価を提供するために、それぞれの視点を指示することを目的としている。 BEIRベンチマークから8つのデータセットを解析した結果,この多視点基準アンサンブル手法を取り入れることで,点方向LLMロータの性能が著しく向上したことが示された。

関連論文リスト

RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty [102.02839046225468]
RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
論文参考訳（メタデータ） (2026-02-12T21:28:46Z)
GRCF: Two-Stage Groupwise Ranking and Calibration Framework for Multimodal Sentiment Analysis [20.77940776708036]
ペアワイズな順序学習フレームワークは、比較から学ぶことで相対的な順序を捉える。彼らは全ての比較に均一な重要性を割り当て、ハード・ツー・ランクのサンプルに適応的に焦点をあてることに失敗した。本稿では,グループ相対的政策最適化の理念を取り入れた二段階群ランク付け・フレームワークを提案する。 GRCFは、コア回帰ベンチマークで最先端のパフォーマンスを達成すると同時に、分類タスクにおいて強力な一般化性を示す。
論文参考訳（メタデータ） (2026-01-14T16:26:44Z)
R1-Ranker: Teaching LLM Rankers to Reason [35.35360001710222]
R1-Rankerは強化学習に基づく推論インセンティブフレームワークである。 IRankerは、より深い推論を促進するために、段階的な報酬でランク付けを反復的排除プロセスに分解する。我々は、レコメンデーション、ルーティング、通過ランキングにまたがる9つのデータセットに基づいて、統一されたR1-Rankerを評価した。
論文参考訳（メタデータ） (2025-06-25T17:56:06Z)
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.73714829399802]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。 i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文参考訳（メタデータ） (2025-04-26T07:48:52Z)
OrdRankBen: A Novel Ranking Benchmark for Ordinal Relevance in NLP [6.6002656593260225]
ベンチマークデータセットは、公正な比較を保証するための標準化されたテストベッドを提供する上で、重要な役割を果たす。既存のNLPランキングベンチマークでは、通常、二進関係ラベルまたは連続関係スコアを使用し、順序関係スコアを無視する。 OrdRankBenは、多粒度関連性の違いを捉えるために設計された新しいベンチマークである。
論文参考訳（メタデータ） (2025-03-02T00:28:55Z)
Ranking Unraveled: Recipes for LLM Rankings in Head-to-Head AI Combat [7.8905223445925055]
大規模言語モデル(LLM)に対する人間の嗜好を評価する新しい方法として、ペアワイズランキングが登場した。 LLMの前後比較におけるランキングシステムの有効性について検討する。我々の分析は、ランキングの精度と効率に影響を与える要因について重要な洞察を見出している。
論文参考訳（メタデータ） (2024-11-19T20:16:26Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文参考訳（メタデータ） (2024-10-18T17:32:22Z)
Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。 GEDは,モデルランキング,応答選択,モデルアライメントタスクにおいて,ベースライン手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-14T01:57:25Z)
FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文参考訳（メタデータ） (2024-06-21T21:27:50Z)
LLM-RankFusion: Mitigating Intrinsic Inconsistency in LLM-based Ranking [17.96316956366718]
大規模言語モデル(LLM)によるランク付けは、現代の情報検索(IR)システムにおいて有望な性能を達成することができる。ソートに基づく手法では、パスを正しくソートするには一貫した比較が必要であり、LCMがしばしば違反することを示す。 LLMベースのランキングフレームワークであるLLM-RankFusionを提案する。
論文参考訳（メタデータ） (2024-05-31T23:29:42Z)
HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。 HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。 3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文参考訳（メタデータ） (2024-02-24T08:01:32Z)
When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards [9.751405901938895]
既存のリーダーボードでは,LLMの相対的な性能は細部まで非常に敏感であることが示されている。一般的なマルチチョイス質問ベンチマーク(MMLUなど)では、選択の順序や解答の選択方法の変更など、ベンチマークに対する小さな摂動が最大8位までランクが変更されることが示されている。
論文参考訳（メタデータ） (2024-02-01T19:12:25Z)
Found in the Middle: Permutation Self-Consistency Improves Listwise Ranking in Large Language Models [63.714662435555674]
大規模言語モデル(LLM)は、文脈の使い方に位置バイアスを示す。我々は,ブラックボックスLLMのランキングリスト出力に対して,自己整合性(permutation self-consistency)を提案する。 LLaMA v2 (70B) では GPT-3.5 では 7-18% , LLaMA v2 (70B) では 8-16% である。
論文参考訳（メタデータ） (2023-10-11T17:59:02Z)
PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文参考訳（メタデータ） (2023-07-06T04:05:44Z)
Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文参考訳（メタデータ） (2022-10-11T20:19:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。