Fugu-MT 論文翻訳(概要): Batched Self-Consistency Improves LLM Relevance Assessment and Ranking

論文の概要: Batched Self-Consistency Improves LLM Relevance Assessment and Ranking

arxiv url: http://arxiv.org/abs/2505.12570v1
Date: Sun, 18 May 2025 23:12:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.312982
Title: Batched Self-Consistency Improves LLM Relevance Assessment and Ranking
Title（参考訳）: Batched Self-ConsistencyはLCMの妥当性評価とランキングを改善する
Authors: Anton Korikov, Pan Du, Scott Sanner, Navid Rekabsaz,
Abstract要約: 大規模言語モデル (LLM) は、候補となるテキスト関連性評価にますます利用されている。 LLMの性能は自己整合性によって向上できることが示されている。自己整合性を活かすために、バッチ化されたPW戦略は1対1のPW手法よりも適していると仮定する。
参考スコア（独自算出の注目度）: 24.9923645306432
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Given some information need, Large Language Models (LLMs) are increasingly used for candidate text relevance assessment, typically using a one-by-one pointwise (PW) strategy where each LLM call evaluates one candidate at a time. Meanwhile, it has been shown that LLM performance can be improved through self-consistency: prompting the LLM to do the same task multiple times (possibly in perturbed ways) and then aggregating the responses. To take advantage of self-consistency, we hypothesize that batched PW strategies, where multiple passages are judged in one LLM call, are better suited than one-by-one PW methods since a larger input context can induce more diverse LLM sampling across self-consistency calls. We first propose several candidate batching strategies to create prompt diversity across self-consistency calls through subset reselection and permutation. We then test our batched PW methods on relevance assessment and ranking tasks against one-by-one PW and listwise LLM ranking baselines with and without self-consistency, using three passage retrieval datasets and GPT-4o, Claude Sonnet 3, and Amazon Nova Pro. We find that batched PW methods outperform all baselines, and show that batching can greatly amplify the positive effects of self-consistency. For instance, on our legal search dataset, GPT-4o one-by-one PW ranking NDCG@10 improves only from 44.9% to 46.8% without self-consistency vs. with 15 self consistency calls, while batched PW ranking improves from 43.8% to 51.3%, respectively.
Abstract（参考訳）: いくつかの情報を必要とすると、Large Language Models (LLM) は候補テキスト関連性評価にますます使われ、通常、各LLM呼び出しが一度に1つの候補を評価する1対1のポイントワイズ戦略(PW)を使用する。一方, LLMの性能は自己整合性によって向上し, LLMに同じタスクを複数回(おそらく摂動的に)行うように促し, 応答を集約する。自己整合性を活かすために,複数パスを1回のLPMコールで判断するバッチ型PW戦略は,より広い入力コンテキストで自己整合性呼び出しをサンプリングできるため,1対1のPW手法よりも適している,という仮説を立てる。まず、サブセット再選択と置換による自己整合性呼び出しの迅速な多様性を実現するために、いくつかの候補バッチ方式を提案する。次に,3つの通過検索データセットとGPT-4o,Claude Sonnet 3,Amazon Nova Proを用いて,1対1のPWおよびリストワイズLDMランキングベースラインに対する関連性評価およびランキングタスクに関するバッチPW手法を検証した。バッチ化されたPW手法は,すべてのベースラインより優れており,バッチ処理が自己整合性の肯定的な効果を大幅に増幅できることを示す。例えば、我々の法的な検索データセットでは、GPT-4oの1対1のPWランキングNDCG@10は、自己整合性のない44.9%から46.8%に改善され、15の自己整合性コールに対して、バッチされたPWランキングはそれぞれ43.8%から51.3%に改善されている。

関連論文リスト

Adaptive Repetition for Mitigating Position Bias in LLM-Based Ranking [12.134014941104613]
候補項目の順序は、モデルの最終的な決定に影響を与える可能性がある。 LLMのプロンプトにおけるアイテム位置に対するこの感度は、位置バイアスとして知られている。本稿では,各インスタンスに必要な反復回数を適応的に決定する動的早期ストッピング手法を提案する。
論文参考訳（メタデータ） (2025-07-23T09:54:44Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
TICKing All the Boxes: Generated Checklists Improve LLM Evaluation and Generation [24.954629877691623]
TICK(Targeted Instruct-evaluation with ChecKlists)は、完全に自動化され、解釈可能な評価プロトコルである。まず,LLMが高品質な評価チェックリストを確実に生成できることを示す。次に、STICKは、自己精製とBest-of-N選択により、複数のベンチマークで生成品質を向上させることができることを示す。
論文参考訳（メタデータ） (2024-10-04T17:09:08Z)
PiCO: Peer Review in LLMs based on the Consistency Optimization [48.48819141999387]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文参考訳（メタデータ） (2024-02-02T18:49:26Z)
Split and Merge: Aligning Position Biases in LLM-based Evaluators [22.265542509143756]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。 GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文参考訳（メタデータ） (2023-09-29T14:38:58Z)
Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。しかし、単一の試みで正しいソリューションを生成することは依然として課題である。本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-29T14:23:26Z)
Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文参考訳（メタデータ） (2023-06-30T11:32:25Z)
Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文参考訳（メタデータ） (2023-05-19T17:49:25Z)
Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。 GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文参考訳（メタデータ） (2023-03-30T18:30:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。