論文の概要: Batched Self-Consistency Improves LLM Relevance Assessment and Ranking
- arxiv url: http://arxiv.org/abs/2505.12570v2
- Date: Fri, 19 Sep 2025 19:43:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.070529
- Title: Batched Self-Consistency Improves LLM Relevance Assessment and Ranking
- Title(参考訳): Batched Self-ConsistencyはLCMの妥当性評価とランキングを改善する
- Authors: Anton Korikov, Pan Du, Scott Sanner, Navid Rekabsaz,
- Abstract要約: 1対1のポイントワイド(PW)クエリパス関連性は、典型的には1対1のポイントワイド(PW)戦略を用いて研究される。
バッチ処理されたPW手法は,1対1のPW手法と比較して,レイテンシを桁違いに低減しつつ,最高の性能を実現することができることを示す。
- 参考スコア(独自算出の注目度): 27.681737521249826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM query-passage relevance assessment is typically studied using a one-by-one pointwise (PW) strategy where each LLM call judges one passage at a time. However, this strategy requires as many LLM calls as there are passages while also preventing information sharing between passages. We thus hypothesize that batched PW methods, which evaluate multiple passages per LLM call, can improve not only efficiency but also judgment quality -- by enabling content from multiple passages to be seen jointly. Moreover, batched PW methods may be better suited to harness the test-time scaling benefits of self-consistency -- the ensembling technique of repeating (potentially perturbed) LLM tasks in parallel and aggregating results -- since batching can naturally enable prompt diversification through varied batch permutations and compositions to create more robust ensembles. We evaluate several batched PW methods against one-by-one PW and listwise ranking baselines on LLM relevance assessment and ranking tasks, using three passage retrieval datasets and GPT-4o, Claude Sonnet 3, and Amazon Nova Pro. We show that batching can greatly amplify self-consistency benefits, making batched PW methods achieve the best performance while often reducing latency by an order of magnitude or more compared to one-by-one PW methods. For instance, on legal search, batched PW ranking with GPT-4o improves from 43.8% to 51.3% NDCG@10 when using 1 vs. 15 self-consistency calls, compared to one-by-one PW ranking improving from 44.9% to 46.8% and being 15.3x slower.
- Abstract(参考訳): LLMのクエリ・パス関連性評価は、通常、各LSMコールが一度に1つのパスを判断する1対1のポイントワイド(PW)戦略を用いて研究される。
しかし、この戦略では、パスがある限り多くのLSMコールが必要であり、パス間の情報共有も防いでいる。
そこで我々は,LLMコール毎に複数経路を評価するバッチ型PW手法により,効率だけでなく,判定品質も向上できるという仮説を立てた。
さらにバッチ処理されたPWメソッドは,自己整合性のテスト時のスケーリングメリット – LLMタスクを並列に(潜在的に摂動的に)実行し,結果を集約するアンサンブルテクニック – を活用するのに適しているかも知れない。
我々は,3つの経路検索データセットとGPT-4o,Claude Sonnet 3,Amazon Nova Proを用いて,1対1のPW法とLLM関連度評価およびランキングタスクのランキングベースラインに対するバッチPW法の評価を行った。
バッチ処理によって自己整合性のメリットが大幅に向上し,バッチ処理されたPWメソッドが最高のパフォーマンスを達成できると同時に,1対1のPWメソッドに比べてレイテンシを桁違いに低減できることを示す。
例えば、法的検索では、GPT-4oによるバッチPWランキングは、1対15の自己整合呼び出しで43.8%から51.3%のNDCG@10に改善され、1対1のPWランキングは44.9%から46.8%に改善され、15.3倍遅くなった。
関連論文リスト
- Adaptive Repetition for Mitigating Position Bias in LLM-Based Ranking [12.134014941104613]
候補項目の順序は、モデルの最終的な決定に影響を与える可能性がある。
LLMのプロンプトにおけるアイテム位置に対するこの感度は、位置バイアスとして知られている。
本稿では,各インスタンスに必要な反復回数を適応的に決定する動的早期ストッピング手法を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:54:44Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - TICKing All the Boxes: Generated Checklists Improve LLM Evaluation and Generation [24.954629877691623]
TICK(Targeted Instruct-evaluation with ChecKlists)は、完全に自動化され、解釈可能な評価プロトコルである。
まず,LLMが高品質な評価チェックリストを確実に生成できることを示す。
次に、STICKは、自己精製とBest-of-N選択により、複数のベンチマークで生成品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T17:09:08Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [48.48819141999387]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - Split and Merge: Aligning Position Biases in LLM-based Evaluators [22.265542509143756]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。
しかし、単一の試みで正しいソリューションを生成することは依然として課題である。
本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T14:23:26Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。