論文の概要: Batched Self-Consistency Improves LLM Relevance Assessment and Ranking
- arxiv url: http://arxiv.org/abs/2505.12570v1
- Date: Sun, 18 May 2025 23:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.312982
- Title: Batched Self-Consistency Improves LLM Relevance Assessment and Ranking
- Title(参考訳): Batched Self-ConsistencyはLCMの妥当性評価とランキングを改善する
- Authors: Anton Korikov, Pan Du, Scott Sanner, Navid Rekabsaz,
- Abstract要約: 大規模言語モデル (LLM) は、候補となるテキスト関連性評価にますます利用されている。
LLMの性能は自己整合性によって向上できることが示されている。
自己整合性を活かすために、バッチ化されたPW戦略は1対1のPW手法よりも適していると仮定する。
- 参考スコア(独自算出の注目度): 24.9923645306432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given some information need, Large Language Models (LLMs) are increasingly used for candidate text relevance assessment, typically using a one-by-one pointwise (PW) strategy where each LLM call evaluates one candidate at a time. Meanwhile, it has been shown that LLM performance can be improved through self-consistency: prompting the LLM to do the same task multiple times (possibly in perturbed ways) and then aggregating the responses. To take advantage of self-consistency, we hypothesize that batched PW strategies, where multiple passages are judged in one LLM call, are better suited than one-by-one PW methods since a larger input context can induce more diverse LLM sampling across self-consistency calls. We first propose several candidate batching strategies to create prompt diversity across self-consistency calls through subset reselection and permutation. We then test our batched PW methods on relevance assessment and ranking tasks against one-by-one PW and listwise LLM ranking baselines with and without self-consistency, using three passage retrieval datasets and GPT-4o, Claude Sonnet 3, and Amazon Nova Pro. We find that batched PW methods outperform all baselines, and show that batching can greatly amplify the positive effects of self-consistency. For instance, on our legal search dataset, GPT-4o one-by-one PW ranking NDCG@10 improves only from 44.9% to 46.8% without self-consistency vs. with 15 self consistency calls, while batched PW ranking improves from 43.8% to 51.3%, respectively.
- Abstract(参考訳): いくつかの情報を必要とすると、Large Language Models (LLM) は候補テキスト関連性評価にますます使われ、通常、各LLM呼び出しが一度に1つの候補を評価する1対1のポイントワイズ戦略(PW)を使用する。
一方, LLMの性能は自己整合性によって向上し, LLMに同じタスクを複数回(おそらく摂動的に)行うように促し, 応答を集約する。
自己整合性を活かすために,複数パスを1回のLPMコールで判断するバッチ型PW戦略は,より広い入力コンテキストで自己整合性呼び出しをサンプリングできるため,1対1のPW手法よりも適している,という仮説を立てる。
まず、サブセット再選択と置換による自己整合性呼び出しの迅速な多様性を実現するために、いくつかの候補バッチ方式を提案する。
次に,3つの通過検索データセットとGPT-4o,Claude Sonnet 3,Amazon Nova Proを用いて,1対1のPWおよびリストワイズLDMランキングベースラインに対する関連性評価およびランキングタスクに関するバッチPW手法を検証した。
バッチ化されたPW手法は,すべてのベースラインより優れており,バッチ処理が自己整合性の肯定的な効果を大幅に増幅できることを示す。
例えば、我々の法的な検索データセットでは、GPT-4oの1対1のPWランキングNDCG@10は、自己整合性のない44.9%から46.8%に改善され、15の自己整合性コールに対して、バッチされたPWランキングはそれぞれ43.8%から51.3%に改善されている。
関連論文リスト
- References Improve LLM Alignment in Non-Verifiable Domains [118.26447686644808]
基準誘導型LCM評価器がソフトな「検証器」として機能することでギャップを埋められるか検討する。
基準誘導手法は,フロンティアモデルからの参照を用いて,低能力のLCMジャッジの精度を大幅に向上することを示す。
基準誘導自己改善は、基準出力に対する直接SFTと基準自由判断による自己改善の両方に対して明らかな利得が得られることを示す。
論文 参考訳(メタデータ) (2026-02-18T19:03:34Z) - Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process [58.265053900416895]
LLM-PeerReviewは、ピアレビューに触発された新しいフレームワークの上に構築されている。
スコアリングには、新たなLCM-as-a-Judgeテクニックを使用します。
推論にはグラフィカルモデルに基づく真理推論アルゴリズムを適用する。
最後に、最高スコア応答をベストアンサンブル出力として選択する。
論文 参考訳(メタデータ) (2025-12-29T05:25:49Z) - Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning [49.57517969069136]
Asymmetric Proximal Policy Optimization (AsyPPO) は、大規模なモデル設定で効率を保ちながら、批評家の役割を回復するシンプルでスケーラブルなフレームワークである。
AsyPPOは軽量のミニ批評家を採用しており、それぞれが切り離されたプロンプトシャードで訓練されている。
強力なベースラインを越えて、複数のベンチマークで学習の安定性とパフォーマンスを継続的に改善する。
論文 参考訳(メタデータ) (2025-10-02T04:24:27Z) - Adaptive Repetition for Mitigating Position Bias in LLM-Based Ranking [12.134014941104613]
候補項目の順序は、モデルの最終的な決定に影響を与える可能性がある。
LLMのプロンプトにおけるアイテム位置に対するこの感度は、位置バイアスとして知られている。
本稿では,各インスタンスに必要な反復回数を適応的に決定する動的早期ストッピング手法を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:54:44Z) - Bridging the LLM Accessibility Divide? Performance, Fairness, and Cost of Closed versus Open LLMs for Automated Essay Scoring [18.33969226071914]
我々は、テキスト評価と自動エッセイスコアリングに関連する生成タスクにおいて、9つの主要な大規模言語モデル(LLM)を比較した。
その結果,Llama 3 や Qwen2.5 などのオープン LLM は GPT-4 に比較して,予測性能が向上することがわかった。
生成タスクにおいて、トップオープンLLMによって生成されたエッセイは、セマンティックコンポジション/埋め込みやML評価スコアの点から、クローズドLLMに匹敵するものである。
論文 参考訳(メタデータ) (2025-03-14T19:34:40Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - TICKing All the Boxes: Generated Checklists Improve LLM Evaluation and Generation [24.954629877691623]
TICK(Targeted Instruct-evaluation with ChecKlists)は、完全に自動化され、解釈可能な評価プロトコルである。
まず,LLMが高品質な評価チェックリストを確実に生成できることを示す。
次に、STICKは、自己精製とBest-of-N選択により、複数のベンチマークで生成品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T17:09:08Z) - MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning [80.15393178083607]
大規模言語モデル(LLM)推論は、テストタイムアグリゲーション戦略、すなわち、複数のサンプルを生成し、生成されたサンプル間で投票することで改善することができる。
Refinementは、LLM生成したフィードバックを使ってソリューションの品質を改善する方法を提供する。
本稿では,問題の難易度を,難易度や難易度に分類することで,過度な改善を回避するMagICoReを提案する。
論文 参考訳(メタデータ) (2024-09-18T17:12:41Z) - Beyond ChatGPT: Enhancing Software Quality Assurance Tasks with Diverse LLMs and Validation Techniques [14.230480872339463]
本稿では,複数の大規模言語モデル(LLM)が2つのSQAタスク(障害局所化と脆弱性検出)にまたがる機能について検討する。
LLMの結果を組み合わせる投票機構を実装することで,両タスクにおいてGPT-3.5よりも10%以上の改善を実現した。
このアプローチにより、障害のローカライゼーションが16%、脆弱性検出が12%、GPT-3.5が4%向上した。
論文 参考訳(メタデータ) (2024-09-02T07:26:19Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Enabling Weak LLMs to Judge Response Reliability via Meta Ranking [38.63721941742435]
我々は、$textitMeta Ranking$ (MR) と呼ばれるクロスクエリベースの新しい手法を提案する。
MRは、ターゲットクエリ-レスポンスペアを複数の参照クエリ-レスポンスペアにペアでランク付けすることで、信頼性を評価する。
MRはモデルカスケーディングとインストラクションチューニングの2つの実用的応用において、強力なLLMの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-19T13:57:55Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [48.48819141999387]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - Instances Need More Care: Rewriting Prompts for Instances with LLMs in the Loop Yields Better Zero-Shot Performance [11.595274304409937]
大規模言語モデル(LLM)はゼロショットタスクのパフォーマンスに革命をもたらした。
レッツ・シンク・バイ・ステップ(Let's Think by Step)」のようなトリガーフレーズを使った現在の手法は依然として限られている。
本研究では,タスクインスタンスのゼロショットプロンプトを最適化するPRomPTedを導入する。
論文 参考訳(メタデータ) (2023-10-03T14:51:34Z) - Split and Merge: Aligning Position Biases in LLM-based Evaluators [22.265542509143756]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。
しかし、単一の試みで正しいソリューションを生成することは依然として課題である。
本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T14:23:26Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。