論文の概要: Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process
- arxiv url: http://arxiv.org/abs/2512.23213v1
- Date: Mon, 29 Dec 2025 05:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.408583
- Title: Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process
- Title(参考訳): ピアレビュープロセスによる大規模言語モデルの構築
- Authors: Zhijun Chen, Zeyu Ji, Qianren Mao, Junhang Cheng, Bangjie Qin, Hao Wu, Zhuoran Li, Jingzheng Li, Kai Sun, Zizhe Wang, Yikun Ban, Zhu Sun, Xiangyang Ji, Hailong Sun,
- Abstract要約: LLM-PeerReviewは、ピアレビューに触発された新しいフレームワークの上に構築されている。
スコアリングには、新たなLCM-as-a-Judgeテクニックを使用します。
推論にはグラフィカルモデルに基づく真理推論アルゴリズムを適用する。
最後に、最高スコア応答をベストアンサンブル出力として選択する。
- 参考スコア(独自算出の注目度): 58.265053900416895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose LLM-PeerReview, an unsupervised LLM Ensemble method that selects the most ideal response from multiple LLM-generated candidates for each query, harnessing the collective wisdom of multiple models with diverse strengths. LLM-PeerReview is built on a novel, peer-review-inspired framework that offers a clear and interpretable mechanism, while remaining fully unsupervised for flexible adaptability and generalization. Specifically, it operates in three stages: For scoring, we use the emerging LLM-as-a-Judge technique to evaluate each response by reusing multiple LLMs at hand; For reasoning, we can apply a principled graphical model-based truth inference algorithm or a straightforward averaging strategy to aggregate multiple scores to produce a final score for each response; Finally, the highest-scoring response is selected as the best ensemble output. LLM-PeerReview is conceptually simple and empirically powerful. The two variants of the proposed approach obtain strong results across four datasets, including outperforming the recent advanced model Smoothie-Global by 6.9% and 7.3% points, respectively.
- Abstract(参考訳): LLM-PeerReview は,複数の LLM 生成候補から各クエリに対して最も理想的な応答を選択する,教師なし LLM Ensemble 手法である。
LLM-PeerReviewは、フレキシブルな適応性と一般化のために完全に教師なしのままで、明確で解釈可能なメカニズムを提供する、ピアレビューにインスパイアされた新しいフレームワークの上に構築されている。
具体的には、スコアリングには、新しいLSM-as-a-Judge技術を用いて、手元にある複数のLSMを再利用することで、各レスポンスを評価する。推論には、複数のスコアを集約して各レスポンスの最終的なスコアを生成するために、原則化されたグラフィカルモデルベースの真理推論アルゴリズムや、単純な平均化戦略を適用する。
LLM-PeerReviewは概念的にはシンプルで、実証的に強力です。
提案手法の2つの変種は、4つのデータセットにまたがる強力な結果を得る。
関連論文リスト
- Wisdom and Delusion of LLM Ensembles for Code Generation and Repair [45.969630994412846]
3つのソフトウェアエンジニアリングベンチマークで10個の大規模言語モデルと3つのLLMのアンサンブルを比較した。
アンサンブルのパフォーマンスの理論的上限は、最高のシングルモデルよりも83%高いことが判明した。
多様性に基づく戦略は、この理論ポテンシャルの最大95%を実現し、小さな2モデルアンサンブルでも有効であることを示す。
論文 参考訳(メタデータ) (2025-10-24T14:39:23Z) - Beyond Majority Voting: LLM Aggregation by Leveraging Higher-Order Information [57.397381631496906]
最適重み(OW)と逆サプライシング人気度(ISP)という2つの新しいアグリゲーションアルゴリズムを開発した。
我々の理論的分析は、これらの手法が軽微な仮定の下での多数決の本質的な制限を確実に緩和することを示している。
我々は,我々のアルゴリズムを人工データセット,UltraFeedbackやMMLUなどのLLMファインチューニングベンチマーク,実世界の医療環境ARMMAN上で実証的に検証した。
論文 参考訳(メタデータ) (2025-10-01T22:21:50Z) - Uncertainty-Aware Answer Selection for Improved Reasoning in Multi-LLM Systems [55.6590601898194]
大規模言語モデル(LLM)は例外的な機能を示しているが、複数のLLMから最も信頼性の高い応答を選択することは依然として困難である。
既存のアプローチは、しばしばコストのかかる外部検証器、人間の評価器、または単一のモデルから複数のサンプルを必要とする自己整合技術に依存している。
校正されたログ類似度スコアを用いて,複数のLLMから最適な応答を選択するための,原理的,斬新で,計算的に効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:19Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Identifying Factual Inconsistencies in Summaries: Grounding LLM Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。
我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [48.48819141999387]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。