論文の概要: SCE: Scalable Consistency Ensembles Make Blackbox Large Language Model Generation More Reliable
- arxiv url: http://arxiv.org/abs/2503.10881v1
- Date: Thu, 13 Mar 2025 20:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:01.317787
- Title: SCE: Scalable Consistency Ensembles Make Blackbox Large Language Model Generation More Reliable
- Title(参考訳): SCE: Blackboxの大規模言語モデル生成をより信頼性の高いものにするスケーラブルな一貫性アンサンブル
- Authors: Jiaxin Zhang, Zhuohang Li, Wendi Cui, Kamalika Das, Bradley malin, Sricharan Kumar,
- Abstract要約: 大規模言語モデル(LLM)は目覚ましい性能を示したが、その多様な長所と短所により、全てのタスクにおいて単一のLLMが支配的になるのを防いでいる。
本研究は,一貫した出力を誘導することにより,LLMを効率的にアンサンブルするためのフレームワークであるSCE(Scalable Consistency Ensemble)を導入する。
- 参考スコア(独自算出の注目度): 4.953092503184905
- License:
- Abstract: Large language models (LLMs) have demonstrated remarkable performance, yet their diverse strengths and weaknesses prevent any single LLM from achieving dominance across all tasks. Ensembling multiple LLMs is a promising approach to generate reliable responses but conventional ensembling frameworks suffer from high computational overheads. This work introduces Scalable Consistency Ensemble (SCE), an efficient framework for ensembling LLMs by prompting consistent outputs. The SCE framework systematically evaluates and integrates outputs to produce a cohesive result through two core components: SCE-CHECK, a mechanism that gauges the consistency between response pairs via semantic equivalence; and SCE-FUSION, which adeptly merges the highest-ranked consistent responses from SCE-CHECK, to optimize collective strengths and mitigating potential weaknesses. To improve the scalability with multiple inference queries, we further propose ``{You Only Prompt Once}'' (YOPO), a novel technique that reduces the inference complexity of pairwise comparison from quadratic to constant time. We perform extensive empirical evaluations on diverse benchmark datasets to demonstrate \methodName's effectiveness. Notably, the \saccheckcomponent outperforms conventional baselines with enhanced performance and a significant reduction in computational overhead.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい性能を示したが、その多様な長所と短所により、全てのタスクにおいて単一のLLMが支配的になるのを防いでいる。
複数のLSMを組み立てることは、信頼できる応答を生成するための有望なアプローチであるが、従来のアセンブリフレームワークは高い計算オーバーヘッドに悩まされている。
本研究は,一貫した出力を誘導することにより,LLMを効率的にアンサンブルするためのフレームワークであるSCE(Scalable Consistency Ensemble)を導入する。
SCEフレームワークは、SCE-CHECKというセマンティック等価性を通じて応答対間の一貫性を計測するメカニズムと、SCE-CHECKからの最も高い一貫性のある応答を積極的にマージして、集合的な強度を最適化し潜在的な弱点を緩和するSCE-FUSIONという2つのコアコンポーネントを通して、出力を体系的に評価し、結合的な結果を生成する。
さらに,複数の推論クエリによるスケーラビリティ向上のために,2次から一定時間までのペア比較の推論複雑性を低減する新手法である `{You Only Prompt Once}' (YOPO) を提案する。
多様なベンチマークデータセットに対して広範な経験的評価を行い,<methodName</methodNameの有効性を実証する。
特に、‘saccheckcomponent’は、パフォーマンスの向上と計算オーバーヘッドの大幅な削減により、従来のベースラインよりも優れている。
関連論文リスト
- Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - LLM-Powered Benchmark Factory: Reliable, Generic, and Efficient [19.673388630963807]
我々は,4次元と10の基準で構成された,自動的かつ偏りのない評価フレームワークを提案する。
本フレームワークでは,大規模言語モデル(LLM)を汎用ベンチマークジェネレータとして直接プロンプトする利点と弱点を解析する。
次に、識別された弱点に対処し、それらをBenchMakerとして統合する一連の方法を紹介します。
実験により、BenchMakerは、すべてのメトリクスにおいて、人による注釈付きベンチマークよりも優れた、あるいは同等のパフォーマンスを達成することが確認された。
論文 参考訳(メタデータ) (2025-02-02T06:36:01Z) - Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Determine-Then-Ensemble: Necessity of Top-k Union for Large Language Model Ensembling [23.447466392929712]
大規模言語モデル(LLM)は、様々なタスクに様々な長所と短所を示す。
既存のLLMアンサンブル法は、しばしばモデルの互換性を見落とし、確率の非効率なアライメントに苦しむ。
textscUnion textscTop-$k$ textscEnsembling (textscUniTE)は,各モデルから上位kトークンの結合に着目し,効率的にモデルを結合する新しいアプローチである。
論文 参考訳(メタデータ) (2024-10-03T08:42:38Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation [20.138831477848615]
本研究では,複数のサンプルから得られた詳細なコンセンサス知識を効果的に活用することにより,出力品質を最適化するFSCを提案する。
FSCの有効性は、要約、コード生成、数学的推論など、様々なタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2024-07-02T08:38:31Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - SSLCL: An Efficient Model-Agnostic Supervised Contrastive Learning
Framework for Emotion Recognition in Conversations [20.856739541819056]
会話における感情認識(ERC)は、自然言語処理コミュニティの中で急速に進化している課題である。
We propose a efficient and model-agnostic SCL framework named Supervised Sample-Label Contrastive Learning with Soft-HGR Maximal correlation (SSLCL)。
浅い多層パーセプトロンを通して、離散ラベルを密度の高い埋め込みに投影することで、ラベル表現を活用する新しい視点を導入する。
論文 参考訳(メタデータ) (2023-10-25T14:41:14Z) - Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。
グループDROフレームワークをQ-Diversityを提案して再構築する。
インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文 参考訳(メタデータ) (2023-05-20T07:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。