論文の概要: Stable LLM Ensemble: Interaction between Example Representativeness and Diversity
- arxiv url: http://arxiv.org/abs/2510.13143v1
- Date: Wed, 15 Oct 2025 04:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.49846
- Title: Stable LLM Ensemble: Interaction between Example Representativeness and Diversity
- Title(参考訳): 安定LLMアンサンブル:例代表性と多様性の相互作用
- Authors: Junichiro Niimi,
- Abstract要約: 2つのワンショット戦略を比較する:セントロイド型代表例(提案)とランダムサンプル例(ベースライン)
高温設定による提案手法は,+7.6% (macro-F1) と -10.5% (RMSE) のランダム選択を著しく上回っている。
以上の結果から,代表的なサンプル選択と温度上昇を組み合わせることで,アンサンブルに適切な多様性がもたらされることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable results in wide range of domains. However, the accuracy and robustness of one-shot LLM predictions remain highly sensitive to the examples and the diversity among ensemble members. This study systematically investigates the effects of example representativeness (one-shot strategy) and output diversity (sampling temperature) on LLM ensemble performance. Two one-shot strategies are compared: centroid-based representative examples (proposed) and randomly sampled examples (baseline) and sampling temperature also is varied. The proposed approach with higher temperature setting significantly outperforms random selection by +7.6% (macro-F1) and -10.5% (RMSE). Furthermore, the proposed model exceeds 5-shot prompting by +21.1% (macro-F1) and -24.0% (RMSE). Our findings demonstrate that combining representative example selection with increased temperature provides the appropriate level of diversity to the ensemble. This work highlights the practical importance of both example selection and controlled diversity in designing effective one-shot LLM ensembles.
- Abstract(参考訳): 大規模言語モデル (LLM) は幅広い領域において顕著な成果を上げている。
しかし、ワンショットLDM予測の精度と堅牢性は、アンサンブルメンバーの例や多様性に非常に敏感である。
本研究では,例代表性(ワンショット戦略)と出力の多様性(サンプリング温度)がLLMアンサンブル性能に及ぼす影響を系統的に検討した。
遠心分離型代表例(提案)とランダムサンプリング例(ベースライン)とサンプリング温度の2つを比較した。
提案手法の温度設定は,+7.6% (macro-F1) と -10.5% (RMSE) のランダム選択を著しく上回っている。
さらに、提案したモデルは、+21.1%(マクロF1)と-24.0%(RMSE)の5ショットを超える。
以上の結果から,代表的なサンプル選択と温度上昇を組み合わせることで,アンサンブルに適切な多様性がもたらされることが示唆された。
この研究は、実効的なワンショットLLMアンサンブルを設計する上で、サンプル選択と制御された多様性の両方の実践的重要性を強調している。
関連論文リスト
- Towards Compute-Optimal Many-Shot In-Context Learning [69.38428467281862]
マルチショットICLにおけるデモ選択のための2つの戦略を提案する。
最初の方法は、テストサンプルの類似性に基づいて選択された少数のデモと、キャッシュされるランダムなデモの集合を組み合わせる。
第2の戦略は、ランダムなデモをk平均クラスタリングによるテストサンプル表現から選択したセントロイドに置き換えることによって、第1の戦略を改善する。
論文 参考訳(メタデータ) (2025-07-22T04:21:03Z) - On the Effect of Sampling Diversity in Scaling LLM Inference [57.31028064284527]
大規模言語モデル(LLM)のスケーリング推論は、パフォーマンス向上の鍵となる。
解の精度と応答の有意な多様性の関係から,スケーリング推論における急激な多様性の効果を体系的に研究した。
また,Best-of-N$選択後の有意義な多様なプロンプトから生成した応答は,定常的なプロンプトから生成した応答よりも有意に低い値を示した。
論文 参考訳(メタデータ) (2025-02-16T07:37:58Z) - Optimizing Temperature for Language Models with Multi-Sample Inference [47.14991144052361]
本稿では,異なる大言語モデルに対する(近傍)最適温度の自動同定という課題に対処する。
モデルアーキテクチャ、データセット、タスクタイプ、モデルサイズ、予測精度の変動を考慮して、性能最適化における温度の役割を総合的に分析する。
本稿では,温度自動最適化のためのエントロピーに基づく新しい計量法を提案する。
論文 参考訳(メタデータ) (2025-02-07T19:35:25Z) - Evaluating Binary Decision Biases in Large Language Models: Implications for Fair Agent-Based Financial Simulations [15.379345372327375]
エージェントベースの金融市場モデルにおいて、人間のような意思決定をシミュレートするために、LLM(Large Language Models)がますます使われている。
我々は,2つのモデルサンプリングアプローチ(ワンショットと少数ショットのAPIクエリ)を用いて,最先端のGPTモデル3つをバイアスとして検証する。
論文 参考訳(メタデータ) (2025-01-20T10:36:51Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large
Language Models [56.256069117502385]
Chain of Thought (CoT)アプローチは、複雑な推論タスクにおいて、LLM(Large Language Models)の能力を高めるために使用できる。
しかし、マルチモーダル推論における最適なCoT実例の選択は、まだ検討されていない。
本稿では,この課題に対処する新しい手法として,検索機構を用いて実演例を自動的に選択する手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T08:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。