論文の概要: Harnessing Consistency for Robust Test-Time LLM Ensemble
- arxiv url: http://arxiv.org/abs/2510.13855v1
- Date: Sun, 12 Oct 2025 04:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.480395
- Title: Harnessing Consistency for Robust Test-Time LLM Ensemble
- Title(参考訳): ロバスト試験時間LLMアンサンブルの調和性
- Authors: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong,
- Abstract要約: CoREは、堅牢なLLMアンサンブルにモデル一貫性を利用するプラグイン・アンド・プレイ技術である。
トークンレベルの一貫性は、ダウンウェイト不確実なトークンにローパスフィルタを適用することで、きめ細かい不一致を捕捉する。
モデルレベルの一貫性は、自己自信の高いモデル出力を促進することで、グローバルな合意をモデル化する。
- 参考スコア(独自算出の注目度): 88.55393815158608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.
- Abstract(参考訳): 異なる大きな言語モデル(LLM)は様々な長所と短所を示しており、LLMアンサンブルはそれらの補完機能を統合するための有望なアプローチである。
アンサンブルの品質は大幅に向上したが、不均一なトークン化スキームや様々なモデルの専門知識から生じる可能性のある誤信号に対するアンサンブルの堅牢性には、限られた注意が払われている。
我々の分析では、アンサンブルの失敗は一般的にトークンレベルとモデルレベルの両方から発生し、前者はトークン予測に深刻な不一致を反映し、後者はモデルの信頼性が低く、相違が顕著である。
そこで本研究では,ロバストなLLMアンサンブルにモデル整合性を利用するプラグイン・アンド・プレイ技術であるCoREを提案し,多様なアンサンブル法とシームレスに統合する。
トークンレベルの整合性は、しばしばトークンの不整合による不整合性の高い不整合性トークンに低域フィルタを適用して微細な不整合を捕捉し、粒度の堅牢性を向上させる。
モデルレベルの一貫性は、高い自己自信と最小限のばらつきを持つモデル出力を推進し、粗いレベルで堅牢性を高めることで、グローバルな合意をモデル化する。
さまざまなベンチマーク、モデルの組み合わせ、アンサンブル戦略にわたる大規模な実験は、CoREが一貫してアンサンブルのパフォーマンスとロバスト性を改善していることを示している。
関連論文リスト
- Dual-granularity Sinkhorn Distillation for Enhanced Learning from Long-tailed Noisy Data [67.25796812343454]
ディープラーニングのための実世界のデータセットは、クラス不均衡とラベルノイズの共起的な課題にしばしば悩まされる。
蒸留と相補的な知見の統合により二重強靭性を高める新しいフレームワークであるD-SINKを提案する。
ベンチマークデータセットの実験では、D-SINKはロバスト性を大幅に向上し、長い尾のノイズデータから学習する際の強い経験的性能を達成することが示された。
論文 参考訳(メタデータ) (2025-10-09T13:05:27Z) - Contrastive Weak-to-strong Generalization [50.5986177336082]
本稿では,弱強一般化を推し進めるため,Contrastive Weak-to-Strong Generalization (ConG)を提案する。
このフレームワークは、より高品質なサンプルを生成するために、事前調整後の弱いモデル間の対照的な復号を用いる。
論文 参考訳(メタデータ) (2025-10-09T07:37:23Z) - Unified Enhancement of the Generalization and Robustness of Language Models via Bi-Stage Optimization [2.502393972789905]
本稿では,LMの一般化とロバスト性の両方を均一に向上する二段階最適化フレームワークを提案する。
提案手法は,従来の手法と比較して,LMの一般化とロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-03-19T13:50:36Z) - Enhancing NLP Robustness and Generalization through LLM-Generated Contrast Sets: A Scalable Framework for Systematic Evaluation and Adversarial Training [0.0]
モデルロバスト性を評価し改善するために、3,000サンプルのコントラストセットを作成します。
これらのコントラストの微調整は、体系的に摂動された例の性能を高め、標準テスト精度を維持し、新しい摂動の一般化を緩やかに改善した。
論文 参考訳(メタデータ) (2025-03-09T14:52:53Z) - Adversarial Robustness through Dynamic Ensemble Learning [0.0]
敵対的攻撃は、事前訓練された言語モデル(PLM)の信頼性に重大な脅威をもたらす
本稿では,このような攻撃に対するPLMの堅牢性を高めるための新しいスキームであるDynamic Ensemble Learning (ARDEL) による対逆ロバスト性について述べる。
論文 参考訳(メタデータ) (2024-12-20T05:36:19Z) - On Adversarial Robustness and Out-of-Distribution Robustness of Large Language Models [0.16874375111244325]
大規模言語モデル(LLM)における対向ロバストネスとOODロバストネスの相関について検討する。
以上の結果より, 対向ロバスト性とOODロバスト性との間にはニュアンスな相互作用がみられ, 移動性に限界があることが示唆された。
これらの相互作用を、より大きなモデルと様々なアーキテクチャにわたって評価するためには、さらなる研究が必要である。
論文 参考訳(メタデータ) (2024-12-13T20:04:25Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Trusted Multi-View Classification with Dynamic Evidential Fusion [73.35990456162745]
信頼型マルチビュー分類(TMC)と呼ばれる新しいマルチビュー分類アルゴリズムを提案する。
TMCは、様々な視点をエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
理論的および実験的結果は、精度、堅牢性、信頼性において提案されたモデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-04-25T03:48:49Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。