論文の概要: Evaluating Robustness of Large Language Models in Enterprise Applications: Benchmarks for Perturbation Consistency Across Formats and Languages
- arxiv url: http://arxiv.org/abs/2601.06341v1
- Date: Fri, 09 Jan 2026 22:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.760263
- Title: Evaluating Robustness of Large Language Models in Enterprise Applications: Benchmarks for Perturbation Consistency Across Formats and Languages
- Title(参考訳): エンタープライズアプリケーションにおける大規模言語モデルのロバスト性の評価: フォーマットと言語間の摂動一貫性のベンチマーク
- Authors: Tara Bogavelli, Oluwanifemi Bamgbose, Gabrielle Gauthier Melançon, Fanny Riols, Roshnee Sharma,
- Abstract要約: 小さな急激な変化でさえ、出力にかなりの違いをもたらす可能性がある。
複数の摂動型にまたがるロバスト性を評価するベンチマークスイートを提案する。
マイナーな摂動は、主要な企業メトリクスの最大40パーセントのパフォーマンスを低下させることに気付きました。
- 参考スコア(独自算出の注目度): 0.8895014147059547
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Enterprise LLM applications require consistently high quality and reliable performance across diverse scenarios, demanding robustness to minor variations. Existing research shows that even small prompt changes can lead to substantial differences in output, but has mainly focused on a narrow set of perturbations with small academic datasets, limiting their relevance to real-world applications. To address this, we present a comprehensive benchmark suite that evaluates robustness across multiple perturbation types, including general text edits (e.g., punctuation, whitespace), formatting changes (e.g., JSON, YAML), multilingual and cross-lingual inputs, and positional variations in instructions. Evaluating 11 models ranging from 4B to 120B+ parameters, we find that minor perturbations reduce performance by up to 40 percentage points on key enterprise metrics. Critically, we demonstrate that the relationship between model size and robustness is more nuanced than conventional assumptions suggest: an 8B parameter model (Ministral 3 8B) outperforms most larger models, while another 8B model (Llama 3.1 8B) performs worst overall.
- Abstract(参考訳): エンタープライズLLMアプリケーションは、様々なシナリオにまたがって一貫して高品質で信頼性の高いパフォーマンスを必要とし、小さなバリエーションに対して堅牢性を必要とします。
既存の研究では、たとえ小さな急激な変更であっても、出力に大きな違いをもたらす可能性があるが、主に小さな学術的なデータセットによる摂動の狭いセットに焦点を当てており、現実世界のアプリケーションとの関係を制限している。
これを解決するために、汎用テキスト編集(例、句読点、空白)、フォーマット変更(例、JSON、YAML)、多言語入力と多言語入力、命令の位置変化など、複数の摂動タイプにわたる堅牢性を評価する包括的なベンチマークスイートを提案する。
4Bから120B以上のパラメータを含む11のモデルを評価すると、主要なエンタープライズメトリクスにおいて、小さな摂動によってパフォーマンスが最大40パーセント低下することがわかった。
8Bパラメータモデル(ミニストラム3、8B)は、最も大きなモデルよりも優れており、他の8Bモデル(ラマ3.18B)は、全体としては最悪である。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Comparing Specialised Small and General Large Language Models on Text Classification: 100 Labelled Samples to Achieve Break-Even Performance [5.009377915313077]
特殊化モデルでは、一般的なモデルと同等かそれ以上のサンプル(平均100ドル)をほとんど必要としない場合が多い。
パフォーマンスのばらつきを考慮すると、必要なラベルの数は平均100 - 200%$に増加する。
4ビットの量子化は無視できる影響を持つため、より大規模なモデルでは、パフォーマンスの向上と分散の低下に一貫して結びつくわけではない。
論文 参考訳(メタデータ) (2024-02-20T08:38:24Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。