論文の概要: Evaluating Robustness of Large Language Models in Enterprise Applications: Benchmarks for Perturbation Consistency Across Formats and Languages
- arxiv url: http://arxiv.org/abs/2601.06341v1
- Date: Fri, 09 Jan 2026 22:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.760263
- Title: Evaluating Robustness of Large Language Models in Enterprise Applications: Benchmarks for Perturbation Consistency Across Formats and Languages
- Title(参考訳): エンタープライズアプリケーションにおける大規模言語モデルのロバスト性の評価: フォーマットと言語間の摂動一貫性のベンチマーク
- Authors: Tara Bogavelli, Oluwanifemi Bamgbose, Gabrielle Gauthier Melançon, Fanny Riols, Roshnee Sharma,
- Abstract要約: 小さな急激な変化でさえ、出力にかなりの違いをもたらす可能性がある。
複数の摂動型にまたがるロバスト性を評価するベンチマークスイートを提案する。
マイナーな摂動は、主要な企業メトリクスの最大40パーセントのパフォーマンスを低下させることに気付きました。
- 参考スコア(独自算出の注目度): 0.8895014147059547
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Enterprise LLM applications require consistently high quality and reliable performance across diverse scenarios, demanding robustness to minor variations. Existing research shows that even small prompt changes can lead to substantial differences in output, but has mainly focused on a narrow set of perturbations with small academic datasets, limiting their relevance to real-world applications. To address this, we present a comprehensive benchmark suite that evaluates robustness across multiple perturbation types, including general text edits (e.g., punctuation, whitespace), formatting changes (e.g., JSON, YAML), multilingual and cross-lingual inputs, and positional variations in instructions. Evaluating 11 models ranging from 4B to 120B+ parameters, we find that minor perturbations reduce performance by up to 40 percentage points on key enterprise metrics. Critically, we demonstrate that the relationship between model size and robustness is more nuanced than conventional assumptions suggest: an 8B parameter model (Ministral 3 8B) outperforms most larger models, while another 8B model (Llama 3.1 8B) performs worst overall.
- Abstract(参考訳): エンタープライズLLMアプリケーションは、様々なシナリオにまたがって一貫して高品質で信頼性の高いパフォーマンスを必要とし、小さなバリエーションに対して堅牢性を必要とします。
既存の研究では、たとえ小さな急激な変更であっても、出力に大きな違いをもたらす可能性があるが、主に小さな学術的なデータセットによる摂動の狭いセットに焦点を当てており、現実世界のアプリケーションとの関係を制限している。
これを解決するために、汎用テキスト編集(例、句読点、空白)、フォーマット変更(例、JSON、YAML)、多言語入力と多言語入力、命令の位置変化など、複数の摂動タイプにわたる堅牢性を評価する包括的なベンチマークスイートを提案する。
4Bから120B以上のパラメータを含む11のモデルを評価すると、主要なエンタープライズメトリクスにおいて、小さな摂動によってパフォーマンスが最大40パーセント低下することがわかった。
8Bパラメータモデル(ミニストラム3、8B)は、最も大きなモデルよりも優れており、他の8Bモデル(ラマ3.18B)は、全体としては最悪である。
関連論文リスト
- Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks [4.739000717606982]
llama-embed-nemotron-8bはオープンウェイトテキスト埋め込みモデルである。
これはMultilingual Massive Text Embedding Benchmarkで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-11-10T12:13:16Z) - Retrofitting Small Multilingual Models for Retrieval: Matching 7B Performance with 300M Parameters [30.737678658069097]
効果的な多言語埋め込みモデルの訓練は、言語やタスクの目的の多様性による固有の課題を提示する。
我々は,多言語埋め込みの有効性に影響を及ぼす重要な要因について検討し,トレーニングデータ尺度,ネガティブサンプリング戦略,データ多様性に着目した。
我々は,現在の強7Bモデルに匹敵する,あるいは超越する検索性能を実現する,コンパクトな(約300M)多言語モデルを開発した。
論文 参考訳(メタデータ) (2025-10-16T03:48:59Z) - Evaluating NL2SQL via SQL2NL [45.88028371034407]
新しいフレームワークは意味論的に等価で語彙的に多様なクエリを生成する。
最先端のモデルは、標準ベンチマークが示すよりもはるかに脆弱だ。
論文 参考訳(メタデータ) (2025-09-04T21:03:59Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Comparing Specialised Small and General Large Language Models on Text Classification: 100 Labelled Samples to Achieve Break-Even Performance [5.009377915313077]
特殊化モデルでは、一般的なモデルと同等かそれ以上のサンプル(平均100ドル)をほとんど必要としない場合が多い。
パフォーマンスのばらつきを考慮すると、必要なラベルの数は平均100 - 200%$に増加する。
4ビットの量子化は無視できる影響を持つため、より大規模なモデルでは、パフォーマンスの向上と分散の低下に一貫して結びつくわけではない。
論文 参考訳(メタデータ) (2024-02-20T08:38:24Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。