論文の概要: When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs
- arxiv url: http://arxiv.org/abs/2508.11383v1
- Date: Fri, 15 Aug 2025 10:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.854607
- Title: When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs
- Title(参考訳): 句読解が問題となるとき:LLMにおけるプロンプトロバストネス法の大規模比較
- Authors: Mikhail Seleznyov, Mikhail Chaichuk, Gleb Ershov, Alexander Panchenko, Elena Tutubalina, Oleg Somov,
- Abstract要約: 本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
- 参考スコア(独自算出の注目度): 55.20230501807337
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are highly sensitive to subtle, non-semantic variations in prompt phrasing and formatting. In this work, we present the first systematic evaluation of 5 methods for improving prompt robustness within a unified experimental framework. We benchmark these techniques on 8 models from Llama, Qwen and Gemma families across 52 tasks from Natural Instructions dataset. Our evaluation covers robustness methods from both fine-tuned and in-context learning paradigms, and tests their generalization against multiple types of distribution shifts. Finally, we extend our analysis to GPT-4.1 and DeepSeek V3 to assess frontier models' current robustness to format perturbations. Our findings offer actionable insights into the relative effectiveness of these robustness methods, enabling practitioners to make informed decisions when aiming for stable and reliable LLM performance in real-world applications. Code: https://github.com/AIRI-Institute/when-punctuation-matters.
- Abstract(参考訳): LLM(Large Language Models)は、アクシデントやフォーマッティングにおいて、微妙で非セマンティックなバリエーションに対して非常に敏感である。
本研究では,統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行った。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
本評価では、微調整と文脈内学習の両方のパラダイムによるロバストネス手法を網羅し、その一般化を複数種類の分散シフトに対して検証する。
最後に,解析結果をGPT-4.1とDeepSeek V3に拡張し,フロンティアモデルの現在の頑健さとフォーマットの摂動を評価する。
本研究は,これらのロバスト性手法の相対的有効性に関する実用的な知見を提供し,現実のアプリケーションにおいて,安定かつ信頼性の高いLLM性能を目指して,実践者が情報決定を行うことを可能にする。
コード:https://github.com/AIRI-Institute/when-punctuation-matters。
関連論文リスト
- CODE-DITING: A Reasoning-Based Metric for Functional Alignment in Code Evaluation [22.06897150825726]
本稿では,精度,効率,説明性を両立させるコード評価手法であるCODE-DIINGを提案する。
我々は,DeepSeek-R1671BからCODE-DIING 1.5Bおよび7Bモデルへの推論能力を効果的に伝達するデータ蒸留フレームワークを開発した。
推論プロセスにおける過半数の投票戦略により、CODE-DIING 1.5Bは、同じパラメータで全てのモデルを上回ります。
論文 参考訳(メタデータ) (2025-05-26T04:29:14Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - FLUKE: A Linguistically-Driven and Task-Agnostic Framework for Robustness Evaluation [21.850854237079595]
FLUKEは、システムの最小限のテストデータを通じてモデルロバスト性を評価するためのタスクに依存しないフレームワークである。
FLUKEの実用性は、4つの異なるNLPタスクにまたがる細調整モデルと大規模言語モデル(LLM)の両方を評価することで実証する。
論文 参考訳(メタデータ) (2025-04-24T07:12:37Z) - Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。
この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。
本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - UBench: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
大規模言語モデル(LLM)の不確実性を評価するための新しいベンチマークであるUBenchを紹介する。
他のベンチマークとは異なり、UBenchは信頼区間に基づいている。知識、言語、理解、推論能力にまたがる11,978の多重選択質問を含んでいる。
1) 信頼性区間に基づく手法は不確実性定量化に極めて有効である; 2) 不確実性に関して、優れたオープンソースモデルは、クローズドソースモデルと競合する性能を示す; 3) CoT と RP は、モデル信頼性を改善するための潜在的方法を示し、温度変化の影響は普遍的な規則に従わない。
論文 参考訳(メタデータ) (2024-06-18T16:50:38Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - RoTBench: A Multi-Level Benchmark for Evaluating the Robustness of Large Language Models in Tool Learning [45.39445027132887]
ツール学習における大規模言語モデルの堅牢性を評価するためのベンチマークであるRoTBenchを紹介する。
広く使われている6つのモデルを含む実験は、ツール学習におけるLLMの堅牢性を高めるための緊急の必要性を浮き彫りにした。
ツール学習におけるLDMの堅牢性を高めるために,学習環境の多様性を充実させる戦略であるRoTTuningを提案する。
論文 参考訳(メタデータ) (2024-01-16T12:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。