論文の概要: Harnessing non-adversarial robustness in large language models
- arxiv url: http://arxiv.org/abs/2605.29816v1
- Date: Thu, 28 May 2026 12:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.581954
- Title: Harnessing non-adversarial robustness in large language models
- Title(参考訳): 大規模言語モデルにおける非敵対的ロバスト性の評価
- Authors: Qinghua Zhou, Ellina Aleshina, Andrey Lovyagin, Oleg Somov, Mikhail Seleznyov, Alexander Panchenko, Ivan Oseledets, Elena Tutubalina, Ivan Y. Tyukin,
- Abstract要約: 我々は、ロバストネスは単純な微調整プロセス、すなわちロバストネスのデバイアスによって達成できることを示す。
偏りが役に立たない状態を特定し、理論と広範な実験を通して、偏りは強靭性を高めるための迅速かつ効率的なツールである可能性があることを実証する。
- 参考スコア(独自算出の注目度): 53.703320836018605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The work presents an approach for addressing the challenge of robustness in Large Language Models (LLMs) to alterations and potential errors caused by semantically similar but textually different prompts. Recent works have shown that these kinds of prompt variations can significantly impact the performance of LLMs on tasks. The central question is: can LLMs' robustness to semantically-neutral prompt alterations be acquired without expensive retraining of the entire model? We address this question both theoretically and through experiments. Our theoretical analysis reveals a crucial factor impacting model robustness - a systematic expected shift or perturbation-induced bias in neural network module outputs. Motivated by this analysis, we show that robustness can be achieved via a simple fine-tuning process: debiasing for robustness. We identify conditions when debiasing helps and when it does not, and demonstrate, through both theory and extensive experiments, that debiasing for robustness may indeed be a quick and efficient tool to enhance robustness and provide certification against random prompt perturbations.
- Abstract(参考訳): この研究は、意味論的に類似しているが、テキスト的に異なるプロンプトによって引き起こされる変更や潜在的なエラーに対して、Large Language Models (LLMs) における堅牢性の課題に対処するためのアプローチを提示している。
近年の研究では、このような急激な変化がLLMのタスク性能に大きな影響を与えることが示されている。
中心的な疑問は、LLMの意味論的中立性に対する堅牢性は、モデル全体の高価な再トレーニングなしに獲得できるか?
理論的にも実験を通じてもこの問題に対処する。
我々の理論的分析は、ニューラルネットワークモジュールの出力において、体系的な期待シフトや摂動誘発バイアスというモデルロバスト性に影響を及ぼす決定的な要因を明らかにしている。
この分析により、ロバストネスは単純な微調整プロセス、すなわちロバストネスのデバイアス化によって達成できることを示す。
脱バイアスが役に立たない状況を特定し、理論と広範な実験を通して、頑健性に対する脱バイアスは、ロバスト性を高め、ランダムな急激な摂動に対する認証を提供するための、迅速かつ効率的なツールである可能性があることを実証する。
関連論文リスト
- Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - TokUR: Token-Level Uncertainty Estimation for Large Language Model Reasoning [27.449948943467163]
token-level Uncertainty Estimation framework for Reasoning (TokUR)を提案する。
TokURは、大規模言語モデルにおいて、数学的推論における応答を自己評価し、自己改善することを可能にする。
様々な難易度を持つ数学的推論データセットの実験により、TokURは答えの正しさとモデルロバストネスと強い相関を示すことが示された。
論文 参考訳(メタデータ) (2025-05-16T22:47:32Z) - Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations [80.86128012438834]
モデルシフトに対する反ファクトの堅牢性を計算することはNP完全であることを示す。
本稿では,頑健性の厳密な推定を高い保証で実現する新しい確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:13:11Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - RoMA: a Method for Neural Network Robustness Measurement and Assessment [0.0]
ロバストネス測定・評価(RoMA)と呼ばれる新しい統計手法を提案する。
RoMAは、ランダムな入力摂動が誤分類を引き起こす可能性を決定する。
この研究を通じて得られた興味深い洞察の1つは、分類ネットワークにおいて、異なる出力ラベルが全く異なる堅牢性レベルを示すことができることである。
論文 参考訳(メタデータ) (2021-10-21T12:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。