論文の概要: Small Edits, Big Consequences: Telling Good from Bad Robustness in Large Language Models
- arxiv url: http://arxiv.org/abs/2507.15868v1
- Date: Tue, 15 Jul 2025 03:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.772161
- Title: Small Edits, Big Consequences: Telling Good from Bad Robustness in Large Language Models
- Title(参考訳): 小さな編集, 大きな結果: 大規模言語モデルにおけるロバストさの悪さから良いことを伝える
- Authors: Altynbek Ismailov, Salia Asanova,
- Abstract要約: 大きな言語モデル(LLM)が、ひとつの単語の誤読が安全性を損なう可能性があるような設定でコードを書くようになりました。
有用な堅牢性と有害な不感度の開始点を調査するために、50のLeetCode問題をコンパイルし、3つの最小限の急激な摂動を発生させる。
3つの「推論チューニング」バージョンを含む6つのフロンティアモデルにより、各変更プロンプトが解決される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) now write code in settings where misreading a single word can break safety or cost money, yet we still expect them to overlook stray typos. To probe where useful robustness ends and harmful insensitivity begins, we compile 50 LeetCode problems and craft three minimal prompt perturbations that should vary in importance: (i) progressive underspecification deleting 10 % of words per step; (ii) lexical flip swapping a pivotal quantifier ("max" to "min"); and (iii) jargon inflation replacing a common noun with an obscure technical synonym. Six frontier models, including three "reasoning-tuned" versions, solve each mutated prompt, and their Python outputs are checked against the original test suites to reveal whether they reused the baseline solution or adapted. Among 11 853 generations we observe a sharp double asymmetry. Models remain correct in 85 % of cases even after 90 % of the prompt is missing, showing over-robustness to underspecification, yet only 54 % react to a single quantifier flip that reverses the task, with reasoning-tuned variants even less sensitive than their bases. Jargon edits lie in between, passing through 56 %. Current LLMs thus blur the line between harmless noise and meaning - changing edits, often treating both as ignorable. Masking salient anchors such as function names can force re - evaluation. We advocate evaluation and training protocols that reward differential sensitivity: stay steady under benign noise but adapt - or refuse - when semantics truly change.
- Abstract(参考訳): 大きな言語モデル(LLM)が、ひとつの単語の誤読が安全性を損なう可能性があるような設定でコードを書くようになりました。
有用な堅牢性と有害な不感度の開始点を調査するために、50のLeetCode問題をコンパイルし、3つの最小限の急激な摂動を重要視すべきです。
(i) 段階ごとの単語の10%を削除した進歩的不特定
(ii)座標量化器("max"から"min")を交換する語彙フリップ、及び
三 一般的な名詞を不明瞭な技術的同義語に置き換えるジャルゴンインフレーション
3つの"推論チューニング"バージョンを含む6つのフロンティアモデルにより、各変更プロンプトが解決され、Python出力が元のテストスイートに対してチェックされ、ベースラインソリューションを再利用したか、適応したかが明らかになる。
853世代のうち、我々は鋭い二重非対称性を観察する。
モデルでは、90%のプロンプトが欠落した後でも85%のケースで正当であり、不特定性への過度な損耗を示すが、タスクを反転させる単一の量化器のフリップに対して54パーセントしか反応しない。
ジャーゴンの編集は56%を通り抜ける。
したがって、現在のLLMは、無害なノイズと意味の境界を曖昧にします。
関数名などのマスキングサリアンアンカーはre-評価を強制することができる。
セマンティクスが本当に変化するとき、良質なノイズの下で安定していながら、適応し、あるいは拒否する、差分感度に報いる評価とトレーニングのプロトコルを提唱します。
関連論文リスト
- Trick or Neat: Adversarial Ambiguity and Language Model Evaluation [42.62991342963119]
我々は,言語モデルのあいまいさに対する感度を,敵対的あいまいさデータセットを導入することによって評価する。
モデル表現で訓練された線形プローブは、曖昧さを高精度に復号できるのに対し、直接的プロンプトは曖昧さを確実に識別できないことを示す。
論文 参考訳(メタデータ) (2025-06-01T22:50:06Z) - Are Large Language Models Robust in Understanding Code Against Semantics-Preserving Mutations? [18.52519530244078]
最大8Bパラメータを持つ最先端のLarge Language Model (LLMs) がPythonプログラムを推論できるのか、それとも単純に推測できるのかを評価する。
変数のリネーム、比較式のミラー化、if-elseブランチのスワップ、ループの while への変換、ループアンロールの5つのコード変異を適用します。
Llama3.2のような一部のLLMは、最大61%のケースにおいて、欠陥のある推論に基づいて正しい予測を生成する。
論文 参考訳(メタデータ) (2025-05-15T16:04:25Z) - Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。
そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。
SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文 参考訳(メタデータ) (2024-03-26T09:25:57Z) - Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks [39.51297217854375]
ランダムな平滑化に基づく自然言語処理(NLP)のための信頼性の高いロバストネスフレームワークであるText-CRSを提案する。
テキストCRSは、4つの異なる単語レベルの対数操作すべてに対処でき、精度が大幅に向上することを示す。
また,同義語置換攻撃に対する最先端認証よりも,単語レベルの4つの操作の精度と半径に関する最初のベンチマークも提供する。
論文 参考訳(メタデータ) (2023-07-31T13:08:16Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Reevaluating Adversarial Examples in Natural Language [20.14869834829091]
我々は2つの最先端の同義語代用攻撃の出力を分析した。
それらの摂動はしばしば意味論を保存せず、38%が文法的誤りを導入している。
セマンティクスと文法性を改善するために制約が調整されたことにより、攻撃の成功率は70パーセント以上低下する。
論文 参考訳(メタデータ) (2020-04-25T03:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。