論文の概要: When Do LLM Agents Treat Surface Noise Differently from Semantic Noise? A 68-Cell Measurement Study with a Held-Out Trace-Level Validation
- arxiv url: http://arxiv.org/abs/2605.25981v2
- Date: Tue, 26 May 2026 13:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.176114
- Title: When Do LLM Agents Treat Surface Noise Differently from Semantic Noise? A 68-Cell Measurement Study with a Held-Out Trace-Level Validation
- Title(参考訳): LLMエージェントはセマンティックノイズと異なる表面ノイズを処理しているか? -Held-Out Trace-Level Validationを用いた68セル測定-
- Authors: Liyun Zhang, Jiayi Guo,
- Abstract要約: 10大言語モデルによって駆動されるチェーン・オブ・シンクとReActエージェントに経験的現象を記述した。
平均的な摂動は、同等の厳しさのプレゼンテーション摂動よりも、最終的な答えを頻繁に変更する。
- 参考スコア(独自算出の注目度): 9.055086193088083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We document an empirical phenomenon in chain-of-thought and ReAct agents driven by ten large language models from seven architecture families: meaning-bearing perturbations (e.g., paraphrase, synonym) alter final answers more often than presentation perturbations (e.g., formatting, reordering) of comparable severity. Across 68 cells spanning GSM8K, MATH, and HotpotQA (1,530 originals and $\sim$11,150 variants), the inconsistency gap averages +19.69 pp after severity matching (paired $t=9.58$, $p<0.0001$), with 64/68 cells positive. The gap survives four severity-proxy audits and remains significant when excluding qwen models (+11.10 pp, $p<0.0001$). Several stress tests fail honestly: cluster-bootstrap significance disappears under stricter assumptions, tractability contrasts do not replicate, cross-architecture generator swaps break per-cell rankings, and a second LLM judge yields only moderate agreement ($κ=0.50$). We then validate the headline effect on a fully held-out 11th model (qwen2.5-14B-Instruct; 1,800 trajectories) and re-test a pre-registered capability$\times$tractability partition, observing a small but positive held-out effect (3/4 cells positive; pooled Welch $t=3.81$, $p=9.6\times10^{-4}$). Using held-out trajectories, we probe four trace-level mechanism signals. Two prior mechanism claims fail to replicate and are explicitly retracted. Two new probes instead support a \emph{stealth-divergence} picture: semantic perturbations often preserve the first action but induce divergence in intermediate reasoning from later steps onward, accompanied by slightly deeper trajectories. We position this as a measurement contribution with held-out replication and a partial trace-level account of how semantic perturbations propagate through agent reasoning. Code, perturbation corpus, raw trajectories, and analysis scripts are released anonymously for review.
- Abstract(参考訳): 我々は,7つのアーキテクチャファミリーから10の大規模言語モデルによって駆動されるチェーン・オブ・シンセサイザーとReActエージェントの実証的な現象を文書化する: 意味を持つ摂動(eg,パラフレーズ,同義語)は,同等の重度を示す表現摂動(eg,フォーマッティング,リオーダー)よりも頻繁に最終回答を変更する。
GSM8K、MATH、HotpotQAにまたがる68の細胞(1,530のオリジナルと$\sim$11,150の変種)は、重度マッチング(paired $t=9.58$, $p<0.0001$)で64/68の細胞が陽性である。
このギャップは4つの重度プロキシ監査を生き残っており、qwenモデル(+11.10 pp, $p<0.0001$)を除いても重要なものである。
クラスタブートストラップの重要度は厳密な仮定の下で消失し、トラクタビリティコントラストは複製されず、クロスアーキテクチャジェネレータはセル毎のランキングをスワップし、第2のLCM判事は適度な合意しか得られない(κ=0.50$)。
次に、完全に保持された11番目のモデル(qwen2.5-14B-Instruct; 1,800 trajectories)の見出し効果を検証し、事前登録された機能$\times$tractability partitionを再テストし、小さなが正のホールドアウト効果(3/4セル、プールされたウェルチ$t=3.81$、$p=9.6\times10^{-4}$)を観察する。
ホールドアウトトラジェクトリを用いて4つのトレースレベルメカニズム信号を探索する。
以前の2つのメカニズムは複製に失敗し、明示的に取り除かれる。
セマンティックな摂動はしばしば最初の行動を保存するが、後続のステップから少し深い軌道を伴う中間的推論において分岐を誘導する。
我々はこれを、保持された複製と、エージェント推論を通して意味的摂動がどのように伝播するかの部分的トレースレベルの説明による測定貢献として位置付ける。
コード、摂動コーパス、生の軌跡、分析スクリプトは、匿名でレビューのためにリリースされている。
関連論文リスト
- BiAxisAudit: A Novel Framework to Evaluate LLM Bias Across Prompt Sensitivity and Response-Layer Divergence [22.315546054051143]
大規模言語モデルのバイアス監査は、EU AI Actなどのガバナンスフレームワーク内で運用されている。
このプロトコルでは、各バイアススコアを2つの軸上での信頼性推定とともに報告する。
論文 参考訳(メタデータ) (2026-05-09T16:26:49Z) - Concepts Whisper While Syntax Shouts: Spectral Anti-Concentration and the Dual Geometry of Transformer Representations [0.0]
5つのアーキテクチャファミリにまたがる残留ストリーム差分ベクトルでは,反集束が観察される。
その結果、コンテクスト化された処理中に意味内容をスペクトル的に静かな領域に回転させることが示唆された。
論文 参考訳(メタデータ) (2026-05-02T21:20:55Z) - When Agents Look the Same: Quantifying Distillation-Induced Similarity in Tool-Use Behaviors [66.18091962164219]
既存のメトリクスは、タスクの成功に必要な義務的な振る舞いと、モデルの自律的な嗜好を反映した命令的でないパターンを区別することができない。
言語アライメントのための textbfResponse Pattern similarity (RPS) と、有向グラフとしてモデル化されたツール使用習慣のための textbfAction Graph similarity (AGS) である。
論文 参考訳(メタデータ) (2026-04-23T03:48:56Z) - One Token Away from Collapse: The Fragility of Instruction-Tuned Helpfulness [12.183451602438753]
単純な語彙制約(句読解文字または共通単語の禁止)により、命令調整されたLLMが応答を崩壊させることを示す。
ベースモデルでは,同じ制約の下で,小さな,騒々しい,双方向的な効果を伴って,体系的な崩壊を示さないことを示す。
論文 参考訳(メタデータ) (2026-04-14T17:40:01Z) - Tight Convergence Rates for Online Distributed Linear Estimation with Adversarial Measurements [66.94250413799232]
分散パラメータ-サーバ-ワーカー設定における乱数ベクトル$X$の推定について検討する。
主な課題は、敵の計測と非同期である。
その結果, 分散線形推定におけるロバスト性, 識別性, 統計的効率の統一的有限時間評価が得られた。
論文 参考訳(メタデータ) (2026-04-07T11:45:55Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Semantic Gravity Wells: Why Negative Constraints Backfire [0.0]
負の制約("Do not use word X"という形式の命令)は、大きな言語モデルにおける命令追従能力の基本的なテストである。
本稿では, 負の命令失敗を総合的に調査する。
論文 参考訳(メタデータ) (2026-01-12T23:30:18Z) - SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents [52.20768003832476]
我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
論文 参考訳(メタデータ) (2025-11-26T01:28:22Z) - Latency and Ordering Effects in Online Decisions [0.0]
オンライン意思決定システムは遅延フィードバックと順序に敏感なダイナミクスの下で動作している。
ヘテロジニアスレイテンシ、非可換性、実装ギャップ効果を1つの下界ステートメントにパッケージ化する。
論文 参考訳(メタデータ) (2025-11-17T07:08:05Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - Clustered Switchback Designs for Experimentation Under Spatio-temporal Interference [44.644520116360106]
我々は, 平均治療効果 (GATE) を推定し, 全単位を常に治療やコントロールに曝露した平均結果の差を推定した。
そこで我々は,単位をクラスタにグループ化し,時間ステップをブロックにグループ化する,クラスタ化されたスイッチバック設計を提案する。
良好なクラスタリングを許容するグラフに対して, トラッピングされたHorvitz-Thompson推定器が$tilde O(1/NT)$平均二乗誤差(MSE)を達成することを示す。
我々の結果は、citethu2022switchback、ugander2013graph、citetleung2022rateの結果を同時に一般化する。
論文 参考訳(メタデータ) (2023-12-25T01:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。