論文の概要: Less Diverse, Less Safe: The Indirect But Pervasive Risk of Test-Time Scaling in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.08592v1
- Date: Sat, 04 Oct 2025 20:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.087931
- Title: Less Diverse, Less Safe: The Indirect But Pervasive Risk of Test-Time Scaling in Large Language Models
- Title(参考訳): 言語モデルにおけるテスト時間スケーリングの間接的かつ広範にわたるリスク
- Authors: Shahriar Kabir Nahin, Hadi Askari, Muhao Chen, Anshuman Chhabra,
- Abstract要約: テスト時間スケーリング(TTS)は、複数の候補応答を探索し、このセット上で最高の出力を見つけることによって、LCM推論を改善する。
本稿では、TSにおけるこの仮定が、これまで認識されていなかった障害モードを導入していることを示す。
本稿では,TSパイプラインをストレステストするための診断攻撃として,参照誘導型多様性低減プロトコル(RefDiv)を提案する。
- 参考スコア(独自算出の注目度): 29.597821689288963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-Time Scaling (TTS) improves LLM reasoning by exploring multiple candidate responses and then operating over this set to find the best output. A tacit premise behind TTS is that sufficiently diverse candidate pools enhance reliability. In this work, we show that this assumption in TTS introduces a previously unrecognized failure mode. When candidate diversity is curtailed, even by a modest amount, TTS becomes much more likely to produce unsafe outputs. We present a reference-guided diversity reduction protocol (RefDiv) that serves as a diagnostic attack to stress test TTS pipelines. Through extensive experiments across four open-source models (Qwen3, Mistral, Llama3.1, Gemma3) and two widely used TTS strategies (Monte Carlo Tree Search and Best-of-N), constraining diversity consistently signifies the rate at which TTS produces unsafe results. The effect is often stronger than that produced by prompts directly with high adversarial intent scores. This observed phenomenon also transfers across TTS strategies and to closed-source models (e.g. OpenAI o3 and Gemini-2.5-Pro), thus indicating that this is a general and extant property of TTS rather than a model-specific artifact. Additionally, we find that numerous widely used safety guardrail classifiers (e.g. Llama-Guard and OpenAI Moderation API), are unable to flag the adversarial input prompts generated by RefDiv, demonstrating that existing defenses offer limited protection against this diversity-driven failure mode. Through this work, we hope to motivate future research on designing robust TTS strategies that are both effective and secure against diversity-targeted stress tests as illustrated by RefDiv.
- Abstract(参考訳): テスト時間スケーリング(TTS)は、複数の候補応答を探索し、このセット上で最高の出力を見つけることによって、LCM推論を改善する。
TTSの背後にある暗黙の前提は、十分に多様な候補プールが信頼性を高めることである。
本稿では、TSにおけるこの仮定が、これまで認識されていなかった障害モードを導入していることを示す。
適度な量であっても、候補の多様性が制限されると、TSは安全でない出力を生成する可能性がより高くなる。
本稿では,TSパイプラインをストレステストするための診断攻撃として,参照誘導型多様性低減プロトコル(RefDiv)を提案する。
4つのオープンソースモデル(Qwen3、Mistral、Llama3.1、Gemma3)と2つの広く使われているTS戦略(Monte Carlo Tree Search、Best-of-N)の広範な実験を通じて、多様性の制約はTSが安全でない結果を生み出す速度を一貫して表している。
この効果は、しばしば高い敵意のスコアで直接プロンプトによって生成されるものよりも強い。
この現象はまた、TS戦略とクローズドソースモデル(例えば OpenAI o3 や Gemini-2.5-Pro)に転移し、モデル固有のアーティファクトではなく、TSの一般的かつ現存する性質であることを示唆している。
さらに,RefDiv が生成した敵の入力プロンプトには,多数の広く使用されている安全ガードレール分類器 (例えば Llama-Guard や OpenAI Moderation API など) が対応できないことが判明した。
この研究を通じて、RefDivが示すように、多様性を目標としたストレステストに対して効果的かつ安全である、堅牢なTS戦略を設計するための将来の研究を動機付けたい。
関連論文リスト
- Test-Time Scaling of Reasoning Models for Machine Translation [16.317481079574065]
テスト時間スケーリング(TTS)は、数学やコーディングといった様々なタスクにおける推論モデル(RM)の性能を向上させる。
本稿では,推論時間の増大により翻訳品質が向上するかどうかを考察する。
論文 参考訳(メタデータ) (2025-10-07T21:15:18Z) - Modeling the Attack: Detecting AI-Generated Text by Quantifying Adversarial Perturbations [2.7620215077666557]
現代の検出器は敵の攻撃に弱いことで知られており、パラフレーズは効果的な回避技術として際立っている。
本稿では,まず,標準的な対人訓練の限界を定量化することにより,対人的堅牢性の比較研究を行う。
次に、新しい、はるかに回復力のある検出フレームワークを紹介します。
論文 参考訳(メタデータ) (2025-09-22T13:03:53Z) - Adapt in the Wild: Test-Time Entropy Minimization with Sharpness and Feature Regularization [85.50560211492898]
テスト時適応(TTA)は、テストデータが分散シフトが混在している場合、モデルの性能を改善または損なう可能性がある。
これはしばしば、既存のTTAメソッドが現実世界にデプロイされるのを防ぐ重要な障害である。
両面からTTAを安定化させるため,SARと呼ばれる鋭く信頼性の高いエントロピー最小化手法を提案する。
論文 参考訳(メタデータ) (2025-09-05T10:03:00Z) - Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis [70.78170766633039]
我々は、MTS予測提案を確実かつ公平に評価する手段の必要性に対処する。
BasicTS+は、MTS予測ソリューションの公平で包括的で再現可能な比較を可能にするために設計されたベンチマークである。
リッチデータセットとともにBasicTS+を適用し,45 MTS以上の予測ソリューションの性能を評価する。
論文 参考訳(メタデータ) (2023-10-09T19:52:22Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Towards Stable Test-Time Adaptation in Dynamic Wild World [60.98073673220025]
テスト時間適応(TTA)は、与えられたモデルをテストサンプルに適応させることで、トレーニングとテストデータの分散シフトに取り組むのに有効であることが示されている。
TTAのオンラインモデル更新は不安定であり、これはしばしば既存のTTAメソッドが現実世界にデプロイされるのを防ぐ重要な障害である。
論文 参考訳(メタデータ) (2023-02-24T02:03:41Z) - Uncovering Adversarial Risks of Test-Time Adaptation [41.19226800089764]
テスト時間適応(TTA)は、分散シフトに対処するための有望な解決策として提案されている。
我々は、良性サンプルの予測が同一バッチ内の悪意のあるサンプルに影響される可能性があるという知見に基づいて、TTAの新たなセキュリティ脆弱性を明らかにする。
テストバッチに少数の悪意のあるデータを注入する分散侵入攻撃(DIA)を提案する。
論文 参考訳(メタデータ) (2023-01-29T22:58:05Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - Adversarial Attacks and Defense for Non-Parametric Two-Sample Tests [73.32304304788838]
本稿では,非パラメトリックTSTの障害モードを逆攻撃により系統的に明らかにする。
TST非依存的な攻撃を可能にするために,異なる種類のテスト基準を協調的に最小化するアンサンブル攻撃フレームワークを提案する。
そこで本研究では,TSTの強化のために,逆対を反復的に生成し,深層カーネルを訓練する最大最小最適化を提案する。
論文 参考訳(メタデータ) (2022-02-07T11:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。