論文の概要: Trading Inference-Time Compute for Adversarial Robustness
- arxiv url: http://arxiv.org/abs/2501.18841v1
- Date: Fri, 31 Jan 2025 01:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:02:09.426470
- Title: Trading Inference-Time Compute for Adversarial Robustness
- Title(参考訳): 逆ロバスト性のためのトレーディング推論時間計算
- Authors: Wojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, Amelia Glaese,
- Abstract要約: 我々は、推論モデルにおける推論時間計算の増加が敵攻撃に対する堅牢性に与える影響について実験を行った。
さまざまな攻撃において、推論時間の増大はロバスト性の向上につながることが分かっています。
- 参考スコア(独自算出の注目度): 27.514612815314084
- License:
- Abstract: We conduct experiments on the impact of increasing inference-time compute in reasoning models (specifically OpenAI o1-preview and o1-mini) on their robustness to adversarial attacks. We find that across a variety of attacks, increased inference-time compute leads to improved robustness. In many cases (with important exceptions), the fraction of model samples where the attack succeeds tends to zero as the amount of test-time compute grows. We perform no adversarial training for the tasks we study, and we increase inference-time compute by simply allowing the models to spend more compute on reasoning, independently of the form of attack. Our results suggest that inference-time compute has the potential to improve adversarial robustness for Large Language Models. We also explore new attacks directed at reasoning models, as well as settings where inference-time compute does not improve reliability, and speculate on the reasons for these as well as ways to address them.
- Abstract(参考訳): 推論モデル(特にOpenAI o1-previewとo1-mini)における推論時間計算の増加が敵攻撃に対する堅牢性に与える影響について実験を行った。
さまざまな攻撃において、推論時間の増大はロバスト性の向上につながることが分かっています。
多くの場合(重要な例外を除いて)、攻撃が成功するモデルサンプルの比率は、テスト時間計算の量が増加するにつれてゼロになる傾向にある。
我々は、学習するタスクに対して敵の訓練を行わず、攻撃形態とは無関係に、モデルが推論により多くの計算を使えるようにすることで、推論時間の計算量を増やします。
この結果から,推論時間計算は,大規模言語モデルに対する対角的堅牢性を向上させる可能性が示唆された。
また、推論モデルに向けられた新たな攻撃や、推論時間計算が信頼性を向上しないような設定についても検討し、その理由や対処方法について推測する。
関連論文リスト
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - A Cost-Aware Approach to Adversarial Robustness in Neural Networks [1.622320874892682]
本稿では,ハードウェア選択,バッチサイズ,エポック数,テストセット精度の影響を測定するために,高速化された故障時間モデルを提案する。
我々は、複数のGPUタイプを評価し、モデルの堅牢性を最大化し、モデル実行時間を同時に最小化するためにTree Parzen Estimatorを使用します。
論文 参考訳(メタデータ) (2024-09-11T20:43:59Z) - Adversarial Fine-tuning of Compressed Neural Networks for Joint Improvement of Robustness and Efficiency [3.3490724063380215]
アドリラルトレーニングは、より堅牢なモデルをもたらすことができる緩和戦略として提示されている。
本稿では,2つの異なるモデル圧縮手法(構造的重み打ち法と量子化法)が対向ロバスト性に及ぼす影響について検討する。
本研究では, 圧縮モデルの逆方向微調整により, 対向訓練モデルに匹敵する強靭性性能が得られることを示す。
論文 参考訳(メタデータ) (2024-03-14T14:34:25Z) - A Training Rate and Survival Heuristic for Inference and Robustness Evaluation (TRASHFIRE) [1.622320874892682]
この研究は、特定のモデルハイパーパラメータが、相手の存在下でモデルの性能にどのように影響するかを理解し予測する問題に対処する。
提案手法では、サバイバルモデル、最悪の例、コスト認識分析を用いて、特定のモデル変更を正確かつ正確に拒否する。
提案手法を用いて、最も単純なホワイトボックス攻撃に対して、ResNetは絶望的に反対であることを示す。
論文 参考訳(メタデータ) (2024-01-24T19:12:37Z) - Re-thinking Data Availablity Attacks Against Deep Neural Networks [53.64624167867274]
本稿では、未学習例の概念を再検討し、既存のロバストな誤り最小化ノイズが不正確な最適化目標であることを示す。
本稿では,計算時間要件の低減による保護性能の向上を図った新しい最適化パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-18T04:03:51Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - Enhanced Membership Inference Attacks against Machine Learning Models [9.26208227402571]
メンバーシップ推論攻撃は、モデルがトレーニングセット内の個々のデータポイントについてリークする個人情報の定量化に使用される。
我々は,AUCスコアを高い精度で達成できる新たな攻撃アルゴリズムを導き,その性能に影響を及ぼすさまざまな要因を強調した。
我々のアルゴリズムは、モデルにおけるプライバシ損失の極めて正確な近似を捉え、機械学習モデルにおけるプライバシリスクの正確かつ詳細な推定を行うためのツールとして使用することができる。
論文 参考訳(メタデータ) (2021-11-18T13:31:22Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z) - Causal Modeling with Stochastic Confounders [11.881081802491183]
この作業は、共同設立者との因果推論を拡張します。
本稿では,ランダムな入力空間を持つ表現子定理に基づく因果推論のための変分推定手法を提案する。
論文 参考訳(メタデータ) (2020-04-24T00:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。