論文の概要: Get RICH or Die Scaling: Profitably Trading Inference Compute for Robustness
- arxiv url: http://arxiv.org/abs/2510.06790v1
- Date: Wed, 08 Oct 2025 09:18:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.382904
- Title: Get RICH or Die Scaling: Profitably Trading Inference Compute for Robustness
- Title(参考訳): Get RICH or Die Scaling: ロバストネスのための利益の高いトレーディング推論計算
- Authors: Tavish McDonald, Bo Lei, Stanislav Fort, Bhavya Kailkhura, Brian Bartoldson,
- Abstract要約: 我々は,OODデータをその内分布(ID)コンポーネントで理解可能な構成一般化により,OOD入力に対する防御仕様の遵守が可能であることを論じる。
我々は、この仮説を視覚言語モデルと攻撃型で実証的に支持し、OODデータに従う仕様がアンロックされた場合、テスト時間計算による堅牢性の向上を見出す。
この推論計算の頑健性とベースモデルの頑健性との相関は、RICHのリッチ・ゲット・リッチ・ダイナミクスである。
- 参考スコア(独自算出の注目度): 25.9448265609997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Models are susceptible to adversarially out-of-distribution (OOD) data despite large training-compute investments into their robustification. Zaremba et al. (2025) make progress on this problem at test time, showing LLM reasoning improves satisfaction of model specifications designed to thwart attacks, resulting in a correlation between reasoning effort and robustness to jailbreaks. However, this benefit of test compute fades when attackers are given access to gradients or multimodal inputs. We address this gap, clarifying that inference-compute offers benefits even in such cases. Our approach argues that compositional generalization, through which OOD data is understandable via its in-distribution (ID) components, enables adherence to defensive specifications on adversarially OOD inputs. Namely, we posit the Robustness from Inference Compute Hypothesis (RICH): inference-compute defenses profit as the model's training data better reflects the attacked data's components. We empirically support this hypothesis across vision language model and attack types, finding robustness gains from test-time compute if specification following on OOD data is unlocked by compositional generalization, while RL finetuning and protracted reasoning are not critical. For example, increasing emphasis on defensive specifications via prompting lowers the success rate of gradient-based multimodal attacks on VLMs robustified by adversarial pretraining, but this same intervention provides no such benefit to not-robustified models. This correlation of inference-compute's robustness benefit with base model robustness is the rich-get-richer dynamic of the RICH: attacked data components are more ID for robustified models, aiding compositional generalization to OOD data. Accordingly, we advise layering train-time and test-time defenses to obtain their synergistic benefit.
- Abstract(参考訳): モデルは、そのロバスト化への大規模なトレーニング・計算投資にもかかわらず、敵対的にアウト・オブ・ディストリビューション(OOD)データに影響を受けやすい。
Zaremba et al (2025)は、この問題をテスト時に進行させ、LSM推論は攻撃を阻止するために設計されたモデル仕様の満足度を改善し、その結果、推論の努力とジェイルブレイクに対する堅牢性の間に相関することを示した。
しかし、このテスト計算の利点は、攻撃者がグラデーションやマルチモーダル入力へのアクセスを与えられると消える。
このギャップに対処し、推論計算がそのような場合にも利益をもたらすことを明確にする。
提案手法は,OODデータをそのID(In-Distribution)コンポーネントで理解可能な構成一般化により,OOD入力に対する防御仕様の遵守を可能にすることを主張する。
すなわち、推論計算仮説(RICH: Inference Compute hypothesis; Inference Compute hypothesis)からロバストネスを仮定する。
我々は、この仮説を視覚言語モデルと攻撃型で実証的に支持し、OODデータに従う仕様が合成一般化によってアンロックされ、RL微調整や引き抜き推論が重要でない場合に、テスト時間計算による堅牢性の向上を見出す。
例えば、プロンプトによる防御仕様の強調は、敵の事前訓練によって強化されたVLMに対する勾配に基づくマルチモーダル攻撃の成功率を低下させるが、この同じ介入は、悪用されないモデルにそのような利点を与えない。
ベースモデルロバストネスに対する推論計算のロバスト性利点のこの相関は、RICHのリッチ・ゲット・リッチ・ダイナミクスである:攻撃されたデータコンポーネントは、ロバスト化されたモデルに対してよりIDであり、OODデータへの合成一般化を支援する。
そこで我々は,列車時とテスト時の防衛を階層化して,その相乗効果を得るよう勧める。
関連論文リスト
- MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - Defending Against Sophisticated Poisoning Attacks with RL-based Aggregation in Federated Learning [12.352511156767338]
フェデレート学習は、毒殺攻撃のモデル化に非常に影響を受けやすい。
本稿では,RLに基づくアダプティブアグリゲーション手法であるAdaAggRLを提案する。
4つの実世界のデータセットの実験により、提案された防衛モデルは高度な攻撃に対して広く採用されている防衛モデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-06-20T11:33:14Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z) - Mitigating the Impact of Adversarial Attacks in Very Deep Networks [10.555822166916705]
Deep Neural Network (DNN)モデルにはセキュリティに関する脆弱性がある。
データ中毒による摂動攻撃は、モデルに偽データを注入する複雑な敵対攻撃である。
そこで本研究では,攻撃に依存しない防御手法を提案する。
論文 参考訳(メタデータ) (2020-12-08T21:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。