論文の概要: Unifying Adversarial Robustness and Training Across Text Scoring Models
- arxiv url: http://arxiv.org/abs/2602.00857v1
- Date: Sat, 31 Jan 2026 18:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.437749
- Title: Unifying Adversarial Robustness and Training Across Text Scoring Models
- Title(参考訳): テキストスコーリングモデルにおける対向ロバスト性とトレーニングの統一
- Authors: Manveer Singh Tamber, Hosna Oyarhoseini, Jimmy Lin,
- Abstract要約: 言語モデルにおける敵対的堅牢性の研究は、現在、アプリケーションとアタックの間で断片化されている。
本稿では,高密度検索器,リランカ,報酬モデルにまたがるテキストスコアリングモデルにおいて,対向的堅牢性の研究を統合することを提案する。
- 参考スコア(独自算出の注目度): 43.70128463554434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on adversarial robustness in language models is currently fragmented across applications and attacks, obscuring shared vulnerabilities. In this work, we propose unifying the study of adversarial robustness in text scoring models spanning dense retrievers, rerankers, and reward models. This motivates adapting both attacks and adversarial training methods across model roles. Unlike open-ended generation, text scoring failures are directly testable: an attack succeeds when an irrelevant or rejected text outscores a relevant or chosen one. Using this principled lens of text scoring, we demonstrate that current adversarial training formulations for language models are often short-sighted, failing to effectively generalize across attacks. To address this, we introduce multiple adversarial training methods for text scoring models and show that combining complementary training methods can yield strong robustness while also improving task effectiveness. We also highlight the practical value of our approach for RLHF, showing that our adversarially trained reward models mitigate reward hacking and support the training of better-aligned LLMs. We provide our code and models for further study.
- Abstract(参考訳): 言語モデルにおける敵対的堅牢性の研究は、現在、アプリケーションとアタックの間で断片化されており、共有脆弱性を隠蔽している。
本研究では,高密度検索器,リランカ,報酬モデルにまたがるテキストスコアリングモデルにおいて,敵対的ロバスト性の研究を統合することを提案する。
これは、モデルロール間の攻撃と敵の訓練方法の両方を適応させることを動機付けている。
オープンエンド生成とは異なり、テキストスコアリングの失敗は直接テスト可能である。
テキストスコアリングのこの原理を用いて、言語モデルに対する現在の敵対的トレーニングの定式化は、しばしば近視であり、攻撃を効果的に一般化することができないことを実証する。
そこで本研究では,テキストスコアリングモデルの複数の対角的トレーニング手法を導入し,相補的なトレーニング手法を組み合わせることで,高い堅牢性が得られるとともに,タスクの有効性も向上することを示す。
我々はまた、RLHFに対する我々のアプローチの実践的価値を強調し、我々の敵対的に訓練された報酬モデルが報酬のハッキングを軽減し、より整合したLLMのトレーニングを支援することを示す。
さらなる研究のために、コードとモデルを提供しています。
関連論文リスト
- Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Large Language Models Are Better Adversaries: Exploring Generative
Clean-Label Backdoor Attacks Against Text Classifiers [25.94356063000699]
バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。
我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。
私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。
論文 参考訳(メタデータ) (2023-10-28T06:11:07Z) - SCAT: Robust Self-supervised Contrastive Learning via Adversarial
Training for Text Classification [15.932462099791307]
SCAT (Self-supervised Contrastive Learning via Adversarial Training) と呼ばれる新しい学習フレームワークを提案する。
SCATは、データのランダムな拡張をラベルのない方法で修正し、敵の例を生成する。
以上の結果から,SCATはスクラッチから頑健な言語モデルを訓練できるだけでなく,既存の事前学習言語モデルの堅牢性を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-07-04T05:41:31Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Self-Supervised Contrastive Learning with Adversarial Perturbations for
Robust Pretrained Language Models [18.726529370845256]
本稿では,単語置換に基づく攻撃に対する事前学習型言語モデルBERTの堅牢性を改善する。
また,BERTにおける単語レベルの対人訓練のための対人攻撃も作成する。
論文 参考訳(メタデータ) (2021-07-15T21:03:34Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。