論文の概要: Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives
- arxiv url: http://arxiv.org/abs/2502.11910v2
- Date: Fri, 21 Feb 2025 14:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 12:50:03.743267
- Title: Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives
- Title(参考訳): LLMの逆アライメントは、よりシンプルで再現可能で、より測定可能な対象を必要とする
- Authors: Leo Schwinn, Yan Scholten, Tom Wollschläger, Sophie Xhonneux, Stephen Casper, Stephan Günnemann, Gauthier Gidel,
- Abstract要約: 相反する研究目的は、過去10年間に敵対的堅牢性研究の進展を妨げてきた。
我々は、対立するアライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
- 参考スコア(独自算出の注目度): 52.863024096759816
- License:
- Abstract: Misaligned research objectives have considerably hindered progress in adversarial robustness research over the past decade. For instance, an extensive focus on optimizing target metrics, while neglecting rigorous standardized evaluation, has led researchers to pursue ad-hoc heuristic defenses that were seemingly effective. Yet, most of these were exposed as flawed by subsequent evaluations, ultimately contributing little measurable progress to the field. In this position paper, we illustrate that current research on the robustness of large language models (LLMs) risks repeating past patterns with potentially worsened real-world implications. To address this, we argue that realigned objectives are necessary for meaningful progress in adversarial alignment. To this end, we build on established cybersecurity taxonomy to formally define differences between past and emerging threat models that apply to LLMs. Using this framework, we illustrate that progress requires disentangling adversarial alignment into addressable sub-problems and returning to core academic principles, such as measureability, reproducibility, and comparability. Although the field presents significant challenges, the fresh start on adversarial robustness offers the unique opportunity to build on past experience while avoiding previous mistakes.
- Abstract(参考訳): 相反する研究目的は、過去10年間の敵の堅牢性研究の進歩を著しく妨げている。
例えば、厳格な標準化された評価を無視しながら、ターゲットメトリクスの最適化に広範囲の焦点が当てられ、研究者は、一見効果があると思われるアドホックなヒューリスティックな防御を追求した。
しかし、これらの多くはその後の評価に欠陥があるとして暴露され、最終的にこの分野にはほとんど測定不可能な進展をもたらした。
本稿では,大規模言語モデル (LLM) のロバスト性に関する最近の研究が,過去のパターンを再現し,現実世界に悪影響を及ぼす可能性があることを述べる。
この問題に対処するためには、対立的アライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
この目的のために、我々は、LLMに適用される過去と新興の脅威モデルの違いを正式に定義するために、確立されたサイバーセキュリティ分類に基づいて構築する。
この枠組みを用いることで、進行には対処可能なサブプロブレムへの敵対的アライメントを遠ざけ、測定可能性、再現性、コンパラビリティといった中核的な学説に戻す必要があることを示す。
フィールドには大きな課題があるが、敵の堅牢性に対する新たなスタートは、過去の過ちを回避しつつ、過去の経験に基づいて構築するユニークな機会を提供する。
関連論文リスト
- Deception in LLMs: Self-Preservation and Autonomous Goals in Large Language Models [0.0]
大規模言語モデルの最近の進歩には、計画と推論能力が組み込まれている。
これにより、数学的および論理的タスクにおける誤りを低減し、精度を向上した。
本研究では,OpenAIのo1に似た推論トークンを出力するモデルであるDeepSeek R1について検討した。
論文 参考訳(メタデータ) (2025-01-27T21:26:37Z) - Tougher Text, Smarter Models: Raising the Bar for Adversarial Defence Benchmarks [18.565448090184]
我々のベンチマークでは、幅広いデータセットを取り入れ、最先端の防御メカニズムを評価し、重要なタスクを含むように評価を拡張している。
この領域でベンチマークを行うための新しい標準を確立することで、より堅牢で信頼性の高い自然言語処理システムへの進歩を加速することを目指している。
論文 参考訳(メタデータ) (2025-01-05T20:39:52Z) - Toward Robust RALMs: Revealing the Impact of Imperfect Retrieval on Retrieval-Augmented Language Models [5.10832476049103]
提案手法では,ALMを実世界の実例と混同しうるシナリオを3つ同定する。
我々は,新たな敵攻撃法,生成モデルに基づくADVersarial attack (GenADV) と,付加文書(RAD)に基づく新しい計量ロバストネスを提案する。
以上の結果から,ALMは文書集合の未解決性や矛盾を識別できないことが多く,幻覚につながることが多かった。
論文 参考訳(メタデータ) (2024-10-19T13:40:33Z) - Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。
継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - A Survey of Confidence Estimation and Calibration in Large Language Models [86.692994151323]
大規模言語モデル(LLM)は、様々な領域において幅広いタスクにまたがる顕著な機能を示している。
印象的なパフォーマンスにもかかわらず、彼らは世代内の事実上の誤りのために信頼できない。
信頼度を評価し、異なるタスクで調整することで、リスクを軽減し、LLMがより良い世代を創出できるようになります。
論文 参考訳(メタデータ) (2023-11-14T16:43:29Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z) - Large Language Model Alignment: A Survey [42.03229317132863]
大きな言語モデル(LLM)の潜在能力は疑いようもなく大きいが、不正確、誤解を招く、あるいは有害なテキストを生成できる。
この調査は、LLM向けに設計されたアライメント方法論を広範囲に探究する試みである。
また、モデルの解釈可能性や、敵の攻撃に対する潜在的な脆弱性など、健全な問題を調査します。
論文 参考訳(メタデータ) (2023-09-26T15:49:23Z) - From Instructions to Intrinsic Human Values -- A Survey of Alignment
Goals for Big Models [48.326660953180145]
既存の作業におけるさまざまなアライメント目標の調査を行い、その進化経路を辿り、最も重要な目標を特定するのに役立ちます。
分析の結果,基本能力から価値指向への目標転換が明らかとなり,拡張LDMのアライメント目標として本質的な人的価値の可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-23T09:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。