論文の概要: Deceptive Alignment Monitoring
- arxiv url: http://arxiv.org/abs/2307.10569v1
- Date: Thu, 20 Jul 2023 04:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 14:47:31.844277
- Title: Deceptive Alignment Monitoring
- Title(参考訳): 知覚的アライメントモニタリング
- Authors: Andres Carranza, Dhruv Pai, Rylan Schaeffer, Arnuv Tandon, Sanmi
Koyejo
- Abstract要約: 様々な機械学習サブフィールドの出現方向を識別し, 近い将来, 知覚的アライメントモニタリングの分野において, ますます重要になり, 絡み合うようになる。
我々は、これらの新たな方向性に敵対的機械学習コミュニティがより深く関与することを主張することで、結論づける。
- 参考スコア(独自算出の注目度): 9.025997629442896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the capabilities of large machine learning models continue to grow, and as
the autonomy afforded to such models continues to expand, the spectre of a new
adversary looms: the models themselves. The threat that a model might behave in
a seemingly reasonable manner, while secretly and subtly modifying its behavior
for ulterior reasons is often referred to as deceptive alignment in the AI
Safety & Alignment communities. Consequently, we call this new direction
Deceptive Alignment Monitoring. In this work, we identify emerging directions
in diverse machine learning subfields that we believe will become increasingly
important and intertwined in the near future for deceptive alignment
monitoring, and we argue that advances in these fields present both long-term
challenges and new research opportunities. We conclude by advocating for
greater involvement by the adversarial machine learning community in these
emerging directions.
- Abstract(参考訳): 大規模な機械学習モデルの能力が拡大し続け、そのようなモデルに与えられる自律性が拡大するにつれて、新しい敵の織機(モデルそのもの)が見えてくる。
モデルが一見合理的に振る舞うという脅威は、内密かつ微妙にその振る舞いを操作上の理由から修正する一方で、AIセーフティ&アライメントのコミュニティにおいて、詐欺的アライメントと呼ばれることが多い。
したがって、この新たな方向を認知アライメントモニタリングと呼ぶ。
そこで本研究では,近未来にますます重要となり,相互に絡み合うであろう,多様な機械学習サブフィールドにおける新たな方向性を特定し,これらの分野における進歩は,長期的な課題と新たな研究機会の両方をもたらすと論じる。
我々は、これらの新興方向への敵対的機械学習コミュニティのさらなる関与を提唱することで、結論付ける。
関連論文リスト
- Enhancing Generative Class Incremental Learning Performance with Model Forgetting Approach [50.36650300087987]
本研究は, ジェネレーティブ・クラス・インクリメンタル・ラーニング(GCIL, Generative Class Incremental Learning)への新たなアプローチを提案する。
我々は, 忘れる機構の統合により, 新たな知識獲得におけるモデルの性能が著しく向上することを発見した。
論文 参考訳(メタデータ) (2024-03-27T05:10:38Z) - On the Essence and Prospect: An Investigation of Alignment Approaches
for Big Models [77.86952307745763]
ビッグデータはAIの分野で画期的なブレークスルーを達成したが、潜在的な懸念を生じさせるかもしれない。
このような懸念に対処するため、これらのモデルを人間の嗜好や価値観に適合させるアライメント技術が導入された。
過去1年間にかなりの進歩があったにもかかわらず、最適アライメント戦略の確立には様々な課題がある。
論文 参考訳(メタデータ) (2024-03-07T04:19:13Z) - On the Challenges and Opportunities in Generative AI [135.2754367149689]
現在の大規模生成AIモデルは、ドメイン間で広く採用されるのを妨げるいくつかの基本的な問題に十分対応していない、と我々は主張する。
本研究は、現代の生成型AIパラダイムにおける重要な未解決課題を特定し、その能力、汎用性、信頼性をさらに向上するために取り組まなければならない。
論文 参考訳(メタデータ) (2024-02-28T15:19:33Z) - On the Resurgence of Recurrent Models for Long Sequences -- Survey and
Research Opportunities in the Transformer Era [59.279784235147254]
この調査は、Recurrenceの統一の傘の下に構築されたこれらのトレンドの概要を提供することを目的としている。
長いシーケンスを処理するという考え方を捨てる際に顕著になる新しい研究機会を強調している。
論文 参考訳(メタデータ) (2024-02-12T23:55:55Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Revisiting Supervision for Continual Representation Learning [1.0030878538350796]
本研究では,連続表現学習における教師の役割を再検討する。
多層パーセプトロンヘッドで強化された教師付きモデルは、連続表現学習において自己教師付きモデルより優れていることを示す。
このことは、連続学習における一連のタスクにまたがる特徴伝達可能性を形成する上で、多層パーセプトロンプロジェクタの重要性を強調している。
論文 参考訳(メタデータ) (2023-11-22T11:24:04Z) - A Survey on Transferability of Adversarial Examples across Deep Neural Networks [53.04734042366312]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性により、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃が可能となる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - Reinforcement Learning for Generative AI: A Survey [40.21640713844257]
この調査は、さまざまなアプリケーション領域にまたがるハイレベルなレビューに光を当てることを目的としています。
この領域では厳格な分類法を提供し、様々なモデルや応用について十分なカバレッジを提供している。
この調査は、現在のモデルの限界に対処し、生成AIのフロンティアを拡大する可能性のある潜在的方向を示すことで締めくくられる。
論文 参考訳(メタデータ) (2023-08-28T06:15:14Z) - On robustness of generative representations against catastrophic
forgetting [17.467589890017123]
新しいタスクを学習しながら学習した知識を破滅的に忘れることは、現代のニューラルネットワークの限界として広く観察されている。
本研究では,ニューラルモデルにより内部に構築された表現の特異性に関する一連の研究仮説をポーズし,検証することにより,この問題に対処することを目的とする。
識別モデルにより学習された表現は、その生成モデルよりも破滅的な忘れがちであり、連続学習のための生成モデルを開発する利点に新たな光を当てている。
論文 参考訳(メタデータ) (2021-09-04T11:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。