論文の概要: The Alignment Problem in Context
- arxiv url: http://arxiv.org/abs/2311.02147v1
- Date: Fri, 3 Nov 2023 17:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 19:09:35.590492
- Title: The Alignment Problem in Context
- Title(参考訳): 文脈におけるアライメント問題
- Authors: Rapha\"el Milli\`ere
- Abstract要約: 大規模言語モデルのアライメント問題を解決するために,私たちが現在進行中であるかどうかを評価する。
大規模な言語モデルは敵の攻撃に弱いままなので、アライメントのための既存の戦略は不十分である、と私は論じます。
これは、アライメント問題は現在のAIシステムでは未解決であるだけでなく、その能力を著しく損なうことなく、本質的に解決が困難であることを示している。
- 参考スコア(独自算出の注目度): 0.05657375260432172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A core challenge in the development of increasingly capable AI systems is to
make them safe and reliable by ensuring their behaviour is consistent with
human values. This challenge, known as the alignment problem, does not merely
apply to hypothetical future AI systems that may pose catastrophic risks; it
already applies to current systems, such as large language models, whose
potential for harm is rapidly increasing. In this paper, I assess whether we
are on track to solve the alignment problem for large language models, and what
that means for the safety of future AI systems. I argue that existing
strategies for alignment are insufficient, because large language models remain
vulnerable to adversarial attacks that can reliably elicit unsafe behaviour. I
offer an explanation of this lingering vulnerability on which it is not simply
a contingent limitation of current language models, but has deep technical ties
to a crucial aspect of what makes these models useful and versatile in the
first place -- namely, their remarkable aptitude to learn "in context" directly
from user instructions. It follows that the alignment problem is not only
unsolved for current AI systems, but may be intrinsically difficult to solve
without severely undermining their capabilities. Furthermore, this assessment
raises concerns about the prospect of ensuring the safety of future and more
capable AI systems.
- Abstract(参考訳): ますます有能なAIシステムの開発における中核的な課題は、彼らの振る舞いが人間の価値観と一致していることを保証することによって、それらを安全かつ確実にすることである。
アライメント問題として知られるこの課題は、破滅的なリスクを引き起こす可能性のある仮説的な未来のAIシステムにのみ適用されない。
本稿では,大規模言語モデルのアライメント問題を解決するための軌道上にあるか,将来のAIシステムの安全性にどのような意味があるのかを評価する。
なぜなら、大きな言語モデルは、確実に安全でない振る舞いを解明できる敵の攻撃に対して脆弱であるからです。
私は、単に現在の言語モデルの断続的な制限であるだけでなく、これらのモデルを有用で汎用性のあるものにする上で重要な側面、すなわち、ユーザインストラクションから直接"コンテキスト"を学ぶという彼らの顕著な適性に深い技術的結びつきがある、というこの退屈な脆弱性について説明します。
その結果、アライメント問題は現在のAIシステムでは未解決であるだけでなく、その能力を著しく損なうことなく、本質的に解決が難しい可能性がある。
さらに、この評価は、将来的でより有能なAIシステムの安全性を確保する可能性への懸念を提起する。
関連論文リスト
- Grounding and Evaluation for Large Language Models: Practical Challenges and Lessons Learned (Survey) [16.39412083123155]
堅牢性、バイアス、セキュリティ、解釈可能性、その他の責任あるAI次元のために、AIシステムを評価し、監視することが不可欠である。
我々は,幻覚,有害かつマニピュティブなコンテンツ,著作権侵害などの新たな課題を提起する,大規模言語モデル(LLM)やその他の生成AIモデルに焦点を当てる。
論文 参考訳(メタデータ) (2024-07-10T01:23:10Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - Scalable AI Safety via Doubly-Efficient Debate [37.25328923531058]
強力な能力を持つ事前訓練されたAIシステムの出現は、AI安全性に対する重要な課題を提起している。
当初のフレームワークは、正直な戦略がAIシステムを指数関数的なステップでシミュレートできるという仮定に基づいていた。
新しいプロトコルを設計することで、これらの課題に対処する方法を示す。
論文 参考訳(メタデータ) (2023-11-23T17:46:30Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - AI Maintenance: A Robustness Perspective [91.28724422822003]
我々は、AIライフサイクルにおけるロバストネスの課題を強調し、自動車のメンテナンスに類似させることで、AIのメンテナンスを動機付ける。
本稿では,ロバストネスリスクの検出と軽減を目的としたAIモデル検査フレームワークを提案する。
我々のAIメンテナンスの提案は、AIライフサイクル全体を通して堅牢性評価、状態追跡、リスクスキャン、モデル硬化、規制を促進する。
論文 参考訳(メタデータ) (2023-01-08T15:02:38Z) - Examining the Differential Risk from High-level Artificial Intelligence
and the Question of Control [0.0]
将来のAI能力の範囲と範囲は、依然として重要な不確実性である。
AIの不透明な意思決定プロセスの統合と監視の程度には懸念がある。
本研究では、AIリスクをモデル化し、代替先分析のためのテンプレートを提供する階層的な複雑なシステムフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-06T15:46:02Z) - Mitigating Covertly Unsafe Text within Natural Language Systems [55.26364166702625]
制御されていないシステムは、怪我や致命的な結果につながるレコメンデーションを生成する。
本稿では,身体的危害につながる可能性のあるテキストのタイプを識別し,特に未発見のカテゴリを確立する。
論文 参考訳(メタデータ) (2022-10-17T17:59:49Z) - Safe AI -- How is this Possible? [0.45687771576879593]
従来の安全エンジニアリングは、決定論的で非進化的なシステムが、明確に定義されたコンテキストで運用されるものから、予測不可能な操作コンテキストで機能する自律的で学習可能なAIシステムへと、転換点に近づいている。
我々は、安全AIの基本的な課題を概説し、AIシステムの安全な振る舞いにおいて、不確実性を最小化し、信頼性を高め、許容レベルまで、厳格なエンジニアリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-25T16:32:35Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。