論文の概要: Uncovering Deceptive Tendencies in Language Models: A Simulated Company AI Assistant
- arxiv url: http://arxiv.org/abs/2405.01576v1
- Date: Thu, 25 Apr 2024 17:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-12 16:10:01.571005
- Title: Uncovering Deceptive Tendencies in Language Models: A Simulated Company AI Assistant
- Title(参考訳): 言語モデルにおける知覚的傾向を明らかにする - 企業AIアシスタントのシミュレーション
- Authors: Olli Järviniemi, Evan Hubinger,
- Abstract要約: 本稿では,企業AIアシスタントの現実的なシミュレーション環境を構築することで,AIシステムが騙される傾向について考察する。
モデルに指示を与えないよう注意したり、そうするよう圧力をかけたりしながら、モデルを欺くように振る舞う傾向のある状況を紹介します。
私たちの研究は、トレーニングされたモデルでさえ、現実的なシナリオでは、時には無害で正直に振る舞うことができ、外部からのプレッシャーが目立ってないことを示しています。
- 参考スコア(独自算出の注目度): 0.7856916351510368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the tendency of AI systems to deceive by constructing a realistic simulation setting of a company AI assistant. The simulated company employees provide tasks for the assistant to complete, these tasks spanning writing assistance, information retrieval and programming. We then introduce situations where the model might be inclined to behave deceptively, while taking care to not instruct or otherwise pressure the model to do so. Across different scenarios, we find that Claude 3 Opus 1) complies with a task of mass-generating comments to influence public perception of the company, later deceiving humans about it having done so, 2) lies to auditors when asked questions, and 3) strategically pretends to be less capable than it is during capability evaluations. Our work demonstrates that even models trained to be helpful, harmless and honest sometimes behave deceptively in realistic scenarios, without notable external pressure to do so.
- Abstract(参考訳): 本稿では,企業AIアシスタントの現実的なシミュレーション環境を構築することで,AIシステムが騙される傾向について考察する。
シミュレーションされた会社の従業員は、アシスタントが完了するためのタスクを提供し、これらのタスクは、執筆支援、情報検索、およびプログラミングにまたがる。
次に、モデルを指示しない、あるいはそのように圧力をかけないように注意しながら、モデルを欺くように振る舞う傾向のある状況を紹介します。
さまざまなシナリオにおいて、Claude 3 Opus 1)は、企業の一般大衆の認識に影響を与えるために、コメントを大量生成するタスクに適合し、後にそれを人間に認識させる、2)質問時に監査人に嘘をつく、3)能力評価の間よりも能力が低いという戦略的ふりをする、ということが分かりました。
私たちの研究は、トレーニングされたモデルでさえ、現実的なシナリオでは、時には無害で正直に振る舞うことができ、外部からのプレッシャーが目立ってないことを示しています。
関連論文リスト
- Learning the Generalizable Manipulation Skills on Soft-body Tasks via Guided Self-attention Behavior Cloning Policy [9.345203561496552]
GP2E行動クローニングポリシーは、ソフトボディタスクから汎用的な操作スキルを学ぶためのエージェントを誘導することができる。
本研究は,Embodied AIモデルの一般化能力を向上する手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-10-08T07:31:10Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - Social Contract AI: Aligning AI Assistants with Implicit Group Norms [37.68821926786935]
我々は、観察されたインタラクションからユーザの(未知の)好みのモデルを反転させることで、AIアシスタントを整列させるアイデアを探求する。
本研究は,ユーザの嗜好をシミュレートされたプレイヤーの行動を導くポリシーとして定式化し,概念実証シミュレーションを行う。
論文 参考訳(メタデータ) (2023-10-26T20:27:03Z) - Generative Models as a Complex Systems Science: How can we make sense of
large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。
言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文 参考訳(メタデータ) (2023-07-31T22:58:41Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Planning for Learning Object Properties [117.27898922118946]
我々は、物体特性を象徴的な計画問題として認識するために、ニューラルネットワークを自動的に訓練する問題を定式化する。
トレーニングデータセット作成と学習プロセスを自動化するための戦略を作成するために,計画手法を使用します。
シミュレーションと実環境の両方で実験的な評価を行う。
論文 参考訳(メタデータ) (2023-01-15T09:37:55Z) - Explainability Via Causal Self-Talk [9.149689942389923]
AIシステムの振る舞いを説明することは、実際には一般的に避けられる重要な問題である。
私たちは、すべてのデシダータを満たす効果的な方法を説明します。AIシステムをトレーニングして、それ自体の因果モデルを構築します。
この手法をシミュレーションした3次元環境に実装し、エージェントが忠実で意味論的に意味のある説明を生成する方法を示す。
論文 参考訳(メタデータ) (2022-11-17T23:17:01Z) - Probing Emergent Semantics in Predictive Agents via Question Answering [29.123837711842995]
近年の研究では、予測モデリングがエージェントに周囲の知識を豊富に与え、複雑な環境での行動能力を向上させる方法が示されている。
本稿では,そのようなエージェントがモデルを開発する表現をデコードし,理解するための一般的なパラダイムとして,質問応答を提案する。
質問応答デコーダからエージェントへの勾配をバックプロパゲートすることなく、それらの内部状態表現を合成的(英語)質問で探索する。
論文 参考訳(メタデータ) (2020-06-01T15:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。