論文の概要: Uncovering Deceptive Tendencies in Language Models: A Simulated Company AI Assistant
- arxiv url: http://arxiv.org/abs/2405.01576v1
- Date: Thu, 25 Apr 2024 17:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-12 16:10:01.571005
- Title: Uncovering Deceptive Tendencies in Language Models: A Simulated Company AI Assistant
- Title(参考訳): 言語モデルにおける知覚的傾向を明らかにする - 企業AIアシスタントのシミュレーション
- Authors: Olli Järviniemi, Evan Hubinger,
- Abstract要約: 本稿では,企業AIアシスタントの現実的なシミュレーション環境を構築することで,AIシステムが騙される傾向について考察する。
モデルに指示を与えないよう注意したり、そうするよう圧力をかけたりしながら、モデルを欺くように振る舞う傾向のある状況を紹介します。
私たちの研究は、トレーニングされたモデルでさえ、現実的なシナリオでは、時には無害で正直に振る舞うことができ、外部からのプレッシャーが目立ってないことを示しています。
- 参考スコア(独自算出の注目度): 0.7856916351510368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the tendency of AI systems to deceive by constructing a realistic simulation setting of a company AI assistant. The simulated company employees provide tasks for the assistant to complete, these tasks spanning writing assistance, information retrieval and programming. We then introduce situations where the model might be inclined to behave deceptively, while taking care to not instruct or otherwise pressure the model to do so. Across different scenarios, we find that Claude 3 Opus 1) complies with a task of mass-generating comments to influence public perception of the company, later deceiving humans about it having done so, 2) lies to auditors when asked questions, and 3) strategically pretends to be less capable than it is during capability evaluations. Our work demonstrates that even models trained to be helpful, harmless and honest sometimes behave deceptively in realistic scenarios, without notable external pressure to do so.
- Abstract(参考訳): 本稿では,企業AIアシスタントの現実的なシミュレーション環境を構築することで,AIシステムが騙される傾向について考察する。
シミュレーションされた会社の従業員は、アシスタントが完了するためのタスクを提供し、これらのタスクは、執筆支援、情報検索、およびプログラミングにまたがる。
次に、モデルを指示しない、あるいはそのように圧力をかけないように注意しながら、モデルを欺くように振る舞う傾向のある状況を紹介します。
さまざまなシナリオにおいて、Claude 3 Opus 1)は、企業の一般大衆の認識に影響を与えるために、コメントを大量生成するタスクに適合し、後にそれを人間に認識させる、2)質問時に監査人に嘘をつく、3)能力評価の間よりも能力が低いという戦略的ふりをする、ということが分かりました。
私たちの研究は、トレーニングされたモデルでさえ、現実的なシナリオでは、時には無害で正直に振る舞うことができ、外部からのプレッシャーが目立ってないことを示しています。
関連論文リスト
- Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization [56.674356045200696]
本稿では,複雑なメモシステムや事前の高品質な実演データを必要としない,複数のタスクに対する知識とスキルを取り入れたAIエージェントの訓練手法を提案する。
このアプローチでは,エージェントが新たな経験を収集し,ヒントの形で人間から補正フィードバックを受け取り,このフィードバックを重みに組み込む,反復的なプロセスを採用している。
Llama-3 をベースとしたエージェントに実装することで,提案手法の有効性を実証し,数ラウンドのフィードバックの後,高度なモデル GPT-4o と DeepSeek-V3 をタスクセットで向上させる。
論文 参考訳(メタデータ) (2025-02-03T17:45:46Z) - Learning the Generalizable Manipulation Skills on Soft-body Tasks via Guided Self-attention Behavior Cloning Policy [9.345203561496552]
GP2E行動クローニングポリシーは、ソフトボディタスクから汎用的な操作スキルを学ぶためのエージェントを誘導することができる。
本研究は,Embodied AIモデルの一般化能力を向上する手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-10-08T07:31:10Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - Social Contract AI: Aligning AI Assistants with Implicit Group Norms [37.68821926786935]
我々は、観察されたインタラクションからユーザの(未知の)好みのモデルを反転させることで、AIアシスタントを整列させるアイデアを探求する。
本研究は,ユーザの嗜好をシミュレートされたプレイヤーの行動を導くポリシーとして定式化し,概念実証シミュレーションを行う。
論文 参考訳(メタデータ) (2023-10-26T20:27:03Z) - Generative Models as a Complex Systems Science: How can we make sense of
large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。
言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文 参考訳(メタデータ) (2023-07-31T22:58:41Z) - Explainability Via Causal Self-Talk [9.149689942389923]
AIシステムの振る舞いを説明することは、実際には一般的に避けられる重要な問題である。
私たちは、すべてのデシダータを満たす効果的な方法を説明します。AIシステムをトレーニングして、それ自体の因果モデルを構築します。
この手法をシミュレーションした3次元環境に実装し、エージェントが忠実で意味論的に意味のある説明を生成する方法を示す。
論文 参考訳(メタデータ) (2022-11-17T23:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。