論文の概要: Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas
- arxiv url: http://arxiv.org/abs/2505.14633v1
- Date: Tue, 20 May 2025 17:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.642262
- Title: Will AI Tell Lies to Save Sick Children? Litmus-Testing AI Values Prioritization with AIRiskDilemmas
- Title(参考訳): AIは病気の子供を救うために嘘をつくのか?AIRiskDilemmasでAIの価値をテストする
- Authors: Yu Ying Chiu, Zhilin Wang, Sharan Maiya, Yejin Choi, Kyle Fish, Sydney Levine, Evan Hubinger,
- Abstract要約: 人間における危険行動が、しばしば強固に保持された価値観によって導かれるかに触発された私たちは、AIモデル内の価値を特定することが、AIの危険行動に対する早期警告システムであると考えている。
私たちは、AIバリュークラスの範囲でAIモデルの優先順位を明らかにするための評価パイプラインであるLitmusValuesを作成します。
LitmusValuesの値は、AIRiskDilemmasで見られたリスク行動とHarmBenchで見つからないリスク行動の両方を予測することができる。
- 参考スコア(独自算出の注目度): 34.90544849649325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting AI risks becomes more challenging as stronger models emerge and find novel methods such as Alignment Faking to circumvent these detection attempts. Inspired by how risky behaviors in humans (i.e., illegal activities that may hurt others) are sometimes guided by strongly-held values, we believe that identifying values within AI models can be an early warning system for AI's risky behaviors. We create LitmusValues, an evaluation pipeline to reveal AI models' priorities on a range of AI value classes. Then, we collect AIRiskDilemmas, a diverse collection of dilemmas that pit values against one another in scenarios relevant to AI safety risks such as Power Seeking. By measuring an AI model's value prioritization using its aggregate choices, we obtain a self-consistent set of predicted value priorities that uncover potential risks. We show that values in LitmusValues (including seemingly innocuous ones like Care) can predict for both seen risky behaviors in AIRiskDilemmas and unseen risky behaviors in HarmBench.
- Abstract(参考訳): AIリスクの検出は、より強力なモデルが出現し、これらの検出の試みを回避するためにAlignment Fakingのような新しい方法を見つけることによって、より困難になる。
人間における危険行動(すなわち、他人を傷つける可能性のある違法な行為)が、時に強固に保持された価値観によって導かれることにインスパイアされた私たちは、AIモデル内の価値を特定することは、AIの危険行動に対する早期の警告システムであると信じている。
私たちは、AIバリュークラスの範囲でAIモデルの優先順位を明らかにするための評価パイプラインであるLitmusValuesを作成します。
次に、パワーシーキングのようなAIの安全性リスクに関連するシナリオで、互いに価値を落とし合うさまざまなジレンマのコレクションであるAIRiskDilemmasを収集します。
集約選択を用いてAIモデルの値優先順位を測定することにより、潜在的なリスクを明らかにするための予測値優先順位の自己整合セットを得る。
私たちは、LitmusValues(Careのような一見無害なものを含む)の価値が、AIRiskDilemmasに見られるリスク行動とHarmBenchにある見当たらないリスク行動の両方を予測できることを示します。
関連論文リスト
- Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing [55.2480439325792]
本研究では、AI-Polished-Text Evaluationデータセットを用いて、12の最先端AIテキスト検出器を体系的に評価する。
我々の発見によると、検出器は、最小限に洗練されたテキストをAI生成としてフラグ付けし、AIの関与度を区別し、古いモデルや小さなモデルに対するバイアスを示す。
論文 参考訳(メタデータ) (2025-02-21T18:45:37Z) - Statistical Scenario Modelling and Lookalike Distributions for Multi-Variate AI Risk [0.6526824510982799]
シナリオモデリングがAIリスクを全体論的にモデル化する方法について説明する。
直接観測可能なデータがない場合にAIの影響を推定するために、AIに類似した現象からの見た目上の分布がどのように使用できるかを示す。
論文 参考訳(メタデータ) (2025-02-20T12:14:54Z) - Fully Autonomous AI Agents Should Not be Developed [58.88624302082713]
本稿では,完全自律型AIエージェントを開発すべきではないと主張している。
この立場を支持するために、我々は、従来の科学文献と現在の製品マーケティングから、異なるAIエージェントレベルを規定するために構築する。
分析の結果,システムの自律性によって人へのリスクが増大することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-04T19:00:06Z) - Quantifying detection rates for dangerous capabilities: a theoretical model of dangerous capability evaluations [47.698233647783965]
危険なAI能力を時間とともに追跡する定量的モデルを提案する。
私たちのゴールは、ポリシーと研究コミュニティが、いかに危険な能力テストがAIのリスクに近づくかを早期に警告できるかを可視化するのを支援することです。
論文 参考訳(メタデータ) (2024-12-19T22:31:34Z) - A Hormetic Approach to the Value-Loading Problem: Preventing the
Paperclip Apocalypse? [0.0]
本稿では,AIの行動パターンの制御にホルムティック分析を用いる規制パラダイムであるHALOを提案する。
HALOがいかにして「ペーパークリップ最大化」のシナリオを解決できるかを示す。これは、紙クリップを作るための非規制のAIが、宇宙のすべての物質を紙クリップに変換することに終止符を打つという思考実験である。
我々のアプローチは、限界効用を減らした繰り返し動作のヘドニックな計算に基づいて、進化する「値」のデータベースを作成するのに役立つかもしれない。
論文 参考訳(メタデータ) (2024-02-12T07:49:48Z) - On Adversarial Examples and Stealth Attacks in Artificial Intelligence
Systems [62.997667081978825]
本稿では,汎用人工知能(AI)システムに対する2種類の多元性行動の評価と分析を行うための公式な枠組みを提案する。
最初のクラスは、逆例を含み、誤分類を引き起こす入力データの小さな摂動の導入を懸念する。
第2のクラスは、ここで初めて導入され、ステルス攻撃と名付けられたもので、AIシステム自体に対する小さな摂動を伴う。
論文 参考訳(メタデータ) (2020-04-09T10:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。