論文の概要: Evaluating Language Models for Harmful Manipulation
- arxiv url: http://arxiv.org/abs/2603.25326v2
- Date: Fri, 27 Mar 2026 17:09:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 13:48:18.826692
- Title: Evaluating Language Models for Harmful Manipulation
- Title(参考訳): 有害マニピュレーションのための言語モデルの評価
- Authors: Canfer Akbulut, Rasmi Elasmar, Abhishek Roy, Anthony Payne, Priyanka Suresh, Lujain Ibrahim, Seliem El-Sayed, Charvi Rastogi, Ashyana Kachra, Will Hawkins, Kristian Lum, Laura Weidinger,
- Abstract要約: 本稿では,文脈特異的な人間-AIインタラクション研究を通じて有害なAI操作を評価する枠組みを提案する。
我々は,3つのAI利用領域(公共政策,金融,健康)と3つの地域(米国,英国,インド)のインタラクションにまたがる10,101人の参加者によるAIモデルを評価する。
実験実験では,実験参加者の信念や行動変化を誘発することができる。
- 参考スコア(独自算出の注目度): 4.833632272271989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interest in the concept of AI-driven harmful manipulation is growing, yet current approaches to evaluating it are limited. This paper introduces a framework for evaluating harmful AI manipulation via context-specific human-AI interaction studies. We illustrate the utility of this framework by assessing an AI model with 10,101 participants spanning interactions in three AI use domains (public policy, finance, and health) and three locales (US, UK, and India). Overall, we find that that the tested model can produce manipulative behaviours when prompted to do so and, in experimental settings, is able to induce belief and behaviour changes in study participants. We further find that context matters: AI manipulation differs between domains, suggesting that it needs to be evaluated in the high-stakes context(s) in which an AI system is likely to be used. We also identify significant differences across our tested geographies, suggesting that AI manipulation results from one geographic region may not generalise to others. Finally, we find that the frequency of manipulative behaviours (propensity) of an AI model is not consistently predictive of the likelihood of manipulative success (efficacy), underscoring the importance of studying these dimensions separately. To facilitate adoption of our evaluation framework, we detail our testing protocols and make relevant materials publicly available. We conclude by discussing open challenges in evaluating harmful manipulation by AI models.
- Abstract(参考訳): AIによる有害な操作の概念への関心は高まりつつあるが、それを評価するための現在のアプローチは限られている。
本稿では,文脈特異的な人間-AIインタラクション研究を通じて有害なAI操作を評価する枠組みを提案する。
このフレームワークの有用性を,3つのAI利用領域(公共政策,金融,健康)と3つの地域(米国,英国,インド)のインタラクションにまたがる10,101人の参加者によるAIモデルの評価によって説明する。
実験結果から,実験モデルによって操作行動が生成され,実験条件下では,実験参加者の信念や行動変化を誘発することができることがわかった。
AIの操作はドメインによって異なるため、AIシステムが使用される可能性が高い高い状況で評価する必要があることを示唆している。
また、テスト対象地域間で有意な差異が認められており、ある地理的領域からのAI操作結果が他の領域に一般化されない可能性があることを示唆している。
最後に、AIモデルの操作行動(正当性)の頻度は、操作的成功(有効性)の可能性を常に予測しておらず、これらの次元を別々に研究することの重要性を強調している。
評価フレームワークの採用を容易にするため,テストプロトコルを詳述し,関連する資料を公開する。
我々は,AIモデルによる有害な操作を評価する上でのオープンな課題について論じる。
関連論文リスト
- Toward Quantitative Modeling of Cybersecurity Risks Due to AI Misuse [50.87630846876635]
我々は9つの詳細なサイバーリスクモデルを開発する。
各モデルはMITRE ATT&CKフレームワークを使用して攻撃をステップに分解する。
個々の見積もりはモンテカルロシミュレーションによって集約される。
論文 参考訳(メタデータ) (2025-12-09T17:54:17Z) - How Performance Pressure Influences AI-Assisted Decision Making [52.997197698288936]
我々は、プレッシャーと説明可能なAI(XAI)技術がAIアドバイステイク行動とどのように相互作用するかを示す。
我々の結果は、圧力とXAIの異なる組み合わせで複雑な相互作用効果を示し、AIアドバイスの行動を改善するか、悪化させるかのどちらかを示す。
論文 参考訳(メタデータ) (2024-10-21T22:39:52Z) - To Err Is AI! Debugging as an Intervention to Facilitate Appropriate Reliance on AI Systems [11.690126756498223]
最適な人間とAIのコラボレーションのためのビジョンは、人間のAIシステムへの「適切な依存」を必要とする。
実際には、アウト・オブ・ディストリビューションデータにおける機械学習モデルの性能格差は、データセット固有のパフォーマンスフィードバックを信頼できないものにしている。
論文 参考訳(メタデータ) (2024-09-22T09:43:27Z) - Towards interactive evaluations for interaction harms in human-AI systems [8.989911701384788]
我々は,テキストインタラクションの害に着目したテキストインタラクション倫理に基づく評価へのシフトを提案する。
まず,(1)静的,(2)普遍的なユーザエクスペリエンスを仮定し,(3)構成妥当性を限定した現状評価手法の限界について議論する。
インタラクティブな評価を設計するための実践的原則として, 生態学的に有効な相互作用シナリオ, ヒューマンインパクトメトリクス, 多様な人間参加アプローチなどがあげられる。
論文 参考訳(メタデータ) (2024-05-17T08:49:34Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - Connecting Algorithmic Research and Usage Contexts: A Perspective of
Contextualized Evaluation for Explainable AI [65.44737844681256]
説明可能なAI(XAI)を評価する方法に関するコンセンサスの欠如は、この分野の進歩を妨げる。
このギャップを埋める一つの方法は、異なるユーザ要求を考慮に入れた評価方法を開発することである、と我々は主張する。
論文 参考訳(メタデータ) (2022-06-22T05:17:33Z) - The Threats of Artificial Intelligence Scale (TAI). Development,
Measurement and Test Over Three Application Domains [0.0]
いくつかの世論調査は、自律ロボットと人工知能(FARAI)の公衆の恐怖を頻繁に問う
我々は、AIシステムの4つの機能クラスを考慮し、AIアプリケーションの様々な領域に適用可能な、AIの脅威知覚を測定するためのきめ細かいスケールを提案する。
データは提案されたAIのThreats of AI(TAI)スケールの次元構造と、インジケータの内部一貫性と因子的妥当性をサポートする。
論文 参考訳(メタデータ) (2020-06-12T14:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。