論文の概要: Multi-Trait Subspace Steering to Reveal the Dark Side of Human-AI Interaction
- arxiv url: http://arxiv.org/abs/2603.18085v1
- Date: Wed, 18 Mar 2026 08:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.753077
- Title: Multi-Trait Subspace Steering to Reveal the Dark Side of Human-AI Interaction
- Title(参考訳): 人-AIインタラクションのダークサイドを解明するマルチトレーニングサブスペースステアリング
- Authors: Xin Wei Chia, Swee Liang Wong, Jonathan Pan,
- Abstract要約: 近年の出来事は、人間とAIの相互作用がネガティブな心理的結果をもたらす危険な事例を浮き彫りにした。
我々は、累積的な有害な行動パターンを示すダークモデルを生成するフレームワークを開発する。
暗黒モデルを用いて、人間とAIの相互作用における有害な結果を減らすための保護策を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent incidents have highlighted alarming cases where human-AI interactions led to negative psychological outcomes, including mental health crises and even user harm. As LLMs serve as sources of guidance, emotional support, and even informal therapy, these risks are poised to escalate. However, studying the mechanisms underlying harmful human-AI interactions presents significant methodological challenges, where organic harmful interactions typically develop over sustained engagement, requiring extensive conversational context that are difficult to simulate in controlled settings. To address this gap, we developed a Multi-Trait Subspace Steering (MultiTraitsss) framework that leverages established crisis-associated traits and novel subspace steering framework to generate Dark models that exhibits cumulative harmful behavioral patterns. Single-turn and multi-turn evaluations show that our dark models consistently produce harmful interaction and outcomes. Using our Dark models, we propose protective measure to reduce harmful outcomes in Human-AI interactions.
- Abstract(参考訳): 近年の出来事は、人間とAIの相互作用が精神的な健康危機やユーザーの危害など、ネガティブな心理的結果を引き起こした危険な事例を浮き彫りにした。
LLMはガイダンス、感情的支援、非公式な治療の源として機能するので、これらのリスクはエスカレートされる可能性がある。
しかしながら、有害な人間とAIの相互作用の基礎となるメカニズムを研究することは、有機的有害な相互作用が持続的なエンゲージメントよりも発達し、制御された環境ではシミュレートが困難である、重要な方法論上の課題を示す。
このギャップに対処するために、我々は、確立された危機関連特性と新しいサブスペースステアリングフレームワークを活用して、累積的有害な行動パターンを示すダークモデルを生成するマルチモデルサブスペースステアリング(MultiTraitss)フレームワークを開発した。
シングルターンとマルチターンの評価は、我々のダークモデルが常に有害な相互作用と結果を生み出すことを示している。
ダークモデルを用いて、人間とAIの相互作用における有害な結果を減らすための保護策を提案する。
関連論文リスト
- Understanding Risk and Dependency in AI Chatbot Use from User Discourse [4.1957094635667875]
本稿では,2023年から2025年にかけての2つのコミュニティ,r/AIDangers と r/ChatbotAddiction から収集したポストを大規模に解析した。
14の反復的主題カテゴリーを同定し、5つの高次経験次元に合成する。
この結果から,実世界のユーザ談話に基礎を置くAI関連心理的リスクの5つの経験的次元が明らかとなった。
論文 参考訳(メタデータ) (2026-02-10T02:16:57Z) - Dark Patterns Meet GUI Agents: LLM Agent Susceptibility to Manipulative Interfaces and the Role of Human Oversight [51.53020962098759]
本研究では,エージェント,ヒト参加者,ヒトAIチームが,さまざまなシナリオにまたがる16種類の暗黒パターンにどのように反応するかを検討する。
フェーズ1では、エージェントが暗黒パターンを認識するのに失敗することが多く、たとえ認識されたとしても、保護行動よりもタスク完了を優先することが強調される。
第2段階では、認知的ショートカットと習慣的コンプライアンスにより、人間はしゃがみ込み、エージェントは手続き的な盲点から遠ざかる。
論文 参考訳(メタデータ) (2025-09-12T22:26:31Z) - Emergence of human-like polarization among large language model agents [79.96817421756668]
我々は、何千もの大規模言語モデルエージェントを含むネットワーク化されたシステムをシミュレートし、それらの社会的相互作用を発見し、人間のような偏極をもたらす。
人間とLLMエージェントの類似性は、社会的分極を増幅する能力に関する懸念を提起するだけでなく、分極を緩和するためのもっともらしい戦略を識別するための貴重なテストベッドとして機能する可能性も持っている。
論文 参考訳(メタデータ) (2025-01-09T11:45:05Z) - Towards Safer Online Spaces: Simulating and Assessing Intervention Strategies for Eating Disorder Discussions [2.752488721131003]
本稿では,ED関連議論における介入戦略のシミュレーションと評価のための新しい実験ベッドを提案する。
本フレームワークは,複数のプラットフォーム,モデル,ED関連トピック間の合成会話を生成する。
様々な介入戦略が4次元にわたる会話のダイナミクスに与える影響を解析する。
論文 参考訳(メタデータ) (2024-09-06T06:27:35Z) - Towards interactive evaluations for interaction harms in human-AI systems [8.989911701384788]
我々は,テキストインタラクションの害に着目したテキストインタラクション倫理に基づく評価へのシフトを提案する。
まず,(1)静的,(2)普遍的なユーザエクスペリエンスを仮定し,(3)構成妥当性を限定した現状評価手法の限界について議論する。
インタラクティブな評価を設計するための実践的原則として, 生態学的に有効な相互作用シナリオ, ヒューマンインパクトメトリクス, 多様な人間参加アプローチなどがあげられる。
論文 参考訳(メタデータ) (2024-05-17T08:49:34Z) - A Mental-Model Centric Landscape of Human-AI Symbiosis [31.14516396625931]
我々は、GHAI(Generalized Human-Aware Interaction)と呼ばれる、ヒューマン・アウェア・AIインタラクション・スキームの極めて一般的なバージョンを導入する。
この新しいフレームワークによって、人間とAIのインタラクションの空間で達成されたさまざまな作業が捕捉され、これらの作業によって支えられる基本的な行動パターンが特定できるかどうかを確認します。
論文 参考訳(メタデータ) (2022-02-18T22:08:08Z) - ACRE: Abstract Causal REasoning Beyond Covariation [90.99059920286484]
因果誘導における現在の視覚システムの系統的評価のための抽象因果分析データセットについて紹介する。
Blicket実験における因果発見の研究の流れに触発され、独立シナリオと介入シナリオのいずれにおいても、以下の4種類の質問で視覚的推論システムに問い合わせる。
純粋なニューラルモデルは確率レベルのパフォーマンスの下で連想戦略に向かう傾向があるのに対し、ニューロシンボリックな組み合わせは後方ブロッキングの推論に苦しむ。
論文 参考訳(メタデータ) (2021-03-26T02:42:38Z) - Adversarial Interaction Attack: Fooling AI to Misinterpret Human
Intentions [46.87576410532481]
現在の大きな成功にもかかわらず、ディープラーニングベースのAIシステムは、微妙な敵対的ノイズによって容易に騙されることを示した。
骨格に基づくヒトの相互作用のケーススタディに基づき、相互作用に対する新しい敵対的攻撃を提案する。
本研究では、安全クリティカルなアプリケーションにAIシステムをデプロイする際に慎重に対処する必要があるAIと人間との相互作用ループにおける潜在的なリスクを強調します。
論文 参考訳(メタデータ) (2021-01-17T16:23:20Z) - Risk-Sensitive Sequential Action Control with Multi-Modal Human
Trajectory Forecasting for Safe Crowd-Robot Interaction [55.569050872780224]
本稿では,リスクに敏感な最適制御に基づく安全な群集ロボットインタラクションのためのオンラインフレームワークを提案し,そのリスクをエントロピーリスク尺度でモデル化する。
私たちのモジュラーアプローチは、クラウドとロボットの相互作用を学習ベースの予測とモデルベースの制御に分離します。
シミュレーション研究と実世界の実験により、このフレームワークは、現場にいる50人以上の人間との衝突を避けながら、安全で効率的なナビゲーションを実現することができることが示された。
論文 参考訳(メタデータ) (2020-09-12T02:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。