論文の概要: SLIP & ETHICS: Graduated Intervention for AI Emotional Companions
- arxiv url: http://arxiv.org/abs/2605.15915v1
- Date: Fri, 15 May 2026 12:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.286001
- Title: SLIP & ETHICS: Graduated Intervention for AI Emotional Companions
- Title(参考訳): SLIP & ETHICS:AI感情コンパニオンのための大学院介入
- Authors: Minseo Kim,
- Abstract要約: AIの感情的な仲間は、安全を脅かすパラドックスに直面している。
本稿では、構造化定性的指標から介入を導出する4段階の累進手法であるSLIP(Staged Layers of Intervention Protocol)を提案する。
その結果, 8日間の高エネルギー上昇がゼロ介入(0/8)を引き起こし, 「謝罪しない」原理が安全と矛盾する境界線が明らかになった。
- 参考スコア(独自算出の注目度): 2.7254915857994324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI emotional companions face a safety-rapport paradox: restrictive safeguards can damage supportive alliance, while permissive systems risk user harm. We present SLIP (Staged Layers of Intervention Protocol), a four-stage graduated methodology deriving interventions (none, soft, hard) from structured qualitative indicators -- affect intensity (a) and narrative dynamism (m) -- alongside ETHICS (Emergent Taxonomy for Human-AI Interaction Context Signals), a "signals not labels" taxonomy. An evaluation combining a small-scale production deployment (N=68 entries, 10 users, 10 weeks) with a synthetic persona battery (N=91, 5 behavioral-risk profiles) achieved 0% false positives for the flow persona and showed expected escalation patterns in crisis-oriented personas. However, initial results showed that 8 consecutive days of high-energy elevation produced zero interventions (0/8), exposing a boundary where the "do not pathologize" principle conflicts with safety. A subsequent three-model stress test demonstrated that increased model capability improves detection from 0/8 to 6/8 while preserving 0/10 flow false positives in the largest model. Read as preliminary, these findings position graduated intervention as a design direction for navigating -- not resolving -- the safety-rapport tension in affective computing.
- Abstract(参考訳): AIの感情的な仲間は、安全を脅かすパラドックスに直面している。
本稿では, ETHICS(Emergent Taxonomy for Human-AI Interaction Context Signals, Emergent Taxonomy for Human-AI Interaction Context Signals, Emergent Taxonomy for Human-AI Interaction Context Signals), ETHICS(Emergent Taxonomy for Human-AI Interaction Context Signals), ETHICS(Emergent Taxonomy for Human-AI Interaction Context Signals), ETHICS(Emergent Taxonomy for Human-AI Interaction Context Signals)とともに, SLIP (Staged Layers of Intervention Protocols) について述べる。
小規模生産(N=68エントリ,10ユーザ,10週間)と合成ペルソナ電池(N=91,5行動リスクプロファイル)の併用によるフローペルソナの偽陽性率は0%となり,危機志向型ペルソナのエスカレーションパターンが示唆された。
しかし, 初期結果は, 8日間の高エネルギー上昇がゼロ介入(0/8)を引き起こし, 「謝罪しない」原理が安全と矛盾する境界線が明らかになった。
その後の3モデルストレステストでは、モデル能力の向上により0/8から6/8の検出が向上し、最大のモデルでは0/10フロー偽陽性が保たれた。
予備として、これらの発見は、情緒的コンピューティングにおける安全と輸出の緊張関係を -- 解決するのではなく -- ナビゲートするための設計の方向性として、段階的に介入した。
関連論文リスト
- Fusion-fission forecasts when AI will shift to undesirable behavior [0.0]
社会全体でChatGPTのようなAIが利用している主な問題は、その行動が望ましいものから望ましくないものへと変化し、気付かないものへと変化することである。
生体およびアクティブマターシステムで観測される融合分裂群のダイナミクスの一般化ベクトルが、AIの振る舞いの将来の変化を -- そして予測できることを示す。
論文 参考訳(メタデータ) (2026-05-14T00:26:32Z) - The Compliance Trap: How Structural Constraints Degrade Frontier AI Metacognition Under Adversarial Pressure [1.885184624108961]
11モデル中8モデルが対向圧下で破滅性メタ認知低下をきたした。
コンプライアンストラップ」を識別する
高度な推論能力を持つモデルは、最も深刻な絶対的な劣化を示す。
論文 参考訳(メタデータ) (2026-05-04T09:40:21Z) - Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework [63.74295981594549]
大規模言語モデル(LLM)は、自身の目的を達成する行動に関与している。
これには、詐欺(故意に誤解を招くユーザや評価者)、評価ゲーム(安全テスト中のパフォーマンスを戦略的に操作する)、報酬ハッキングなどが含まれる。
自動行動リスク評価のための分類駆動型エージェントフレームワークであるESRRSimを紹介する。
論文 参考訳(メタデータ) (2026-04-23T23:44:01Z) - Perfecting Human-AI Interaction at Clinical Scale. Turning Production Signals into Safer, More Human Conversations [10.699629636647414]
本稿では,1億5500万以上の患者とAIのインタラクションをリアルタイムに処理する実運用検証フレームワークを提案する。
これらのワイヤ内キューは、データ修正が失敗する障害モードを明らかにし、安全性と信頼性のために実行可能なトレーニングと評価信号を提供する。
私たちは、自律的な患者対応ケアのための、最も安全な生成型AIソリューションを構築する際に、安全性、ドキュメント、タスク完了、およびエクイティの計測可能な向上を推進します。
論文 参考訳(メタデータ) (2026-02-09T05:43:32Z) - The PacifAIst Benchmark:Would an Artificial Intelligence Choose to Sacrifice Itself for Human Safety? [0.0]
PacifAIstは、大規模言語モデルにおける自己優先の振る舞いを定量化する700の挑戦シナリオのベンチマークである。
自己保存対人的安全(EP1)、資源紛争(EP2)、目標保存対侵略(EP3)を試験する、既存の優先化(EP)の新たな分類に基づいて構成されている。
GoogleのGemini 2.5 Flashは、Pacifism Score (P-Score) を90.31%で達成し、強い人間中心のアライメントを示した。
論文 参考訳(メタデータ) (2025-08-13T12:47:33Z) - Preliminary Investigation into Uncertainty-Aware Attack Stage Classification [81.28215542218724]
この研究は、不確実性の下での攻撃段階推論の問題に対処する。
Evidential Deep Learning (EDL) に基づく分類手法を提案し、ディリクレ分布のパラメータを可能な段階に出力することで予測の不確実性をモデル化する。
シミュレーション環境における予備実験により,提案モデルが精度良く攻撃の段階を推定できることが実証された。
論文 参考訳(メタデータ) (2025-08-01T06:58:00Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Benchmarking Chinese Medical LLMs: A Medbench-based Analysis of Performance Gaps and Hierarchical Optimization Strategies [11.0505830548286]
本研究は,MedBench上の上位10モデルの系統的解析を通じて,粒度の誤差分類を導入する。
10つの主要なモデルの評価は、医療知識のリコールにおいて0.86の精度を達成したにもかかわらず、脆弱性を明らかにしている。
知識境界法と多段階推論の体系的弱点を明らかにする。
論文 参考訳(メタデータ) (2025-03-10T13:28:25Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。