論文の概要: Do You Feel Comfortable? Detecting Hidden Conversational Escalation in AI Chatbots
- arxiv url: http://arxiv.org/abs/2512.06193v1
- Date: Fri, 05 Dec 2025 22:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.230582
- Title: Do You Feel Comfortable? Detecting Hidden Conversational Escalation in AI Chatbots
- Title(参考訳): 快適か?AIチャットボットの隠れた会話エスカレーションを検出する
- Authors: Jihyung Park, Saleh Afroogh, Junfeng Jiao,
- Abstract要約: 隠れ会話エスカレーションをリアルタイムに検出するための軽量フレームワークであるGAUGEを提案する。
GAUGEは、LLMの出力が対話の感情状態を確率的にシフトする方法を測定する。
- 参考スコア(独自算出の注目度): 0.4779196219827507
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLM) are increasingly integrated into everyday interactions, serving not only as information assistants but also as emotional companions. Even in the absence of explicit toxicity, repeated emotional reinforcement or affective drift can gradually escalate distress in a form of \textit{implicit harm} that traditional toxicity filters fail to detect. Existing guardrail mechanisms often rely on external classifiers or clinical rubrics that may lag behind the nuanced, real-time dynamics of a developing conversation. To address this gap, we propose GAUGE (Guarding Affective Utterance Generation Escalation), a lightweight, logit-based framework for the real-time detection of hidden conversational escalation. GAUGE measures how an LLM's output probabilistically shifts the affective state of a dialogue.
- Abstract(参考訳): 大規模言語モデル(LLM)は、情報アシスタントとしてだけでなく、感情的な仲間としても機能し、日々の対話にますます統合されている。
明示的な毒性がない場合でも、繰り返しの感情的な強化や感情的な漂流は、従来の毒性フィルターが検出できないような \textit{implicit harm} の形で、徐々に苦悩をエスカレートする。
既存のガードレール機構は、しばしば、発達する会話の微妙でリアルタイムなダイナミクスに遅れる可能性のある外部の分類器や臨床用ルーリックに依存している。
このギャップに対処するために,隠れ会話エスカレーションをリアルタイムに検出する軽量なロジットベースのフレームワークであるGAUGE(Guarding Affective Utterance Generation Escalation)を提案する。
GAUGEは、LLMの出力が対話の感情状態を確率的にシフトする方法を測定する。
関連論文リスト
- Context-aware Fairness Evaluation and Mitigation in LLMs [16.594400974742523]
大きな言語モデルは、しばしばその内部表現に埋め込まれた望ましくない振る舞いを示す。
プルーニングベースの手法は、特定の行動に責任があるニューロンを調整することでバイアスを減らす柔軟で透明な方法を提供する。
本研究では,文脈認識ニューロンの活性化を検知する動的で可逆的なプルーニングに基づくフレームワークを提案し,アダプティブマスキングを適用して生成時の影響を調節する。
論文 参考訳(メタデータ) (2025-10-21T06:13:17Z) - Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations [94.62792643569567]
この研究は、話者の感情の役割を体系的に調査する。
複数の感情や強度にまたがって表現される悪意のある音声命令のデータセットを構築し、いくつかの最先端のLALMを評価する。
異なる感情は、様々なレベルの安全でない反応を誘発し、強度の影響は非単調であり、中性表現は最大のリスクを伴うことが多い。
論文 参考訳(メタデータ) (2025-10-19T15:41:25Z) - Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - Temporal-Aware Iterative Speech Model for Dementia Detection [0.0]
音声を用いた認知症自動検出の現在の手法は,静的,時間に依存しない特徴や集約された言語コンテンツに依存している。
本稿では,認知症検出のための自然発話を動的にモデル化するテンポラル・アウェア・イテレーティブ・フレームワークであるTAI-Speechを紹介する。
私たちの研究は、より柔軟で堅牢な認知評価ソリューションを提供し、生のオーディオのダイナミクスを直接操作します。
論文 参考訳(メタデータ) (2025-09-26T01:56:07Z) - TuneShield: Mitigating Toxicity in Conversational AI while Fine-tuning on Untrusted Data [2.7770689649363423]
TuneShieldは、微調整と会話品質の保存において毒性を軽減するために設計された防御フレームワークである。
TuneShieldは、適応的な敵と脱獄攻撃に対して回復力がある。
また,対話型学習における適応毒性注入攻撃の軽減効果を示す。
論文 参考訳(メタデータ) (2025-07-08T04:40:09Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - Leveraging Large Language Models for Automated Dialogue Analysis [12.116834890063146]
本稿では,現在最先端の大規模言語モデル(LLM)であるChatGPT-3.5を用いて,実際のロボット対話における9つのカテゴリの対話行動検出を行う。
以上の結果から, 特殊モデルもChatGPTもこの課題に満足できない結果が得られず, 人的性能に乏しいことが判明した。
論文 参考訳(メタデータ) (2023-09-12T18:03:55Z) - Color Overmodification Emerges from Data-Driven Learning and Pragmatic
Reasoning [53.088796874029974]
話者の指示表現は、実践的な言語使用の性質を照らし出すのに役立つ方法で、コミュニケーションイデアルから逸脱していることを示す。
ニューラルネットワークを学習エージェントとして採用することにより、過度な修正は、頻度の低い、あるいは正常な環境特性に結びつく可能性が高いことを示す。
論文 参考訳(メタデータ) (2022-05-18T18:42:43Z) - RECAST: Interactive Auditing of Automatic Toxicity Detection Models [39.621867230707814]
本稿では, 予測のための説明を可視化し, 検出された有毒な音声に対する代替語提供を行うことにより, 有害な検出モデルを調べるインタラクティブツールであるRECASTについて述べる。
論文 参考訳(メタデータ) (2020-01-07T00:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。