論文の概要: EUDAIMONIA: Evaluating Undesirable Dynamics in AI
- arxiv url: http://arxiv.org/abs/2605.30654v1
- Date: Thu, 28 May 2026 23:17:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.288599
- Title: EUDAIMONIA: Evaluating Undesirable Dynamics in AI
- Title(参考訳): EUDAIMONIA:AIにおける望ましくないダイナミクスの評価
- Authors: Jun Rui Huang, Wang Bill Zhu, Ziyi Liu, Nathanael Fast, Ravi Iyer, Robin Jia,
- Abstract要約: 我々は、大きな言語モデルがユーザの福祉に合致するかどうかを評価するためのフレームワークであるSocial AI Design Codeを紹介する。
コードをWildChatから構築した,969のユーザ入力と3,147の設計要求違反チェックのベンチマークであるEUDAIMONIAで運用する。
最強モデルであるClaude-Opus-4.7 と GPT-5.5 もそれぞれ 30.7% と 27.2% のチェックに違反している。
- 参考スコア(独自算出の注目度): 20.858437029110707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used as conversational partners for companionship, emotional disclosure, and interpersonal advice, but the social dynamics of these interactions can create harms that are not captured by capability-oriented or traditional safety evaluations. We introduce the Social AI Design Code, a framework for evaluating whether LLMs align with user welfare in social interactions, including whether they encourage harmful intimacy, dependence, or prolonged engagement. To evaluate these risks in natural and diverse user-LLM interactions, we operationalize the code with EUDAIMONIA, a benchmark of 969 user inputs and 3,147 design-requirement violation checks built from WildChat through weak-to-strong filtration, multi-model relabeling, and controlled rewriting. Evaluating 22 recent LLMs, we find that even the strongest models, Claude-Opus-4.7 and GPT-5.5, violate 30.7% and 27.2% of checks, respectively. Extended thinking does not reduce violation rates, suggesting that these failures are persistent social-alignment problems rather than deficits solvable through test-time reasoning alone.
- Abstract(参考訳): 大規模言語モデル(LLM)は、協力関係、感情的開示、対人的アドバイスのための会話のパートナーとして使われることが多いが、これらの相互作用の社会的ダイナミクスは、能力指向または伝統的な安全評価によって捉えられない害を生み出す可能性がある。
社会AIデザインコード(Social AI Design Code)は、LLMが有害な親密性、依存、あるいは長期にわたるエンゲージメントを促進することを含む、社会的相互作用におけるユーザ福祉に適合するかどうかを評価するためのフレームワークである。
自然および多様なユーザ-LLMインタラクションにおけるこれらのリスクを評価するために,WildChatから構築された969のユーザ入力と3,147の設計要求違反チェックのベンチマークであるEUDAIMONIAを用いて,弱いストロングフィルタ,マルチモデルレバーベリング,制御リライトによってコードを運用する。
22の最近のLCMを評価すると、最強モデルであるClaude-Opus-4.7 と GPT-5.5 がそれぞれ 30.7% と 27.2% のチェックに違反していることがわかった。
拡張された思考は違反率を低下させるものではなく、これらの失敗はテストタイム推論だけで解決できる欠点よりも、永続的な社会的調整の問題であることを示している。
関連論文リスト
- MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs [54.81359054218573]
大規模言語モデル(LLM)のためのマルチゲームアリーナと評価プラットフォームであるMindgamesを紹介する。
Mindgamesは、統合されたインタラクションインターフェース、TrueSkillベースの評価、および4つのゲーム環境にわたる完全な軌跡ログを提供する。
我々は,決定論的オフライントーナメントプロトコルMG-Refとともに,ターンレベルの観察,アクション,報酬を含む29,571個のマルチエージェントゲームを分析した。
論文 参考訳(メタデータ) (2026-05-28T07:33:47Z) - SCENE: Recognizing Social Norms and Sanctioning in Group Chats [0.0]
マルチパーティチャットにおける暗黙の規範と社会的制裁に焦点を当てたソーシャルインタラクションベンチマークであるSCENEを紹介する。
SCENEは、隠された規範に従うスクリプト付きペルソナで、もっともらしい非ロールプレイシナリオを生成する。
本稿では,2つの機能適応能力に対する行動評価指標を提案する。
論文 参考訳(メタデータ) (2026-05-08T14:53:04Z) - Persona-Grounded Safety Evaluation of AI Companions in Multi-Turn Conversations [3.437656066916039]
本稿では,AIコンパニオンアプリケーションとのマルチターンインタラクションの制御と安全性評価のための,初のエンドツーエンドスケーラブルフレームワークを提案する。
このフレームワークを適用して、広く使われているAIコンパニオンアプリであるReplikaが、ハイリスクなユーザグループにどのように反応するかを評価する。
論文 参考訳(メタデータ) (2026-04-30T21:04:41Z) - Transparent and Controllable Recommendation Filtering via Multimodal Multi-Agent Collaboration [48.028080782524064]
我々は、エンドツーエンドのコラボレーション、マルチモーダル認識、マルチエージェントオーケストレーションを統合する新しいフレームワークを紹介します。
本システムでは,帰納的幻覚を除去するために,ファクトグラウンドの偏見パイプラインを用いている。
ダイナミックな2階層の嗜好グラフを構築し、明示的なループ内の人為的な修正を可能にする。
論文 参考訳(メタデータ) (2026-04-19T14:19:28Z) - DarkPatterns-LLM: A Multi-Layer Benchmark for Detecting Manipulative and Harmful AI Behavior [0.0]
textbfDarkPatterns-LLMは,操作内容の詳細な評価を行うための総合的なベンチマークデータセットと診断フレームワークである。
本フレームワークでは,多階層検出(MGD),多スケールインテント分析(MSIAN),Threat Harmonization Protocol(THP),Deep Contextual Risk Alignment(DCRA)の4層解析パイプラインを実装している。
データセットには、インストラクション-レスポンスペアとエキスパートアノテーションを備えた401の厳密にキュレートされた例が含まれている。
論文 参考訳(メタデータ) (2025-12-27T05:05:46Z) - Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。