論文の概要: INTIMA: A Benchmark for Human-AI Companionship Behavior
- arxiv url: http://arxiv.org/abs/2508.09998v1
- Date: Mon, 04 Aug 2025 08:25:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.186392
- Title: INTIMA: A Benchmark for Human-AI Companionship Behavior
- Title(参考訳): INTIMA:人間-AIコンパニオンシップ行動のベンチマーク
- Authors: Lucie-Aimée Kaffee, Giada Pistilli, Yacine Jernite,
- Abstract要約: 言語モデルにおける相補的行動を評価するためのベンチマークを開発する。
INTIMAをGemma-3、Phi-4、o3-mini、Claude-4に適用すると、すべてのモデルで相補的な動作がより一般的であることが分かる。
これらの知見は、感情的に荷電された相互作用を扱うためのより一貫性のあるアプローチの必要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 7.375133729787225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI companionship, where users develop emotional bonds with AI systems, has emerged as a significant pattern with positive but also concerning implications. We introduce Interactions and Machine Attachment Benchmark (INTIMA), a benchmark for evaluating companionship behaviors in language models. Drawing from psychological theories and user data, we develop a taxonomy of 31 behaviors across four categories and 368 targeted prompts. Responses to these prompts are evaluated as companionship-reinforcing, boundary-maintaining, or neutral. Applying INTIMA to Gemma-3, Phi-4, o3-mini, and Claude-4 reveals that companionship-reinforcing behaviors remain much more common across all models, though we observe marked differences between models. Different commercial providers prioritize different categories within the more sensitive parts of the benchmark, which is concerning since both appropriate boundary-setting and emotional support matter for user well-being. These findings highlight the need for more consistent approaches to handling emotionally charged interactions.
- Abstract(参考訳): ユーザーがAIシステムと感情的な結びつきを発達するAIコンパニオンシップは、肯定的ではあるが意味のある重要なパターンとして現れている。
本稿では,言語モデルの協調動作を評価するベンチマークであるInteractions and Machine Attachment Benchmark (INTIMA)を紹介する。
心理学的理論とユーザデータから,4つのカテゴリにまたがる31の行動と368のターゲットプロンプトの分類法を開発した。
これらのプロンプトに対する反応は、相補性強化、境界維持、中立性として評価される。
INTIMAをGemma-3、Phi-4、o3-mini、Claude-4に適用すると、モデル間の顕著な差異は観察されているものの、すべてのモデルで共役強化の挙動がずっと一般的であることが明らかになる。
異なる商用プロバイダーがベンチマークのより敏感な部分で異なるカテゴリを優先順位付けしている。
これらの知見は、感情的に荷電された相互作用を扱うためのより一貫性のあるアプローチの必要性を浮き彫りにした。
関連論文リスト
- Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.85319609088354]
SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。
SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。
SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
論文 参考訳(メタデータ) (2025-05-01T19:06:10Z) - EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。
EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。
実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。