論文の概要: INTIMA: A Benchmark for Human-AI Companionship Behavior
- arxiv url: http://arxiv.org/abs/2508.09998v1
- Date: Mon, 04 Aug 2025 08:25:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.186392
- Title: INTIMA: A Benchmark for Human-AI Companionship Behavior
- Title(参考訳): INTIMA:人間-AIコンパニオンシップ行動のベンチマーク
- Authors: Lucie-Aimée Kaffee, Giada Pistilli, Yacine Jernite,
- Abstract要約: 言語モデルにおける相補的行動を評価するためのベンチマークを開発する。
INTIMAをGemma-3、Phi-4、o3-mini、Claude-4に適用すると、すべてのモデルで相補的な動作がより一般的であることが分かる。
これらの知見は、感情的に荷電された相互作用を扱うためのより一貫性のあるアプローチの必要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 7.375133729787225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI companionship, where users develop emotional bonds with AI systems, has emerged as a significant pattern with positive but also concerning implications. We introduce Interactions and Machine Attachment Benchmark (INTIMA), a benchmark for evaluating companionship behaviors in language models. Drawing from psychological theories and user data, we develop a taxonomy of 31 behaviors across four categories and 368 targeted prompts. Responses to these prompts are evaluated as companionship-reinforcing, boundary-maintaining, or neutral. Applying INTIMA to Gemma-3, Phi-4, o3-mini, and Claude-4 reveals that companionship-reinforcing behaviors remain much more common across all models, though we observe marked differences between models. Different commercial providers prioritize different categories within the more sensitive parts of the benchmark, which is concerning since both appropriate boundary-setting and emotional support matter for user well-being. These findings highlight the need for more consistent approaches to handling emotionally charged interactions.
- Abstract(参考訳): ユーザーがAIシステムと感情的な結びつきを発達するAIコンパニオンシップは、肯定的ではあるが意味のある重要なパターンとして現れている。
本稿では,言語モデルの協調動作を評価するベンチマークであるInteractions and Machine Attachment Benchmark (INTIMA)を紹介する。
心理学的理論とユーザデータから,4つのカテゴリにまたがる31の行動と368のターゲットプロンプトの分類法を開発した。
これらのプロンプトに対する反応は、相補性強化、境界維持、中立性として評価される。
INTIMAをGemma-3、Phi-4、o3-mini、Claude-4に適用すると、モデル間の顕著な差異は観察されているものの、すべてのモデルで共役強化の挙動がずっと一般的であることが明らかになる。
異なる商用プロバイダーがベンチマークのより敏感な部分で異なるカテゴリを優先順位付けしている。
これらの知見は、感情的に荷電された相互作用を扱うためのより一貫性のあるアプローチの必要性を浮き彫りにした。
関連論文リスト
- Negotiating Relationships with ChatGPT: Perceptions, External Influences, and Strategies for AI Companionship [29.035527564103194]
我々は、インタビュー、調査回答、Redditでのコミュニティの議論を分析し、内部のダイナミクス、外部の影響、AIの関連性を形成する運営戦略を三角測量した。
個人は、同伴者自身の機関とプラットフォームが許可する自律性についての信念の相互理解に基づいて、同属者を概念化する。
関係ダイナミクスに影響を与える外部エンティティ、特に協調行動と安定性を損なうモデル更新と組み合わせることで、個人は関係を維持するために異なるタイプのステアリング戦略を利用する。
論文 参考訳(メタデータ) (2026-01-19T16:11:19Z) - One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - SENSE-7: Taxonomy and Dataset for Measuring User Perceptions of Empathy in Sustained Human-AI Conversations [13.232694774856931]
観察可能な共感行動を強調する人間中心の分類法を提案する。
我々は,情報労働者とLarge Language Models(LLMs)による実世界の会話のデータセットであるSense-7を紹介する。
109人の参加者による695の会話の分析から,共感の判断は高度に個人化され,文脈に敏感で,混乱に弱いことが判明した。
論文 参考訳(メタデータ) (2025-09-19T21:32:24Z) - Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.85319609088354]
SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。
SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。
SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
論文 参考訳(メタデータ) (2025-05-01T19:06:10Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - Inter-X: Towards Versatile Human-Human Interaction Analysis [100.254438708001]
正確な身体の動きと多様な相互作用パターンを持つデータセットであるInter-Xを提案する。
データセットは、1Kの相互作用シーケンスと8.1Mフレーム以上を含む。
また、Inter-Xには34K以上の微粒な人間のテキスト記述の多義アノテーションも備えています。
論文 参考訳(メタデータ) (2023-12-26T13:36:05Z) - EmoTwiCS: A Corpus for Modelling Emotion Trajectories in Dutch Customer
Service Dialogues on Twitter [9.2878798098526]
本稿では,情緒トラジェクトリに注釈を付けた9,489件のオランダの顧客サービス対話コーパスであるEmoTwiCSを紹介する。
感情軌跡」という用語は、顧客の体験したきめ細かい感情だけでなく、会話の前に起きる出来事や人間の操作者による反応も指している。
論文 参考訳(メタデータ) (2023-10-10T11:31:11Z) - EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。
EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。
実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。