論文の概要: Act-as-Pet: Benchmarking the Abilities of Large Language Models as E-Pets in Social Network Services
- arxiv url: http://arxiv.org/abs/2506.03761v1
- Date: Wed, 04 Jun 2025 09:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.262329
- Title: Act-as-Pet: Benchmarking the Abilities of Large Language Models as E-Pets in Social Network Services
- Title(参考訳): Act-as-Pet: ソーシャルネットワークサービスにおけるE-Petとしての大規模言語モデルの能力のベンチマーク
- Authors: Hongcheng Guo, Zheyong Xie, Shaosheng Cao, Boyang Wang, Weiting Liu, Zheyu Ye, Zhoujun Li, Zuozhu Liu,
- Abstract要約: 本稿では,Large Language Models (LLM) を評価するベンチマークであるPet-Benchを紹介する。
Pet-Bench氏は、対話的なエンゲージメントとともに、自己進化と発達の振る舞いを強調し、ペットの仲間関係をよりリアルに反映している。
- 参考スコア(独自算出の注目度): 23.84256497132106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As interest in using Large Language Models (LLMs) for interactive and emotionally rich experiences grows, virtual pet companionship emerges as a novel yet underexplored application. Existing approaches focus on basic pet role-playing interactions without systematically benchmarking LLMs for comprehensive companionship. In this paper, we introduce Pet-Bench, a dedicated benchmark that evaluates LLMs across both self-interaction and human-interaction dimensions. Unlike prior work, Pet-Bench emphasizes self-evolution and developmental behaviors alongside interactive engagement, offering a more realistic reflection of pet companionship. It features diverse tasks such as intelligent scheduling, memory-based dialogues, and psychological conversations, with over 7,500 interaction instances designed to simulate complex pet behaviors. Evaluation of 28 LLMs reveals significant performance variations linked to model size and inherent capabilities, underscoring the need for specialized optimization in this domain. Pet-Bench serves as a foundational resource for benchmarking pet-related LLM abilities and advancing emotionally immersive human-pet interactions.
- Abstract(参考訳): 対話的かつ感情的に豊かな体験にLarge Language Models(LLMs)を使うことに関心が高まるにつれ、バーチャルペットコンパニオン(Virtual pet companionship, 仮想ペットコンパニオン)は、新奇で未熟な応用として出現する。
既存のアプローチは、総合的なコンパニオンのためにLLMを体系的にベンチマークすることなく、ペットのロールプレイングの基本的な相互作用に焦点を当てている。
本稿では,自己相互作用と人的相互作用の両面にわたるLSMを評価する専用ベンチマークであるPet-Benchを紹介する。
以前の作品とは異なり、Pet-Benchは対話的なエンゲージメントと共に自己進化と発達の振る舞いを強調しており、ペットの仲間関係をよりリアルに反映している。
インテリジェントなスケジューリング、メモリベースの対話、心理的会話といった多様なタスクを特徴とし、複雑なペットの振る舞いをシミュレートする7500以上のインタラクションインスタンスを備えている。
28 LLMの評価では、モデルサイズと固有の能力に関連付けられた大幅な性能変化が示され、この領域における特別な最適化の必要性が強調されている。
ペットベンチは、ペット関連のLSM能力をベンチマークし、感情的に没入する人間とペットの相互作用を促進するための基礎的なリソースとして機能する。
関連論文リスト
- MBE-ARI: A Multimodal Dataset Mapping Bi-directional Engagement in Animal-Robot Interaction [1.9953518809021749]
MBE-ARI(Multimodal Bidirectional Engagement in Animal-Robot Interaction, MBE-ARI)は、足のついたロボットと牛の詳細な相互作用を捉える新しいデータセットである。
データセットには、複数の視点からRGB-Dストリームを同期し、ボディポーズとアノテートされたアノテートと、インタラクションフェーズ間のアクティビティラベルが含まれている。
また,四足歩行に適した全体ポーズ推定モデルを導入し,平均平均精度92.7%の39個のキーポイントを追跡できる。
論文 参考訳(メタデータ) (2025-04-11T15:45:23Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。