論文の概要: AntEval: Quantitatively Evaluating Informativeness and Expressiveness of
Agent Social Interactions
- arxiv url: http://arxiv.org/abs/2401.06509v1
- Date: Fri, 12 Jan 2024 11:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 19:47:22.678962
- Title: AntEval: Quantitatively Evaluating Informativeness and Expressiveness of
Agent Social Interactions
- Title(参考訳): AntEval:エージェントの社会的相互作用のインフォーマル性と表現性を定量的に評価する
- Authors: Yuanzhi Liang, Linchao Zhu, Yi Yang
- Abstract要約: LLM(Large Language Models)ベースのエージェントは、さまざまなシナリオで人間の振る舞いを模倣することに成功している。
拡張された文脈における複雑なマルチ文字の社会的相互作用の領域は、いまだ解明されていない。
IEP(Information Exchanging Precision)とIEG(Interaction Expressiveness Gap)の2つの新しい評価指標を提案する。
- 参考スコア(独自算出の注目度): 65.16893197330589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) based agents have successfully mimicked
human behaviors in various scenarios, the realm of complex, multi-character
social interactions within extended contexts remains underexplored. The
challenge is compounded by privacy concerns, making it difficult to capture and
utilize intricate real-life interactions. More importantly, the absence of
quantitative evaluation methods hampers the pursuit of high-quality agent
interactions, often leading to interactions that are limited in informativeness
and expressiveness, characterized by superficial small talk without clear
intentions. In this work, we leverage the rules of Tabletop Role-Playing Games
(TRPG) to create an environment conducive to complex, context-rich
interactions, emphasizing informativeness and expressiveness. This virtual
setting alleviates privacy concerns and motivates agents to engage in
meaningful, high-quality interactions as part of their in-game objectives. To
assess these interactions, we introduce the Agent interaction Evaluation
framework (AntEval), targeting the qualitative evaluation of interaction
informativeness and expressiveness. Specifically, we propose two novel
evaluation metrics: Information Exchanging Precision (IEP) and Interaction
Expressiveness Gap (IEG). These metrics are designed to assess interactions in
scenarios focused on information exchange and intention expression,
respectively. Our experimental results demonstrate the effectiveness of these
metrics in evaluating interaction quality. Notably, we identify significant
areas for improvement in LLMs regarding social interactions, as highlighted by
our metrics. We believe AntEval will guide further exploration in complex agent
interactions, bringing them closer to emulating real human behavior and
enhancing their integration and utility in real-world applications.
- Abstract(参考訳): 大規模言語モデル(llms)ベースのエージェントは、様々なシナリオにおいて人間の行動を模倣することに成功したが、拡張されたコンテキストにおける複雑で多文字の社会的相互作用の領域は、未検討のままである。
この課題はプライバシーの懸念によって複雑化しており、複雑な実生活のやりとりを捉えて利用することは困難である。
さらに重要なことは、定量的評価手法が欠如していることは、高品質なエージェント相互作用の追求を妨げ、しばしば、明確な意図のない表面的な小さな話によって特徴づけられる、情報性や表現性に制限された相互作用に繋がる。
本研究では,TRPG(Tabletop Role-Playing Games)のルールを利用して,複雑でコンテキストに富んだインタラクションに適応した環境を構築する。
この仮想設定は、プライバシの懸念を緩和し、エージェントがゲーム内の目的の一部として有意義で高品質なインタラクションを行う動機を与える。
これらの相互作用を評価するために,対話情報と表現性の質的評価を目的としたエージェントインタラクション評価フレームワーク(AntEval)を導入する。
具体的には,情報交換精度(IEP)とインタラクション表現率ギャップ(IEG)の2つの新しい評価指標を提案する。
これらのメトリクスは、情報交換と意図表現に焦点を当てたシナリオにおける相互作用を評価するように設計されている。
実験結果は,これらの指標がインタラクション品質評価に有効であることを示す。
特に,ソーシャルインタラクションに関するllmの改善のための重要な領域を,指標で強調した。
我々は、AntEvalが複雑なエージェントインタラクションのさらなる探索をガイドし、実際の人間の振る舞いをエミュレートし、現実世界のアプリケーションにおけるそれらの統合と実用性を強化することを信じている。
関連論文リスト
- Learning responsibility allocations for multi-agent interactions: A differentiable optimization approach with control barrier functions [12.074590482085831]
責任レンズを介して安全なマルチエージェントインタラクションを規定する要因を定式化する。
本稿では,制御障壁関数と微分可能最適化に基づくデータ駆動モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T20:20:41Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - Automatic Context-Driven Inference of Engagement in HMI: A Survey [6.479224589451863]
本稿では,人間と機械の相互作用に関するエンゲージメント推論について述べる。
これには、学際的定義、エンゲージメントコンポーネントと要因、公開データセット、地上真実の評価、そして最も一般的に使用される機能と方法が含まれる。
これは、信頼性の高いコンテキスト認識エンゲージメント推論機能を備えた、将来の人間と機械のインタラクションインターフェースの開発のためのガイドとして機能する。
論文 参考訳(メタデータ) (2022-09-30T10:46:13Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。