論文の概要: AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents
- arxiv url: http://arxiv.org/abs/2401.06509v3
- Date: Tue, 5 Mar 2024 12:07:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 00:47:07.541087
- Title: AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents
- Title(参考訳): AntEval: LLM駆動型エージェントにおける社会的相互作用能力の評価
- Authors: Yuanzhi Liang, Linchao Zhu, Yi Yang
- Abstract要約: 大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
- 参考スコア(独自算出の注目度): 65.16893197330589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated their ability to replicate
human behaviors across a wide range of scenarios. However, their capability in
handling complex, multi-character social interactions has yet to be fully
explored, primarily due to the absence of robust, quantitative evaluation
methods. This gap has slowed the development of agents proficient in more
nuanced interactions beyond simple exchanges, for example, small talk. To
address this challenge, we introduce the Multi-Agent Interaction Evaluation
Framework (AntEval), encompassing a novel interaction framework and evaluation
methods. The interaction framework aims to foster an complex interaction
environment that bolsters information exchange and intention expression within
social interactions. Furthermore, we introduce evaluation methods, including
two metrics: Information Exchanging Precision (IEP) and Interaction
Expressiveness Gap (IEG), designed for the quantitative and objective
assessment of agents' interaction competencies. Our findings highlight the
utility of these evaluative methods and show significant potential for
improving LLMs' ability to construct agents that interact in a more natural
manner with human-like intricacy.
- Abstract(参考訳): 大規模言語モデル(llm)は、さまざまなシナリオで人間の行動を再現する能力を示している。
しかし、複雑なマルチ文字の社会的相互作用を扱う能力は、主にロバストで定量的な評価方法がないために、まだ十分に研究されていない。
このギャップは、単純な交換、例えば小さな会話を超えて、よりニュアンス的な相互作用に熟練したエージェントの開発を遅らせた。
この課題に対処するために,新しいインタラクションフレームワークと評価方法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介した。
インタラクションフレームワークは、社会的インタラクション内の情報交換と意図表現を促進する複雑なインタラクション環境を育むことを目的としている。
さらに,エージェントのインタラクション能力の定量的・客観的評価を目的とした,情報交換精度(IEP)とインタラクション表現率ギャップ(IEG)の2つの指標を含む評価手法を導入する。
本研究は, これらの評価手法の有用性を浮き彫りにして, より自然な方法で人間のような複雑さと相互作用するエージェント構築能力の向上の可能性を示した。
関連論文リスト
- Learning responsibility allocations for multi-agent interactions: A differentiable optimization approach with control barrier functions [12.074590482085831]
責任レンズを介して安全なマルチエージェントインタラクションを規定する要因を定式化する。
本稿では,制御障壁関数と微分可能最適化に基づくデータ駆動モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T20:20:41Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - Automatic Context-Driven Inference of Engagement in HMI: A Survey [6.479224589451863]
本稿では,人間と機械の相互作用に関するエンゲージメント推論について述べる。
これには、学際的定義、エンゲージメントコンポーネントと要因、公開データセット、地上真実の評価、そして最も一般的に使用される機能と方法が含まれる。
これは、信頼性の高いコンテキスト認識エンゲージメント推論機能を備えた、将来の人間と機械のインタラクションインターフェースの開発のためのガイドとして機能する。
論文 参考訳(メタデータ) (2022-09-30T10:46:13Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。