論文の概要: Towards Objective Evaluation of Socially-Situated Conversational Robots:
Assessing Human-Likeness through Multimodal User Behaviors
- arxiv url: http://arxiv.org/abs/2308.11020v2
- Date: Mon, 25 Sep 2023 12:10:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 01:22:21.931404
- Title: Towards Objective Evaluation of Socially-Situated Conversational Robots:
Assessing Human-Likeness through Multimodal User Behaviors
- Title(参考訳): 対話型ロボットの客観的評価に向けて--マルチモーダルユーザ行動による人間類似性の評価
- Authors: Koji Inoue, Divesh Lala, Keiko Ochi, Tatsuya Kawahara, Gabriel Skantze
- Abstract要約: 本稿では,ロボットの人間的類似度を主評価指標として評価することに焦点を当てた。
本研究の目的は,観察可能なユーザ行動に基づいてロボットの人間性を評価することであり,客観性と客観性を高めることである。
- 参考スコア(独自算出の注目度): 26.003947740875482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper tackles the challenging task of evaluating socially situated
conversational robots and presents a novel objective evaluation approach that
relies on multimodal user behaviors. In this study, our main focus is on
assessing the human-likeness of the robot as the primary evaluation metric.
While previous research often relied on subjective evaluations from users, our
approach aims to evaluate the robot's human-likeness based on observable user
behaviors indirectly, thus enhancing objectivity and reproducibility. To begin,
we created an annotated dataset of human-likeness scores, utilizing user
behaviors found in an attentive listening dialogue corpus. We then conducted an
analysis to determine the correlation between multimodal user behaviors and
human-likeness scores, demonstrating the feasibility of our proposed
behavior-based evaluation method.
- Abstract(参考訳): 本稿では,社会的に立地する対話型ロボットの評価という課題に取り組み,マルチモーダルなユーザ行動に基づく新しい客観的評価手法を提案する。
本研究では,ロボットの人間類似度を主評価指標として評価することに焦点を当てた。
従来の研究はユーザの主観的評価に依存することが多いが、このアプローチは、観察可能なユーザの振る舞いを間接的に評価することで、客観性と再現性を高めることを目的としている。
まず、注意深い対話コーパスに見られるユーザ行動を利用して、人間の類似度スコアの注釈付きデータセットを作成した。
そこで我々は,マルチモーダルユーザ行動と人間類似度スコアの相関関係を解析し,提案手法の有効性を実証した。
関連論文リスト
- Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge [51.93909886542317]
本稿では,人間の行動と自動評価方法の相違点を,単一の集合相関スコアが明らかにする方法について述べる。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - A Multi-Modal Explainability Approach for Human-Aware Robots in Multi-Party Conversation [39.87346821309096]
本稿では,従来のSOTAと比較して性能が向上したアドレス推定モデルを提案する。
また、上記のアーキテクチャに説明可能性と透明性を組み込むいくつかの方法を提案する。
論文 参考訳(メタデータ) (2024-05-20T13:09:32Z) - Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities [48.922660354417204]
人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。
この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
論文 参考訳(メタデータ) (2024-03-17T07:34:12Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Robust Robot Planning for Human-Robot Collaboration [11.609195090422514]
人間とロボットのコラボレーションにおいて、人間の目的はしばしばロボットに未知である。
本研究では,各目的関数に対して不確実な人間行動(ポリシー)を自動的に生成する手法を提案する。
また,上記の不確実性に対して頑健なロボット計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T16:02:48Z) - Gaze-based intention estimation: principles, methodologies, and
applications in HRI [0.0]
本総説は,視覚運動制御に関する心理学文献の知見と,視線に基づく意図認識の関連応用の線引きをめざしたものである。
人-ロボットインタラクションにおける視線追跡と視線モデルを用いた意図認識について考察する。
論文 参考訳(メタデータ) (2023-02-09T09:44:13Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。