Fugu-MT 論文翻訳(概要): Towards Standard Criteria for human evaluation of Chatbots: A Survey

論文の概要: Towards Standard Criteria for human evaluation of Chatbots: A Survey

arxiv url: http://arxiv.org/abs/2105.11197v1
Date: Mon, 24 May 2021 10:49:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-25 21:39:59.556916
Title: Towards Standard Criteria for human evaluation of Chatbots: A Survey
Title（参考訳）: チャットボットの人的評価のための基準基準に向けて:調査
Authors: Hongru Liang and Huaqing Li
Abstract要約: オフザシェルフ設定は、非常に高い基準の多様性のために、信頼性とレプリケーションの深刻な問題に悩まされる。標準の基準と正確な定義を思いつくのは時期尚早です。
参考スコア（独自算出の注目度）: 2.0595757345767947
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Human evaluation is becoming a necessity to test the performance of Chatbots. However, off-the-shelf settings suffer the severe reliability and replication issues partly because of the extremely high diversity of criteria. It is high time to come up with standard criteria and exact definitions. To this end, we conduct a through investigation of 105 papers involving human evaluation for Chatbots. Deriving from this, we propose five standard criteria along with precise definitions.
Abstract（参考訳）: 人間の評価は、Chatbotのパフォーマンスをテストする必要がある。しかし、オフセット設定は、非常に多様な基準のために、信頼性とレプリケーションの問題に苦しめられている。標準の基準と正確な定義を考え出すのは時期尚早です。そこで我々はChatbotsの人間評価に関する105の論文を網羅的に調査した。このことから、正確な定義とともに5つの基準基準を提案する。

関連論文リスト

EvalAgent: Discovering Implicit Evaluation Criteria from the Web [82.82096383262068]
EvalAgentは、ニュアンスとタスク固有の基準を自動的に発見するように設計されたフレームワークである。 EvalAgentは、さまざまな長期評価基準を提案するために、専門家が作成したオンラインガイダンスをマイニングしている。我々の実験では、EvalAgentが生み出す基準は暗黙的だが具体的であることが示されている。
論文参考訳（メタデータ） (2025-04-21T16:43:50Z)
Contextualized Evaluations: Taking the Guesswork Out of Language Model Evaluations [85.81295563405433]
言語モデルユーザーは、しばしば仕様を欠いたクエリを発行するが、クエリが発行されたコンテキストは明示的ではない。提案手法は,不特定クエリを取り巻くコンテキストを合成的に構築し,評価中に提供するプロトコルである。その結果,1) モデルペア間の勝利率の反転,2) モデルペア間の勝利率の低下,2) パターンなどの表面レベル基準に基づく判断の少ない評価,3) 様々な文脈におけるモデル行動に関する新たな洞察の提供,といった結果が得られた。
論文参考訳（メタデータ） (2024-11-11T18:58:38Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
The Challenges of Evaluating LLM Applications: An Analysis of Automated, Human, and LLM-Based Approaches [0.0]
本稿では,LLMに基づく評価と人間の評価との関連性について論じる。本稿では,人間とLLMによる評価と組み合わせて活用できる包括的因子評価機構を提案する。その結果, 因子に基づく評価は, LLMアプリケーションにおいてどの側面を改善する必要があるか, より優れた洞察をもたらすことがわかった。
論文参考訳（メタデータ） (2024-06-05T14:55:10Z)
Development and Evaluation of Three Chatbots for Postpartum Mood and Anxiety Disorders [31.018188794627378]
我々は,産後介護者にコンテキスト特異的な共感的サポートを提供する3つのチャットボットを開発した。我々は,機械による測定と人間によるアンケートの両方を用いて,チャットボットの性能評価を行った。我々は、精神的な健康上の課題を抱えた個人を支援するために、ルールベースのモデルと生成モデルの実践的メリットを議論することで結論付けた。
論文参考訳（メタデータ） (2023-08-14T18:52:03Z)
Learning and Evaluating Human Preferences for Conversational Head Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。 PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文参考訳（メタデータ） (2023-07-20T07:04:16Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Appropriateness is all you need! [0.12891210250935148]
AIアプリケーションを"安全"にしようとする試みは、許容可能な使用に対する主要なあるいは唯一の規範的要件として、安全対策の開発につながった。このアプローチは、私たちが"セーフティ・ノルマティビティ"と呼んでいるもので、チャットGPTがこれまでに引き起こした課題の解決に限られています。
論文参考訳（メタデータ） (2023-04-27T22:21:52Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)
Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文参考訳（メタデータ） (2021-03-30T15:24:37Z)
DNSMOS: A Non-Intrusive Perceptual Objective Speech Quality metric to evaluate Noise Suppressors [15.209645076557054]
本稿では,多段階の自己学習に基づく知覚的客観的尺度を導入し,雑音抑制器の評価を行う。提案手法は,人間の評価と高い相関性を有する挑戦的な試験条件においてよく一般化する。
論文参考訳（メタデータ） (2020-10-28T22:19:51Z)
Spot The Bot: A Robust and Efficient Framework for the Evaluation of Conversational Dialogue Systems [21.36935947626793]
emphSpot ボットは人間とボットの会話をボット間の会話に置き換える。人間の判断は、それが人間であるかどうかに関わらず、会話において各実体に注釈を付けるだけである。 emphSurvival Analysisは、人間のような行動を最も長く維持できるボットを計測する。
論文参考訳（メタデータ） (2020-10-05T16:37:52Z)
Investigation of Sentiment Controllable Chatbot [50.34061353512263]
本稿では,反応の感情をスケールまたは調整する4つのモデルについて検討する。モデルはペルソナベースのモデル、強化学習、プラグアンドプレイモデル、CycleGANである。入力に対して応答が妥当かどうかを推定するために,機械評価メトリクスを開発する。
論文参考訳（メタデータ） (2020-07-11T16:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。