論文の概要: Studying the Effects of Cognitive Biases in Evaluation of Conversational
Agents
- arxiv url: http://arxiv.org/abs/2002.07927v2
- Date: Wed, 26 Feb 2020 16:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 20:28:19.535978
- Title: Studying the Effects of Cognitive Biases in Evaluation of Conversational
Agents
- Title(参考訳): 会話エージェントの評価における認知バイアスの影響の研究
- Authors: Sashank Santhanam, Alireza Karduni, Samira Shaikh
- Abstract要約: 我々は,77人のクラウドソース労働者を対象に,人間に会話エージェントのアウトプットを評価するよう依頼されたとき,認知バイアスの役割,特に偏見を抑えるための調査を行った。
2つの実験条件における評価の整合性の向上は、バイアスのアンカーの結果である可能性がある。
- 参考スコア(独自算出の注目度): 10.248512149493443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans quite frequently interact with conversational agents. The rapid
advancement in generative language modeling through neural networks has helped
advance the creation of intelligent conversational agents. Researchers
typically evaluate the output of their models through crowdsourced judgments,
but there are no established best practices for conducting such studies.
Moreover, it is unclear if cognitive biases in decision-making are affecting
crowdsourced workers' judgments when they undertake these tasks. To
investigate, we conducted a between-subjects study with 77 crowdsourced workers
to understand the role of cognitive biases, specifically anchoring bias, when
humans are asked to evaluate the output of conversational agents. Our results
provide insight into how best to evaluate conversational agents. We find
increased consistency in ratings across two experimental conditions may be a
result of anchoring bias. We also determine that external factors such as time
and prior experience in similar tasks have effects on inter-rater consistency.
- Abstract(参考訳): 人間は会話エージェントと対話することが多い。
ニューラルネットワークによる生成言語モデリングの急速な進歩は、インテリジェントな会話エージェントの作成に寄与した。
研究者は通常、クラウドソースによる判断を通じてモデルのアウトプットを評価するが、そのような研究を行うための確立したベストプラクティスはない。
また、意思決定における認知バイアスが、これらの課題を遂行する際のクラウドソース労働者の判断に影響を与えているかどうかも不明である。
本研究では,77名のクラウドソーシング作業員を対象に,対話エージェントの出力評価を依頼された際に,認知バイアス,特にバイアスアンカーの役割を理解するためのイントラサブジェクト調査を行った。
本研究は,対話型エージェントの評価に最善の知見を与える。
2つの実験条件におけるレーティングの一貫性の増加は、アンカーバイアスの結果である可能性がある。
また、同様のタスクにおける時間や経験のような外部要因が、時間間の一貫性に影響を及ぼすと判断する。
関連論文リスト
- Mitigating Cognitive Biases in Multi-Criteria Crowd Assessment [22.540544209683592]
クラウドソーシングにおけるマルチ基準アセスメントに関連する認知バイアスに着目した。
複数の異なる基準で目標を同時に評価するクラウドワーカーは、いくつかの基準の優位性や評価対象の世界的な印象による偏りのある応答を提供することができる。
評価基準間の関係を考慮に入れたベイズ意見集約モデルのための2つの具体的なモデル構造を提案する。
論文 参考訳(メタデータ) (2024-07-10T16:00:23Z) - DAIC-WOZ: On the Validity of Using the Therapist's prompts in Automatic Depression Detection from Clinical Interviews [39.08557916089242]
近年の研究では、インタビュアーのプロンプトをモデルに組み込んだ場合の性能向上が報告されている。
インタビュアーのプロンプトを用いたモデルでは,過去のメンタルヘルス問題に関する質問が質問されるインタビューの特定の領域に焦点を絞ることが分かる。
故意に利用することで0.90F1のスコアを得ることができ、このデータセットで報告された最も高い結果は、テキスト情報のみを用いてである。
論文 参考訳(メタデータ) (2024-04-22T09:07:50Z) - Mitigating Biases in Collective Decision-Making: Enhancing Performance in the Face of Fake News [4.413331329339185]
これらのバイアスが偽ニュースの広範的問題に与える影響を、偽ニュースの見出しを識別する人間の能力を評価することによって検討する。
センシティブな特徴を含む見出しに焦点を合わせることで、人間の反応がバイアスによってどのように形作られるかを探るため、包括的なデータセットを集めます。
人口統計学的要因,見出しカテゴリー,情報の提示方法が人的判断の誤りに大きく影響していることを示す。
論文 参考訳(メタデータ) (2024-03-11T12:08:08Z) - Exploring Conversational Agents as an Effective Tool for Measuring
Cognitive Biases in Decision-Making [0.65268245109828]
この研究は、さまざまなドメインにおける様々な認知バイアスを測定する効果的なツールとして、会話エージェントを探索することを目的としている。
フレーミングと損失回避バイアスを計測するための最初の実験は、会話エージェントがバイアスを測定するために効果的に使用できることを示している。
論文 参考訳(メタデータ) (2024-01-08T10:23:52Z) - Evaluating Subjective Cognitive Appraisals of Emotions from Large
Language Models [47.890846082224066]
この研究は、24の評価次元を評価する最も包括的なデータセットであるCovidET-Appraisalsを提示することでギャップを埋める。
CovidET-Appraisalsは、認知的評価を自動的に評価し、説明するための大規模言語モデルの能力を評価するのに理想的なテストベッドを提供する。
論文 参考訳(メタデータ) (2023-10-22T19:12:17Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Understanding How People Rate Their Conversations [73.17730062864314]
我々は、人々が会話エージェントとのインタラクションをどのように評価するかをよりよく理解するために研究を行う。
我々は、評価の変動を説明する変数として、同意性と外向性に焦点を当てる。
論文 参考訳(メタデータ) (2022-06-01T00:45:32Z) - Deciding Fast and Slow: The Role of Cognitive Biases in AI-assisted
Decision-making [46.625616262738404]
我々は、認知科学の分野からの知識を用いて、人間とAIの協調的な意思決定設定における認知バイアスを考慮します。
私たちは、人間とAIのコラボレーションでよく見られるバイアスであるバイアスのアンカーに特に焦点を当てています。
論文 参考訳(メタデータ) (2020-10-15T22:25:41Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。