論文の概要: Estimating Contribution Quality in Online Deliberations Using a Large Language Model
- arxiv url: http://arxiv.org/abs/2408.11936v1
- Date: Wed, 21 Aug 2024 18:41:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 18:06:47.037239
- Title: Estimating Contribution Quality in Online Deliberations Using a Large Language Model
- Title(参考訳): 大規模言語モデルを用いたオンライン討論におけるコントリビューション品質の推定
- Authors: Lodewijk Gelauff, Mohak Goyal, Bhargav Dindukurthi, Ashish Goel, Alice Siu,
- Abstract要約: 8人のアノテータとともに大きな言語モデル(LLM)を用いて、正当化、新規性、会話の拡張、さらなる拡張の可能性に基づいて貢献度を評価する。
他のアノテータからの平均評価を根拠として、モデルが個々のアノテータより優れていることを発見した。
本研究は,ナッジが検討の質に与える影響を評価することによって,自動品質評価の有用性について述べる。
- 参考スコア(独自算出の注目度): 4.911986505938227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deliberation involves participants exchanging knowledge, arguments, and perspectives and has been shown to be effective at addressing polarization. The Stanford Online Deliberation Platform facilitates large-scale deliberations. It enables video-based online discussions on a structured agenda for small groups without requiring human moderators. This paper's data comes from various deliberation events, including one conducted in collaboration with Meta in 32 countries, and another with 38 post-secondary institutions in the US. Estimating the quality of contributions in a conversation is crucial for assessing feature and intervention impacts. Traditionally, this is done by human annotators, which is time-consuming and costly. We use a large language model (LLM) alongside eight human annotators to rate contributions based on justification, novelty, expansion of the conversation, and potential for further expansion, with scores ranging from 1 to 5. Annotators also provide brief justifications for their ratings. Using the average rating from other human annotators as the ground truth, we find the model outperforms individual human annotators. While pairs of human annotators outperform the model in rating justification and groups of three outperform it on all four metrics, the model remains competitive. We illustrate the usefulness of the automated quality rating by assessing the effect of nudges on the quality of deliberation. We first observe that individual nudges after prolonged inactivity are highly effective, increasing the likelihood of the individual requesting to speak in the next 30 seconds by 65%. Using our automated quality estimation, we show that the quality ratings for statements prompted by nudging are similar to those made without nudging, signifying that nudging leads to more ideas being generated in the conversation without losing overall quality.
- Abstract(参考訳): 議論には、知識、議論、視点を交換する参加者が含まれており、偏極に対処するのに効果的であることが示されている。
スタンフォードオンライン審議プラットフォームは大規模な審議を促進する。
人間のモデレーターを必要とせずに、小さなグループのための構造化アジェンダに関するビデオベースのオンラインディスカッションを可能にする。
本稿は,32か国でMetaと共同で実施されているものや,米国の中等教育機関38か国と共同で実施されているものなど,さまざまな議論イベントから得られたデータである。
会話におけるコントリビューションの質を評価することは、機能や介入の影響を評価する上で非常に重要です。
伝統的に、これは人間のアノテーションによって行われ、時間と費用がかかる。
8人のアノテータとともに大きな言語モデル(LLM)を使用して、正当化、新規性、会話の拡張、さらなる拡張の可能性に基づいて貢献度を評価する。
アノテーションは、評価に関する簡単な正当化も提供する。
他のアノテータからの平均評価を根拠として、モデルが個々のアノテータより優れていることを発見した。
人間のアノテータのペアは、評価の正当性においてモデルより優れており、4つの指標すべてにおいて3つのグループよりも優れていますが、モデルはまだ競争力があります。
本研究は,ナッジが検討の質に与える影響を評価することによって,自動品質評価の有用性について述べる。
まず, 長時間の無活動化後の個々のナッジが極めて有効であることが確認され, 今後30秒間, 65%の発話が要求される可能性が高まった。
自動品質評価を用いて、ヌードによって引き起こされる文の品質評価が、ヌードなしで行われるものと類似していることを示し、ヌードによって全体的な品質を損なうことなく、会話の中でより多くのアイデアが生み出されることを示す。
関連論文リスト
- Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments [0.7852714805965528]
206人の回答者から8つの評価指標にまたがって、30のカウンターファクトのシナリオを作成し、評価を収集する。
これらの指標で平均的または個人的判断を予測するために、さまざまな大規模言語モデルを微調整しました。
論文 参考訳(メタデータ) (2024-10-28T15:33:37Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Measuring the Effect of Influential Messages on Varying Personas [67.1149173905004]
我々は、ニュースメッセージを見る際にペルソナが持つ可能性のある応答を推定するために、ニュースメディア向けのペルソナに対するレスポンス予測という新しいタスクを提示する。
提案課題は,モデルにパーソナライズを導入するだけでなく,各応答の感情極性と強度も予測する。
これにより、ペルソナの精神状態に関するより正確で包括的な推測が可能になる。
論文 参考訳(メタデータ) (2023-05-25T21:01:00Z) - Prediction of Listener Perception of Argumentative Speech in a
Crowdsourced Data Using (Psycho-)Linguistic and Fluency Features [24.14001104126045]
議論的発話のクラウドソースデータセットにおいてTEDトークスタイルの感情評価を予測することを目的としている。
本稿では,TEDトーク音声の大規模データセット上で事前学習したモデルを微調整することにより,これらのカテゴリを予測するための分類タスクに有効なアプローチを提案する。
論文 参考訳(メタデータ) (2021-11-13T15:07:13Z) - I Beg to Differ: A study of constructive disagreement in online
conversations [15.581515781839656]
コンテンツ論争を含む7,425のwikipediaトークページ会話のコーパスを構築した。
モデレーターによる調停に不一致がエスカレートされるかどうかを予測するタスクを定義します。
我々は,様々なニューラルモデルを開発し,会話の構造を考慮すれば予測精度が向上することを示す。
論文 参考訳(メタデータ) (2021-01-26T16:36:43Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z) - Large Scale Multi-Actor Generative Dialog Modeling [22.286624163849893]
本稿では,俳優のペルソナにおける複数回会話を確率的にモデル化するために,過去の参照会話を条件づけた言語モデルである生成会話制御モデルを紹介する。
モデルのサイズを117Mから8.3Bに拡大すると、1.7Mの会話で23.14から13.14に改善される。
過去の会話を条件付きでモデル化することで、自動評価において難易度が0.47向上することがわかった。
論文 参考訳(メタデータ) (2020-05-13T01:56:00Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。