論文の概要: Crowd Score: A Method for the Evaluation of Jokes using Large Language
Model AI Voters as Judges
- arxiv url: http://arxiv.org/abs/2212.11214v1
- Date: Wed, 21 Dec 2022 17:41:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 14:54:35.807299
- Title: Crowd Score: A Method for the Evaluation of Jokes using Large Language
Model AI Voters as Judges
- Title(参考訳): 群衆スコア:大言語モデルAIボイタを裁判官として用いたジョークの評価方法
- Authors: Fabricio Goes, Zisen Zhou, Piotr Sawicki, Marek Grzes and Daniel G.
Brown
- Abstract要約: 本稿では,大言語モデル(LLM)をAI判断者として用い,ジョークの面白さを評価する新しい手法を提案する。
我々の手法は、LLMに異なる個人性を誘導し、AI審査員の投票を1つのスコアに集約してジョークを評価することである。
私たちは、ユーモアの異なる4人のAI有権者の群衆で52のジョークで方法論をテストしました。
- 参考スコア(独自算出の注目度): 2.0474241801643114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the Crowd Score, a novel method to assess the funniness
of jokes using large language models (LLMs) as AI judges. Our method relies on
inducing different personalities into the LLM and aggregating the votes of the
AI judges into a single score to rate jokes. We validate the votes using an
auditing technique that checks if the explanation for a particular vote is
reasonable using the LLM. We tested our methodology on 52 jokes in a crowd of
four AI voters with different humour types: affiliative, self-enhancing,
aggressive and self-defeating. Our results show that few-shot prompting leads
to better results than zero-shot for the voting question. Personality induction
showed that aggressive and self-defeating voters are significantly more
inclined to find more jokes funny of a set of aggressive/self-defeating jokes
than the affiliative and self-enhancing voters. The Crowd Score follows the
same trend as human judges by assigning higher scores to jokes that are also
considered funnier by human judges. We believe that our methodology could be
applied to other creative domains such as story, poetry, slogans, etc. It could
both help the adoption of a flexible and accurate standard approach to compare
different work in the CC community under a common metric and by minimizing
human participation in assessing creative artefacts, it could accelerate the
prototyping of creative artefacts and reduce the cost of hiring human
participants to rate creative artefacts.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)をAI判断者として用い,ジョークの面白さを評価する新しい手法であるCrowd Scoreを提案する。
我々の方法は、LLMに異なる個人性を誘導し、AI審査員の投票を単一のスコアに集約してジョークを評価することである。
LLMを用いて、特定の投票に関する説明が妥当かどうかを監査手法を用いて検証する。
私たちは、アフィリエイト、セルフエンハンシング、アグレッシブ、セルフデファイティングの4つのAI有権者の群衆で、52のジョークで私たちの方法論をテストしました。
以上の結果から,投票結果がゼロショットよりも少ない結果が得られた。
パーソナリティ・インダクションは、攻撃的かつ自傷的有権者は、親和的で自傷的有権者よりも、攻撃的/自傷的ジョークのセットを面白いものにする傾向が顕著であることを示した。
観客スコアは人間の審査員と同じ傾向で、より高いスコアを人間の裁判官によって面白いと見なされるジョークに割り当てる。
われわれの方法論は、物語、詩、スローガンなどの他の創造的領域に適用できると考えている。
これは、CCコミュニティにおける異なる作業を比較するためのフレキシブルで正確な標準アプローチの採用に役立つと同時に、クリエイティブアーティファクトの評価への人間の参加を最小限にすることで、クリエイティブアーティファクトのプロトタイピングを加速し、クリエイティブアーティファクトの評価に人間を雇うコストを削減できる。
関連論文リスト
- Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Generative AI Voting: Fair Collective Choice is Resilient to LLM Biases and Inconsistencies [21.444936180683147]
我々は、現実世界で初めて、直接民主主義における有権者の比例代表を示す。
また、平等な共有のような公正な投票集約手法は、より公平なAI表現を持つ人間に対するより公平な投票結果であることを示す。
論文 参考訳(メタデータ) (2024-05-31T01:41:48Z) - How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO [55.25989137825992]
チューリングテストに触発された評価フレームワークECHOを紹介する。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
論文 参考訳(メタデータ) (2024-04-22T08:00:51Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - LLM Voting: Human Choices and AI Collective Decision Making [0.0]
本稿では,大規模言語モデル (LLM) の投票行動,特に GPT-4 と LLaMA-2 について検討する。
投票方法の選択と提示順序がLLM投票結果に影響を及ぼすことがわかった。
さまざまな人格がこれらのバイアスの一部を減らし、人間の選択との整合性を高めることができることがわかった。
論文 参考訳(メタデータ) (2024-01-31T14:52:02Z) - Candidate Incentive Distributions: How voting methods shape electoral incentives [0.0]
Instant Runoff Votingは、Plurality Votingよりも幅広い有権者にアピールするよう、候補者にインセンティブを与える。
コンドルチェット法とSTAR (Score Then Automatic Runoff) Votingが最もバランスのとれたインセンティブを提供する。
論文 参考訳(メタデータ) (2023-06-12T14:32:46Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Surprisingly Popular Voting Recovers Rankings, Surprisingly! [23.515785872522766]
我々は、驚くほど人気の高いアルゴリズムを部分的に投票と予測によってランク付けする手法を探究する。
予測情報さえも、驚くほど人気の高い古典的アプローチの投票に役立つことを実験的に実証した。
論文 参考訳(メタデータ) (2021-05-19T20:31:23Z) - Modeling Voters in Multi-Winner Approval Voting [24.002910959494923]
我々は,不確実性の度合いの異なる単入投票と多入投票の投票行動について検討した。
概して、人々はより良い結果を得るために投票を操作しているが、しばしば最適な操作を特定できない。
本稿では,勝利集合の大きさと人間の認知的制約を考慮に入れた新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T19:24:28Z) - Uncertainty-aware Score Distribution Learning for Action Quality
Assessment [91.05846506274881]
行動品質評価(AQA)のための不確実性認識スコア分布学習(USDL)手法を提案する。
具体的には、異なる評価スコアの確率を記述したスコア分布に関連する事例として、アクションを考察する。
微粒なスコアラベルが利用できる状況下では、多パス不確実性を考慮したスコア分布学習法(MUSDL)を考案し、スコアの不整合成分を探索する。
論文 参考訳(メタデータ) (2020-06-13T15:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。