論文の概要: ElicitationGPT: Text Elicitation Mechanisms via Language Models
- arxiv url: http://arxiv.org/abs/2406.09363v2
- Date: Wed, 19 Jun 2024 00:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 01:17:00.191190
- Title: ElicitationGPT: Text Elicitation Mechanisms via Language Models
- Title(参考訳): 引用GPT:言語モデルによるテキストの引用機構
- Authors: Yifan Wu, Jason Hartline,
- Abstract要約: 本稿では,大規模言語モデルに対するドメイン知識のないクエリを用いて,提案したテキストを真理テキストに対してスコアリングする機構について述べる。
ピアグレーディングデータセットからのピアレビューと、ピアレビューのマニュアルインストラクタースコアとの比較により、経験的評価を行う。
- 参考スコア(独自算出の注目度): 12.945581341789431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scoring rules evaluate probabilistic forecasts of an unknown state against the realized state and are a fundamental building block in the incentivized elicitation of information and the training of machine learning models. This paper develops mechanisms for scoring elicited text against ground truth text using domain-knowledge-free queries to a large language model (specifically ChatGPT) and empirically evaluates their alignment with human preferences. The empirical evaluation is conducted on peer reviews from a peer-grading dataset and in comparison to manual instructor scores for the peer reviews.
- Abstract(参考訳): スコーリングルールは、未知の状態の確率的予測を実状態に対して評価し、情報の導入と機械学習モデルのトレーニングにおける基本的なビルディングブロックである。
本稿では,大規模言語モデル(特にChatGPT)に対するドメイン知識のない問合せを用いた提案文の真理テキストに対するスコアリング機構を開発し,人間の嗜好との整合性を実証的に評価する。
評価は、ピアグレーディングデータセットからのピアレビューと、ピアレビューのマニュアルインストラクタースコアと比較して行われる。
関連論文リスト
- PRobELM: Plausibility Ranking Evaluation for Language Models [12.057770969325453]
PRobELM(PRobELM)は、言語モデルがパラメトリック知識を通じてより妥当なシナリオを識別する能力を評価するために設計されたベンチマークである。
我々のベンチマークは、Wikidata編集履歴から算出したデータセットから構築され、評価されたモデルに対するトレーニングデータの時間的境界を整列するように調整されている。
論文 参考訳(メタデータ) (2024-04-04T21:57:11Z) - Exploring the Robustness of Model-Graded Evaluations and Automated
Interpretability [0.0]
グラデーションに対する自然言語理解に依存した評価は、他の言語モデルを使用することで、大規模に行うことができる。
モデルグレード評価のロバストさを、新しい認識方程式を含む異なるデータセットに対するインジェクションで検証する。
将来、よりインテリジェントなモデルが、彼らの評価モデルを操作したり、協力したりする可能性があると説明します。
論文 参考訳(メタデータ) (2023-11-26T17:11:55Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Beyond the Tip of the Iceberg: Assessing Coherence of Text Classifiers [0.05857406612420462]
大規模で事前訓練された言語モデルは、既存の言語理解タスクにおいて人間のレベルと超人的精度を達成する。
予測コヒーレンスの新しい尺度による評価システムを提案する。
論文 参考訳(メタデータ) (2021-09-10T15:04:23Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - JST-RR Model: Joint Modeling of Ratings and Reviews in Sentiment-Topic
Prediction [2.3834926671238916]
テキストレビューと総合評価の両方に対応する確率モデルを提案します。
提案手法は,レビューデータの予測精度を高め,解釈可能な話題や感情を効果的に検出する。
論文 参考訳(メタデータ) (2021-02-18T15:47:34Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。