Fugu-MT 論文翻訳(概要): Eliciting Informative Text Evaluations with Large Language Models

論文の概要: Eliciting Informative Text Evaluations with Large Language Models

arxiv url: http://arxiv.org/abs/2405.15077v1
Date: Thu, 23 May 2024 21:56:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-27 18:48:01.465389
Title: Eliciting Informative Text Evaluations with Large Language Models
Title（参考訳）: 大規模言語モデルを用いたインフォーマティブテキスト評価の緩和
Authors: Yuxuan Lu, Shengwei Xu, Yichi Zhang, Yuqing Kong, Grant Schoenebeck,
Abstract要約: 生成的ピア予測機構(GPPM)と生成的シンプシスピア予測機構(GSPPM)の2つのメカニズムを導入する。我々は,この機構がベイズ・ナッシュ均衡(近似)として高い努力と真理を動機付けることができることを示した。 ICLRデータセットでは、人間によるレビュー、GPT-4生成レビュー、GPT-3.5生成レビューの3つの品質レベルを、期待されるスコアの観点から区別することが可能です。
参考スコア（独自算出の注目度）: 14.176332393753906
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Peer prediction mechanisms motivate high-quality feedback with provable guarantees. However, current methods only apply to rather simple reports, like multiple-choice or scalar numbers. We aim to broaden these techniques to the larger domain of text-based reports, drawing on the recent developments in large language models. This vastly increases the applicability of peer prediction mechanisms as textual feedback is the norm in a large variety of feedback channels: peer reviews, e-commerce customer reviews, and comments on social media. We introduce two mechanisms, the Generative Peer Prediction Mechanism (GPPM) and the Generative Synopsis Peer Prediction Mechanism (GSPPM). These mechanisms utilize LLMs as predictors, mapping from one agent's report to a prediction of her peer's report. Theoretically, we show that when the LLM prediction is sufficiently accurate, our mechanisms can incentivize high effort and truth-telling as an (approximate) Bayesian Nash equilibrium. Empirically, we confirm the efficacy of our mechanisms through experiments conducted on two real datasets: the Yelp review dataset and the ICLR OpenReview dataset. We highlight the results that on the ICLR dataset, our mechanisms can differentiate three quality levels -- human-written reviews, GPT-4-generated reviews, and GPT-3.5-generated reviews in terms of expected scores. Additionally, GSPPM penalizes LLM-generated reviews more effectively than GPPM.
Abstract（参考訳）: ピア予測機構は、証明可能な保証で高品質なフィードバックを動機付ける。しかし、現在の手法は、多重選択やスカラー数のような比較的単純なレポートにのみ適用される。我々は,これらの手法をテキストベースレポートの大規模領域に拡張することを目指しており,近年の大規模言語モデルの発展を反映している。これは、ピアレビュー、eコマースの顧客レビュー、ソーシャルメディアへのコメントなど、さまざまなフィードバックチャネルにおいて、テキストフィードバックが標準となっているため、ピア予測メカニズムの適用性を大幅に向上させる。本稿では,GPPM(Generative Peer Prediction Mechanism)とGSPPM(Generative Synopsis Peer Prediction Mechanism)の2つのメカニズムを紹介する。これらのメカニズムはLSMを予測因子として利用し、あるエージェントのレポートから仲間のレポートの予測にマッピングする。理論的には、LLM予測が十分正確であれば、我々のメカニズムは(近似)ベイズナッシュ平衡として高い努力と真理を動機付けることができる。実験により,Yelp レビューデータセットと ICLR OpenReview データセットという,2つの実際のデータセットで実施した実験を通じて,我々のメカニズムの有効性を確認した。 ICLRデータセットでは、人間によるレビュー、GPT-4生成レビュー、GPT-3.5生成レビューの3つの品質レベルを、期待されるスコアの観点から区別することが可能です。さらに、GSPPMはLPM生成レビューをGPPMよりも効果的にペナルティ化する。

関連論文リスト

Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文参考訳（メタデータ） (2026-01-21T06:07:43Z)
Pre-review to Peer review: Pitfalls of Automating Reviews using Large Language Models [1.8349858105838042]
大規模言語モデルは汎用的な汎用タスクソルバであり、その能力は学術的にピアレビューを行う人たちをテキストプレビューエージェントとして真に支援することができる。非常に有益ではあるが、学術的ピアレビューの自動化は、概念として、安全性、研究の完全性、学術的ピアレビュープロセスの妥当性に関する懸念を提起する。
論文参考訳（メタデータ） (2025-12-14T09:56:07Z)
The Forecast Critic: Leveraging Large Language Models for Poor Forecast Identification [74.64864354503204]
本稿では,Large Language Models (LLM) を利用した予測自動監視システムであるThe Forecast Criticを提案する。 LLMの時系列予測品質を評価する能力を評価する。合成および実世界の予測データを含む3つの実験を行った。
論文参考訳（メタデータ） (2025-12-12T21:59:53Z)
Deep Transfer Learning Based Peer Review Aggregation and Meta-review Generation for Scientific Articles [2.0778556166772986]
論文の受理決定とメタレビュー生成という2つのピアレビューアグリゲーション課題に対処する。まず,従来の機械学習アルゴリズムを適用し,受理決定のプロセスを自動化することを提案する。メタレビュー生成では,T5モデルに基づく移動学習モデルを提案する。
論文参考訳（メタデータ） (2024-10-05T15:40:37Z)
Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。 FASTは最先端のベースラインを超え、デバイアス性能が優れている。これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文参考訳（メタデータ） (2024-08-07T17:14:58Z)
AgentReview: Exploring Peer Review Dynamics with LLM Agents [13.826819101545926]
本稿では,最初の大規模言語モデル(LLM)に基づくピアレビューシミュレーションフレームワークであるAgentReviewを紹介する。本研究は、レビュアーの偏見による紙の判断の37.1%の顕著な変化を含む、重要な洞察を明らかにした。
論文参考訳（メタデータ） (2024-06-18T15:22:12Z)
Rumour Evaluation with Very Large Language Models [2.6861033447765217]
本研究は,誤報に対処するために,プロンプトに依存しない大規模言語モデルの進歩を活用することを提案する。我々は2つのRumourEvalサブタスクを拡張するために2つのプロンプトベースのLLM変種を用いる。精度予測のために、GPT変種ごとに3つの分類スキームが実験され、各スキームはゼロ、ワンショット、および少数ショット設定で試験される。スタンス分類では、プロンプトベースのアパッチは先行結果に匹敵する性能を示し、微調整法に比較して改善はない。
論文参考訳（メタデータ） (2024-04-11T19:38:22Z)
The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。テキスト内学習と微調整によるラベル付きデータの影響について検討する。次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文参考訳（メタデータ） (2023-08-14T17:17:21Z)
Evaluating and Explaining Large Language Models for Code Using Syntactic Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文参考訳（メタデータ） (2023-08-07T18:50:57Z)
Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models [51.3422222472898]
ニュース見出しを用いて,ChatGPTのような大規模言語モデル(LLM)の株価変動を予測する能力について述べる。我々は,情報容量制約,過小反応,制限対アビタージュ,LLMを組み込んだ理論モデルを構築した。
論文参考訳（メタデータ） (2023-04-15T19:22:37Z)
Investigating Fairness Disparities in Peer Review: A Language Model Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文参考訳（メタデータ） (2022-11-07T16:19:42Z)
You Are the Best Reviewer of Your Own Papers: The Isotonic Mechanism [1.7741566627076264]
ノイズレビュースコアの精度を高めるためにイソトニックメカニズムを導入する。複数の論文を提出した著者は、評価された品質の順に論文をランク付けする必要がある。調整されたスコアは生のスコアよりも正確です
論文参考訳（メタデータ） (2022-06-14T14:35:53Z)
Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文参考訳（メタデータ） (2021-06-22T18:29:58Z)
Unsupervised Explanation Generation for Machine Reading Comprehension [36.182335120466895]
本稿では,機械読解作業のための自己説明可能なフレームワークを提案する。提案システムでは,パス全体を用いたシステムと比較して,パス情報が少なく,同様の結果が得られるよう試みている。提案手法を人体評価において従来の注意機構と比較した結果,提案方式は後者に比べて顕著な優位性があることが判明した。
論文参考訳（メタデータ） (2020-11-13T02:58:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。