Fugu-MT 論文翻訳(概要): Using Natural Language Explanations to Rescale Human Judgments

論文の概要: Using Natural Language Explanations to Rescale Human Judgments

arxiv url: http://arxiv.org/abs/2305.14770v2
Date: Tue, 14 Nov 2023 18:30:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 19:04:33.260454
Title: Using Natural Language Explanations to Rescale Human Judgments
Title（参考訳）: 自然言語による人間の判断の再現
Authors: Manya Wadhwa, Jifan Chen, Junyi Jessy Li, Greg Durrett
Abstract要約: 大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
参考スコア（独自算出の注目度）: 89.21530406247142
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rise of large language models (LLMs) has brought a critical need for high-quality human-labeled data, particularly for processes like human feedback and evaluation. A common practice is to label data via consensus annotation over crowdworker judgments. However, annotators' judgments for subjective tasks can differ in many ways: they may have different qualitative judgments about an example, and they may map those to a labeling scheme in different ways. We show that these nuances can be captured by natural language explanations, and propose a method to rescale ordinal annotations and explanations using LLMs. Specifically, we feed annotators' Likert ratings and corresponding explanations into an LLM and prompt it to produce a numeric score anchored in a scoring rubric. These scores should reflect the annotators' underlying assessments of the example. The rubric can be designed or modified after annotation, and include distinctions that may not have been known when the original error taxonomy was devised. We explore our technique in the context of rating system outputs for a document-grounded question answering task, where LLMs achieve near-human performance. Our method rescales the raw judgments without impacting agreement and brings the scores closer to human judgments grounded in the same scoring rubric.
Abstract（参考訳）: 大規模言語モデル(llm)の台頭は、高品質な人間ラベルデータ、特に人間のフィードバックや評価のようなプロセスに対する重要な要求をもたらした。一般的なプラクティスは、クラウドワーカーの判断に対してコンセンサスアノテーションを通じてデータをラベル付けることだ。しかし、主観的タスクに対する注釈者の判断は、例について異なる質的判断を持つ可能性や、異なる方法でラベル付けスキームにマッピングする可能性など、様々な方法で異なる可能性がある。本稿では,これらのニュアンスを自然言語による説明によって捉えることができ,llmを用いて順序アノテーションや説明をリスケールする方法を提案する。具体的には、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコアリングルーリックに固定された数値スコアを生成する。これらのスコアは、アノテーションの例に対する基礎的な評価を反映すべきである。このルーブリックはアノテーションの後に設計したり修正したりすることができ、本来の誤り分類が考案された時点では知られていなかったような区別も含む。我々は,LLMが人間に近い性能を達成できる文書地上質問応答タスクにおいて,評価システム出力の文脈において,我々の手法を探求する。提案手法は,生の判断を合意に影響を与えずに再スケールし,同じスコアルブリックに接する人間の判断にスコアを近づける。

関連論文リスト

Can LLMs Evaluate What They Cannot Annotate? Revisiting LLM Reliability in Hate Speech Detection [5.731621080995591]
ヘイトスピーチはオンラインで広く普及し、個人やコミュニティを害し、大規模なモデレーションに欠かせない自動検出を可能にしている。問題の一部は主観性にある: ある人が憎しみの言葉としてフラグを付けることは、別の人が良心と見なすかもしれない。大規模言語モデル(LLM)は拡張性のあるアノテーションを約束するが、以前の研究では、人間の判断を完全に置き換えることはできないことが示されている。
論文参考訳（メタデータ） (2025-12-10T14:00:48Z)
Can We Hide Machines in the Crowd? Quantifying Equivalence in LLM-in-the-loop Annotation Tasks [8.246529401043128]
我々は、人間とLLMの両方によるラベル付け決定が、個人間で統計的に評価される方法について検討することを目指している。 Krippendorffの$alpha$, paired bootstrapping, and the Two One-Sided t-Tests (TOST) equivalence test procedureに基づく統計的評価法を開発した。このアプローチをMovieLens 100K と PolitiFact という2つのデータセットに適用すると、LCM が前者の人間のアノテーションと統計的に区別できないことが分かる。
論文参考訳（メタデータ） (2025-10-08T05:17:33Z)
Human-Centered Evaluation of RAG outputs: a framework and questionnaire for human-AI collaboration [0.0]
我々は12次元にわたるRAG出力を評価する質問紙を設計した。我々は,人間レーダと人間-LLMのペアからのフィードバックを取り入れた。その結果、大規模言語モデル(LLM)はメートル法記述やスケールラベルに確実に焦点を合わせているが、テキストフォーマットのバリエーションを検出するには弱点があることがわかった。
論文参考訳（メタデータ） (2025-09-30T13:08:33Z)
Bridging the Gap: In-Context Learning for Modeling Human Disagreement [8.011316959982654]
大規模言語モデル(LLM)はNLP分類タスクにおいて高い性能を示している。本研究では,LLMが複数の視点を捉えることができ,ヘイトスピーチや攻撃的言語検出などの主観的タスクにおいてアノテータの不一致を反映できるかどうかを検討する。
論文参考訳（メタデータ） (2025-06-06T14:24:29Z)
Threading the Needle: Reweaving Chain-of-Thought Reasoning to Explain Human Label Variation [60.18907916989796]
大規模言語モデル(LLM)は最終答を出す前に思考の連鎖(CoT)を生成する。本稿では,各回答オプションに対するサポート文と反対文を抽出するために,言語的に接頭した談話セグメンタを付加した新しいパイプラインを提案する。また、正確なスコアよりも回答のランクを優先するランクベースHLV評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-29T11:47:18Z)
SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。 SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文参考訳（メタデータ） (2025-01-26T16:45:09Z)
Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文参考訳（メタデータ） (2024-12-12T13:31:58Z)
Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文参考訳（メタデータ） (2024-10-18T17:32:22Z)
Comparing zero-shot self-explanations with human rationales in multilingual text classification [5.32539007352208]
命令調整 LLM は計算や複雑な XAI 法の適用を必要としない自己説明を生成する。入力論理の形で自己説明を評価することによって、この能力が良い説明をもたらすかどうかを解析する。以上の結果から,自己説明はLRPよりも人間のアノテーションと密接に一致し,忠実度は同等であることがわかった。
論文参考訳（メタデータ） (2024-10-04T10:14:12Z)
Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文参考訳（メタデータ） (2024-08-16T14:49:35Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。本稿では,基準自由度に欠陥があるかどうかを考察する。 GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文参考訳（メタデータ） (2024-02-18T12:36:23Z)
Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文参考訳（メタデータ） (2023-11-16T10:18:32Z)
Peering Through Preferences: Unraveling Feedback Acquisition for Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文参考訳（メタデータ） (2023-08-30T07:35:32Z)
Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文参考訳（メタデータ） (2023-04-13T13:08:38Z)
Re-Examining Human Annotations for Interpretable NLP [80.81532239566992]
我々は、Interpretable NLPで広く使われている2つのデータセット上で、クラウドソースのウェブサイトを用いて制御実験を行う。我々は,異なる資格レベルを満たす人材の募集から得られた注釈結果を比較した。以上の結果から,アノテーションの品質は労働者の資格に高い影響を受けており,労働者は指示によって特定のアノテーションを提供するように指導することができることがわかった。
論文参考訳（メタデータ） (2022-04-10T02:27:30Z)
Elephant in the Room: An Evaluation Framework for Assessing Adversarial Examples in NLP [24.661335236627053]
逆の例は、機械学習モデルが常に誤分類している小さな摂動によって変換された入力である。本稿では,自動評価指標と人的評価ガイドラインからなる評価フレームワークを提案する。
論文参考訳（メタデータ） (2020-01-22T00:05:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。