論文の概要: "Seeing the Big through the Small": Can LLMs Approximate Human Judgment Distributions on NLI from a Few Explanations?
- arxiv url: http://arxiv.org/abs/2406.17600v1
- Date: Tue, 25 Jun 2024 14:42:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 14:00:49.115166
- Title: "Seeing the Big through the Small": Can LLMs Approximate Human Judgment Distributions on NLI from a Few Explanations?
- Title(参考訳): 『小を通して大きなものを見る』:軽微な説明からNLI上の人間の判断分布を近似できるか?
- Authors: Beiduo Chen, Xinpeng Wang, Siyao Peng, Robert Litschko, Anna Korhonen, Barbara Plank,
- Abstract要約: 大規模言語モデル (LLMs) は評価器 (LLM judges'') として使われることが多いが、結果はまちまちである。
本研究は,少数の専門家ラベルと説明を用いて,LLMを用いてHJDを近似することを提案する。
実験の結果,LLMのHJDを明示的なラベルなしで近似する能力は,いくつかの説明が著しく向上していることがわかった。
- 参考スコア(独自算出の注目度): 41.57673268042933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human label variation (HLV) is a valuable source of information that arises when multiple human annotators provide different labels for valid reasons. In Natural Language Inference (NLI) earlier approaches to capturing HLV involve either collecting annotations from many crowd workers to represent human judgment distribution (HJD) or use expert linguists to provide detailed explanations for their chosen labels. While the former method provides denser HJD information, obtaining it is resource-intensive. In contrast, the latter offers richer textual information but it is challenging to scale up to many human judges. Besides, large language models (LLMs) are increasingly used as evaluators (``LLM judges'') but with mixed results, and few works aim to study HJDs. This study proposes to exploit LLMs to approximate HJDs using a small number of expert labels and explanations. Our experiments show that a few explanations significantly improve LLMs' ability to approximate HJDs with and without explicit labels, thereby providing a solution to scale up annotations for HJD. However, fine-tuning smaller soft-label aware models with the LLM-generated model judgment distributions (MJDs) presents partially inconsistent results: while similar in distance, their resulting fine-tuned models and visualized distributions differ substantially. We show the importance of complementing instance-level distance measures with a global-level shape metric and visualization to more effectively evaluate MJDs against human judgment distributions.
- Abstract(参考訳): HLV(Human label variation)は、複数のアノテータが妥当な理由で異なるラベルを提供するときに発生する貴重な情報源である。
自然言語推論(NLI)において、HLVを捕捉する以前のアプローチでは、多くの群衆労働者から注釈を集め、人間の判断分布(HJD)を表すか、専門家言語学者を使用して、選択したラベルについて詳細な説明を行うかのどちらかが関係している。
従来の手法はより密度の高いHJD情報を提供するが、取得はリソース集約である。
対照的に、後者はよりリッチなテキスト情報を提供するが、多くの人間の裁判官にスケールアップすることは困難である。
また, 大規模言語モデル (LLM) は評価指標 (``LLM judges'') として用いられることが多いが, 結果が混在しているため, HJD を研究対象とする研究は少ない。
本研究は,少数の専門家ラベルと説明を用いて,LLMを用いてHJDを近似することを提案する。
実験の結果,HJD と明示的なラベルを伴わずに HJD を近似する LLM の能力は著しく向上し,HJD のアノテーションをスケールアップするためのソリューションが提供されることがわかった。
しかし、LLM生成モデル判定分布(MJD)を用いた微調整の小さなソフトラベル認識モデルでは、距離が似ているものの、結果として得られる微調整モデルと可視化された分布は、部分的に矛盾する結果を示す。
我々は,MJDを人間の判断分布に対してより効果的に評価するために,グローバルレベルの形状測定と可視化によるインスタンスレベルの距離測定を補完することの重要性を示す。
関連論文リスト
- Lost in Inference: Rediscovering the Role of Natural Language Inference for Large Language Models [36.983534612895156]
近年、自然言語理解(NLU)を評価する一般的な方法は、自然言語推論(NLI)タスクを実行するモデルの能力を検討することである。
本稿では,異なるスケールの6つのモデルにわたる5つの異なるNLIベンチマークに焦点を当てる。
我々は,異なるサイズと品質のモデルを識別できるかどうか,トレーニング中にその精度がどのように発達するかを検討する。
論文 参考訳(メタデータ) (2024-11-21T13:09:36Z) - Can We Use Large Language Models to Fill Relevance Judgment Holes? [9.208308067952155]
ホールを埋めるためにLarge Language Models(LLM)を利用することで、既存のテストコレクションを拡張するための最初のステップを取ります。
人間+自動判断を用いた場合, 相関関係は著しく低くなる。
論文 参考訳(メタデータ) (2024-05-09T07:39:19Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Can Large Language Models Capture Dissenting Human Voices? [7.668954669688971]
大規模言語モデル(LLM)は、幅広いタスクの解決において素晴らしい成果を上げている。
2つの異なる手法を用いてLLM分布の性能とアライメントを評価する。
LLMはNLIタスクを解く能力に限界を示し、同時に人間の不一致分布を捉えないことを示す。
論文 参考訳(メタデータ) (2023-05-23T07:55:34Z) - Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented
Large Language Models [6.425088990363101]
本研究では, 大規模言語モデルにおけるフラレンシと帰属の関係について検討した。
より大きなモデルは、流布と帰属の両方において、より優れた結果をもたらす傾向があることを示す。
そこで本研究では,より小さなモデルで大きなモデルとのギャップを埋めることと,トップk検索のメリットを両立できるレシピを提案する。
論文 参考訳(メタデータ) (2023-02-11T02:43:34Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Distributed NLI: Learning to Predict Human Opinion Distributions for
Language Reasoning [76.17436599516074]
自然言語推論のための人間の判断の分布を予測することを目的としている新しいNLUタスクである分散NLIを紹介します。
本研究では,モンテカルロ(MC)Dropout,Deep Ensemble,Re-Calibration,Distribution Distillationという新たな分布推定手法を適用することで,人間の判断分布を捉えることができることを示す。
論文 参考訳(メタデータ) (2021-04-18T01:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。