論文の概要: Can Large Language Models Capture Dissenting Human Voices?
- arxiv url: http://arxiv.org/abs/2305.13788v2
- Date: Fri, 27 Oct 2023 11:25:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 18:05:29.017310
- Title: Can Large Language Models Capture Dissenting Human Voices?
- Title(参考訳): 大規模言語モデルは人間の声を抑えることができるか?
- Authors: Noah Lee, Na Min An and James Thorne
- Abstract要約: 大規模言語モデル(LLM)は、幅広いタスクの解決において素晴らしい成果を上げている。
2つの異なる手法を用いてLLM分布の性能とアライメントを評価する。
LLMはNLIタスクを解く能力に限界を示し、同時に人間の不一致分布を捉えないことを示す。
- 参考スコア(独自算出の注目度): 7.668954669688971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown impressive achievements in solving a
broad range of tasks. Augmented by instruction fine-tuning, LLMs have also been
shown to generalize in zero-shot settings as well. However, whether LLMs
closely align with the human disagreement distribution has not been
well-studied, especially within the scope of natural language inference (NLI).
In this paper, we evaluate the performance and alignment of LLM distribution
with humans using two different techniques to estimate the multinomial
distribution: Monte Carlo Estimation (MCE) and Log Probability Estimation
(LPE). As a result, we show LLMs exhibit limited ability in solving NLI tasks
and simultaneously fail to capture human disagreement distribution. The
inference and human alignment performances plunge even further on data samples
with high human disagreement levels, raising concerns about their natural
language understanding (NLU) ability and their representativeness to a larger
human population. The source code for the experiments is available at
https://github.com/xfactlab/emnlp2023-LLM-Disagreement
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いタスクの解決において素晴らしい成果を上げている。
命令の微調整により、llmはゼロショット設定でも一般化することが示されている。
しかし、LLMが人間の不一致分布と密接に一致しているかどうかは、特に自然言語推論(NLI)の範囲内ではよく研究されていない。
本稿では,多項分布を推定する手法であるモンテカルロ推定 (mce) とログ確率推定 (lpe) を用いて,人間とllm分布の性能とアライメントを評価する。
その結果、llmはnli課題の解決に限定的な能力を示し、同時に人間の不一致分布を捉えられなかった。
推論と人間のアライメントのパフォーマンスは、人間の不一致レベルが高いデータサンプルにさらに依存し、自然言語理解(nlu)能力とより大きな人口に対する代表性に関する懸念が高まった。
実験のソースコードはhttps://github.com/xfactlab/emnlp2023-llm-disagreementで入手できる。
関連論文リスト
- Lost in Inference: Rediscovering the Role of Natural Language Inference for Large Language Models [36.983534612895156]
近年、自然言語理解(NLU)を評価する一般的な方法は、自然言語推論(NLI)タスクを実行するモデルの能力を検討することである。
本稿では,異なるスケールの6つのモデルにわたる5つの異なるNLIベンチマークに焦点を当てる。
我々は,異なるサイズと品質のモデルを識別できるかどうか,トレーニング中にその精度がどのように発達するかを検討する。
論文 参考訳(メタデータ) (2024-11-21T13:09:36Z) - Bayesian Statistical Modeling with Predictors from LLMs [5.5711773076846365]
State of the Art Large Language Model (LLM)は、様々なベンチマークタスクで印象的なパフォーマンスを示している。
このことは、LLMから派生した情報の人間的類似性に関する疑問を提起する。
論文 参考訳(メタデータ) (2024-06-13T11:33:30Z) - What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Event knowledge in large language models: the gap between the impossible
and the unlikely [46.540380831486125]
我々は,事前学習された大規模言語モデル (LLM) がイベント知識を持つことを示す。
彼らはほぼ常に、不可能な事象に対して高い確率を割り当てる。
しかし、おそらくは起こりそうもない出来事に対して、一貫性のない選好を示す。
論文 参考訳(メタデータ) (2022-12-02T23:43:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。