論文の概要: Questioning the Survey Responses of Large Language Models
- arxiv url: http://arxiv.org/abs/2306.07951v1
- Date: Tue, 13 Jun 2023 17:48:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 12:23:52.500874
- Title: Questioning the Survey Responses of Large Language Models
- Title(参考訳): 大規模言語モデルの調査結果に対する質問
- Authors: Ricardo Dominguez-Olmedo, Moritz Hardt, Celestine Mendler-D\"unner
- Abstract要約: 我々は,米国国勢調査局のアメリカン・コミュニティ・サーベイに基づいて,モデルによる調査回答から何が学べるかを検討する。
まず、より小さなモデルは重要な位置を持ち、例えば「A」という文字でラベル付けされたアンケート応答に対するラベル付けバイアスを持つ。
第二に、ランダムな回答順序付けによってこのラベル付けバイアスを調整するとき、モデルはまだアメリカの人口統計や認識可能な人口統計に傾向はない。
- 参考スコア(独自算出の注目度): 21.07651489312416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models increase in capability, researchers have started to
conduct surveys of all kinds on these models with varying scientific
motivations. In this work, we examine what we can learn from a model's survey
responses on the basis of the well-established American Community Survey (ACS)
by the U.S. Census Bureau. Evaluating more than a dozen different models,
varying in size from a few hundred million to ten billion parameters, hundreds
of thousands of times each on questions from the ACS, we systematically
establish two dominant patterns. First, smaller models have a significant
position and labeling bias, for example, towards survey responses labeled with
the letter "A". This A-bias diminishes, albeit slowly, as model size increases.
Second, when adjusting for this labeling bias through randomized answer
ordering, models still do not trend toward US population statistics or those of
any cognizable population. Rather, models across the board trend toward
uniformly random aggregate statistics over survey responses. This pattern is
robust to various different ways of prompting the model, including what is the
de-facto standard. Our findings demonstrate that aggregate statistics of a
language model's survey responses lack the signals found in human populations.
This absence of statistical signal cautions about the use of survey responses
from large language models at present time.
- Abstract(参考訳): 大きな言語モデルが能力を高めるにつれて、研究者は様々な科学的動機を持つあらゆる種類のモデルを調査し始めた。
本研究では,米国国勢調査局が確立したアメリカン・コミュニティ・サーベイ(ACS)に基づいて,モデルによる調査回答から何が学べるかを検討する。
ACSの質問に対して、1ダース以上の異なるモデルを評価し、そのサイズは数億から100億のパラメータで、それぞれ数十万回、系統的に2つの支配的なパターンを確立しました。
第一に、小さなモデルは重要な位置を持ち、例えば"A"という文字でラベル付けされた調査回答に対するバイアスがある。
このaバイアスは、モデルサイズが大きくなるにつれてゆっくりと減少する。
第2に、ランダムな回答順序でこのラベル付けバイアスを調整する場合、モデルはまだアメリカの人口統計や認識可能な人口の統計には傾向がない。
むしろ、調査回答に対する一様無作為な集計統計に対するボード全体の傾向のモデルである。
このパターンは、デファクトスタンダード(de-facto standard)など、モデルを促すさまざまな方法に対して堅牢です。
以上の結果から, 言語モデルのサーベイ応答の集計統計では, 人口の信号が不足していることが判明した。
この統計信号の欠如は、現在、大規模言語モデルによる調査応答の使用について注意が必要である。
関連論文リスト
- Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Forcing Diffuse Distributions out of Language Models [70.28345569190388]
ユーザ命令に従うように特別に訓練されているにもかかわらず、今日の命令付き言語モデルは、ランダムな出力を生成するように指示された場合、性能が良くない。
本稿では,言語モデルに有効な結果に対して拡散した分布を出力することを奨励する微調整手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T19:17:23Z) - Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - Random Silicon Sampling: Simulating Human Sub-Population Opinion Using a
Large Language Model Based on Group-Level Demographic Information [15.435605802794408]
大規模言語モデルは、人口統計情報に関連する社会的バイアスを示す。
人口サブグループの意見をエミュレートする「ランダムシリコンサンプリング」を提案する。
言語モデルは、実際のアメリカの世論調査と非常によく似た応答分布を生成できる。
論文 参考訳(メタデータ) (2024-02-28T08:09:14Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - This Prompt is Measuring <MASK>: Evaluating Bias Evaluation in Language
Models [12.214260053244871]
言語モデルのバイアスを評価するためにプロンプトとテンプレートを使用する作業の本体を分析します。
我々は、バイアステストが測定する目的を捉える属性の分類を作成するために、測定モデリングフレームワークを設計する。
我々の分析は、フィールドが測定できる可能性のあるバイアスタイプの範囲を照らし、まだ調査されていないタイプを明らかにします。
論文 参考訳(メタデータ) (2023-05-22T06:28:48Z) - Open vs Closed-ended questions in attitudinal surveys -- comparing,
combining, and interpreting using natural language processing [3.867363075280544]
トピックモデリングは、オープンな応答から情報を抽出する時間を著しく短縮する可能性がある。
本研究はトピックモデリングを用いて,オープンエンド質問から情報を抽出し,その性能をクローズドエンド応答と比較する。
論文 参考訳(メタデータ) (2022-05-03T06:01:03Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。