Fugu-MT 論文翻訳(概要): Questioning the Survey Responses of Large Language Models

論文の概要: Questioning the Survey Responses of Large Language Models

arxiv url: http://arxiv.org/abs/2306.07951v2
Date: Thu, 12 Oct 2023 17:34:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 15:11:32.064191
Title: Questioning the Survey Responses of Large Language Models
Title（参考訳）: 大規模言語モデルの調査結果に対する質問
Authors: Ricardo Dominguez-Olmedo, Moritz Hardt, Celestine Mendler-D\"unner
Abstract要約: 我々は, 言語モデルによる調査回答から, 確立されたアメリカン・コミュニティ・サーベイに基づいて何が学べるかを検討する。例えば,「A」という文字でラベル付けされた質問応答に対して,モデルが重要な位置とラベル付けバイアスを有することを示す。本研究は, 言語モデルによる調査回答を, 現時点の人口に匹敵するものとして, 注意を喚起するものである。
参考スコア（独自算出の注目度）: 18.61486375469644
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models increase in capability, researchers have started to conduct surveys of all kinds on these models with varying scientific motivations. In this work, we examine what we can learn from language models' survey responses on the basis of the well-established American Community Survey (ACS) by the U.S. Census Bureau. Using a de-facto standard multiple-choice prompting technique and evaluating 40 different language models, hundreds of thousands of times each on questions from the ACS, we systematically establish two dominant patterns. First, models have significant position and labeling biases, for example, towards survey responses labeled with the letter "A". Second, when adjusting for labeling biases through randomized answer ordering, models across the board trend towards uniformly random survey responses. In fact, binary classifiers can almost perfectly differentiate between models' responses to the ACS and the responses of the US census. Taken together, our findings suggest caution in treating survey responses from language models as equivalent to those of human populations at present time.
Abstract（参考訳）: 大きな言語モデルが能力を高めるにつれて、研究者は様々な科学的動機を持つあらゆる種類のモデルを調査し始めた。本研究では,米国国勢調査局のアメリカン・コミュニティ・サーベイ(ACS)に基づいて,言語モデルによる調査結果から何が学べるかを検討する。 ACSの質問に対して,40の異なる言語モデルに対して,デファクト標準の多重選択促進手法を用いて,数十万回ずつ評価を行った。第一に、モデルには重要な位置とラベル付けバイアスがあり、例えば"A"という文字でラベル付けされたサーベイレスポンスがある。第2に、ランダムな回答順序でバイアスをラベル付けするために調整する場合、ボード全体のモデルが一様ランダムなサーベイ応答に向かっている。実際、バイナリ分類器は、ACSに対するモデルの反応と米国国勢調査の反応とをほぼ完全に区別することができる。本研究は, 言語モデルによる調査回答を, 現時点の人口と同等に扱うことへの注意を喚起するものである。

関連論文リスト

Hypothesis Testing for Quantifying LLM-Human Misalignment in Multiple Choice Settings [7.284860523651357]
我々は,大規模言語モデル(LLM)と実際の人間の行動の相違を,複数項目のアンケート設定で評価した。この枠組みを,様々な公的な調査において,人々の意見をシミュレートするための一般的な言語モデルに適用する。これにより、この言語モデルとテストされた人口との整合性に関する疑問が提起される。
論文参考訳（メタデータ） (2025-06-17T22:04:55Z)
Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [49.41113560646115]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。 MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。 LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文参考訳（メタデータ） (2025-06-12T08:47:40Z)
Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文参考訳（メタデータ） (2025-02-10T21:59:27Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-07-11T16:51:33Z)
A Probability--Quality Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
一致した言語モデルからコーパスをサンプリングする場合,文字列の平均報酬と平均ログ類似度との間にはトレードオフが存在することを示す。我々は、この現象を形式的に処理し、サンプリングアダプタの選択が、どれだけの確率で報酬を交換できるかを選択できるかを実証する。
論文参考訳（メタデータ） (2024-06-14T17:38:21Z)
Forcing Diffuse Distributions out of Language Models [70.28345569190388]
ユーザ命令に従うように特別に訓練されているにもかかわらず、今日の命令付き言語モデルは、ランダムな出力を生成するように指示された場合、性能が良くない。本稿では,言語モデルに有効な結果に対して拡散した分布を出力することを奨励する微調整手法を提案する。
論文参考訳（メタデータ） (2024-04-16T19:17:23Z)
Using LLMs to Model the Beliefs and Preferences of Targeted Populations [4.0849074543032105]
本研究では,人間の嗜好をモデル化する大規模言語モデル (LLM) の整合性について考察する。特定の集団の信念、好み、行動のモデル化は、様々な応用に有用である。
論文参考訳（メタデータ） (2024-03-29T15:58:46Z)
Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文参考訳（メタデータ） (2024-03-14T15:58:36Z)
Random Silicon Sampling: Simulating Human Sub-Population Opinion Using a Large Language Model Based on Group-Level Demographic Information [15.435605802794408]
大規模言語モデルは、人口統計情報に関連する社会的バイアスを示す。人口サブグループの意見をエミュレートする「ランダムシリコンサンプリング」を提案する。言語モデルは、実際のアメリカの世論調査と非常によく似た応答分布を生成できる。
論文参考訳（メタデータ） (2024-02-28T08:09:14Z)
Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。 ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (2023-12-11T18:17:43Z)
Using Artificial Populations to Study Psychological Phenomena in Neural Models [0.0]
言語モデルにおける認知行動の調査は、意味のある結果を得るために適切な集団で行う必要がある。我々は、実験集団を効率的に構築するために、新しいアプローチにおける不確実性推定の作業を活用する。本研究では,不確実性推定文献の理論的根拠と,言語モデルに関する現在の認知作業からのモチベーションを提供する。
論文参考訳（メタデータ） (2023-08-15T20:47:51Z)
Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文参考訳（メタデータ） (2023-06-04T08:09:26Z)
This Prompt is Measuring <MASK>: Evaluating Bias Evaluation in Language Models [12.214260053244871]
言語モデルのバイアスを評価するためにプロンプトとテンプレートを使用する作業の本体を分析します。我々は、バイアステストが測定する目的を捉える属性の分類を作成するために、測定モデリングフレームワークを設計する。我々の分析は、フィールドが測定できる可能性のあるバイアスタイプの範囲を照らし、まだ調査されていないタイプを明らかにします。
論文参考訳（メタデータ） (2023-05-22T06:28:48Z)
Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文参考訳（メタデータ） (2023-05-01T17:36:06Z)
Open vs Closed-ended questions in attitudinal surveys -- comparing, combining, and interpreting using natural language processing [3.867363075280544]
トピックモデリングは、オープンな応答から情報を抽出する時間を著しく短縮する可能性がある。本研究はトピックモデリングを用いて,オープンエンド質問から情報を抽出し,その性能をクローズドエンド応答と比較する。
論文参考訳（メタデータ） (2022-05-03T06:01:03Z)
Predicting Census Survey Response Rates With Parsimonious Additive Models and Structured Interactions [14.003044924094597]
本研究では, フレキシブルで解釈可能な非パラメトリックモデル群を用いて, アンケート応答率を予測することの問題点を考察する。この研究は、米国国勢調査局(US Census Bureau)の有名なROAMアプリケーションによって動機付けられている。
論文参考訳（メタデータ） (2021-08-24T17:49:55Z)
On the Efficacy of Adversarial Data Collection for Question Answering: Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。 ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文参考訳（メタデータ） (2021-06-02T00:48:33Z)
UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文参考訳（メタデータ） (2020-10-06T01:49:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。