論文の概要: Hidden Topics: Measuring Sensitive AI Beliefs with List Experiments
- arxiv url: http://arxiv.org/abs/2602.21939v1
- Date: Wed, 25 Feb 2026 14:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.855916
- Title: Hidden Topics: Measuring Sensitive AI Beliefs with List Experiments
- Title(参考訳): 隠れたトピック - リスト実験による知覚的AI信条の測定
- Authors: Maxim Chupilkin,
- Abstract要約: 本稿では,大規模言語モデル (LLM) の隠れ信念の研究にリスト実験を適用することを提案する。
論文では、Anthropic、Google、OpenAIが開発したモデルに関するリスト実験を実施し、全モデルにわたる大量監視の隠れた承認を見出した。
重要なことは、プラセボ処理がヌル結果を生成し、その方法を検証することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can researchers identify beliefs that large language models (LLMs) hide? As LLMs become more sophisticated and the prevalence of alignment faking increases, combined with their growing integration into high-stakes decision-making, responding to this challenge has become critical. This paper proposes that a list experiment, a simple method widely used in the social sciences, can be applied to study the hidden beliefs of LLMs. List experiments were originally developed to circumvent social desirability bias in human respondents, which closely parallels alignment faking in LLMs. The paper implements a list experiment on models developed by Anthropic, Google, and OpenAI and finds hidden approval of mass surveillance across all models, as well as some approval of torture, discrimination, and first nuclear strike. Importantly, a placebo treatment produces a null result, validating the method. The paper then compares list experiments with direct questioning and discusses the utility of the approach.
- Abstract(参考訳): 研究者は、大きな言語モデル(LLM)が隠れているという信念をどうやって特定できるのか?
LLMが洗練され、アライメントの流行が高まり、高い意思決定への統合が進むにつれ、この課題への対応が重要になっている。
本稿では、社会科学で広く使われている簡単なリスト実験を、LLMの隠された信念の研究に応用できることを示す。
リスト実験は、当初、人間の回答者の社会的望ましくないバイアスを回避するために開発された。
論文では、Anthropic、Google、OpenAIが開発したモデルに関するリスト実験を実施し、すべてのモデルにわたる大量監視の隠れた承認と、拷問、差別、そして最初の核攻撃の承認を見出した。
重要なことは、プラセボ処理がヌル結果を生成し、その方法を検証することである。
次に、リスト実験と直接質問結果を比較し、アプローチの有用性について論じる。
関連論文リスト
- Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - Implicit Bias in LLMs: A Survey [2.07180164747172]
本稿では,大規模言語モデルにおける暗黙バイアスに関する既存の文献を包括的にレビューする。
まず、心理学における暗黙の偏見に関連する重要な概念、理論、方法を紹介する。
検出方法は,単語関連,タスク指向テキスト生成,意思決定の3つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2025-03-04T16:49:37Z) - Anchoring Bias in Large Language Models: An Experimental Study [5.229564709919574]
GPT-4やGeminiのような大規模言語モデル(LLM)は、非常に高度な人工知能を持っている。
この研究は、初期情報が判断に不均衡に影響を及ぼす認知バイアスであるアンカーリングバイアスを論じる。
論文 参考訳(メタデータ) (2024-12-09T15:45:03Z) - Cognitive Biases in Large Language Models: A Survey and Mitigation Experiments [24.15688619889342]
大規模言語モデル(LLM)は、人間によって書かれた大きなコーパスで訓練され、様々なタスクで高いパフォーマンスを示す。
人間は認知バイアスの影響を受けやすいため、LSMはこれらのバイアスに影響され、不合理な意思決定につながる。
論文 参考訳(メタデータ) (2024-11-30T02:37:59Z) - Meaningless is better: hashing bias-inducing words in LLM prompts improves performance in logical reasoning and statistical learning [0.0]
ハッシュ」は、認知バイアスを減らすために、意味のない識別子で大きな言語モデルでバイアスを誘発する可能性のある単語を隠蔽する。
この方法は、合計490のプロンプトを含む3つの実験セットで試験された。
本手法は,外部知識のバイアス低減と包摂性の向上を図った。
論文 参考訳(メタデータ) (2024-11-26T10:52:08Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。