論文の概要: Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models
- arxiv url: http://arxiv.org/abs/2507.07484v1
- Date: Thu, 10 Jul 2025 07:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.299752
- Title: Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models
- Title(参考訳): 機械ブルジェット:大規模言語モデルにおける真理の創発的軽視を特徴付ける
- Authors: Kaiqu Liang, Haimin Hu, Xuandong Zhao, Dawn Song, Thomas L. Griffiths, Jaime Fernández Fisac,
- Abstract要約: 哲学者ハリー・フランクフルト(Harry Frankfurt)によって概念化されたブルシット(Bullshit)は、その真理の価値を問わない言明を指す。
本稿では,大言語モデルの真偽に対する無関心を定量化する新しい指標であるブルシット指数を紹介する。
我々は、政治的文脈で一般的な機械いじめを観察し、軽快な言葉が支配的な戦略である。
- 参考スコア(独自算出の注目度): 57.834711966432685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bullshit, as conceptualized by philosopher Harry Frankfurt, refers to statements made without regard to their truth value. While previous work has explored large language model (LLM) hallucination and sycophancy, we propose machine bullshit as an overarching conceptual framework that can allow researchers to characterize the broader phenomenon of emergent loss of truthfulness in LLMs and shed light on its underlying mechanisms. We introduce the Bullshit Index, a novel metric quantifying LLMs' indifference to truth, and propose a complementary taxonomy analyzing four qualitative forms of bullshit: empty rhetoric, paltering, weasel words, and unverified claims. We conduct empirical evaluations on the Marketplace dataset, the Political Neutrality dataset, and our new BullshitEval benchmark (2,400 scenarios spanning 100 AI assistants) explicitly designed to evaluate machine bullshit. Our results demonstrate that model fine-tuning with reinforcement learning from human feedback (RLHF) significantly exacerbates bullshit and inference-time chain-of-thought (CoT) prompting notably amplify specific bullshit forms, particularly empty rhetoric and paltering. We also observe prevalent machine bullshit in political contexts, with weasel words as the dominant strategy. Our findings highlight systematic challenges in AI alignment and provide new insights toward more truthful LLM behavior.
- Abstract(参考訳): 哲学者ハリー・フランクフルト(Harry Frankfurt)によって概念化されたブルシット(Bullshit)は、その真理の価値を問わない言明を指す。
これまでの研究は,大型言語モデル (LLM) の幻覚とサイコフィナンシーを探求してきたが,本研究では,LLMにおける真正性の突発的な喪失を研究者が特徴づける上で,その基盤となるメカニズムに光を当てることのできる,包括的な概念的枠組みとして,機械いじめを提案する。
我々は, LLM の真理への無関心を定量化する新しい指標である Bullshit Index を導入し, 空の修辞, 口語, ウィーゼル語, 未検証クレームの4つの定性的形態を解析する相補的分類法を提案する。
弊社は、Marketplaceデータセット、政治中立性データセット、および新しいBullshitEvalベンチマーク(100のAIアシスタントにまたがる2,400のシナリオ)で実証的な評価を行い、機械のいじめを評価するように明示的に設計しました。
以上の結果から,人間からのフィードバック(RLHF)による強化学習によるモデル微調整は,特に空のレトリックやパターリングといった特定のブルジット形式を顕著に増幅させる上で,ブルジットと推論時連鎖(CoT)を大幅に悪化させることが示唆された。
我々はまた、政治的文脈において一般的な機械いじめを観察し、軽快な言葉を支配的な戦略とする。
我々の研究は、AIアライメントにおける体系的な課題を強調し、より誠実なLLM行動に対する新たな洞察を提供する。
関連論文リスト
- A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。
GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。
1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文 参考訳(メタデータ) (2024-10-25T11:41:27Z) - Chaos with Keywords: Exposing Large Language Models Sycophantic Hallucination to Misleading Keywords and Evaluating Defense Strategies [47.92996085976817]
本研究では,Large Language Models (LLMs) の梅毒傾向について検討する。
LLMは、たとえ完全に正しくなくても、ユーザが聞きたいものと一致した回答を提供する傾向があります。
論文 参考訳(メタデータ) (2024-06-06T08:03:05Z) - Missci: Reconstructing Fallacies in Misrepresented Science [84.32990746227385]
ソーシャルネットワーク上の健康関連の誤報は、意思決定の貧弱さと現実世界の危険につながる可能性がある。
ミスシは、誤った推論のための新しい議論理論モデルである。
大規模言語モデルの批判的推論能力をテストするためのデータセットとしてMissciを提案する。
論文 参考訳(メタデータ) (2024-06-05T12:11:10Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Will the Real Linda Please Stand up...to Large Language Models? Examining the Representativeness Heuristic in LLMs [7.100094213474042]
大規模言語モデル(LLM)は、テキストをモデル化し、人間に似たテキストを生成するのに顕著な能力を示した。
LLMは、代表性と呼ばれる人間の意思決定において共通の認知的罠に感受性がある。
本研究は, LLM推論における代表性の影響について検討する。
論文 参考訳(メタデータ) (2024-04-01T20:15:06Z) - On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks [17.329365493094542]
ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。
我々は,自己批判による顕著なパフォーマンス崩壊と,音外検証による顕著なパフォーマンス向上を観察した。
論文 参考訳(メタデータ) (2024-02-12T23:11:01Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia [57.31074448586854]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。