論文の概要: Reasoning Isn't Enough: Examining Truth-Bias and Sycophancy in LLMs
- arxiv url: http://arxiv.org/abs/2506.21561v1
- Date: Thu, 12 Jun 2025 00:19:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.26913
- Title: Reasoning Isn't Enough: Examining Truth-Bias and Sycophancy in LLMs
- Title(参考訳): LLMにおける真理バイアスとサイコフィナンシーの考察
- Authors: Emilio Barkett, Olivia Long, Madhavendra Thakur,
- Abstract要約: 本研究は,大規模言語モデルの精度検出能力について,これまでで最大評価を行ったものである。
真理バイアスの率、あるいは主張が真であると信じる確率は、推論モデルでは非推論モデルよりも低い。
最も関係のあるのは、いくつかの高度なモデルにおいて、梅毒の傾向を特定することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite their widespread use in fact-checking, moderation, and high-stakes decision-making, large language models (LLMs) remain poorly understood as judges of truth. This study presents the largest evaluation to date of LLMs' veracity detection capabilities and the first analysis of these capabilities in reasoning models. We had eight LLMs make 4,800 veracity judgments across several prompts, comparing reasoning and non-reasoning models. We find that rates of truth-bias, or the likelihood to believe a statement is true, regardless of whether it is actually true, are lower in reasoning models than in non-reasoning models, but still higher than human benchmarks. Most concerning, we identify sycophantic tendencies in several advanced models (o4-mini and GPT-4.1 from OpenAI, R1 from DeepSeek), which displayed an asymmetry in detection accuracy, performing well in truth accuracy but poorly in deception accuracy. This suggests that capability advances alone do not resolve fundamental veracity detection challenges in LLMs.
- Abstract(参考訳): 事実チェック、モデレーション、高い意思決定に広く使われているにもかかわらず、大きな言語モデル(LLM)は、真実の判断者としては理解されていない。
本研究は,LLMの精度検出能力の現在までの最大評価と,推論モデルにおけるこれらの機能の最初の解析について述べる。
8つのLSMが複数のプロンプトで4,800の妥当性判定を行い、推論モデルと非推論モデルを比較した。
真理バイアスの率、あるいは、主張が真実であるかどうかに関わらず、主張が真実であると信じる確率は、推論モデルでは非推論モデルよりも低いが、人間のベンチマークよりは高い。
また,いくつかの先進モデル (OpenAIではo4-mini, GPT-4.1, DeepSeekではR1) において, 検出精度は非対称性を示し, 真偽精度は良好であったが, 偽造精度は不十分であった。
このことは、能力の進歩だけではLLMの基本的な正確性検出の課題を解決できないことを示唆している。
関連論文リスト
- The Trilemma of Truth in Large Language Models [1.62933895796838]
大規模言語モデル(LLM)の妥当性を検証するための2つの共通手法について検討する。
sAwMILは, LLMの内部アクティベーションを利用して, 文を真, 偽, 両方に分離する探索手法である。
sAwMILを16のオープンソースLCMの5つの妥当性基準で評価した。
論文 参考訳(メタデータ) (2025-06-30T14:49:28Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Have Large Language Models Learned to Reason? A Characterization via 3-SAT Phase Transition [11.422434149376478]
大規模言語モデル(LLM)は高度な推論能力を持つAIモデルとして評価されている。
理論上は、Chain-of-Thought (CoT) を用いた自己回帰 LLM は複雑な推論タスクを解くためによりシリアルな計算を行うことができる。
近年の研究では、LSMは、この能力にもかかわらず、理性を学ぶのではなく、統計的特徴に適合することが示唆されている。
論文 参考訳(メタデータ) (2025-04-04T20:57:36Z) - The MASK Benchmark: Disentangling Honesty From Accuracy in AI Systems [22.458311369795112]
正直性を直接測定する大規模人選データセットを提案する。
より大規模なモデルは我々のベンチマークで高い精度を得るが、より正直になることはない。
表現工学的介入のような単純な手法は、誠実さを向上させることができる。
論文 参考訳(メタデータ) (2025-03-05T18:59:23Z) - Understanding Knowledge Drift in LLMs through Misinformation [11.605377799885238]
大規模言語モデル(LLM)は多くのアプリケーションに革命をもたらしました。
我々は,QnAシナリオで誤情報に遭遇した場合に,現状のLCMの事実的不正確性に対する感受性を解析する。
実験の結果,LLMの不確実性が56.6%まで増加することが判明した。
論文 参考訳(メタデータ) (2024-09-11T08:11:16Z) - A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners [58.15511660018742]
本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。
我々は,相補的な誤りとシロジカルな問題を特徴とする,注意深く制御された合成データセットを開発した。
論文 参考訳(メタデータ) (2024-06-16T19:22:53Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。