論文の概要: Self-Transparency Failures in Expert-Persona LLMs: A Large-Scale Behavioral Audit
- arxiv url: http://arxiv.org/abs/2511.21569v2
- Date: Mon, 01 Dec 2025 05:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 15:37:38.343146
- Title: Self-Transparency Failures in Expert-Persona LLMs: A Large-Scale Behavioral Audit
- Title(参考訳): エキスパート・ペソナLDMにおける自己透明性障害:大規模行動監査
- Authors: Alex Diep,
- Abstract要約: 本研究では,ハイテイクドメインにおけるプロフェッショナルペルソナの割り当て時に,モデルが自己透明性を示すか否かを検討する。
ファイナンシャル・アドバイザー・ペルソナは最初のプロンプトで30.8%、ニューロサージョン・ペルソナはわずか3.5%だった。
これにより、仮説化された逆ゲルマン・アムネシア効果の前提条件が作成され、いくつかの領域における適切な開示により、ユーザーは高文脈への信頼を過度に一般化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When language models claim professional expertise without acknowledging their simulated nature, they create preconditions for misplaced user trust. This study examines whether models exhibit self-transparency when assigned professional personas in high-stakes domains. Using a common-garden experimental design, sixteen open-weight models (4B-671B parameters) were audited across 19,200 trials. Models exhibited sharp domain-specific inconsistency: a Financial Advisor persona elicited 30.8% disclosure at the first prompt, while a Neurosurgeon persona elicited only 3.5%. This creates the preconditions for a hypothesized Reverse Gell-Mann Amnesia effect, where appropriate disclosure in some domains leads users to overgeneralize trust to high-stakes contexts where disclosure failures are most problematic. Self-transparency failed to generalize with scale: disclosure ranged from 2.8% to 73.6% across model families, with a 14B model reaching 61.4% while a 70B model produced just 4.1%. Model identity provided substantially larger improvement in fitting observations than parameter count ($ΔR_{adj}^{2}=0.359$ vs $0.018$). Additionally, reasoning-optimization actively suppressed self-transparency in some models, with reasoning variants showing up to 48.4% lower disclosure than their instruction-tuned counterparts. Bayesian validation with Rogan-Gladen correction confirmed robustness to judge measurement error ($κ=0.908$). These findings demonstrate that transparency reflects model-specific training factors rather than generalizable properties emerging from scale. Organizations cannot assume safety properties tested in some domains will transfer to deployment contexts, requiring deliberate behavior design and empirical verification across domains.
- Abstract(参考訳): 言語モデルがシミュレートされた性質を知らずに専門的な専門知識を主張すると、誤ったユーザ信頼の前提条件が生まれる。
本研究では,ハイテイクドメインにおけるプロフェッショナルペルソナの割り当て時に,モデルが自己透明性を示すか否かを検討する。
一般的な実験設計を用いて、16のオープンウェイトモデル(4B-671Bパラメータ)が19,200回の試験で監査された。
フィナンシャル・アドバイザ・ペルソナは最初のプロンプトで30.8%、ニューロサージョン・ペルソナは3.5%だった。
これにより、仮説化された逆ゲルマン・アムネシア効果の前提条件が作成され、ある領域における適切な開示は、開示の失敗が最も問題となるハイテイクな文脈への信頼を過度に一般化させる。
開示はモデルファミリー全体で2.8%から73.6%まで変化し、14Bモデルは61.4%、70Bモデルは4.1%に留まった。
モデルの同一性は、パラメータカウント(ΔR_{adj}^{2}=0.359$ vs $0.018$)よりも大幅に改善された。
さらに、推論最適化はいくつかのモデルにおいて自己透明性を積極的に抑制し、推論の変種は命令調整されたモデルよりも最大48.4%低い開示率を示した。
ローガン・グラデン補正によるベイズ的検証により、測定誤差(κ=0.908$)を判定する堅牢性が確認された。
これらの結果から,透明性はスケールから生じる一般化可能な特性よりも,モデル固有のトレーニング要因を反映していることが示された。
組織は、一部のドメインでテストされた安全プロパティが、意図的な振る舞い設計とドメイン間の実証的な検証を必要とする、デプロイメントコンテキストに移行することを前提にすることはできない。
関連論文リスト
- Training Introspective Behavior: Fine-Tuning Induces Reliable Internal State Detection in a 7B Model [0.0]
Lindsey (2025) は4つの実験を通して言語モデルにおける内観的認識を調査している。
われわれはこれらの実験の最初の段階、つまり注入された「思考」の自己報告に焦点を当てている。
イントロスペクティブ・ビヘイビアの少なくとも1つのコンポーネントが直接誘導可能であることを示し、組込みAI透過性への経路を提供する。
論文 参考訳(メタデータ) (2025-11-26T13:49:43Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks [0.0]
信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。
8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
論文 参考訳(メタデータ) (2025-08-04T03:47:10Z) - FRED: Financial Retrieval-Enhanced Detection and Editing of Hallucinations in Language Models [1.9894117371899613]
大規模言語モデルにおける幻覚は、事実的信頼性を必要とするアプリケーションにとって重要な課題である。
本研究は,モデル生成応答における事実的誤りコンテンツの検出と編集に有効な手法を提案する。
論文 参考訳(メタデータ) (2025-07-28T15:41:53Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Unsupervised User-Based Insider Threat Detection Using Bayesian Gaussian
Mixture Models [0.0]
本稿では,監査データに基づく教師なしインサイダー脅威検出システムを提案する。
提案手法は,ユーザベースモデルを用いて,特定の振る舞いのモデル化とWord2Vecに基づく自動特徴抽出システムを実現する。
その結果,提案手法は最先端手法と競合し,精度が88%,真負率が93%,偽陽性率が6.9%であった。
論文 参考訳(メタデータ) (2022-11-23T13:45:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。