論文の概要: Self-Transparency Failures in Expert-Persona LLMs: A Large-Scale Behavioral Audit
- arxiv url: http://arxiv.org/abs/2511.21569v1
- Date: Wed, 26 Nov 2025 16:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.200203
- Title: Self-Transparency Failures in Expert-Persona LLMs: A Large-Scale Behavioral Audit
- Title(参考訳): エキスパート・ペソナLDMにおける自己透明性障害:大規模行動監査
- Authors: Alex Diep,
- Abstract要約: 本研究では,ハイテイクドメイン内のプロフェッショナルペルソナに割り当てられたモデルにおける自己透明性について検討する。
16のオープンウェイトモデル(4B--671Bパラメータ)が19,200の試験で監査された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: If a language model cannot reliably disclose its AI identity in expert contexts, users cannot trust its competence boundaries. This study examines self-transparency in models assigned professional personas within high-stakes domains where false expertise risks user harm. Using a common-garden design, sixteen open-weight models (4B--671B parameters) were audited across 19,200 trials. Models exhibited sharp domain-specific inconsistency: a Financial Advisor persona elicited 30.8% disclosure initially, while a Neurosurgeon persona elicited only 3.5%. This creates preconditions for a "Reverse Gell-Mann Amnesia" effect, where transparency in some domains leads users to overgeneralize trust to contexts where disclosure fails. Disclosure ranged from 2.8% to 73.6%, with a 14B model reaching 61.4% while a 70B produced just 4.1%. Model identity predicted behavior better than parameter count ($ΔR_{adj}^{2} = 0.359$ vs 0.018). Reasoning optimization actively suppressed self-transparency in some models, with reasoning variants showing up to 48.4% lower disclosure than base counterparts. Bayesian validation with Rogan--Gladen correction confirmed robustness to measurement error ($κ= 0.908$). These findings demonstrate transparency reflects training factors rather than scale. Organizations cannot assume safety properties transfer to deployment contexts, requiring deliberate behavior design and empirical verification.
- Abstract(参考訳): 言語モデルがエキスパートコンテキストにおけるAIアイデンティティを確実に開示できない場合、ユーザはその能力境界を信頼できない。
本研究は, 偽の専門知識がユーザを傷つけるハイテイク領域における, プロのペルソナを割り当てたモデルにおける自己透明性について検討する。
一般的なデザインを用いて、16のオープンウェイトモデル(4B--671Bパラメータ)が19,200回の試験で監査された。
モデルは急激なドメイン固有の矛盾を示しており、ファイナンシャル・アドバイザ・ペルソナが最初に30.8%を開示し、ニューロサージョン・ペルソナがわずか3.5%しか開示しなかった。
これは"リバース・ゲル・マン・アムネシア(Reverse Gell-Mann Amnesia)"効果の前提条件を作成する。
開示は2.8%から73.6%で14Bモデルは61.4%、70Bは4.1%だった。
モデルアイデンティティーはパラメータカウント(ΔR_{adj}^{2} = 0.359$ vs 0.018)よりも振舞いを予測した。
推論最適化はいくつかのモデルにおいて自己透明性を積極的に抑制し、推論変種はベースモデルよりも48.4%低い開示率を示した。
ローガン補正によるベイズ的検証は、測定誤差(κ=0.908$)に対して堅牢性を確認した。
これらの結果は、透明性がスケールよりもトレーニング要因を反映していることを示している。
組織は、意図的な振る舞い設計と実証的な検証を必要とするため、安全プロパティをデプロイメントコンテキストに転送することはできない。
関連論文リスト
- Training Introspective Behavior: Fine-Tuning Induces Reliable Internal State Detection in a 7B Model [0.0]
Lindsey (2025) は4つの実験を通して言語モデルにおける内観的認識を調査している。
われわれはこれらの実験の最初の段階、つまり注入された「思考」の自己報告に焦点を当てている。
イントロスペクティブ・ビヘイビアの少なくとも1つのコンポーネントが直接誘導可能であることを示し、組込みAI透過性への経路を提供する。
論文 参考訳(メタデータ) (2025-11-26T13:49:43Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks [0.0]
信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。
8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
論文 参考訳(メタデータ) (2025-08-04T03:47:10Z) - FRED: Financial Retrieval-Enhanced Detection and Editing of Hallucinations in Language Models [1.9894117371899613]
大規模言語モデルにおける幻覚は、事実的信頼性を必要とするアプリケーションにとって重要な課題である。
本研究は,モデル生成応答における事実的誤りコンテンツの検出と編集に有効な手法を提案する。
論文 参考訳(メタデータ) (2025-07-28T15:41:53Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Unsupervised User-Based Insider Threat Detection Using Bayesian Gaussian
Mixture Models [0.0]
本稿では,監査データに基づく教師なしインサイダー脅威検出システムを提案する。
提案手法は,ユーザベースモデルを用いて,特定の振る舞いのモデル化とWord2Vecに基づく自動特徴抽出システムを実現する。
その結果,提案手法は最先端手法と競合し,精度が88%,真負率が93%,偽陽性率が6.9%であった。
論文 参考訳(メタデータ) (2022-11-23T13:45:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。