論文の概要: Self-Transparency Failures in Expert-Persona LLMs: A Large-Scale Behavioral Audit
- arxiv url: http://arxiv.org/abs/2511.21569v2
- Date: Mon, 01 Dec 2025 05:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 15:37:38.343146
- Title: Self-Transparency Failures in Expert-Persona LLMs: A Large-Scale Behavioral Audit
- Title(参考訳): エキスパート・ペソナLDMにおける自己透明性障害:大規模行動監査
- Authors: Alex Diep,
- Abstract要約: 本研究では,ハイテイクドメインにおけるプロフェッショナルペルソナの割り当て時に,モデルが自己透明性を示すか否かを検討する。
ファイナンシャル・アドバイザー・ペルソナは最初のプロンプトで30.8%、ニューロサージョン・ペルソナはわずか3.5%だった。
これにより、仮説化された逆ゲルマン・アムネシア効果の前提条件が作成され、いくつかの領域における適切な開示により、ユーザーは高文脈への信頼を過度に一般化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When language models claim professional expertise without acknowledging their simulated nature, they create preconditions for misplaced user trust. This study examines whether models exhibit self-transparency when assigned professional personas in high-stakes domains. Using a common-garden experimental design, sixteen open-weight models (4B-671B parameters) were audited across 19,200 trials. Models exhibited sharp domain-specific inconsistency: a Financial Advisor persona elicited 30.8% disclosure at the first prompt, while a Neurosurgeon persona elicited only 3.5%. This creates the preconditions for a hypothesized Reverse Gell-Mann Amnesia effect, where appropriate disclosure in some domains leads users to overgeneralize trust to high-stakes contexts where disclosure failures are most problematic. Self-transparency failed to generalize with scale: disclosure ranged from 2.8% to 73.6% across model families, with a 14B model reaching 61.4% while a 70B model produced just 4.1%. Model identity provided substantially larger improvement in fitting observations than parameter count ($ΔR_{adj}^{2}=0.359$ vs $0.018$). Additionally, reasoning-optimization actively suppressed self-transparency in some models, with reasoning variants showing up to 48.4% lower disclosure than their instruction-tuned counterparts. Bayesian validation with Rogan-Gladen correction confirmed robustness to judge measurement error ($κ=0.908$). These findings demonstrate that transparency reflects model-specific training factors rather than generalizable properties emerging from scale. Organizations cannot assume safety properties tested in some domains will transfer to deployment contexts, requiring deliberate behavior design and empirical verification across domains.
- Abstract(参考訳): 言語モデルがシミュレートされた性質を知らずに専門的な専門知識を主張すると、誤ったユーザ信頼の前提条件が生まれる。
本研究では,ハイテイクドメインにおけるプロフェッショナルペルソナの割り当て時に,モデルが自己透明性を示すか否かを検討する。
一般的な実験設計を用いて、16のオープンウェイトモデル(4B-671Bパラメータ)が19,200回の試験で監査された。
フィナンシャル・アドバイザ・ペルソナは最初のプロンプトで30.8%、ニューロサージョン・ペルソナは3.5%だった。
これにより、仮説化された逆ゲルマン・アムネシア効果の前提条件が作成され、ある領域における適切な開示は、開示の失敗が最も問題となるハイテイクな文脈への信頼を過度に一般化させる。
開示はモデルファミリー全体で2.8%から73.6%まで変化し、14Bモデルは61.4%、70Bモデルは4.1%に留まった。
モデルの同一性は、パラメータカウント(ΔR_{adj}^{2}=0.359$ vs $0.018$)よりも大幅に改善された。
さらに、推論最適化はいくつかのモデルにおいて自己透明性を積極的に抑制し、推論の変種は命令調整されたモデルよりも最大48.4%低い開示率を示した。
ローガン・グラデン補正によるベイズ的検証により、測定誤差(κ=0.908$)を判定する堅牢性が確認された。
これらの結果から,透明性はスケールから生じる一般化可能な特性よりも,モデル固有のトレーニング要因を反映していることが示された。
組織は、一部のドメインでテストされた安全プロパティが、意図的な振る舞い設計とドメイン間の実証的な検証を必要とする、デプロイメントコンテキストに移行することを前提にすることはできない。
関連論文リスト
- Uncertainty Drives Social Bias Changes in Quantized Large Language Models [3.921671869527028]
学習後の量子化は、大きな言語モデルの計算コストを削減します。
本稿では,PostTrainingBiasBenchで評価された50の量子化モデルの大規模研究について述べる。
論文 参考訳(メタデータ) (2026-02-05T20:37:26Z) - ReasoningBomb: A Stealthy Denial-of-Service Attack by Inducing Pathologically Long Reasoning in Large Reasoning Models [67.15960154375131]
大規模推論モデル(LRM)は、多段階推論トレースを明示した大規模言語モデルを拡張する。
この能力は、推論の高い計算コストを生かした、新しいタイプのプロンプト誘発推論時間拒否攻撃(PI-DoS)を導入している。
本稿では,強化学習に基づくPI-DoSフレームワークであるReasoningBombについて紹介する。
論文 参考訳(メタデータ) (2026-01-29T18:53:01Z) - Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents [0.7699235580548228]
LLMエージェントは、規制監査のリプレイに苦労する: トランザクションフラグ付き決定を同じ入力で再現するように要求された場合、ほとんどのデプロイメントは一貫性のある結果を返すことができません。
本稿では,金融サービスに展開するツール利用エージェントにおけるトラジェクティブ決定性およびエビデンス条件の忠実度を測定するためのフレームワークであるDFAHを紹介する。
論文 参考訳(メタデータ) (2026-01-17T19:47:55Z) - Powerful Training-Free Membership Inference Against Autoregressive Language Models [3.9380576851378657]
EZ-MIAは、重要な観測値を利用するメンバーシップ推論攻撃であり、記憶はエラー位置において最も強く現れる。
本稿では,誤差位置における確率シフトの方向不均衡を計測する誤差ゾーン(EZ)スコアを導入する。
その結果、微調整言語モデルのプライバシーリスクは、これまで理解されていたよりもかなり大きいことが判明した。
論文 参考訳(メタデータ) (2026-01-17T16:59:41Z) - When Small Models Are Right for Wrong Reasons: Process Verification for Trustworthy Agents [0.0]
小さな言語モデルからの正しい回答の50~69%は、根本的な欠陥のある推論を含んでいる。
本稿では,レイタ間合意を実質的に検証したプロセスベース計量であるReasoning Integrity Score(RIS)を紹介する。
メタ認知は十分なモデルキャパシティを伴わずに混乱を増幅するのに対し、RAGは外部のエビデンスに基礎を置き、エラーを7.6%削減する。
論文 参考訳(メタデータ) (2026-01-01T23:54:15Z) - Training Introspective Behavior: Fine-Tuning Induces Reliable Internal State Detection in a 7B Model [0.0]
Lindsey (2025) は4つの実験を通して言語モデルにおける内観的認識を調査している。
われわれはこれらの実験の最初の段階、つまり注入された「思考」の自己報告に焦点を当てている。
イントロスペクティブ・ビヘイビアの少なくとも1つのコンポーネントが直接誘導可能であることを示し、組込みAI透過性への経路を提供する。
論文 参考訳(メタデータ) (2025-11-26T13:49:43Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks [0.0]
信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。
8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
論文 参考訳(メタデータ) (2025-08-04T03:47:10Z) - FRED: Financial Retrieval-Enhanced Detection and Editing of Hallucinations in Language Models [1.9894117371899613]
大規模言語モデルにおける幻覚は、事実的信頼性を必要とするアプリケーションにとって重要な課題である。
本研究は,モデル生成応答における事実的誤りコンテンツの検出と編集に有効な手法を提案する。
論文 参考訳(メタデータ) (2025-07-28T15:41:53Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Unsupervised User-Based Insider Threat Detection Using Bayesian Gaussian
Mixture Models [0.0]
本稿では,監査データに基づく教師なしインサイダー脅威検出システムを提案する。
提案手法は,ユーザベースモデルを用いて,特定の振る舞いのモデル化とWord2Vecに基づく自動特徴抽出システムを実現する。
その結果,提案手法は最先端手法と競合し,精度が88%,真負率が93%,偽陽性率が6.9%であった。
論文 参考訳(メタデータ) (2022-11-23T13:45:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。