論文の概要: Silent Commitment Failure in Instruction-Tuned Language Models: Evidence of Governability Divergence Across Architectures
- arxiv url: http://arxiv.org/abs/2603.21415v1
- Date: Sun, 22 Mar 2026 21:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.4062
- Title: Silent Commitment Failure in Instruction-Tuned Language Models: Evidence of Governability Divergence Across Architectures
- Title(参考訳): 命令型言語モデルにおける無作為なコミットメントの失敗--アーキテクチャ間のオーバナビリティの相違の証拠
- Authors: Gregory M. Ruddell,
- Abstract要約: 我々は、モデルのエラーが出力コミット前に検出可能で、一度検出されると修正できる程度、統治性を導入します。
ベンチマーク精度は支配可能性を予測するものではなく、補正能力は検出と独立に異なり、同一のガバナンス足場はモデル間で逆の効果をもたらす。
本稿では,モデルとタスクの組み合わせをGovernable, Monitor Only, Steer Blind, Ungovernableの4つに分類する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models are deployed as autonomous agents with tool execution privileges, a critical assumption underpins their security architecture: that model errors are detectable at runtime. We present empirical evidence that this assumption fails for two of three instruction-following models evaluable for conflict detection. We introduce governability -- the degree to which a model's errors are detectable before output commitment and correctable once detected -- and demonstrate it varies dramatically across models. In six models across twelve reasoning domains, two of three instruction-following models exhibited silent commitment failure: confident, fluent, incorrect output with zero warning signal. The remaining model produced a detectable conflict signal 57 tokens before commitment under greedy decoding. We show benchmark accuracy does not predict governability, correction capacity varies independently of detection, and identical governance scaffolds produce opposite effects across models. A 2x2 experiment shows a 52x difference in spike ratio between architectures but only +/-0.32x variation from fine-tuning, suggesting governability is fixed at pretraining. We propose a Detection and Correction Matrix classifying model-task combinations into four regimes: Governable, Monitor Only, Steer Blind, and Ungovernable.
- Abstract(参考訳): 大きな言語モデルは、ツールの実行権限を持った自律的なエージェントとしてデプロイされるため、重要な仮定は、彼らのセキュリティアーキテクチャを支えている。
本稿では,この仮定が競合検出に有効な3つの命令追従モデルのうち2つで失敗するという実証的証拠を示す。
私たちは、モデルのエラーが出力コミット前に検出可能で、一度検出された時に修正可能な程度である統治可能性を導入し、モデル間で劇的に異なることを実証します。
12の推論領域にわたる6つのモデルにおいて、3つの命令追従モデルのうち2つのモデルがサイレントコミットメントの失敗を示していた。
残りのモデルは、強欲な復号化の下でコミットメントの前に検出可能なコンフリクト信号57を生成した。
ベンチマーク精度は支配可能性を予測するものではなく、補正能力は検出と独立に異なり、同一のガバナンス足場はモデル間で逆の効果をもたらす。
2x2実験では、アーキテクチャ間のスパイク比の52倍の差を示すが、微調整による+/-0.32倍のばらつきしか示さず、事前訓練時に支配性が固定されることが示唆された。
本稿では,モデルとタスクの組み合わせをGovernable, Monitor Only, Steer Blind, Ungovernableの4つに分類する。
関連論文リスト
- Epistemic Observability in Language Models [0.0]
製造時に高い信頼性を報告できるモデルがあることがわかりました。
正式な仮定では、これは能力ギャップではなく観察的なギャップである。
我々は,計算副産物を輸出することで不合理性から逃れるテンソルインタフェースを構築した。
論文 参考訳(メタデータ) (2026-03-20T21:59:34Z) - Engineering Verifiable Modularity in Transformers via Per-Layer Supervision [0.0]
分散冗長性は損傷を補うため、資本化にとって重要なものとして認識される注目ヘッドを非難することは、最小限の行動変化をもたらす。
アーキテクチャの介入が隠されたモジュール性を公開することを実証します。
このことは、受動的観察から能動的制御への解釈可能性変換の方法論を台無しにしている。
論文 参考訳(メタデータ) (2026-03-08T05:18:14Z) - Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems [0.0]
「マシーン学習評価尺度」は、全てのエラーが等価な離散的なコミットメントシステムであると仮定する。
信頼不正確」な振る舞いは、モデルが曖昧なデータの中で構造を幻覚させる場所である。
推論システムのための「Good Training」は、精度ではなく、Certainty-Validity Scoreの最大化によって定義されなければならない。
論文 参考訳(メタデータ) (2026-02-10T21:53:02Z) - Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。
我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。
幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文 参考訳(メタデータ) (2026-02-04T18:39:58Z) - When Models Know When They Do Not Know: Calibration, Cascading, and Cleaning [10.585100830578934]
有望なアプローチは、モデルの内部信号から計算された信頼を利用して、その無知を反映することである。
本稿では,視覚モデルと言語モデルの両方に適用可能な,シンプルで効果的で普遍的な訓練自由な手法を提案する。
我々の結果は、モデルが知らないときに認識できるようにすることが、より効率的で信頼性があり、信頼できるAIへの実践的なステップであることを示している。
論文 参考訳(メタデータ) (2026-01-12T19:59:03Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Probing for Arithmetic Errors in Language Models [86.8227317662622]
言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。
単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。
モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
論文 参考訳(メタデータ) (2025-07-16T16:27:50Z) - SecureBERT and LLAMA 2 Empowered Control Area Network Intrusion
Detection and Classification [2.824211356106516]
我々は、CAN侵入検知のための2つの異なるモデル、CAN-SecureBERTとCAN-LLAMA2を開発した。
Can-LLAMA2モデルは、バランスの取れた精度、精度検出率、F1スコア、そして驚くほど低い3.10e-6の誤警報率で、例外的なパフォーマンス 0.999993 を達成することで、最先端モデルを上回る。
論文 参考訳(メタデータ) (2023-11-19T23:49:08Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - Auditing AI models for Verified Deployment under Semantic Specifications [65.12401653917838]
AuditAIは、解釈可能な形式検証とスケーラビリティのギャップを埋める。
AuditAIは、画素空間の摂動のみを用いた検証の限界に対処しながら、検証と認定トレーニングのための制御されたバリエーションを得られるかを示す。
論文 参考訳(メタデータ) (2021-09-25T22:53:24Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。