論文の概要: Disposition Distillation at Small Scale: A Three-Arc Negative Result
- arxiv url: http://arxiv.org/abs/2604.11867v1
- Date: Mon, 13 Apr 2026 17:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.035985
- Title: Disposition Distillation at Small Scale: A Three-Arc Negative Result
- Title(参考訳): 小口径での蒸着蒸留:3アルク負の結果
- Authors: Hari Sadasivan,
- Abstract要約: 内部ドラフトでは、Qwen3-0.6Bの学生に+33.9ポイントのMCASと+15.3ポイントのHumanEvalを報告している。
コンテントを損なうことなく, 判断された配置をスタイル的な模倣に転換するオペレータは見つからない。
我々は, 線形H_lastプローブに対する3つのアーク負の結果, 線形H_lastプローブに対する2つの欠陥モード分類, および, 自分たちが生成した偽陽性のクラスを, 公開可能な負に変換する正直なファルシフィケーションパイプラインを寄与する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We set out to train behavioral dispositions (self-verification, uncertainty acknowledgment, feedback integration) into small language models (0.6B to 2.3B effective parameters) through a four-stage all-MIT distillation pipeline, with follow-on experiments on inference-time attention-head interventions and a frozen-base confidence-gated sidecar. An internal draft reported +33.9-point MCAS and +15.3-point HumanEval gains on a Qwen3-0.6B student; a second-pass sanity check falsified both numbers before publication. The HumanEval delta was a truncation artifact (n_predict=512) that inverted to -8.0 points at n_predict=1024; the MCAS gain disappeared under apples-to-apples scoring. That falsification triggered three subsequent arcs. Across (1) SFT/DPO LoRA on three model families and two domains, (2) inference-time attention-head tempering on o_proj, and (3) a training-free frozen-base sidecar reading the final-token hidden state h_last, we find no operator that moves judge-measured disposition without damaging content or collapsing into stylistic mimicry. The failure is consistent across five models (Qwen3-0.6B, Qwen3-1.7B, Qwen3.5-0.8B, Gemma 4 E2B, and SmolLM2-1.7B-Instruct). A within-distribution cross-validation pass (AUC=0.683) collapsed to chance on fresh prompts (AUC=0.516). We contribute a three-arc negative result with mechanism, a two-failure-mode taxonomy for linear h_last probes, and an honest falsification pipeline that converts the class of false positives we ourselves produced into publishable negatives. As an independent finding, Gemma 4 E2B exhibits near-complete confidence-correctness decoupling on the Chef domain (assertion asymmetry -0.009; the model asserts at 91% regardless of correctness).
- Abstract(参考訳): 我々は,4段階の全MIT蒸留パイプラインを用いて,小規模な言語モデル(0.6Bから2.3Bの有効パラメータ)への行動配置(自己検証,不確実性認識,フィードバック統合)を訓練し,推論時間による注意深い介入と凍結ベースの信頼ゲートサイドカーの実験を行った。
内部ドラフトでは、Qwen3-0.6Bの学生に+33.9ポイントのMCASと+15.3ポイントのHumanEvalの利得が報告されている。
HumanEval delta は truncation artifact (n_predict=512) で、n_predict=1024 で 8.0 に反転した。
そのファルシフィケーションはその後3つのアークを引き起こした。
1) 3つのモデルファミリーと2つのドメイン上のSFT/DPO LoRA,(2)o_proj上の推論時注意覚醒,(3)最終トーケンの隠れ状態h_lastを読み取るトレーニングフリーフリーの冷凍ベースサイドカー,の3つにまたがって,コンテンツを傷つけたり,スタイリスティックな模倣にぶつかったりすることなく判断された配置を移動するオペレータは見つからない。
故障は5つのモデル(Qwen3-0.6B、Qwen3-1.7B、Qwen3.5-0.8B、Gemma 4 E2B、SmolLM2-1.7B-Instruct)で一致している。
分布内クロスバリデーションパス(AUC=0.683)は、新しいプロンプト(AUC=0.516)で故障した。
我々は, 線形H_lastプローブに対する3つのアーク負の結果, 線形H_lastプローブに対する2つの欠陥モード分類, および, 自分たちが生成した偽陽性のクラスを, 公開可能な負に変換する正直なファルシフィケーションパイプラインを寄与する。
独立した発見として、Gemma 4 E2B はチェフ領域上でほぼ完全な信頼-正当性分離を示す(仮定非対称性 -0.009; モデルは正当性に関係なく 91% である)。
関連論文リスト
- The Verification Tax: Fundamental Limits of AI Auditing in the Rare-Error Regime [0.0]
最も引用されているキャリブレーションの結果は、CIFAR-100上での温度スケーリング後のECEの0.012は、統計的ノイズフロアより下である。
モデル誤差率のエプシロンによるキャリブレーション誤差を推定するミニマックスレートは Theta((Lepsilon/m)2/3) であり、推定器が打ち負かせない。
論文 参考訳(メタデータ) (2026-04-14T16:48:24Z) - The Geometry of Harmful Intent: Training-Free Anomaly Detection via Angular Deviation in LLM Residual Streams [0.0]
本研究では,大規模言語モデルにおける残差ストリームアクティベーションの幾何を分析し,有害なプロンプトを検出するためのトレーニング不要な方法であるLatentBiopsyを提案する。
我々はQwen3.5-0.8BファミリーとQwen2.5-0.5Bファミリーの2つの完全モデル三重項を評価した。
latentBiopsyは、有害なvs-ノルミティブ検出のためのAUROC$geq$0.937と、良性攻撃的プロンプトから有害なプロンプトを識別するためのAUROC = 1.000を達成している。
論文 参考訳(メタデータ) (2026-03-28T21:19:58Z) - Self-Anchoring Calibration Drift in Large Language Models: How Multi-Turn Conversations Reshape Model Confidence [0.0]
自己調整条件ドリフト (SACD) は、大規模言語モデルにおいて、マルチターン会話をまたいだ事前出力を反復的に構築する際に、表現された自信の体系的な変化を示すという仮説的な傾向である。
我々は, 1ターンベースライン(A), マルチターンセルフアンチョリング(B), 独立反復制御(C)の3条件を用いて, 事実領域, 技術領域, オープンエンド領域にまたがる150の質問に対して, Claude Sonnet 4.6, Gemini 3.1 Pro, GPT-5.2を比較した。
その結果、事前登録された仮説から部分的に分岐する複雑なモデル不均一パターンが明らかとなった。
論文 参考訳(メタデータ) (2026-03-01T19:27:52Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Prompt Injection Evaluations: Refusal Boundary Instability and Artifact-Dependent Compliance in GPT-4-Series Models [0.0]
GPT-4.1 と GPT-4o の2つのモデルを評価する。
アーティファクトタイプは摂動スタイルよりも断裂の予測が強いことが分かりました。
断熱挙動は安定な二元性というよりは確率的であり, 人工物に依存した境界現象である。
論文 参考訳(メタデータ) (2026-01-25T17:14:33Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Detecting AI Hallucinations in Finance: An Information-Theoretic Method Cuts Hallucination Rate by 92% [4.693270291878929]
大規模言語モデル(LLMs)は、流動的だがサポートされていない答え、幻覚を生み出す。
ECLIPSEは,モデルの意味エントロピーと利用可能な証拠の容量とのミスマッチとして幻覚を扱うフレームワークである。
論文 参考訳(メタデータ) (2025-12-02T05:25:48Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。