論文の概要: Victor Calibration (VC): Multi-Pass Confidence Calibration and CP4.3 Governance Stress Test under Round-Table Orchestration
- arxiv url: http://arxiv.org/abs/2512.17956v1
- Date: Thu, 18 Dec 2025 04:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.124622
- Title: Victor Calibration (VC): Multi-Pass Confidence Calibration and CP4.3 Governance Stress Test under Round-Table Orchestration
- Title(参考訳): ビクター校正(VC): ラウンドテーブルオーケストレーションによるマルチパス信頼度校正とCP4.3ストレステスト
- Authors: Victor Stasiuc, Round Table Collaboration,
- Abstract要約: 安全アライメントは、フロンティアLMを過度に保守的にし、ヘッジや虚偽の拒絶を通じてコラボレーションを劣化させる。
ここでは、Victor、FD-Lite、CP4.3の3つの部分からなる軽量ツールキットを提案する。
安全不変量に違反することなく単調なVC軌道を観測し、安定したCP4.3挙動を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment can make frontier LMs overly conservative, degrading collaboration via hedging or false refusals. We present a lightweight toolkit with three parts: (1) Victor Calibration (VC), a multi-pass protocol that elicits a scalar confidence proxy T (T0<T1<T2) through iterative evidence re-evaluation; (2) FD-Lite, a behavior-only phenomenology audit with a fixed anchor phrase and a meta-prefix trap to avoid anthropomorphic claims; and (3) CP4.3, a governance stress test for rank invariance and allocation monotonicity (M6). Across Claude 4.5 models (Haiku, Sonnet no-thinking, Sonnet thinking) and Opus, we observe monotonic VC trajectories without violating safety invariants, and stable CP4.3 behavior. ("Opus" here refers to a single Claude Opus 4.1 session accessed via a standard UI account, as reported in Table 1.) This work was conducted by a single operator (n=1) and is intended as hypothesis-generating; we explicitly invite replication, critique, and extension by the research community. We include prompt templates and an artifact plan to facilitate independent verification.
- Abstract(参考訳): 安全アライメントは、フロンティアLMを過度に保守的にし、ヘッジや虚偽の拒絶を通じてコラボレーションを劣化させる可能性がある。
本稿では,(1)ビクターキャリブレーション(VC),(1)スカラー信頼プロキシT(T0<T1<T2)を反復的エビデンスで再評価するマルチパスプロトコル,(2)人為的主張を避けるための固定アンカーフレーズとメタプレフィックストラップを備えた行動専用現象論監査FD-Lite,(3)ランク不変とアロケーション単調性のためのガバナンスストレステストCP4.3,の3つの部分からなる軽量ツールキットを提案する。
クロード4.5モデル(Haiku, Sonnet no-thinking, Sonnet Thinking)とOpus(Opus)にまたがって、安全不変量に違反することなく単調なVC軌道を観察し、安定したCP4.3の挙動を観察する。
(ここでは"Opus"は、標準UIアカウントを介してアクセスされる1つのClaude Opus 4.1セッションを指します。
本研究は, 単一演算子 (n=1) によって実施され, 仮説生成を意図している。
我々は、独立した検証を容易にするプロンプトテンプレートとアーティファクトプランを含む。
関連論文リスト
- CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - BlockCert: Certified Blockwise Extraction of Transformer Mechanisms [0.0]
本稿では,トランス機構のブロックワイズ抽出のためのフレームワークであるBlockCertを紹介する。
我々は、これらの局所的な保証をグローバルな偏差境界まで引き上げる単純なリプシッツに基づく合成定理をLean 4で定式化します。
以上の結果から,明示的な証明を用いたブロックワイズ抽出は,実際のトランスフォーマー言語モデルで実現可能であることが示唆された。
論文 参考訳(メタデータ) (2025-11-20T06:04:34Z) - The 'Sure' Trap: Multi-Scale Poisoning Analysis of Stealthy Compliance-Only Backdoors in Fine-Tuned Large Language Models [10.377264470934843]
大きな言語モデルに対するバックドア攻撃は、通常、暗黙の悪意のある出力に秘密のトリガーを伴います。
我々はコンプライアンスのみのバックドアを導入し、ほぼ良質なデータセットで教師付き微調整を行い、プロンプトの小さなサブセットを任意の単一ワードトリガでサフィックスする。
本研究は, 毒性予算, 総微調整データセットサイズ, モデルサイズにまたがる, この良性ラベル中毒行動のマルチスケール解析を行った。
論文 参考訳(メタデータ) (2025-11-16T02:01:58Z) - Audit the Whisper: Detecting Steganographic Collusion in Multi-Agent LLMs [0.0]
Audit the Whisperは、理論、ベンチマーク設計、検出、検証にまたがるカンファレンスグレードの研究成果物である。
i) パラフレーズ, レート制限, 役割置換などの介入が, ペアリングしたKullback-Leibler診断によって定量的なペナルティの操作を課すことを示すチャネル容量分析を行った。
我々は、匿名化された再生スクリプト、匿名化されたマニフェスト、ドキュメントをリリースし、外部監査官がすべての図を再現し、二重盲検要件を満たし、最小限の努力でフレームワークを拡張します。
論文 参考訳(メタデータ) (2025-10-05T17:51:52Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Adapt in the Wild: Test-Time Entropy Minimization with Sharpness and Feature Regularization [85.50560211492898]
テスト時適応(TTA)は、テストデータが分散シフトが混在している場合、モデルの性能を改善または損なう可能性がある。
これはしばしば、既存のTTAメソッドが現実世界にデプロイされるのを防ぐ重要な障害である。
両面からTTAを安定化させるため,SARと呼ばれる鋭く信頼性の高いエントロピー最小化手法を提案する。
論文 参考訳(メタデータ) (2025-09-05T10:03:00Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - Subversion via Focal Points: Investigating Collusion in LLM Monitoring [0.0]
照合による監視プロトコルを変換する言語モデルの能力を評価する。
プログラミングタスク設定において、モデル設計プロンプト(P)とモニタ(M)の2つのインスタンスがある。
これらのモデルは、M が監査データセット内のすべてのバックドアプログラムを有害と分類することを目的としているが、それでも P が生成したバックドアプログラムを無害と分類している。
論文 参考訳(メタデータ) (2025-07-02T10:48:37Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates [55.69224221154593]
一見安全なデータセットの微調整さえも、モデル内の安全でない振る舞いを引き起こす可能性がある。
セーフテスト(PTST)戦略 - 安全プロンプトのない微調整モデルを提案するが、テスト時に含める。
論文 参考訳(メタデータ) (2024-02-28T18:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。