論文の概要: PRISM: Probability Reallocation with In-Span Masking for Knowledge-Sensitive Alignment
- arxiv url: http://arxiv.org/abs/2604.01682v1
- Date: Thu, 02 Apr 2026 06:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.567783
- Title: PRISM: Probability Reallocation with In-Span Masking for Knowledge-Sensitive Alignment
- Title(参考訳): PRISM:知識-知覚的アライメントのためのインスパンマスキングによる確率再配置
- Authors: Chenning Xu, Mao Zheng, Mingyang Song,
- Abstract要約: 本研究では,文章レベルの事実性リスクラベルや文間依存アノテーションなどのトレーニングインスタンスを付加したSFT設定について検討する。
我々は,事実クリティカルな位置のみの学習を変更可能なリスクゲートフレームワークであるtextbfPRISMを提案する。
- 参考スコア(独自算出の注目度): 18.04153868078285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised fine-tuning (SFT) with token-level hard labels can amplify overconfident imitation of factually unsupported targets, causing hallucinations that propagate in multi-sentence generation. We study an augmented SFT setting in which training instances include coarse sentence-level factuality risk labels and inter-sentence dependency annotations, providing structured signals about where factual commitments are weakly supported. We propose \textbf{PRISM}, a differentiable risk-gated framework that modifies learning only at fact-critical positions. PRISM augments standard SFT with a lightweight, model-aware probability reallocation objective that penalizes high-confidence predictions on risky target tokens, with its scope controlled by span-level risk weights and model-aware gating. Experiments on hallucination-sensitive factual benchmarks and general evaluations show that PRISM improves factual aggregates across backbones while maintaining a competitive overall capability profile. Ablations further show that the auxiliary signal is most effective when used conservatively, and that knowledge masking and model-aware reallocation play complementary roles in balancing factual correction and capability preservation.
- Abstract(参考訳): トークンレベルのハードラベルを持つ監視された微調整(SFT)は、事実上サポートされていないターゲットの過剰な模倣を増幅し、多文生成で伝播する幻覚を引き起こす。
本研究では,文章レベルの事実性リスクラベルや文間依存アノテーションなどのトレーニングインスタンスを付加したSFT設定について検討し,実際のコミットメントが不十分な場所に関する構造化信号を提供する。
本稿では,事実臨界位置のみの学習を修飾する,差別化可能なリスクゲートフレームワークである「textbf{PRISM}」を提案する。
PRISMは、リスクの高いターゲットトークンに対する高信頼度予測をペナルティ化する軽量でモデル対応の確率再配置目標を標準SFTに拡張し、そのスコープはスパンレベルリスクウェイトとモデル対応ゲーティングによって制御される。
幻覚に敏感な事実評価と一般的な評価実験により、PRISMは、競合する全体的な能力プロファイルを維持しながら、バックボーン全体の事実集約を改善していることが示された。
さらにアブレーションは、補助信号が保守的に使用される場合に最も効果的であることを示し、知識マスキングとモデル認識的再配置は、事実修正と能力保存のバランスをとるのに相補的な役割を担っていることを示唆している。
関連論文リスト
- Safe RLHF Beyond Expectation: Stochastic Dominance for Universal Spectral Risk Control [12.053369001333058]
本稿では,予測コスト制約をFSD(First-Order Dominance)制約に置き換える,リスクに敏感なアライメントフレームワークを提案する。
RADは, 有効性を保ちながら, ベースラインよりも無害性を向上し, アウト・オブ・ディストリビューション評価においてより堅牢性を示す。
論文 参考訳(メタデータ) (2026-03-11T16:24:20Z) - On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs [15.301640007799735]
単純な、制御されたテキストの摂動(キャプションや不正確なチェーン・オブ・シント(CoT)のトレース)は、堅牢性と信頼性が著しく低下していることを示している。
これらの脆弱性をよりよく理解するために、我々はRL微調整力学を分析し、精度と信頼のトレードオフを明らかにする。
論文 参考訳(メタデータ) (2026-02-13T01:12:00Z) - Steering Vision-Language Pre-trained Models for Incremental Face Presentation Attack Detection [62.89126207012712]
顔提示攻撃検出(PAD)は、スプーフィング戦術やドメインと戦うために漸進的な学習を要求する。
過去のデータ保持を禁止し、リハーサルフリーラーニング(RF-IL)を必要とするプライバシー規制
論文 参考訳(メタデータ) (2025-12-22T04:30:11Z) - Open-World Deepfake Attribution via Confidence-Aware Asymmetric Learning [78.92934995292113]
本稿では,既知の偽造と新規な偽造の信頼のバランスをとる,信頼を意識した非対称学習(CAL)フレームワークを提案する。
CALは従来手法を一貫して上回り、既知の偽造と新しい偽造の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-14T12:31:28Z) - A Unified and Stable Risk Minimization Framework for Weakly Supervised Learning with Theoretical Guarantees [33.15955234458642]
完全かつ正確なラベルが取得にコストがかかる、あるいは不可能な場合には、完全に教師付き学習の代替として弱教師付き学習が実用化されている。
弱教師付きデータの構造に根ざした安定な代理リスクを定式化することにより、そのようなポストホック調整を回避できる、原則化された統一されたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-28T00:57:04Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。