論文の概要: Recall Isn't Enough: Bounding Commitments in Personalized Language Systems
- arxiv url: http://arxiv.org/abs/2605.16712v2
- Date: Tue, 19 May 2026 03:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.468808
- Title: Recall Isn't Enough: Bounding Commitments in Personalized Language Systems
- Title(参考訳): リコールは十分ではない:パーソナライズド言語システムにおけるコミットメントの境界
- Authors: Rui Tang, Yichi Zhang, Xi Chen, Chen Dong, Youwei Yang, Yumeng Shen, Qiangqiang Liu,
- Abstract要約: 我々は,Lexicographic Commitment Validation (LCV)を用いたコントラクト境界エビデンス活性化(CBEA)を導入する。
CBEAは、型付きカバレッジ、尾の証人、そして結果の負債を使って設定された有界な証拠を起動する;LCVは、散文の前に構造化されたコミットメントを検証する。
CBEA+LCVは0.012個の未コンパイルの可視事実をリコールし、生のリコールは0.53である。
- 参考スコア(独自算出の注目度): 13.15089096070821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context and memory systems usually treat personalization as a recall problem. In practice, many failures occur later, when a system commits: it turns noisy hints into hard constraints, drops rare witnesses, forgets downstream obligations, or answers despite infeasibility. We introduce Contract-Bounded Evidence Activation (CBEA) with Lexicographic Commitment Validation (LCV). CBEA activates a bounded evidence set using typed coverage, tail witnesses, and consequence debt; LCV validates structured commitments before prose and routes infeasible states to repair, abstention, or recontract. Across 360 fixtures and three generation backends, CBEA+LCV reaches zero failures within validator scope at 0.49-0.60 availability over attempted runs. Raw and long-context baselines with the same LCV gate reach zero only at 0.003-0.092. A shadow oracle diagnostic marks the limit: CBEA+LCV recalls 0.012 of uncompiled visible facts, while raw recalls 0.53. The result is a bounded operating point: explicit commitment control and 74-75% lower median input payload, not universal memory dominance.
- Abstract(参考訳): 長文と記憶システムは通常、パーソナライズをリコール問題として扱う。
ノイズの多いヒントを厳しい制約に変えたり、稀な目撃者を降ろしたり、下流の義務を忘れたり、実現不可能にもかかわらず答えたりする。
本稿では,Lexicographic Commitment Validation (LCV) を用いたコントラクト境界エビデンス活性化(CBEA)について紹介する。
CBEAは、型付きカバレッジ、尾の証人、そして結果の負債を使って設定された有界な証拠を起動する;LCVは、散文の前に構造化されたコミットメントを検証する。
360のフィクスチャと3世代のバックエンドにまたがって、CBEA+LCVは、試行錯誤時にバリデータの範囲内において0.49-0.60のアベイラビリティに到達した。
同じLCVゲートを持つ生と長文のベースラインは0.003-0.092でゼロに達する。
CBEA+LCVは0.012個の未コンパイルの可視事実をリコールし、生のリコールは0.53である。
その結果、明示的なコミットメント制御と74-75%の低い中央値入力ペイロードというバウンダリ操作ポイントが実現した。
関連論文リスト
- LiSA: Lifelong Safety Adaptation via Conservative Policy Induction [45.88278850743155]
ガードレールはもはや単なる回答品質ではなく、秘密を漏らしたり、安全でない行為を許可したり、正当な作業をブロックしたりすることができる。
LiSAは、構造化メモリを通じて固定ベースガードレールを改善する保守的なポリシー誘導フレームワークである。
結局のところ、LiSAは、現実のエッジリスクの予測不可能な長いテールに対して、AIエージェントを保護するための実践的なパスを提供する。
論文 参考訳(メタデータ) (2026-05-14T06:47:35Z) - CIVeX: Causal Intervention Verification for Language Agents [0.0]
我々はCIVeXという因果介入検証器を導入し、提案した動作をコミットされた動作状態グラフ上の構造因果クエリにマッピングする。
Causal-ToolBench (1,890のインスタンス、7つのシード)では、CIVeXは中等度および対向的な共起で観測された偽の実行をゼロにする。
IHDPとZOZO Open Bandit(一様にランダムな真実を持つ実運用ログ)では、CIVeXはOracleの正しい実行と0.1pp以内で一致し、ネイティブなベースラインに対して、実行時の偽実行を>=50倍削減する。
論文 参考訳(メタデータ) (2026-05-09T21:06:15Z) - Sentinel-VLA: A Metacognitive VLA Model with Active Status Monitoring for Dynamic Reasoning and Error Recovery [62.75419724651416]
textbfSentinel-VLAは,リアルタイム実行状況を監視するアクティブセンチネルモジュールを備えたメタ認知型VLAモデルである。
すべてのトレーニングデータは、設計したパイプラインを通じて自動生成され、注釈付けされます。
実世界の実験では、Sentinel-VLAはSOTAモデルであるPI0と比較してタスク成功率を30%以上向上することを示した。
論文 参考訳(メタデータ) (2026-05-02T02:10:54Z) - Beyond Code Reasoning: Specification-Anchored Auditing of Multi-Implementation Distributed Protocols [1.5229705287183657]
SPECAは、明示的で分類されたセキュリティプロパティを自然言語仕様から導き出し、実装間で再利用する監査フレームワークである。
RepoAuditのベンチマークでは、SPECAは100%リコール(F1=0.94)で88.9%の精度に達し、著者が検証した12のバグを地上の真実を超えて表面化している。
Sherlock Fusaka Audit Contest(10のターゲット、366の応募)では、SPECAが専門家が強化した15の脆弱性をすべて回復し、4つの修正確認バグが浮上した。
論文 参考訳(メタデータ) (2026-04-29T09:57:07Z) - Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。
敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。
最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-14T06:48:33Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - Verifier-Bound Communication for LLM Agents: Certified Bounds on Covert Signaling [0.0]
言語モデルエージェントを結合することで、ポリシーに準拠したメッセージの調整を表面レベルで隠蔽することができる。
生成と受け入れを分離するプロトコルであるCLBCを提案する。
このプロトコルは、遅延リークと明示的な残留チャネルの観点から、転写リークの上限をいかに高めるかを示す。
論文 参考訳(メタデータ) (2026-02-27T23:42:37Z) - GLEAN: Grounded Lightweight Evaluation Anchors for Contamination-Aware Tabular Reasoning [0.5414847001704249]
本稿では, 汚染対応プローブ, 弱スーパービジョンガバナンス, 検索推論診断, 構造化エラー属性を統合する軽量な評価プロトコルを提案する。
我々は16GBのGPU予算でTabFact、WTQをSquall、TableBench、RobuT、SciTabで評価した。
論文 参考訳(メタデータ) (2026-01-22T13:56:19Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。