論文の概要: Nautilus Compass: Black-box Persona Drift Detection for Production LLM Agents
- arxiv url: http://arxiv.org/abs/2605.09863v1
- Date: Mon, 11 May 2026 01:49:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.461882
- Title: Nautilus Compass: Black-box Persona Drift Detection for Production LLM Agents
- Title(参考訳): Nautilus Compass:生産用LLMエージェントのブラックボックスペルソナドリフト検出
- Authors: Chunxiao Wang,
- Abstract要約: ナチラス・コンパス(Nautilus Compass)は、ブラックボックスドリフト検出器と、生産用コーディングエージェントのためのエージェントメモリ層である。
このシステムは、Claude Codeプラグイン、CP 20245 A2Aサーバ、CLI、APIを1つのデーモンで提供する。
- 参考スコア(独自算出の注目度): 2.417342411475111
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Production LLM coding agents drift over long sessions: they forget user-specified constraints, slip into mistakes the user already flagged, and confabulate prior agreements. White-box approaches such as persona vectors require model weights and so cannot be applied to closed APIs (Claude, GPT-4) that most users actually interact with. We present Nautilus Compass, a black-box persona drift detector and agent memory layer for production coding agents. The method operates entirely at the prompt-text layer: cosine similarity between user prompts and behavioral anchor texts, aggregated by a weighted top-k mean using BGE-m3 embeddings. Compass is, to our knowledge, the only public agent memory layer (among Mem0, Letta, Cognee, Zep, MemOS, smrti verified May 2026) that does not call an LLM at index time to extract facts or build a graph; raw conversation text is embedded directly. The system ships as a Claude Code plugin, an MCP 2024-11-05 A2A server (Cursor, Cline, Hermes), a CLI, and a REST API on one daemon, with a Merkle-chained audit log for tamper-evident anchor updates. On a held-out test set built from real Claude Code session traces and labeled by an independent LLM judge, Compass reaches ROC AUC 0.83 for drift detection. The embedded retrieval pipeline scores 56.6% on LongMemEval-S v0.8 and 44.4% on EverMemBench-Dynamic (n=500), topping the four published EverMemBench Table 4 baselines. LongMemEval-S 56.6% is ~30 points below recent white-box leaders (90+%); we treat that as the architectural ceiling of the no-extraction design. End-to-end reproduction cost is $3.50 (~14x cheaper than GPT-4o-judged stacks). A paired cross-vendor behavior A/B accompanies these numbers as preliminary system-level evidence. Code, anchors, frozen test data, and audit-log tooling are MIT-licensed at github.com/chunxiaoxx/nautilus-compass.
- Abstract(参考訳): LLMのコーディングエージェントは、ユーザが指定した制約を忘れて、ユーザがすでにフラグ付けしているミスに陥り、事前の合意を伝達する。
ペルソナベクトルのようなホワイトボックスアプローチはモデルウェイトを必要とするため、ほとんどのユーザが実際に対話するクローズドAPI(Claude, GPT-4)には適用できない。
我々は,ブラックボックスのペルソナドリフト検出器とエージェントメモリ層であるNautilus Compassを紹介した。
この方法は、ユーザプロンプトと行動アンカーテキストのコサイン類似性をBGE-m3埋め込みを用いて重み付けされたトップk平均で集約するプロンプトテキスト層で完全に動作する。
Compassは、我々の知る限り、唯一の公開エージェントメモリ層(Mem0, Letta, Cognee, Zep, MemOS, smrti, smrti)である。
システムは、Claude Codeプラグイン、CP 2024-11-05 A2Aサーバ(Cursor、Cline、Hermes)、CLI、REST APIを1つのデーモンに配置し、Merkle-chained audit logで、アンカー更新を改ざんする。
実際のClaude Codeセッショントレースから構築され、独立したLCM判事によってラベル付けされたホールドアウトテストセットでは、コンパスはドリフト検出のためにROC AUC 0.83に達する。
組込み検索パイプラインはLongMemEval-S v0.8で56.6%、EverMemBench-Dynamic(n=500)で44.4%を獲得し、4つのEverMemBench Table 4ベースラインを抜いた。
LongMemEval-S 56.6%は最近のホワイトボックスリーダー(90%以上)の30ポイント以下である。
エンドツーエンドの再生コストは350ドル(GPT-4o-judgedスタックの約14倍)である。
対のクロスベンダーの振る舞い A/B は、これらの数値を予備的なシステムレベルの証拠として伴っている。
コード、アンカー、凍結テストデータ、監査ログツールは、github.com/chunxiaoxx/nautilus-compassでMITライセンスされている。
関連論文リスト
- LLM-Redactor: An Empirical Evaluation of Eight Techniques for Privacy-Preserving LLM Requests [0.0]
コーディングエージェントとLLMベースのアプリケーションは、通常、潜在的に敏感なコンテンツをクラウドのLLM APIに送信し、ログ化、保持、トレーニングに使用されるか、召喚される可能性がある。
プライバシ保護型LCM要求に対する8つの手法の系統的実証評価を行った。
MCPやOpenAI互換のAPIと互換性のあるオープンソースシムで、全8つ(あるいはデプロイメントがまだ実現不可能な、牽引可能な研究段階のサブセット)を実装しています。
論文 参考訳(メタデータ) (2026-04-13T21:05:42Z) - VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents [42.56489784841984]
実装の変更が生成され、エージェントが提案する差分として適用される。
アーキテクチャを説明し、システムの生成と検証に使用するワークフローを要約し、アーティファクトを評価する。
論文 参考訳(メタデータ) (2026-01-21T19:29:00Z) - eSapiens's DEREK Module: Deep Extraction & Reasoning Engine for Knowledge with LLMs [10.667949307405983]
DEREKモジュールは異種コンテンツ(PDF、Office、Web)を取り込み、1000の重複チャンクに分割し、ハイブリッドHNSW+BM25ストアにインデックスする。
LangGraph検証器は引用重複を強制し、すべてのクレームが根拠となるまで回答を再生する。
すべてのコンポーネントはコンテナで動作し、エンドツーエンドのTLS 1.3とAES-256を強制する。
論文 参考訳(メタデータ) (2025-07-13T05:54:01Z) - Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。
我々は,GPT-4が生成したコミットメッセージと,人間の専門家が編集したコミットメッセージからなる57対のデータセットを収集した。
以上の結果から,編集距離が最も高い相関性を示すのに対し,BLEUやMETEORなどの類似度は低い相関性を示すことがわかった。
論文 参考訳(メタデータ) (2024-10-15T20:32:07Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Tracking by Instance Detection: A Meta-Learning Approach [99.66119903655711]
本稿では,高性能トラッカー構築のための3段階の原理的手法を提案する。
我々は2つの現代的な検出器であるRetinaNetとFCOSをベースに、Retina-MAMLとFCOS-MAMLという2つのトラッカーを構築した。
両方のトラッカーは40FPSでリアルタイムに動作します。
論文 参考訳(メタデータ) (2020-04-02T05:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。