論文の概要: Classifier Context Rot: Monitor Performance Degrades with Context Length
- arxiv url: http://arxiv.org/abs/2605.12366v1
- Date: Tue, 12 May 2026 16:34:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.018268
- Title: Classifier Context Rot: Monitor Performance Degrades with Context Length
- Title(参考訳): Classifier Context Rot: コンテキスト長によるモニタパフォーマンスの低下
- Authors: Sam Martin, Fabien Roger,
- Abstract要約: 分類器として使用する場合、現在のフロンティアモデルは、より長い書き起こしでより危険な行動に気づかないことを示す。
特に、コーディングエージェントが微妙に危険なアクションをしたときの識別を必要とするデータセットでは、Opus 4.6、GPT 5.4、およびGemini 3.1は、800Kの良心的なアクティビティのトークンの後に発生する場合、これらのアクションを2倍から30倍に逃す。
- 参考スコア(独自算出の注目度): 2.43347444843856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monitoring coding agents for dangerous behavior using language models requires classifying transcripts that often exceed 500K tokens, but prior agent monitoring benchmarks rarely contain transcripts longer than 100K tokens. We show that when used as classifiers, current frontier models fail to notice dangerous actions more often in longer transcripts. In particular, on a dataset that requires identifying when a coding agent takes a subtly dangerous action, Opus 4.6, GPT 5.4, and Gemini 3.1 miss these actions $2\times$ to $30\times$ more often when they occur after 800K tokens of benign activity than when they occur on their own. We also show that these weaknesses can be partially mitigated with prompting techniques such as periodic reminders throughout the transcript and may be mitigated further with better post-training. Monitor evaluations that do not consider long-context degradation are likely overestimating monitor performance.
- Abstract(参考訳): 言語モデルを用いた危険な振る舞いのためのコーディングエージェントのモニタリングには、500Kトークンを超える場合が多い書き起こしを分類する必要があるが、以前のエージェント監視ベンチマークでは100Kトークンよりも長い書き起こしをほとんど含まない。
分類器として使用する場合、現在のフロンティアモデルは、より長い書き起こしでより危険な行動に気づかないことを示す。
特に、コーディングエージェントが微妙に危険なアクションをしたときを特定する必要があるデータセットでは、Opus 4.6、GPT 5.4、およびGemini 3.1はこれらのアクションを見逃す。
また,これらの弱点は,文字起こし全体の定期的なリマインダーなどの技法によって部分的に緩和され,訓練後の改善によってさらに軽減されることが示唆された。
長期のコンテキスト劣化を考慮しないモニタ評価は、モニター性能を過大評価する可能性がある。
関連論文リスト
- PrefixGuard: From LLM-Agent Traces to Online Failure-Warning Monitors [14.336100401626062]
大規模言語モデル(LLM)エージェントは、最終結果チェックが介入するには遅すぎるような、長時間のツール使用タスクを実行する。
PrefixGuardは、オフラインのStepView誘導ステップと監視監視トレーニングを備えたトレース・ツー・モニタフレームワークである。
WebArena, $2$-Bench, SkillsBench, TerminalBench, 最も強力なPrefixGuardモニタは0.900/0.70.533/0.557 AUPRCである。
論文 参考訳(メタデータ) (2026-05-07T15:49:48Z) - One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue [55.98008208209856]
マルチターン対話における隠れた悪意のある意図は、大規模言語モデル(LLM)に対する脅威を増大させる
近年の研究では、安全アライメントや外部ガードレールの進歩にもかかわらず、高度なガードレールを備えた近代的な商用モデルでさえも、このような攻撃に対して脆弱であることが示されている。
そこで本研究では,この課題に対処するため,最も早いタイミングで候補応答を届けることによって,蓄積された相互作用が有害な作用を可能にするのに十分であることを示す。
論文 参考訳(メタデータ) (2026-05-07T03:35:31Z) - Needle-in-RAG: Prompt-Conditioned Character-Level Traceback of Poisoned Spans in Retrieved Evidence [4.039934762896615]
RAGCharacterは、2パスの法医学的なフレームワークで、具体的な誤生成イベントのために責任ある回収されたスパンをローカライズする。
RAGおよび現在のRAGCharacterにおけるブラックボックス文字レベルの毒の追跡について検討した。
論文 参考訳(メタデータ) (2026-05-03T08:42:29Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - ForensicZip: More Tokens are Better but Not Necessary in Forensic Vision-Language Models [108.5042835056188]
フォージェリ駆動の観点からトークン圧縮を再構築するトレーニングフリーフレームワークであるForensicZipを紹介した。
ForensicZipは、最先端検出性能を維持しながら、スピードアップとFLOPの90%以上を達成している。
論文 参考訳(メタデータ) (2026-03-12T17:30:49Z) - OpenSec: Measuring Incident Response Agent Calibration Under Adversarial Evidence [0.0]
本稿では,防衛インシデント対応エージェントの評価を行う,二重制御強化学習環境であるOpenSecを紹介する。
静的な能力ベンチマークとは異なり、OpenSecは敵のエビデンスの下で世界状態を変える封じ込めアクションをスコアする。
GPT-5.2、Gemini 3、DeepSeekは100%のエピソードを90-97%の偽陽性率で封じ込めている。
論文 参考訳(メタデータ) (2026-01-28T22:12:54Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - Measuring Harmfulness of Computer-Using Agents [14.509501604704127]
コンピュータ利用エージェント(CUA)は、コンピュータを自律的に制御し、マルチステップアクションを実行する。
CUAHarmは104名の専門家による現実的な誤用リスクで構成されている。
GPT-5, Claude 4 Sonnet, Gemini 2.5 Pro, Llama-3.3-70B, Mistral Large 2などのフロンティア膜の評価を行った。
論文 参考訳(メタデータ) (2025-07-31T07:02:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。