論文の概要: AutoMonitor-Bench: Evaluating the Reliability of LLM-Based Misbehavior Monitor
- arxiv url: http://arxiv.org/abs/2601.05752v1
- Date: Fri, 09 Jan 2026 12:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.966846
- Title: AutoMonitor-Bench: Evaluating the Reliability of LLM-Based Misbehavior Monitor
- Title(参考訳): AutoMonitor-Bench:LCMを用いたミスバイザーモニターの信頼性評価
- Authors: Shu Yang, Jingyu Hu, Tong Li, Hanqi Yan, Wenxuan Wang, Di Wang,
- Abstract要約: AutoMonitor-Benchは、さまざまなタスクや障害モードにわたる誤動作モニタの信頼性を体系的に評価する最初のベンチマークである。
本研究では,2つの相補的指標(ミスレート(MR)とFalse Alarm Rate(FAR))を用いてモニタの評価を行った。
本研究では、153,581個のサンプルとQwen3-4B-インストラクションからなる大規模トレーニングコーパスを構築し、既知の比較的簡単に構築可能な誤動作データセットによるトレーニングが、目に見えない、より暗黙的な誤動作に対する監視性能を向上させるかどうかを調査する。
- 参考スコア(独自算出の注目度): 19.39430341586964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce AutoMonitor-Bench, the first benchmark designed to systematically evaluate the reliability of LLM-based misbehavior monitors across diverse tasks and failure modes. AutoMonitor-Bench consists of 3,010 carefully annotated test samples spanning question answering, code generation, and reasoning, with paired misbehavior and benign instances. We evaluate monitors using two complementary metrics: Miss Rate (MR) and False Alarm Rate (FAR), capturing failures to detect misbehavior and oversensitivity to benign behavior, respectively. Evaluating 12 proprietary and 10 open-source LLMs, we observe substantial variability in monitoring performance and a consistent trade-off between MR and FAR, revealing an inherent safety-utility tension. To further explore the limits of monitor reliability, we construct a large-scale training corpus of 153,581 samples and fine-tune Qwen3-4B-Instruction to investigate whether training on known, relatively easy-to-construct misbehavior datasets improves monitoring performance on unseen and more implicit misbehaviors. Our results highlight the challenges of reliable, scalable misbehavior monitoring and motivate future work on task-aware designing and training strategies for LLM-based monitors.
- Abstract(参考訳): 我々は,多様なタスクや障害モードにまたがるLCMベースの誤動作モニタの信頼性を体系的に評価する,最初のベンチマークであるAutoMonitor-Benchを紹介する。
AutoMonitor-Benchは、質問応答、コード生成、推論に散らばった3,010の注記されたテストサンプルと、ペア化された誤動作と良識のあるインスタンスで構成されている。
本研究では,2つの相補的指標(ミスレート(MR)とFalse Alarm Rate(FAR))を用いてモニタの評価を行った。
12のプロプライエタリ LLMと10のオープンソース LLM の評価を行い,モニタリング性能の大幅な変動とMRとFARとの一貫したトレードオフを観察した。
監視信頼性の限界をさらに探求するため、既知の比較的容易に構築可能な誤動作データセットのトレーニングが、目に見えない、より暗黙的な誤動作に対する監視性能を向上させるかどうかを調べるために、153,581サンプルの大規模トレーニングコーパスとQwen3-4B-インストラクションを構築した。
この結果から,LCMモニタのタスク対応設計とトレーニング戦略における信頼性,スケーラブルな作業監視の課題が浮き彫りになった。
関連論文リスト
- Monitoring Monitorability [7.993120960324396]
本稿では,3つの評価アーチタイプ(介入,プロセス,結果整合性)と新しい監視可能性指標を提案する。
我々は、様々なフロンティアモデルの監視可能性を比較し、ほとんどのモデルが公平だが、完全には監視できないことを発見した。
モデルにフォローアップ質問をし、フォローアップCoTをモニターに付与することで、監視性を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-12-20T10:46:04Z) - Large language models require a new form of oversight: capability-based monitoring [10.382163755118713]
医療における大規模言語モデル(LLM)には、その監視に関する精査が伴っている。
そこで本研究では,これらのモデルの開発と実用化に基礎を置き,拡張性のあるジェネラリストLLMモニタリングの組織的原則を提案する。
機能ベースのモニタリングアプローチを実装する上で、開発者、組織リーダー、プロフェッショナル社会に対する考慮事項について説明する。
論文 参考訳(メタデータ) (2025-11-05T01:20:28Z) - Reliable Weak-to-Strong Monitoring of LLM Agents [6.922769543581406]
我々は,自律エージェントの隠蔽行動を検出するためのテスト監視システムを強調した。
我々は、様々なレベルのエージェントを組み込んだ監視レッドチーム(MRT)ワークフローを開発し、状況認識を監視する。
さらなる研究を促進するために、コード、データ、ログをリリースしています。
論文 参考訳(メタデータ) (2025-08-26T22:29:31Z) - Explaining Unreliable Perception in Automated Driving: A Fuzzy-based Monitoring Approach [1.33134751838052]
本稿では,機械学習(ML)知覚コンポーネントに適したファジィベースの新しいモニタを提案する。
異なる動作条件が知覚コンポーネントの信頼性にどのように影響するかを人間に解釈可能な説明を提供するとともに、ランタイム安全モニターとして機能する。
論文 参考訳(メタデータ) (2025-05-20T14:22:39Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - Unsupervised Continual Anomaly Detection with Contrastively-learned
Prompt [80.43623986759691]
UCADと呼ばれる新しい非教師付き連続異常検出フレームワークを提案する。
このフレームワークは、対照的に学習したプロンプトを通じて、UDAに継続的な学習能力を持たせる。
我々は総合的な実験を行い、教師なし連続異常検出とセグメンテーションのベンチマークを設定した。
論文 参考訳(メタデータ) (2024-01-02T03:37:11Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Benchmarking Safety Monitors for Image Classifiers with Machine Learning [0.0]
高精度機械学習(ML)画像分類器は、動作時に失敗しないことを保証できない。
安全モニタなどのフォールトトレランス機構の使用は,システムを安全な状態に保つ上で有望な方向である。
本稿では,ML画像分類器のベンチマークを行うためのベースラインフレームワークを確立することを目的とする。
論文 参考訳(メタデータ) (2021-10-04T07:52:23Z) - Digging into Uncertainty in Self-supervised Multi-view Stereo [57.04768354383339]
自己教師型学習のための新しいuncertainty reduction Multi-view Stereo(UMVS)フレームワークを提案する。
我々のフレームワークは、教師なしのMVSメソッドの中で最高のパフォーマンスを達成し、教師なしの対戦相手と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-08-30T02:53:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。