論文の概要: Mechanistic Anomaly Detection for "Quirky" Language Models
- arxiv url: http://arxiv.org/abs/2504.08812v1
- Date: Wed, 09 Apr 2025 06:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:01.891734
- Title: Mechanistic Anomaly Detection for "Quirky" Language Models
- Title(参考訳): キーキー言語モデルの機械的異常検出
- Authors: David O. Johnston, Arkajyoti Chakraborty, Nora Belrose,
- Abstract要約: 我々は、機械的異常検出を用いて、有能なモデルの監視を強化する。
我々は、トレーニング環境と大きく異なるテスト環境から点をフラグする検出器を訓練する。
検知器はいくつかのタスクで高い差別を達成することができるが、すべてのモデルやタスクで有効な検出器は存在しない。
- 参考スコア(独自算出の注目度): 1.2581965558321395
- License:
- Abstract: As LLMs grow in capability, the task of supervising LLMs becomes more challenging. Supervision failures can occur if LLMs are sensitive to factors that supervisors are unaware of. We investigate Mechanistic Anomaly Detection (MAD) as a technique to augment supervision of capable models; we use internal model features to identify anomalous training signals so they can be investigated or discarded. We train detectors to flag points from the test environment that differ substantially from the training environment, and experiment with a large variety of detector features and scoring rules to detect anomalies in a set of ``quirky'' language models. We find that detectors can achieve high discrimination on some tasks, but no detector is effective across all models and tasks. MAD techniques may be effective in low-stakes applications, but advances in both detection and evaluation are likely needed if they are to be used in high stakes settings.
- Abstract(参考訳): LLMの能力向上に伴い、LSMを監督する作業はより困難になる。
スーパービジョンの失敗は、LLMが監督者が知らない要因に敏感な場合に起こりうる。
本研究では,機械的異常検出(MAD)を有能モデルの監視強化手法として検討し,内部モデル特徴を用いて異常な訓練信号を識別し,解析や破棄を行う。
我々は,学習環境と大きく異なるテスト環境から点をフラグする検出器を訓練し,様々な検出特徴とスコアリングルールを用いて,'quirky'言語モデルの集合における異常を検出する。
検知器はいくつかのタスクで高い差別を達成することができるが、すべてのモデルやタスクで有効な検出器は存在しない。
MAD技術はローテイクな用途に有効であるが、高ステーク設定で使用する場合、検出と評価の両方の進歩が必要である可能性が高い。
関連論文リスト
- DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
人気のある大規模言語モデル(LLM)を使用して、実世界のアプリケーションとの整合性を向上するデータを生成しました。
我々は,書式,モデルタイプ,攻撃方法,テキストの長さ,および実世界の人間の筆記因子が,さまざまな種類の検知器に与える影響について分析した。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - LLMScan: Causal Scan for LLM Misbehavior Detection [6.001414661477911]
大規模言語モデル(LLM)は、非現実的でバイアスがあり、有害な応答を生成する。
この研究は、因果解析に基づく革新的なモニタリング技術であるLLMScanを導入している。
論文 参考訳(メタデータ) (2024-10-22T02:27:57Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z) - Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection [34.40206965758026]
時系列異常検出(TSAD)は、標準トレンドから逸脱する非定型パターンを特定することで、様々な産業において重要な役割を果たす。
従来のTSADモデルは、しばしばディープラーニングに依存しており、広範なトレーニングデータを必要とし、ブラックボックスとして動作する。
LLMADは,Large Language Models (LLMs) を用いて,高精度かつ解釈可能なTSAD結果を提供する新しいTSAD手法である。
論文 参考訳(メタデータ) (2024-05-24T09:07:02Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - Unsupervised Continual Anomaly Detection with Contrastively-learned
Prompt [80.43623986759691]
UCADと呼ばれる新しい非教師付き連続異常検出フレームワークを提案する。
このフレームワークは、対照的に学習したプロンプトを通じて、UDAに継続的な学習能力を持たせる。
我々は総合的な実験を行い、教師なし連続異常検出とセグメンテーションのベンチマークを設定した。
論文 参考訳(メタデータ) (2024-01-02T03:37:11Z) - EMShepherd: Detecting Adversarial Samples via Side-channel Leakage [6.868995628617191]
敵対的攻撃は、ディープラーニングを駆使したクリティカルな応用にとって悲惨な結果をもたらす。
モデル実行の電磁的トレースを捕捉し、トレース上で処理を行い、敵検出に利用するためのフレームワークEMShepherdを提案する。
提案手法は,一般的に使用されているFPGA深層学習アクセラレータ上で,異なる敵攻撃を効果的に検出できることを実証する。
論文 参考訳(メタデータ) (2023-03-27T19:38:55Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - DAE : Discriminatory Auto-Encoder for multivariate time-series anomaly
detection in air transportation [68.8204255655161]
識別オートエンコーダ(DAE)と呼ばれる新しい異常検出モデルを提案する。
通常のLSTMベースのオートエンコーダのベースラインを使用するが、いくつかのデコーダがあり、それぞれ特定の飛行フェーズのデータを取得する。
その結果,DAEは精度と検出速度の両方で良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-09-08T14:07:55Z) - Multi-Modal Anomaly Detection for Unstructured and Uncertain
Environments [5.677685109155077]
現代のロボットは、最小限の人間の監督で異常や故障を検出して回復する能力を必要とします。
本稿では,非構造的かつ不確実な環境での障害識別のための教師付き変分オートエンコーダ(SVAE)を提案する。
実地ロボットデータを用いた実験では,ベースライン法よりも障害同定性能が優れており,解釈可能な表現を学習できる。
論文 参考訳(メタデータ) (2020-12-15T21:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。