論文の概要: Detecting High-Stakes Interactions with Activation Probes
- arxiv url: http://arxiv.org/abs/2506.10805v1
- Date: Thu, 12 Jun 2025 15:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.811836
- Title: Detecting High-Stakes Interactions with Activation Probes
- Title(参考訳): 活性化プローブによる高感度相互作用の検出
- Authors: Alex McKenzie, Urja Pawar, Phil Blandfort, William Bankes, David Krueger, Ekdeep Singh Lubana, Dmitrii Krasheninnikov,
- Abstract要約: そこで本論文では,対話が大きな害をもたらす可能性を示唆する「ハイテイク」相互作用を検出するためのアクティベーションプローブについて検討する。
我々は、合成データに基づいて訓練された複数のプローブアーキテクチャを評価し、それらが多種多様な分布外の実世界のデータに対して堅牢な一般化を示すことを発見した。
また,資源を意識した階層型モニタリングシステムの構築の可能性についても検討した。
- 参考スコア(独自算出の注目度): 10.421494494629421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monitoring is an important aspect of safely deploying Large Language Models (LLMs). This paper examines activation probes for detecting "high-stakes" interactions -- where the text indicates that the interaction might lead to significant harm -- as a critical, yet underexplored, target for such monitoring. We evaluate several probe architectures trained on synthetic data, and find them to exhibit robust generalization to diverse, out-of-distribution, real-world data. Probes' performance is comparable to that of prompted or finetuned medium-sized LLM monitors, while offering computational savings of six orders-of-magnitude. Our experiments also highlight the potential of building resource-aware hierarchical monitoring systems, where probes serve as an efficient initial filter and flag cases for more expensive downstream analysis. We release our novel synthetic dataset and codebase to encourage further study.
- Abstract(参考訳): 監視は、LLM(Large Language Models)を安全にデプロイする上で重要な側面である。
本稿では,このような監視対象として,「高感度」相互作用を検出するためのアクティベーションプローブについて検討する。
我々は、合成データに基づいて訓練された複数のプローブアーキテクチャを評価し、それらが多種多様な分布外の実世界のデータに対して堅牢な一般化を示すことを発見した。
Probesのパフォーマンスは、誘導または微調整された中規模のLCMモニターと同等であり、6桁のマグニチュードの計算的節約を提供する。
我々の実験は、より高価な下流分析のために、プローブが効率的な初期フィルタとフラグケースとして機能する、リソースを意識した階層的な監視システムを構築する可能性についても強調した。
我々は、さらなる研究を促進するために、新しい合成データセットとコードベースをリリースします。
関連論文リスト
- Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [64.74977204942199]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning [51.170479006249195]
本研究では,新しいデータセット,ベンチマーク,動的粗大な学習手法を提案する。
提案するデータセットであるAI-TOD-Rは、すべてのオブジェクト指向オブジェクト検出データセットの中で最小のオブジェクトサイズを特徴としている。
完全教師付きおよびラベル効率の両アプローチを含む,幅広い検出パラダイムにまたがるベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-16T09:14:32Z) - How Important are Data Augmentations to Close the Domain Gap for Object Detection in Orbit? [15.550663626482903]
宇宙空間におけるコンピュータビジョンの領域ギャップを埋めるためのデータ拡張の有効性について検討する。
本稿では,軌道画像に観察される視覚効果をエミュレートするために開発された2つの新しいデータ拡張法を提案する。
論文 参考訳(メタデータ) (2024-10-21T08:24:46Z) - Efficient Parameter Mining and Freezing for Continual Object Detection [0.0]
本稿では,ネットワークがシーケンシャルな更新にまたがって検出器の性能を維持する上で,どの層が最重要かを特定する効率的な方法を提案する。
これらの結果は,オブジェクト検出モデル内での漸進的な学習を容易にする上で,階層レベルのパラメータ分離の実質的なメリットを強調した。
論文 参考訳(メタデータ) (2024-02-20T01:07:32Z) - Active Sensing with Predictive Coding and Uncertainty Minimization [0.0]
2つの生物学的計算から着想を得たエンボディード探索のためのエンドツーエンドの手法を提案する。
まず,迷路ナビゲーションタスクによるアプローチを実演し,環境の遷移分布と空間的特徴を明らかにする。
本モデルでは,視覚シーンを効率的に分類するための探索によって,教師なし表現を構築する。
論文 参考訳(メタデータ) (2023-07-02T21:14:49Z) - Exploiting Multimodal Synthetic Data for Egocentric Human-Object
Interaction Detection in an Industrial Scenario [14.188006024550257]
EgoISM-HOIは,手や物体のアノテーションが豊富な産業環境下で合成されたEHOI画像からなる,新しいマルチモーダルデータセットである。
本研究は,提案手法を事前学習するために合成データを活用することにより,実世界のデータでテストした場合の性能が著しく向上することを示す。
この分野での研究を支援するため、私たちはデータセット、ソースコード、事前トレーニングされたモデルをhttps://iplab.dmi.unict.it/egoism-hoi.comで公開しています。
論文 参考訳(メタデータ) (2023-06-21T09:56:55Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - Egocentric Human-Object Interaction Detection Exploiting Synthetic Data [19.220651860718892]
産業的文脈において,エゴセントリックなヒューマンオブジェクトインタラクション(EHOI)を検出することの問題点を考察する。
EHOI検出に自動的にラベル付けされたFPV画像を生成するためのパイプラインとツールを提案する。
論文 参考訳(メタデータ) (2022-04-14T15:59:15Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。