Fugu-MT 論文翻訳(概要): Detecting High-Stakes Interactions with Activation Probes

論文の概要: Detecting High-Stakes Interactions with Activation Probes

arxiv url: http://arxiv.org/abs/2506.10805v1
Date: Thu, 12 Jun 2025 15:20:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.811836
Title: Detecting High-Stakes Interactions with Activation Probes
Title（参考訳）: 活性化プローブによる高感度相互作用の検出
Authors: Alex McKenzie, Urja Pawar, Phil Blandfort, William Bankes, David Krueger, Ekdeep Singh Lubana, Dmitrii Krasheninnikov,
Abstract要約: そこで本論文では,対話が大きな害をもたらす可能性を示唆する「ハイテイク」相互作用を検出するためのアクティベーションプローブについて検討する。我々は、合成データに基づいて訓練された複数のプローブアーキテクチャを評価し、それらが多種多様な分布外の実世界のデータに対して堅牢な一般化を示すことを発見した。また,資源を意識した階層型モニタリングシステムの構築の可能性についても検討した。
参考スコア（独自算出の注目度）: 10.421494494629421
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Monitoring is an important aspect of safely deploying Large Language Models (LLMs). This paper examines activation probes for detecting "high-stakes" interactions -- where the text indicates that the interaction might lead to significant harm -- as a critical, yet underexplored, target for such monitoring. We evaluate several probe architectures trained on synthetic data, and find them to exhibit robust generalization to diverse, out-of-distribution, real-world data. Probes' performance is comparable to that of prompted or finetuned medium-sized LLM monitors, while offering computational savings of six orders-of-magnitude. Our experiments also highlight the potential of building resource-aware hierarchical monitoring systems, where probes serve as an efficient initial filter and flag cases for more expensive downstream analysis. We release our novel synthetic dataset and codebase to encourage further study.
Abstract（参考訳）: 監視は、LLM(Large Language Models)を安全にデプロイする上で重要な側面である。本稿では,このような監視対象として,「高感度」相互作用を検出するためのアクティベーションプローブについて検討する。我々は、合成データに基づいて訓練された複数のプローブアーキテクチャを評価し、それらが多種多様な分布外の実世界のデータに対して堅牢な一般化を示すことを発見した。 Probesのパフォーマンスは、誘導または微調整された中規模のLCMモニターと同等であり、6桁のマグニチュードの計算的節約を提供する。我々の実験は、より高価な下流分析のために、プローブが効率的な初期フィルタとフラグケースとして機能する、リソースを意識した階層的な監視システムを構築する可能性についても強調した。我々は、さらなる研究を促進するために、新しい合成データセットとコードベースをリリースします。

関連論文リスト

Explainable Deepfake Detection with RL Enhanced Self-Blended Images [13.456365650507877]
本稿では,自己ブレンド画像に基づく自動Chain-of-Thought(CoT)データ生成フレームワークとRL強化ディープフェイク検出フレームワークを提案する。提案手法は,複数のクロスデータセットベンチマークにおいて,最先端(SOTA)アプローチと競合する性能を実現する。
論文参考訳（メタデータ） (2026-01-22T03:55:46Z)
From Words to Wavelengths: VLMs for Few-Shot Multispectral Object Detection [7.459632891054827]
マルチスペクトル物体検出は、自律運転や監視といった安全に敏感なアプリケーションに不可欠である。近年のコンピュータビジョンにおけるビジョン・ランゲージ・モデルの成功に触発されて、我々は、数発のマルチスペクトル物体検出の可能性を探る。
論文参考訳（メタデータ） (2025-12-17T21:06:36Z)
VILOD: A Visual Interactive Labeling Tool for Object Detection [0.0]
この論文は「VILOD:オブジェクト検出のためのビジュアルインタラクティブラベリングツール」を開発・研究している。これによりユーザは、データ探索、モデル状態の解釈、AL提案、オブジェクト検出のための反復型HITLワークフロー内のさまざまなサンプル選択戦略の実装が可能になる。この研究は、VILODで使用される異なる視覚誘導型ラベリング戦略が、競合するOD性能トラジェクトリをもたらすことを示した。
論文参考訳（メタデータ） (2025-08-29T19:27:10Z)
Probing Deep into Temporal Profile Makes the Infrared Small Target Detector Much Better [63.567886330598945]
赤外線小目標(IRST)検出は、精度、普遍性、堅牢性、効率的な性能を同時に達成する上で困難である。現在の学習に基づく手法は、空間的領域と短期的領域の両方から"より多くの情報を活用する。本稿では、IRST検出のための時間次元でのみ計算を行う効率的な深部プローブネットワーク(DeepPro)を提案する。
論文参考訳（メタデータ） (2025-06-15T08:19:32Z)
Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [64.74977204942199]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文参考訳（メタデータ） (2025-04-14T10:06:27Z)
Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning [51.170479006249195]
本研究では,新しいデータセット,ベンチマーク,動的粗大な学習手法を提案する。提案するデータセットであるAI-TOD-Rは、すべてのオブジェクト指向オブジェクト検出データセットの中で最小のオブジェクトサイズを特徴としている。完全教師付きおよびラベル効率の両アプローチを含む,幅広い検出パラダイムにまたがるベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-16T09:14:32Z)
How Important are Data Augmentations to Close the Domain Gap for Object Detection in Orbit? [15.550663626482903]
宇宙空間におけるコンピュータビジョンの領域ギャップを埋めるためのデータ拡張の有効性について検討する。本稿では,軌道画像に観察される視覚効果をエミュレートするために開発された2つの新しいデータ拡張法を提案する。
論文参考訳（メタデータ） (2024-10-21T08:24:46Z)
Efficient Parameter Mining and Freezing for Continual Object Detection [0.0]
本稿では,ネットワークがシーケンシャルな更新にまたがって検出器の性能を維持する上で,どの層が最重要かを特定する効率的な方法を提案する。これらの結果は,オブジェクト検出モデル内での漸進的な学習を容易にする上で,階層レベルのパラメータ分離の実質的なメリットを強調した。
論文参考訳（メタデータ） (2024-02-20T01:07:32Z)
Active Sensing with Predictive Coding and Uncertainty Minimization [0.0]
2つの生物学的計算から着想を得たエンボディード探索のためのエンドツーエンドの手法を提案する。まず,迷路ナビゲーションタスクによるアプローチを実演し,環境の遷移分布と空間的特徴を明らかにする。本モデルでは,視覚シーンを効率的に分類するための探索によって,教師なし表現を構築する。
論文参考訳（メタデータ） (2023-07-02T21:14:49Z)
Exploiting Multimodal Synthetic Data for Egocentric Human-Object Interaction Detection in an Industrial Scenario [14.188006024550257]
EgoISM-HOIは,手や物体のアノテーションが豊富な産業環境下で合成されたEHOI画像からなる,新しいマルチモーダルデータセットである。本研究は,提案手法を事前学習するために合成データを活用することにより,実世界のデータでテストした場合の性能が著しく向上することを示す。この分野での研究を支援するため、私たちはデータセット、ソースコード、事前トレーニングされたモデルをhttps://iplab.dmi.unict.it/egoism-hoi.comで公開しています。
論文参考訳（メタデータ） (2023-06-21T09:56:55Z)
AntPivot: Livestream Highlight Detection via Hierarchical Attention Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文参考訳（メタデータ） (2022-06-10T05:58:11Z)
Egocentric Human-Object Interaction Detection Exploiting Synthetic Data [19.220651860718892]
産業的文脈において,エゴセントリックなヒューマンオブジェクトインタラクション(EHOI)を検出することの問題点を考察する。 EHOI検出に自動的にラベル付けされたFPV画像を生成するためのパイプラインとツールを提案する。
論文参考訳（メタデータ） (2022-04-14T15:59:15Z)
WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文参考訳（メタデータ） (2021-05-21T11:58:50Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)
Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文参考訳（メタデータ） (2020-01-06T13:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。