論文の概要: A BERTology View of LLM Orchestrations: Token- and Layer-Selective Probes for Efficient Single-Pass Classification
- arxiv url: http://arxiv.org/abs/2601.13288v1
- Date: Mon, 19 Jan 2026 18:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.01145
- Title: A BERTology View of LLM Orchestrations: Token- and Layer-Selective Probes for Efficient Single-Pass Classification
- Title(参考訳): LLMオーケストレーションのBERトロジービュー:効率的な単一パス分類のためのトークンおよび層選択プローブ
- Authors: Gonzalo Ariel Meyoyan, Luciano Del Corro,
- Abstract要約: 生産LLMシステムは、安全と他の分類の重いステップのために、しばしば別々のモデルに依存している。
代わりに、私たちはLLMによって既に支払われた計算を再利用し、隠れた状態の軽量プローブを訓練し、生成に使用する同じ前方パスでラベルを予測する。
- 参考スコア(独自算出の注目度): 2.0069888187253615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Production LLM systems often rely on separate models for safety and other classification-heavy steps, increasing latency, VRAM footprint, and operational complexity. We instead reuse computation already paid for by the serving LLM: we train lightweight probes on its hidden states and predict labels in the same forward pass used for generation. We frame classification as representation selection over the full token-layer hidden-state tensor, rather than committing to a fixed token or fixed layer (e.g., first-token logits or final-layer pooling). To implement this, we introduce a two-stage aggregator that (i) summarizes tokens within each layer and (ii) aggregates across layer summaries to form a single representation for classification. We instantiate this template with direct pooling, a 100K-parameter scoring-attention gate, and a downcast multi-head self-attention (MHA) probe with up to 35M trainable parameters. Across safety and sentiment benchmarks our probes improve over logit-only reuse (e.g., MULI) and are competitive with substantially larger task-specific baselines, while preserving near-serving latency and avoiding the VRAM and latency costs of a separate guard-model pipeline.
- Abstract(参考訳): プロダクションLLMシステムは、安全性やその他の分類の重いステップ、レイテンシの増加、VRAMフットプリント、運用上の複雑さのために、しばしば別々のモデルに依存している。
代わりに、私たちはLLMによって既に支払われた計算を再利用し、隠れた状態の軽量プローブを訓練し、生成に使用する同じ前方パスでラベルを予測する。
固定トークンや固定レイヤ(例えば、ファーストトークンロジットやファイナルレイヤプーリング)にコミットするのではなく、完全なトークン層隠れ状態テンソル上での表現選択として分類する。
これを実現するために,2段アグリゲータを導入する。
(i)各層内でトークンを要約し、
(ii) 層を重ねて集約し、分類のための単一の表現を形成する。
我々は、このテンプレートを、最大35Mのトレーニング可能なパラメータで、直接プーリング、100Kパラメトリックスコアアテンションゲート、ダウンキャストマルチヘッドセルフアテンション(MHA)プローブでインスタンス化する。
安全性とセンチメントのベンチマークを通じて、調査はロジトのみの再利用(例えばMULI)よりも改善され、より大規模なタスク固有のベースラインと競合します。
関連論文リスト
- ConformalSAM: Unlocking the Potential of Foundational Segmentation Models in Semi-Supervised Semantic Segmentation with Conformal Prediction [57.930531826380836]
本研究は,未ラベル画像のアノテータとして画素レベルの視覚課題におけるラベル不足に,基礎的セグメンテーションモデルが対処できるかどうかを考察する。
ConformalSAMは,まず対象ドメインのラベル付きデータを用いて基礎モデルを校正し,ラベルなしデータの信頼できないピクセルラベルをフィルタリングする新しいSSSSフレームワークである。
論文 参考訳(メタデータ) (2025-07-21T17:02:57Z) - Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test [22.499052329934603]
LLMがトレーニングデータを記憶する時、下流タスクの一般化が改善し始める時、そして両者の間にラグがある場合、どうなるかを検討する。
我々の研究は、初めて、グラッキングが試験前混合物質(MoE)にまだ現れることを示した。
我々の第一の発見は、経路がランダムで非平滑な層をまたいで進化し、例えば、事前学習の損失が収束しているにもかかわらず、より構造化され、サンプル間で移動可能であることである。
論文 参考訳(メタデータ) (2025-06-26T17:59:58Z) - Few-Shot Learning for Industrial Time Series: A Comparative Analysis Using the Example of Screw-Fastening Process Monitoring [0.0]
わずかながらの学習は視界において有望であるが、エンフィズスリアルな時系列データについてはいまだに探索されていない。
本稿では,2,300サンプルの多変量トルクデータセットを用いて,スクリュー締結過程の監視に関する系統的FSL研究を行う。
マルチラベルシーケンスを複数の単一ラベルタスクに分解する。
論文 参考訳(メタデータ) (2025-06-16T18:38:34Z) - DEL: Context-Aware Dynamic Exit Layer for Efficient Self-Speculative Decoding [7.204881999658682]
DELは、推論中に出口層と投機長を適応的に選択するプラグイン・アンド・プレイ方式である。
Delは、全体的なスピードアップを$2.16times$$sim$2.62times$ over vanilla auto-regressive decoding で達成している。
論文 参考訳(メタデータ) (2025-04-08T01:12:59Z) - Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。
非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement [40.37217744643069]
マスク改善タスクにSAMを適用することで,汎用的で効率的なアプローチを提案する。
具体的には,SAMの多様な入力プロンプトをマイニングするためのマルチプロンプト掘削手法を提案する。
ターゲットデータセット上のジェネリックSAMRefinerのパフォーマンスをさらに向上するため、IoU適応ステップを追加してSAMRefiner++にメソッドを拡張します。
論文 参考訳(メタデータ) (2025-02-10T18:33:15Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。