論文の概要: Beyond Token Probes: Hallucination Detection via Activation Tensors with ACT-ViT
- arxiv url: http://arxiv.org/abs/2510.00296v1
- Date: Tue, 30 Sep 2025 21:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.26475
- Title: Beyond Token Probes: Hallucination Detection via Activation Tensors with ACT-ViT
- Title(参考訳): Token Probes:ACT-ViTを用いたアクティベーションテンソルによる幻覚検出
- Authors: Guy Bar-Shalom, Fabrizio Frasca, Yaniv Galron, Yftah Ziser, Haggai Maron,
- Abstract要約: 両軸におけるアクティベーションデータの自然な逐次構造の上に構築する。
画像に類似したフルアクティベーションテンソルの治療を提唱する。
アーキテクチャがマルチLLMトレーニングから大きくメリットがあることを示します。
- 参考スコア(独自算出の注目度): 30.106500467531873
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Detecting hallucinations in Large Language Model-generated text is crucial for their safe deployment. While probing classifiers show promise, they operate on isolated layer-token pairs and are LLM-specific, limiting their effectiveness and hindering cross-LLM applications. In this paper, we introduce a novel approach to address these shortcomings. We build on the natural sequential structure of activation data in both axes (layers $\times$ tokens) and advocate treating full activation tensors akin to images. We design ACT-ViT, a Vision Transformer-inspired model that can be effectively and efficiently applied to activation tensors and supports training on data from multiple LLMs simultaneously. Through comprehensive experiments encompassing diverse LLMs and datasets, we demonstrate that ACT-ViT consistently outperforms traditional probing techniques while remaining extremely efficient for deployment. In particular, we show that our architecture benefits substantially from multi-LLM training, achieves strong zero-shot performance on unseen datasets, and can be transferred effectively to new LLMs through fine-tuning. Full code is available at https://github.com/BarSGuy/ACT-ViT.
- Abstract(参考訳): 大規模言語モデル生成テキストにおける幻覚の検出は、その安全な配置に不可欠である。
Probing Classifiersは将来性を示すが、分離されたレイヤツーケンペアで動作し、LLM固有のもので、その有効性を制限し、クロスLLMアプリケーションを妨げる。
本稿では,これらの問題点に対処するための新しいアプローチを提案する。
我々は、両方の軸(層$\times$トークン)におけるアクティベーションデータの自然な逐次構造の上に構築し、画像に似たフルアクティベーションテンソルの扱いを提唱する。
我々は、アクティベーションテンソルに効果的かつ効率的に適用できるビジョントランスフォーマーにインスパイアされたモデルであるACT-ViTを設計し、複数のLSMからのデータのトレーニングを同時にサポートする。
多様なLLMやデータセットを含む総合的な実験を通じて、ACT-ViTが従来の探索手法を一貫して上回りながら、デプロイに極めて効率的であることを実証した。
特に、我々のアーキテクチャはマルチLLMトレーニングから大きく恩恵を受け、目に見えないデータセット上で強力なゼロショット性能を達成し、微調整によって新しいLCMに効果的に転送できることを示す。
完全なコードはhttps://github.com/BarSGuy/ACT-ViT.comで入手できる。
関連論文リスト
- Enhancing Cross-task Transfer of Large Language Models via Activation Steering [75.41750053623298]
クロスタスク・イン・コンテキスト学習はタスク間で知識を伝達する直接的なソリューションを提供する。
パラメータ更新や入力拡張を伴わずに、潜時空間ステアリングによりクロスタスク転送を実現することができるかを検討する。
本稿では,モデルの内部アクティベーション状態を操作することで,効率的な転送を可能にするクロスタスク・アクティベーション・ステアリング・トランスファー・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-17T15:47:22Z) - SAILViT: Towards Robust and Generalizable Visual Backbones for MLLMs via Gradual Feature Refinement [11.815369617016174]
視覚変換器(ViT)は,マルチモーダル大言語モデル(MLLM)の視覚的理解能力を確立する上で,基礎的バックボーンとして不可欠である
本稿では,MLLMの複雑なマルチモーダルインタラクションにおける性能ボトルネックを突破するための,段階的特徴学習型ViTを提案する。
論文 参考訳(メタデータ) (2025-07-02T12:17:23Z) - BANER: Boundary-Aware LLMs for Few-Shot Named Entity Recognition [12.57768435856206]
本稿では,Few-Shot Named Entity Recognition のための境界認識 LLM という手法を提案する。
一般化されたエンティティスパンに対するエンティティ境界を知覚するLLMの能力を高めるために,境界対応のコントラスト学習戦略を導入する。
ターゲットドメインからソースドメインに情報をアライメントするためにLoRAHubを使用し、適応型クロスドメイン分類機能を強化する。
論文 参考訳(メタデータ) (2024-12-03T07:51:14Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。