論文の概要: ASA: Training-Free Representation Engineering for Tool-Calling Agents
- arxiv url: http://arxiv.org/abs/2602.04935v2
- Date: Sun, 08 Feb 2026 09:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 17:49:39.471363
- Title: ASA: Training-Free Representation Engineering for Tool-Calling Agents
- Title(参考訳): ASA:ツールカートリングエージェントの学習自由表現工学
- Authors: Youjin Wang, Run Zhou, Rong Fu, Shuaishuai Cao, Hongwei Zeng, Jiaxuan Lu, Sicheng Fan, Jiaqiao Zhao, Liangming Pan,
- Abstract要約: Activation Steering Adapter (ASA)は、トレーニング不要で推論時のコントローラで、シングルショットの中間層介入を実行し、ツールドメインをターゲットにしている。
Qwen2.5-1.5B の MTU-Bench では、ASA は厳格なツール使用率 F1 を 0.18 から 0.50 に改善し、偽陽性率は 0.15 から 0.05 に減らした。
- 参考スコア(独自算出の注目度): 27.41214164139876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting LLM agents to domain-specific tool calling remains notably brittle under evolving interfaces. Prompt and schema engineering is easy to deploy but often fragile under distribution shift and strict parsers, while continual parameter-efficient fine-tuning improves reliability at the cost of training, maintenance, and potential forgetting. We identify a critical Lazy Agent failure mode where tool necessity is nearly perfectly decodable from mid-layer activations, yet the model remains conservative in entering tool mode, revealing a representation-behavior gap. We propose Activation Steering Adapter (ASA), a training-free, inference-time controller that performs a single-shot mid-layer intervention and targets tool domains via a router-conditioned mixture of steering vectors with a probe-guided signed gate to amplify true intent while suppressing spurious triggers. On MTU-Bench with Qwen2.5-1.5B, ASA improves strict tool-use F1 from 0.18 to 0.50 while reducing the false positive rate from 0.15 to 0.05, using only about 20KB of portable assets and no weight updates.
- Abstract(参考訳): LLMエージェントをドメイン固有のツール呼び出しに適応することは、進化するインターフェイスの下では顕著に不安定である。
プロンプトとスキーマエンジニアリングは容易にデプロイできるが、分散シフトや厳密なパーサの下では脆弱であることが多い。
ツール要求が中間層アクティベーションからほぼ完全にデオード可能なクリティカルな遅延エージェント障害モードを識別するが、ツールモードの入力には保存的であり、表現と振る舞いのギャップが明らかになる。
本研究では、単発の中間層介入を行う訓練不要な推論時コントローラであるActivation Steering Adapter(ASA)を提案し、ステアリングベクトルとプローブ誘導署名ゲートをルータ条件で混合してツールドメインをターゲットにし、刺激的なトリガを抑えながら真の意図を増幅する。
Qwen2.5-1.5B の MTU-Bench では、ASA は厳格なツール使用率 F1 を 0.18 から 0.50 に改善し、偽陽性率は 0.15 から 0.05 に減らした。
関連論文リスト
- Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents [68.20752678837377]
本稿では,単一ターン有害なタスクを多ターン攻撃シーケンスに変換する基本的分類法を提案する。
この分類法を用いて,マルチターンツール使用エージェントの安全性を評価する最初のベンチマークであるMT-AgentRiskを構築した。
トレーニング不要で、ツールに依存しない、自己探索型防御ツールであるToolShieldを提案する。
論文 参考訳(メタデータ) (2026-02-13T18:38:18Z) - Sponge Tool Attack: Stealthy Denial-of-Efficiency against Tool-Augmented Agentic Reasoning [58.432996881401415]
最近の作業では、エージェント推論を可能にするために、外部ツールで大きな言語モデル(LLM)を拡張している。
本稿では,入力プロンプトを書き換えることのみでエージェント推論を妨害するスポンジツールアタック(STA)を提案する。
STAは、意味的忠実度の高い原文からの良心的な即興的な書き直しを生成する。
論文 参考訳(メタデータ) (2026-01-24T19:36:51Z) - Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents [31.789859492703016]
エージェント・ツール通信ループは、Large Language Model (LLM)エージェントにおけるクリティカルアタックサーフェスである。
既存のDoS(DoS)攻撃は、この新しいパラダイムには効果がない。
正常に完了したタスクのヒントのもと、ツール層で機能するステルスで多ターンの経済DoS攻撃を導入する。
論文 参考訳(メタデータ) (2026-01-16T02:47:45Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - PAGen: Phase-guided Amplitude Generation for Domain-adaptive Object Detection [15.55359477953804]
教師なしドメイン適応(UDA)は、さまざまな環境にまたがるニューラルネットワークの展開を大いに促進する。
本稿では、周波数領域における画像スタイルの適応を学習し、ソース領域とターゲット領域との差を小さくする、シンプルで効果的なUDA手法を提案する。
論文 参考訳(メタデータ) (2025-11-27T02:22:37Z) - UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action [77.63125913907771]
本稿では,GUIプリミティブと高レベルのプログラムツールコールのギャップを埋める基盤モデルであるUltraCUAを提案する。
7Bおよび32Bモデルによる実験は、最先端のエージェントよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-20T17:48:26Z) - Adaptive Minds: Empowering Agents with LoRA-as-Tools [0.0]
Adaptive Mindsは、LoRAアダプタをドメイン固有のツールとして扱うエージェントシステムである。
Systemはワークフロー管理のためにLangGraphで構築され、APIとWebインターフェースの両方をサポートし、完全にオープンソースである。
論文 参考訳(メタデータ) (2025-10-17T08:10:06Z) - Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use [50.02614257515131]
大規模言語モデル(LLM)は、言語理解と推論において強力な能力を示している。
本稿では,LLMの汎用的,構成的,多段階的なツール使用を可能にする強化学習フレームワークであるTool-R1を提案する。
論文 参考訳(メタデータ) (2025-09-16T09:22:21Z) - Generalized Adaptive Transfer Network: Enhancing Transfer Learning in Reinforcement Learning Across Domains [11.705324423141606]
強化学習(RL)における伝達学習により、エージェントはソースタスクからの知識を活用して、ターゲットタスクでの学習を加速することができる。
本稿では、ドメイン間のタスクの一般化に取り組むために設計された深いRLアーキテクチャであるGeneralized Adaptive Transfer Network (GATN)を紹介する。
GATNはドメインに依存しない表現モジュール、堅牢性を認識したポリシーアダプタ、そしてこれらの目標を達成するための効率的な転送スケジューラを使用している。
論文 参考訳(メタデータ) (2025-07-02T21:33:48Z) - Patterns and Mechanisms of Contrastive Activation Engineering [0.374490703387131]
CAEは、フレキシブルでタスク固有の振る舞いチューニングの新しいパラダイムを導入する可能性がある。
本研究では,配当・配当・配当設定におけるCAEの性能を分析し,欠点を評価し,その効果的な展開のための包括的ガイドラインの開発に着手する。
論文 参考訳(メタデータ) (2025-05-06T05:15:12Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - PCA-Featured Transformer for Jamming Detection in 5G UAV Networks [0.5999777817331317]
無人航空機(UAV)は、ネットワーク機能を損なう可能性のある攻撃を妨害することによる重大なセキュリティリスクに直面している。
従来の検出方法は、動作を動的に変更するAI駆動のジャミングに直面すると、しばしば不足する。
無線セキュリティ向上のための特徴表現を洗練するための新しいU字型トランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-12-19T16:13:04Z) - To Adapt or Not to Adapt? Real-Time Adaptation for Semantic Segmentation [45.74645069886128]
HAMLETは、リアルタイムドメイン適応のためのハードウェア対応Modular Least Expensive Trainingフレームワークである。
当社のアプローチでは,1つのコンシューマグレードGPU上で29FPS以上を同時に適用しながらセマンティックセグメンテーションを行うことができる。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation [86.02485817444216]
マルチプロンプトアライメント(MPA: Multi-Prompt Alignment)は,マルチソースUDAのためのシンプルかつ効率的なフレームワークである。
MPAは、学習したプロンプトを自動エンコードプロセスで認知し、再構築されたプロンプトの合意を最大化することでそれらを調整する。
実験によると、MPAは3つの一般的なデータセットで最先端の結果を達成し、DomainNetの平均精度は54.1%である。
論文 参考訳(メタデータ) (2022-09-30T03:40:10Z) - Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training
for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。
本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。
2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-08-28T09:29:14Z) - Towards Safe Control of Continuum Manipulator Using Shielded Multiagent
Reinforcement Learning [1.2647816797166165]
ロボットの制御は、MADQNフレームワークにおける1つのエージェント問題である1-DoFとして定式化され、学習効率が向上する。
シールドされたMADQNにより、ロボットは外部負荷下で、サブミリ単位のルート平均二乗誤差で点と軌道追跡を行うことができた。
論文 参考訳(メタデータ) (2021-06-15T05:55:05Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z) - DA-DETR: Domain Adaptive Detection Transformer with Information Fusion [53.25930448542148]
DA-DETRは、ラベル付きソースドメインからラベルなしターゲットドメインへの効果的な転送のための情報融合を導入するドメイン適応型オブジェクト検出変換器である。
本稿では,CNN機能とトランスフォーマー機能を融合した新しいCNN-Transformer Blender(CTBlender)を提案する。
CTBlenderはTransformer機能を使用して、高レベルの意味情報と低レベルの空間情報が融合した複数のスケールでCNN機能を変調し、正確な物体識別と位置決めを行う。
論文 参考訳(メタデータ) (2021-03-31T13:55:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。