論文の概要: MASteer: Multi-Agent Adaptive Steer Strategy for End-to-End LLM Trustworthiness Repair
- arxiv url: http://arxiv.org/abs/2508.06963v1
- Date: Sat, 09 Aug 2025 12:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.629911
- Title: MASteer: Multi-Agent Adaptive Steer Strategy for End-to-End LLM Trustworthiness Repair
- Title(参考訳): MASteer: エンドツーエンドLLM信頼性修復のためのマルチエージェント適応ステア戦略
- Authors: Changqing Li, Tianlin Li, Xiaohan Zhang, Aishan Liu, Li Pan,
- Abstract要約: MASteerは、大規模言語モデル(LLM)における信頼性修復のためのエンドツーエンドフレームワークである。
開発者のニーズに合わせて多種多様な高品質なステアサンプルを生成するマルチエージェントシステムであるAutoTesterと、推論中のコンテキスト認識戦略の自動選択のためのアンカーベクタを備えたアダプティブステアリング戦略を構築するAutoRepairerだ。
実験の結果、MASteerはベースラインを一貫して上回り、LLaMA-3.1-8B-Chatで15.36%、Qwen-3-8B-Chatで4.21%改善し、一般的なモデル能力を維持した。
- 参考スコア(独自算出の注目度): 24.187162194500317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) face persistent and evolving trustworthiness issues, motivating developers to seek automated and flexible repair methods that enable convenient deployment across diverse scenarios. Existing repair methods like supervised fine-tuning (SFT) and reinforcement learning with human feedback (RLHF) are costly and slow, while prompt engineering lacks robustness and scalability. Representation engineering, which steers model behavior by injecting targeted concept vectors during inference, offers a lightweight, training-free alternative. However, current approaches depend on manually crafted samples and fixed steering strategies, limiting automation and adaptability. To overcome these challenges, we propose MASteer, the first end-to-end framework for trustworthiness repair in LLMs based on representation engineering. MASteer integrates two core components: AutoTester, a multi-agent system that generates diverse, high-quality steer samples tailored to developer needs; and AutoRepairer, which constructs adaptive steering strategies with anchor vectors for automated, context-aware strategy selection during inference. Experiments on standard and customized trustworthiness tasks show MASteer consistently outperforms baselines, improving metrics by 15.36% on LLaMA-3.1-8B-Chat and 4.21% on Qwen-3-8B-Chat, while maintaining general model capabilities. MASteer demonstrates strong robustness, generalization, and practical value for scalable, efficient trustworthiness repair.
- Abstract(参考訳): 大きな言語モデル(LLM)は永続的で進化する信頼性の問題に直面しており、開発者は様々なシナリオにまたがって便利なデプロイを可能にする自動化された柔軟な修復方法を模索する動機となっている。
教師付き微調整(SFT)や人的フィードバックによる強化学習(RLHF)のような既存の修復手法はコストがかかり、遅い。
推論中にターゲットとなる概念ベクトルを注入することでモデルをモデル化する表現工学は、軽量でトレーニング不要な代替手段を提供する。
しかし、現在のアプローチは手作業によるサンプルと固定されたステアリング戦略に依存し、自動化と適応性を制限する。
これらの課題を克服するために,表現工学に基づくLCMにおける信頼性修復のための最初のエンドツーエンドフレームワークであるMASteerを提案する。
MASteerは2つのコアコンポーネントを統合している。AutoTesterは開発者のニーズに合わせて多様な高品質なステアサンプルを生成するマルチエージェントシステムである。
標準およびカスタマイズされた信頼性タスクの実験では、MASteerはベースラインを一貫して上回り、LLaMA-3.1-8B-Chatで15.36%、Qwen-3-8B-Chatで4.21%向上し、一般的なモデル能力を維持した。
MASteerは、スケーラブルで効率的な信頼性の修復のための強力な堅牢性、一般化、実用的な価値を示す。
関連論文リスト
- MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - SMART: Self-Aware Agent for Tool Overuse Mitigation [58.748554080273585]
現在のLarge Language Model (LLM) エージェントは、強力な推論とツールの使用能力を示すが、しばしば自己認識に欠ける。
この不均衡はツール・オーバーユースにつながり、モデルはパラメトリックな知識を持つタスクに対して、不要に外部ツールに依存する。
SMART(Strategic Model-Aware Reasoning with Tools)は、エージェントの自己認識を高め、タスクハンドリングを最適化し、ツールの過剰使用を減らすパラダイムである。
論文 参考訳(メタデータ) (2025-02-17T04:50:37Z) - Transformer-Squared: Self-adaptive LLMs [29.1326358746118]
そこで我々はTransformer-Squaredという新しい自己適応フレームワークを紹介した。
提案手法は,LoRAなどのユビキタスな手法よりもパラメータが少なく,効率も向上する。
Transformer-Squaredは、LLMの適応性とタスク固有のパフォーマンスを向上させる、スケーラブルで効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-01-09T01:19:21Z) - Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。
本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。
計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文 参考訳(メタデータ) (2024-11-26T00:44:37Z) - On Fast Adversarial Robustness Adaptation in Model-Agnostic
Meta-Learning [100.14809391594109]
モデルに依存しないメタラーニング(MAML)は、数発の学習において最も成功したメタラーニング手法の1つである。
メタモデルの一般化力にもかかわらず、マルチショット学習においてMDLがいかに敵対的堅牢性を維持することができるかは明らかではない。
本稿では,ラベルなしデータ拡張,高速な攻撃生成,計算量軽微な微調整を可能にする,汎用的かつ最適化が容易なロバストネス正規化メタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-20T22:03:04Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。