論文の概要: MASteer: Multi-Agent Adaptive Steer Strategy for End-to-End LLM Trustworthiness Repair
- arxiv url: http://arxiv.org/abs/2508.06963v1
- Date: Sat, 09 Aug 2025 12:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.629911
- Title: MASteer: Multi-Agent Adaptive Steer Strategy for End-to-End LLM Trustworthiness Repair
- Title(参考訳): MASteer: エンドツーエンドLLM信頼性修復のためのマルチエージェント適応ステア戦略
- Authors: Changqing Li, Tianlin Li, Xiaohan Zhang, Aishan Liu, Li Pan,
- Abstract要約: MASteerは、大規模言語モデル(LLM)における信頼性修復のためのエンドツーエンドフレームワークである。
開発者のニーズに合わせて多種多様な高品質なステアサンプルを生成するマルチエージェントシステムであるAutoTesterと、推論中のコンテキスト認識戦略の自動選択のためのアンカーベクタを備えたアダプティブステアリング戦略を構築するAutoRepairerだ。
実験の結果、MASteerはベースラインを一貫して上回り、LLaMA-3.1-8B-Chatで15.36%、Qwen-3-8B-Chatで4.21%改善し、一般的なモデル能力を維持した。
- 参考スコア(独自算出の注目度): 24.187162194500317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) face persistent and evolving trustworthiness issues, motivating developers to seek automated and flexible repair methods that enable convenient deployment across diverse scenarios. Existing repair methods like supervised fine-tuning (SFT) and reinforcement learning with human feedback (RLHF) are costly and slow, while prompt engineering lacks robustness and scalability. Representation engineering, which steers model behavior by injecting targeted concept vectors during inference, offers a lightweight, training-free alternative. However, current approaches depend on manually crafted samples and fixed steering strategies, limiting automation and adaptability. To overcome these challenges, we propose MASteer, the first end-to-end framework for trustworthiness repair in LLMs based on representation engineering. MASteer integrates two core components: AutoTester, a multi-agent system that generates diverse, high-quality steer samples tailored to developer needs; and AutoRepairer, which constructs adaptive steering strategies with anchor vectors for automated, context-aware strategy selection during inference. Experiments on standard and customized trustworthiness tasks show MASteer consistently outperforms baselines, improving metrics by 15.36% on LLaMA-3.1-8B-Chat and 4.21% on Qwen-3-8B-Chat, while maintaining general model capabilities. MASteer demonstrates strong robustness, generalization, and practical value for scalable, efficient trustworthiness repair.
- Abstract(参考訳): 大きな言語モデル(LLM)は永続的で進化する信頼性の問題に直面しており、開発者は様々なシナリオにまたがって便利なデプロイを可能にする自動化された柔軟な修復方法を模索する動機となっている。
教師付き微調整(SFT)や人的フィードバックによる強化学習(RLHF)のような既存の修復手法はコストがかかり、遅い。
推論中にターゲットとなる概念ベクトルを注入することでモデルをモデル化する表現工学は、軽量でトレーニング不要な代替手段を提供する。
しかし、現在のアプローチは手作業によるサンプルと固定されたステアリング戦略に依存し、自動化と適応性を制限する。
これらの課題を克服するために,表現工学に基づくLCMにおける信頼性修復のための最初のエンドツーエンドフレームワークであるMASteerを提案する。
MASteerは2つのコアコンポーネントを統合している。AutoTesterは開発者のニーズに合わせて多様な高品質なステアサンプルを生成するマルチエージェントシステムである。
標準およびカスタマイズされた信頼性タスクの実験では、MASteerはベースラインを一貫して上回り、LLaMA-3.1-8B-Chatで15.36%、Qwen-3-8B-Chatで4.21%向上し、一般的なモデル能力を維持した。
MASteerは、スケーラブルで効率的な信頼性の修復のための強力な堅牢性、一般化、実用的な価値を示す。
関連論文リスト
- GenAgent: Scaling Text-to-Image Generation via Agentic Multimodal Reasoning [54.42973725693]
我々は,エージェント型マルチモーダルモデルを用いて,視覚的理解と生成を統一したGenAgentを導入する。
GenAgentはGenEval++とWISEのベースジェネレータ(FLUX.1-dev)のパフォーマンスを大幅に向上させる。
本フレームワークは,1) 様々な機能を持つジェネレータへのクロスツール一般化,2) インタラクションラウンド間で一貫した改善を伴うテスト時間スケーリング,3) タスクに自動的に適応するタスク適応推論の3つの重要な特性を示す。
論文 参考訳(メタデータ) (2026-01-26T14:49:04Z) - Agentic Confidence Calibration [67.50096917021521]
Holistic Trajectory (HTC)はAIエージェントの新しい診断フレームワークである。
HTCはキャリブレーションと差別の両方において、強力なベースラインを一貫して超えている。
HTCは、障害の背後にあるシグナルを明らかにすることによって、解釈可能性を提供する。
論文 参考訳(メタデータ) (2026-01-22T09:08:25Z) - MagicGUI-RMS: A Multi-Agent Reward Model System for Self-Evolving GUI Agents via Automated Feedback Reflux [37.49192877577783]
本稿では,適応軌道評価,修正フィードバック,自己進化学習機能を実現するマルチエージェント報酬モデルシステムMagicGUI-RMSを提案する。
大規模な報酬学習を支援するため、バランスの取れた多様な報酬データセットを自動的に生成する構造化データ構築パイプラインを設計する。
実験により、MagicGUI-RMSはタスクの正確性、振る舞いの堅牢性においてかなりの利益をもたらすことが示された。
論文 参考訳(メタデータ) (2026-01-19T13:50:43Z) - Testing and Enhancing Multi-Agent Systems for Robust Code Generation [21.38351747327572]
自動コード生成のための有望なパラダイムとしてマルチエージェントシステム(MAS)が登場した。
繁栄と採用にもかかわらず、その頑丈さはいまだに過小評価されている。
本稿ではファジィテストによるコード生成のためのMASのロバスト性を検証した最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-10-12T05:45:04Z) - A Rolling Stone Gathers No Moss: Adaptive Policy Optimization for Stable Self-Evaluation in Large Multimodal Models [4.417707977122247]
本稿では,学習目標をリアルタイムで適応的に調整できるオンライン強化学習フレームワークであるAdaPOを提案する。
その結果,本手法は直接推論と自己評価能力の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-05T07:54:01Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - SMART: Self-Aware Agent for Tool Overuse Mitigation [58.748554080273585]
現在のLarge Language Model (LLM) エージェントは、強力な推論とツールの使用能力を示すが、しばしば自己認識に欠ける。
この不均衡はツール・オーバーユースにつながり、モデルはパラメトリックな知識を持つタスクに対して、不要に外部ツールに依存する。
SMART(Strategic Model-Aware Reasoning with Tools)は、エージェントの自己認識を高め、タスクハンドリングを最適化し、ツールの過剰使用を減らすパラダイムである。
論文 参考訳(メタデータ) (2025-02-17T04:50:37Z) - Transformer-Squared: Self-adaptive LLMs [29.1326358746118]
そこで我々はTransformer-Squaredという新しい自己適応フレームワークを紹介した。
提案手法は,LoRAなどのユビキタスな手法よりもパラメータが少なく,効率も向上する。
Transformer-Squaredは、LLMの適応性とタスク固有のパフォーマンスを向上させる、スケーラブルで効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-01-09T01:19:21Z) - Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。
本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。
計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文 参考訳(メタデータ) (2024-11-26T00:44:37Z) - On Fast Adversarial Robustness Adaptation in Model-Agnostic
Meta-Learning [100.14809391594109]
モデルに依存しないメタラーニング(MAML)は、数発の学習において最も成功したメタラーニング手法の1つである。
メタモデルの一般化力にもかかわらず、マルチショット学習においてMDLがいかに敵対的堅牢性を維持することができるかは明らかではない。
本稿では,ラベルなしデータ拡張,高速な攻撃生成,計算量軽微な微調整を可能にする,汎用的かつ最適化が容易なロバストネス正規化メタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-20T22:03:04Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。