論文の概要: MAC: Multi-Agent Constitution Learning
- arxiv url: http://arxiv.org/abs/2603.15968v1
- Date: Mon, 16 Mar 2026 22:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.019576
- Title: MAC: Multi-Agent Constitution Learning
- Title(参考訳): MAC:マルチエージェントな憲法学習
- Authors: Rushil Thareja, Gautam Gupta, Francesco Pinto, Nils Lukas,
- Abstract要約: コンスティチューショナルAIは、自然言語で書かれたルールのセットに基づいてLLMを監督し、制御する手法である。
既存のLCMベースのプロンプト法は、多くのラベル付き例と最適化されたプロンプトの構造が欠如しているため、構成を学ぶのに効果がない。
規則の集合として表される構造化プロンプトを最適化する多言語構成学習(MAC)を提案する。
- 参考スコア(独自算出の注目度): 13.313180901776816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constitutional AI is a method to oversee and control LLMs based on a set of rules written in natural language. These rules are typically written by human experts, but could in principle be learned automatically given sufficient training data for the desired behavior. Existing LLM-based prompt optimizers attempt this but are ineffective at learning constitutions since (i) they require many labeled examples and (ii) lack structure in the optimized prompts, leading to diminishing improvements as prompt size grows. To address these limitations, we propose Multi-Agent Constitutional Learning (MAC), which optimizes over structured prompts represented as sets of rules using a network of agents with specialized tasks to accept, edit, or reject rule updates. We also present MAC+, which improves performance by training agents on successful trajectories to reinforce updates leading to higher reward. We evaluate MAC on tagging Personally Identifiable Information (PII), a classification task with limited labels where interpretability is critical, and demonstrate that it generalizes to other agentic tasks such as tool calling. MAC outperforms recent prompt optimization methods by over 50%, produces human-readable and auditable rule sets, and achieves performance comparable to supervised fine-tuning and GRPO without requiring parameter updates.
- Abstract(参考訳): コンスティチューショナルAIは、自然言語で書かれたルールのセットに基づいてLLMを監督し、制御する手法である。
これらのルールは通常、人間の専門家によって書かれるが、原則として、望ましい行動のための十分なトレーニングデータを自動的に学習することができる。
既存のLCMベースのプロンプトオプティマイザは、これを試すが、憲法の学習には効果がない。
(i)ラベル付きの例が多数必要で、
(II) 最適化されたプロンプトの構造が欠如し、プロンプトサイズが大きくなるにつれて改善が減少する。
これらの制約に対処するため、我々は、ルール更新を受理、編集、拒否する専門的なタスクを持つエージェントのネットワークを用いて、ルールの集合として表される構造化プロンプトを最適化するマルチエージェント構成学習(MAC)を提案する。
また、MAC+は、より高い報酬をもたらす更新を強化するために、軌道上で成功したエージェントを訓練することで、パフォーマンスを向上させる。
PII(Personally Identible Information)のタグ付けにおけるMACの評価を行い,ツール呼び出しなどのエージェントタスクに一般化できることを実証した。
MACは最近のプロンプト最適化手法を50%以上上回り、可読で監査可能なルールセットを生成し、パラメータ更新を必要とせずに教師付き微調整やGRPOに匹敵する性能を達成する。
関連論文リスト
- RIMRULE: Improving Tool-Using Language Agents via MDL-Guided Rule Learning [31.8598046524742]
RIMRULEは、動的規則注入に基づく大規模言語モデル(LLM)適応のためのニューロシンボリックアプローチである。
コンパクトで解釈可能なルールは、障害トレースから蒸留され、推論中にプロンプトに注入され、タスク性能が向上する。
論文 参考訳(メタデータ) (2025-12-31T19:40:10Z) - Reasoning Up the Instruction Ladder for Controllable Language Models [26.068755167791505]
大規模言語モデル(LLM)に基づくシステムは、現実世界の意思決定において高い役割を担っている。
LLMの信頼性と制御性には,命令階層(IH)の強化が重要である。
本研究では,命令階層分解を推論タスクとして再設計する。
論文 参考訳(メタデータ) (2025-10-30T22:13:31Z) - TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。
タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。
視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-06-12T05:25:35Z) - Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines [71.14354526117958]
In-context Learning (ICL) は、事前訓練された大規模言語モデル(LLM)の重要かつ完全には理解されていない能力である。
タスク言語とフォーマット特性をキャプチャする2つのガイドラインの並列ストリームを効率よく生成するLongGuideを提案する。
LongGuideはガイドラインの最良の組み合わせを自動的に選択し、ゼロショット設定と少数ショット設定の両方で、強力なオープンソースLLMとクローズドソースLLMの両方を5%以上改善する。
論文 参考訳(メタデータ) (2025-06-02T02:35:24Z) - SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks [8.05369449863086]
本稿では,DeepSeek-Coder-v2.5-236Bから抽出したQwen2.5-7B-Base LLMに基づくSMAC-R1を紹介する。
オフライン学習プロセスにおける行動クローン後のオンライン強化学習と同様に、私たちのパイプラインでは、エージェントがDeepSeek LLMを利用して決定ツリーコードを生成する。
従来の23のSMACタスクと10の新たに設計されたタスクで実験を行い、提案手法が高品質で解釈可能な決定木を作成できることを実証した。
論文 参考訳(メタデータ) (2024-10-21T13:58:38Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - RNR: Teaching Large Language Models to Follow Roles and Rules [153.6596303205894]
既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。
このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。
我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
論文 参考訳(メタデータ) (2024-09-10T06:07:32Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。