論文の概要: Enhancing Value Alignment of LLMs with Multi-agent system and Combinatorial Fusion
- arxiv url: http://arxiv.org/abs/2603.11126v1
- Date: Wed, 11 Mar 2026 14:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.53148
- Title: Enhancing Value Alignment of LLMs with Multi-agent system and Combinatorial Fusion
- Title(参考訳): マルチエージェントシステムとコンビネーション融合によるLCMの値整合性向上
- Authors: Yuanhong Wu, Djallel Bouneffouf, D. Frank Hsu,
- Abstract要約: マルチエージェント融合アライメントを運用するフレームワークを提案する。
複数のエージェントにまたがる対立や冗長性を緩和し、人間の価値をよりよく反映する応答を生み出す。
- 参考スコア(独自算出の注目度): 5.97790552623697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) with human values is a central challenge for ensuring trustworthy and safe deployment. While existing methods such as Reinforcement Learning from Human Feedback (RLHF) and its variants have improved alignment, they often rely on a single evaluator or narrowly defined reward signals, limiting their ability to capture ethical pluralism. In this work, we propose the Value Alignment System using Combinatorial Fusion Analysis (VAS-CFA), a framework that operationalizes multi-agent fusion alignment. It instantiates multiple moral agents, each fine-tuned to represent a distinct normative perspective, and fuses their outputs using CFA with both rank- and score-based aggregation. This design leverages cognitive diversity, between agents, to mitigate conflicts and redundancies across multiple agents, producing responses that better reflect human values. Empirical evaluation demonstrates that VAS-CFA outperforms both single agent baselines and prior aggregation approaches on standard metrics, showing that multi-agent fusion provides a robust and effective mechanism for advancing value alignment in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)を人的価値と整合させることは、信頼性と安全なデプロイメントを保証する上で重要な課題である。
Reinforcement Learning from Human Feedback (RLHF) などの既存の手法はアライメントを改善しているが、それらはしばしば単一の評価器または狭義の報酬信号に依存し、倫理的多元主義を捉える能力を制限する。
本稿では,マルチエージェントフュージョンアライメントを運用するフレームワークである Combinatorial Fusion Analysis (VAS-CFA) を用いたバリューアライメントシステムを提案する。
複数のモラルエージェントをインスタンス化し、それぞれが異なる規範的視点を表すように微調整され、ランクとスコアベースのアグリゲーションでCFAを使用して出力を融合する。
このデザインは、エージェント間の認知的多様性を利用して、複数のエージェント間の対立や冗長性を緩和し、人間の価値をよりよく反映する応答を生み出す。
実験的な評価により,VAS-CFAは単一エージェントベースラインと標準メトリクスの事前集約アプローチの両方より優れており,マルチエージェント融合はLLMにおける価値アライメントを前進させる堅牢かつ効果的なメカニズムを提供することが示された。
関連論文リスト
- Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning [13.30869366778628]
CRMは単一のブラックボックス報酬モデルを置き換えるフレームワークであり、専門家評価者の調整されたチームに置き換えられている。
トレーニングとアセスメントをサポートするために、CRMの協調的な構造に沿ったベンチマークとトレーニングスイートである rewardBenchを紹介します。
論文 参考訳(メタデータ) (2025-11-20T10:12:34Z) - Multi-Value Alignment for LLMs via Value Decorrelation and Extrapolation [23.41040153806061]
MVA(Multi-Value Alignment)と呼ばれる新しいフレームワークを提案する。
相互情報の最小化により、多様な人の値間のパラメータ干渉によるアライメントを緩和する。
MVAは、LLMを複数の人間の値と整列させることで、既存のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-11-15T13:33:26Z) - CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards [80.78748457530718]
自己進化(Self-evolution)は、大規模言語モデル(LLM)ベースのエージェントが事前トレーニング後の能力を継続的に改善できるようにする上で、中心的な研究トピックである。
エージェントがエージェント間相互作用から学習することで自律的に改善できる新しいフレームワークであるCo-Evolving Multi-Agent Systems (CoMAS)を紹介する。
論文 参考訳(メタデータ) (2025-10-09T17:50:26Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - MALIBU Benchmark: Multi-Agent LLM Implicit Bias Uncovered [2.8692611791027893]
我々は,マルチエージェントシステムが社会的バイアスやステレオタイプを暗黙的に補強する程度を評価するために開発された新しいベンチマークであるMALIBUを提案する。
本研究は, LLM生成出力の偏差を定量化し, 偏差緩和が真の中立性よりも限界化されたペルソナを優先することを明らかにする。
論文 参考訳(メタデータ) (2025-04-10T19:16:40Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - SrSv: Integrating Sequential Rollouts with Sequential Value Estimation for Multi-agent Reinforcement Learning [23.032729815716813]
現実世界の環境の複雑さは信用割当問題を悪化させる。
大規模シナリオにおけるエージェント集団の多様性は、スケーラブルな意思決定メカニズムを必要とする。
逐次値推定を用いた逐次ロールアウト(SrSv)を提案する。
論文 参考訳(メタデータ) (2025-03-03T12:17:18Z) - Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
MoTE(Mixture of insightful Experts)は、推論チェーンとエキスパートミックスを組み合わせて自己調整を改善する新しいフレームワークである。
MoTEはモデルの安全性、脱獄耐性、過剰な拒否機能を大幅に改善し、OpenAIの最先端のo1モデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-01T15:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。