論文の概要: Too Helpful, Too Harmless, Too Honest or Just Right?
- arxiv url: http://arxiv.org/abs/2509.08486v2
- Date: Mon, 15 Sep 2025 03:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 13:19:47.969574
- Title: Too Helpful, Too Harmless, Too Honest or Just Right?
- Title(参考訳): 役に立たない、無害すぎる、正直すぎる、正しいか?
- Authors: Gautam Siddharth Kashyap, Mark Dras, Usman Naseem,
- Abstract要約: 大規模言語モデル(LLM)は、幅広いNLPタスクに強いパフォーマンスを示す。
アウトプットをHelpfulness、Harmlessness、Hoesty(HHH)の原則と整合させることは、依然として永続的な課題である。
本稿では,Transformer アーキテクチャに Calibrated Experts (MoCaE) を組み込んだモジュールアライメントフレームワークである TrinityX を提案する。
- 参考スコア(独自算出の注目度): 19.134202394422285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit strong performance across a wide range of NLP tasks, yet aligning their outputs with the principles of Helpfulness, Harmlessness, and Honesty (HHH) remains a persistent challenge. Existing methods often optimize for individual alignment dimensions in isolation, leading to trade-offs and inconsistent behavior. While Mixture-of-Experts (MoE) architectures offer modularity, they suffer from poorly calibrated routing, limiting their effectiveness in alignment tasks. We propose TrinityX, a modular alignment framework that incorporates a Mixture of Calibrated Experts (MoCaE) within the Transformer architecture. TrinityX leverages separately trained experts for each HHH dimension, integrating their outputs through a calibrated, task-adaptive routing mechanism that combines expert signals into a unified, alignment-aware representation. Extensive experiments on three standard alignment benchmarks-Alpaca (Helpfulness), BeaverTails (Harmlessness), and TruthfulQA (Honesty)-demonstrate that TrinityX outperforms strong baselines, achieving relative improvements of 32.5% in win rate, 33.9% in safety score, and 28.4% in truthfulness. In addition, TrinityX reduces memory usage and inference latency by over 40% compared to prior MoE-based approaches. Ablation studies highlight the importance of calibrated routing, and cross-model evaluations confirm TrinityX's generalization across diverse LLM backbones.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いNLPタスクにおいて強力なパフォーマンスを示すが、そのアウトプットとHelpfulness、Harmlessness、Hoesty(HHH)の原則との整合性は依然として持続的な課題である。
既存の手法はしばしば個別のアライメントの次元を最適化し、トレードオフや一貫性のない振る舞いをもたらす。
Mixture-of-Experts (MoE)アーキテクチャはモジュラリティを提供するが、調整の不十分なルーティングに悩まされ、アライメントタスクの有効性が制限される。
本稿では,Transformer アーキテクチャに Calibrated Experts (MoCaE) を組み込んだモジュールアライメントフレームワークである TrinityX を提案する。
TrinityXは、各HHH次元に対して個別に訓練されたエキスパートを活用し、専門家の信号を統一されたアライメント対応の表現に結合する、キャリブレーションされたタスク適応型ルーティングメカニズムを通じて出力を統合する。
Alpaca (Helpfulness)、Beaver Tails (Harmlessness)、TruthfulQA (Honesty)-demonstrateの3つの標準アライメントベンチマークに関する大規模な実験では、TrinityXは強いベースラインを上回り、32.5%の勝利率、33.9%の安全スコア、28.4%の真実性を相対的に改善した。
さらにTrinityXは、以前のMoEベースのアプローチと比較して、メモリ使用率と推論遅延を40%以上削減している。
アブレーション研究は、キャリブレーションされたルーティングの重要性を強調し、クロスモデル評価は、様々なLCMバックボーンにまたがるトリニティXの一般化を裏付けるものである。
関連論文リスト
- MoNE: Replacing Redundant Experts with Lightweight Novices for Structured Pruning of MoE [12.498106165046233]
Mixture-of-Experts (MoE)は、入力トークンごとに専門家のサブセットだけを活性化することにより、大規模言語モデルの効率的なスケーリングを可能にする。
MoNEは冗長な専門家を軽量な初心者に置き換え、効果的で堅牢なモデル圧縮を実現する。
論文 参考訳(メタデータ) (2025-07-01T03:02:59Z) - EAQuant: Enhancing Post-Training Quantization for MoE Models via Expert-Aware Optimization [46.40666108181214]
Mixture-of-Experts (MoE)モデルは、大規模なディープラーニングの基盤として現れている。
MoEモデルは、従来の量子化技術に挑戦する固有の複雑さを持つ。
我々は,MoE アーキテクチャに適した新しい PTQ フレームワークである EAQuant を提案する。
論文 参考訳(メタデータ) (2025-06-16T10:18:50Z) - HER2 Expression Prediction with Flexible Multi-Modal Inputs via Dynamic Bidirectional Reconstruction [25.739068829471297]
本稿では,単一モードあるいは二重モードの入力を柔軟にサポートする適応的バイモーダル予測フレームワークを提案する。
設計はH&Eのみの精度を71.44%から94.25%に劇的に改善し、完全なデュアルモダリティ入力では95.09%、単一モダリティ条件では90.28%の信頼性を維持している。
論文 参考訳(メタデータ) (2025-04-12T11:24:06Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Expert-Token Resonance MoE: Bidirectional Routing with Efficiency Affinity-Driven Active Selection [16.062265609569003]
Mixture-of-Experts (MoE)アーキテクチャは、大規模言語モデル(LLM)のパラダイムシフトアプローチとして登場した。
本稿では,(1)軽量計算を用いた効率的なルーティング機構,(2)エキスパートとトークンの共振を利用した適応的双方向選択機構,(3)動的トークン分布解析に基づくエキスパートキャパシティの下位境界を決定するモジュールを提案する。
論文 参考訳(メタデータ) (2024-05-24T02:50:44Z) - Mitigating the Alignment Tax of RLHF [76.4300447532456]
強化学習(Reinforcement Learning)とヒューマンフィードバック(Human Feedback)の下のLLMの調整は、事前訓練された能力(アライメント税(アライメント税)としても知られる)を忘れてしまう可能性がある。
最小アライメント税を課しながらアライメント性能を最大化するためのモデル平均化を提案する。
我々は,OpenLLaMA-3B上でのRLHFアルゴリズムによるHMAの性能評価を行い,さらにMistral-7Bまで拡張した。
論文 参考訳(メタデータ) (2023-09-12T14:16:54Z) - Maximum Entropy Heterogeneous-Agent Reinforcement Learning [45.377385280485065]
近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。
我々は,サンプルの複雑さ,トレーニング不安定性,および準最適ナッシュ平衡に収束するリスクに関する問題を解決するための統一的な枠組みを提案する。
The MaxEnt framework, we propose Heterogeneous-Agent Soft Actor-Critic (HASAC) algorithm。
HASACは、Bi-DexHands、Multi-Agent MuJoCo、StarCraft Challenge、Google Research Football、Multi-Agent Particle Environment、Light Aircraft Gameの6つのベンチマークで評価する。
論文 参考訳(メタデータ) (2023-06-19T06:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。