論文の概要: OrdMoE: Preference Alignment via Hierarchical Expert Group Ranking in Multimodal Mixture-of-Experts LLMs
- arxiv url: http://arxiv.org/abs/2511.19023v1
- Date: Mon, 24 Nov 2025 11:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.185656
- Title: OrdMoE: Preference Alignment via Hierarchical Expert Group Ranking in Multimodal Mixture-of-Experts LLMs
- Title(参考訳): OrdMoE: マルチモーダル混合LLMにおける階層的エキスパートグループランキングによる選好アライメント
- Authors: Yuting Gao, Weihao Chen, Lan Wang, Ruihan Xu, Qingpei Guo,
- Abstract要約: 我々は、外部の人間の嗜好への依存を回避できる新しい嗜好アライメントフレームワークOrdMoEを提案する。
OrdMoEは、専門家をランク付けした階層に分類することで、内部の選好階層を構築する。
これにより、生成した応答に対してゼロコストで自己監督された優先順序が得られる。
- 参考スコア(独自算出の注目度): 22.92427011496289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference learning has recently emerged as a pivotal strategy for post-training alignment of Multimodal Large Language Models (MLLMs). However, existing approaches predominantly rely on external human-annotated preference data, which is costly and labor-intensive to collect. In this work, we propose OrdMoE, a novel preference alignment framework that bypasses the reliance on external human preferences entirely by leveraging intrinsic signals within Mixture-of-Experts (MoE) architectures. Specifically, we observe that the router's expert selection scores implicitly encode a quality-aware ranking of responses (i.e. higher-scoring experts consistently generate higher-quality outputs). Building on this insight, OrdMoE constructs an internal preference hierarchy by grouping experts into ranked tiers based on their per-token routing scores and activating each tier separately to produce a sequence of responses with increasing quality. This yields a zero-cost, self-supervised preference ordering over generated responses, which can be directly optimized using standard preference learning objectives. Extensive experiments across multiple multimodal benchmarks demnstrate that OrdMoE significantly enhances both alignment and overall performance of multimodal Mixture-of-Experts LLMs, achieving competitive results without requiring any human-annotated preference data.
- Abstract(参考訳): 近年,MLLM(Multimodal Large Language Models)のトレーニング後アライメントのための重要な戦略として,優先度学習が登場している。
しかし、既存のアプローチは外部の人間に注釈付けされた嗜好データに大きく依存しているため、収集には費用がかかり、労力がかかる。
本研究では,Mixture-of-Experts (MoE) アーキテクチャ内での本質的な信号を活用することにより,外部人間の嗜好への依存を完全に回避する,新しい選好アライメントフレームワークOrdMoEを提案する。
具体的には、ルータのエキスパート選択スコアが、応答の質を意識したランキングを暗黙的に符号化しているのを観察する。
この洞察に基づいて、OrdMoEは、専門家を各トークンのルーティングスコアに基づいてランク付けされた階層に分類し、各階層を個別に活性化して、品質が向上したレスポンスのシーケンスを生成することによって、内部的な選好階層を構築する。
これにより、生成した応答に対してゼロコストで自己管理された優先順序が得られ、標準の優先学習目標を使って直接最適化することができる。
複数のマルチモーダルベンチマークにわたる大規模な実験により、OrdMoEはマルチモーダル混合試験LLMのアライメントと全体的な性能を著しく向上し、人間に注釈付けされた嗜好データを必要としない競争的な結果を得ることができた。
関連論文リスト
- When Data is the Algorithm: A Systematic Study and Curation of Preference Optimization Datasets [29.94723846950853]
本稿では,オープンソースDPOコーパスの包括的データ中心分析について紹介する。
Magpieフレームワークを利用して、各サンプルにタスクカテゴリ、入力品質、好みの報酬をアノテートします。
これにより、データセット間の好みの質をスケーラブルできめ細かい検査が可能になり、報酬マージンの構造的および質的な相違が明らかになる。
論文 参考訳(メタデータ) (2025-11-14T06:12:16Z) - Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and
Generative Fusion [33.73671362609599]
私たちのフレームワークはPairRankerとGenFuserの2つのモジュールで構成されています。
PairRankerは、候補出力間の微妙な違いを区別するために、特殊なペアワイズ比較手法を使用している。
GenFuserは、上位候補をマージし、改善されたアウトプットを生成することを目的としている。
論文 参考訳(メタデータ) (2023-06-05T03:32:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。