論文の概要: Optimizing Diversity and Quality through Base-Aligned Model Collaboration
- arxiv url: http://arxiv.org/abs/2511.05650v1
- Date: Fri, 07 Nov 2025 19:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.520379
- Title: Optimizing Diversity and Quality through Base-Aligned Model Collaboration
- Title(参考訳): モデル協調による多様性と品質の最適化
- Authors: Yichen Wang, Chenghao Yang, Tenghao Huang, Muhao Chen, Jonathan May, Mina Lee,
- Abstract要約: 多様性と品質を最適化するベースアラインドモデルコラボレーション(BACo)を提案する。
BACoは各トークンに対して、どのモデルからデコードするかを決定するルーティング戦略を採用している。
BACoは、単一のパス内で高い多様性と品質の両方を達成すると同時に、強力な制御性を提供します。
- 参考スコア(独自算出の注目度): 49.59542918674004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment has greatly improved large language models (LLMs)' output quality at the cost of diversity, yielding highly similar outputs across generations. We propose Base-Aligned Model Collaboration (BACo), an inference-time token-level model collaboration framework that dynamically combines a base LLM with its aligned counterpart to optimize diversity and quality. Inspired by prior work (Fei et al., 2025), BACo employs routing strategies that determine, at each token, from which model to decode based on next-token prediction uncertainty and predicted contents' semantic role. Prior diversity-promoting methods, such as retraining, prompt engineering, and multi-sampling methods, improve diversity but often degrade quality or require costly decoding or post-training. In contrast, BACo achieves both high diversity and quality post hoc within a single pass, while offering strong controllability. We explore a family of routing strategies, across three open-ended generation tasks and 13 metrics covering diversity and quality, BACo consistently surpasses state-of-the-art inference-time baselines. With our best router, BACo achieves a 21.3% joint improvement in diversity and quality. Human evaluations also mirror these improvements. The results suggest that collaboration between base and aligned models can optimize and control diversity and quality.
- Abstract(参考訳): アライメントは大きな言語モデル(LLM)の出力品質を多様性の犠牲にして大幅に改善し、世代間で非常に類似した出力を生み出した。
提案するBase-Aligned Model Collaboration(BACo)は,基本的なLCMとそれとを動的に組み合わせ,多様性と品質を最適化する推論時トークンレベルのモデルコラボレーションフレームワークである。
BACoは以前の研究(Fei et al , 2025)に触発されて、各トークンにおいて、次から次の予測の不確実性やコンテンツのセマンティックな役割に基づいて、どのモデルからデコードするかを決定するルーティング戦略を採用している。
リトレーニング、プロンプトエンジニアリング、マルチサンプリングといった従来の多様性促進手法は、多様性を改善するが、品質を劣化させる場合や、コストのかかる復号化やポストトレーニングを必要とする場合が多い。
一方、BACoは単一のパス内で高い多様性と品質のポストホックを達成すると同時に、強力な制御性を提供する。
3つのオープンエンドな生成タスクと、多様性と品質をカバーした13のメトリクスをまたいだルーティング戦略のファミリーを探索し、BACoは一貫して最先端の推論基準を越えています。
最高のルータでBACoは21.3%の多様性と品質向上を実現しています。
人間の評価もこれらの改善を反映している。
結果は、ベースモデルとアライメントモデルとのコラボレーションが、多様性と品質を最適化し、制御できることを示唆している。
関連論文リスト
- Harnessing Consistency for Robust Test-Time LLM Ensemble [88.55393815158608]
CoREは、堅牢なLLMアンサンブルにモデル一貫性を利用するプラグイン・アンド・プレイ技術である。
トークンレベルの一貫性は、ダウンウェイト不確実なトークンにローパスフィルタを適用することで、きめ細かい不一致を捕捉する。
モデルレベルの一貫性は、自己自信の高いモデル出力を促進することで、グローバルな合意をモデル化する。
論文 参考訳(メタデータ) (2025-10-12T04:18:45Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Jointly Reinforcing Diversity and Quality in Language Model Generations [64.72289248044514]
大規模言語モデル(LM)のポストトレーニングは、しばしば多様性を犠牲にして正確さと役に立つことを優先する。
DARling(Diversity-Aware Reinforcement Learning)は、応答品質とセマンティック多様性を協調的に最適化するフレームワークである。
論文 参考訳(メタデータ) (2025-09-02T17:38:47Z) - Reinforcement Learning for Multi-Objective Multi-Echelon Supply Chain Optimisation [3.1194372040101928]
重み付き和で修正した元来の単目的RLアルゴリズムに対してベンチマークした多目的強化学習(RL)法を用いてモデルを評価する。
我々は、カスタマイズ可能なシミュレータを用いて、様々なネットワーク複雑度の実験を行い、典型的な現実世界の課題を模倣する。
このモデルはサプライチェーンの経路をまたいだ生産量と納入量を決定し、競合する目標間のほぼ最適なトレードオフを達成する。
論文 参考訳(メタデータ) (2025-07-26T04:30:11Z) - Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes [54.93980123979578]
我々は、暗黙の要因をモデル化する新しいフレームワークであるLatent Preference Coding (LPC)を紹介する。
LPCは様々なオフラインアライメントアルゴリズムとシームレスに統合し、基礎となる要因とデータからその重要性を自動的に推測する。
論文 参考訳(メタデータ) (2025-05-08T06:59:06Z) - Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization [13.436983663467938]
本稿では,ヒトフィードバックによる品質の多様性(QDHF)について紹介する。
実証的な研究によると、QDHFは自動多様性発見において最先端の手法を著しく上回っている。
オープンな生成タスクにおいて、QDHFは拡散モデルからテキストから画像への生成の多様性を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-18T16:46:16Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。