論文の概要: Synergistic Weak-Strong Collaboration by Aligning Preferences
- arxiv url: http://arxiv.org/abs/2504.15188v2
- Date: Tue, 22 Apr 2025 04:22:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 11:42:41.635283
- Title: Synergistic Weak-Strong Collaboration by Aligning Preferences
- Title(参考訳): 選好の調整による相乗的弱ストロング協調
- Authors: Yizhu Jiao, Xuchao Zhang, Zhaoyang Wang, Yubo Ma, Zhun Deng, Rujia Wang, Chetan Bansal, Saravan Rajmohan, Jiawei Han, Huaxiu Yao,
- Abstract要約: 現在のLarge Language Models (LLMs) は、プロプライエタリな知識やドメイン固有の知識を必要とする特別なタスクに苦戦する一般的な推論において優れている。
本稿では、特殊な弱いモデルと一般的な強いモデルとを組み合わせた協調的なフレームワークを提案する。
相補的な強みを活用することで、コラボレーションが各モデルを単独で著しく上回っていることが分かりました。
- 参考スコア(独自算出の注目度): 53.47675666475273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Language Models (LLMs) excel in general reasoning yet struggle with specialized tasks requiring proprietary or domain-specific knowledge. Fine-tuning large models for every niche application is often infeasible due to black-box constraints and high computational overhead. To address this, we propose a collaborative framework that pairs a specialized weak model with a general strong model. The weak model, tailored to specific domains, produces initial drafts and background information, while the strong model leverages its advanced reasoning to refine these drafts, extending LLMs' capabilities to critical yet specialized tasks. To optimize this collaboration, we introduce a collaborative feedback to fine-tunes the weak model, which quantifies the influence of the weak model's contributions in the collaboration procedure and establishes preference pairs to guide preference tuning of the weak model. We validate our framework through experiments on three domains. We find that the collaboration significantly outperforms each model alone by leveraging complementary strengths. Moreover, aligning the weak model with the collaborative preference further enhances overall performance.
- Abstract(参考訳): 現在のLarge Language Models (LLMs) は、プロプライエタリな知識やドメイン固有の知識を必要とする特別なタスクに苦戦する一般的な推論において優れている。
ニッチアプリケーションごとに微調整された大きなモデルは、ブラックボックスの制約と高い計算オーバーヘッドのため、しばしば実現不可能である。
そこで本研究では、特殊な弱いモデルと一般的な強いモデルとを組み合わせた協調的なフレームワークを提案する。
弱いモデルは特定のドメインに合わせて初期ドラフトと背景情報を生成するが、強いモデルはその先進的な推論を利用してこれらのドラフトを洗練し、LSMの能力を重要で特殊なタスクにまで拡張する。
このコラボレーションを最適化するために、弱いモデルを微調整する協調フィードバックを導入し、弱いモデルが協力手続きに与える影響を定量化し、弱いモデルの選好チューニングをガイドするための選好ペアを確立する。
3つのドメインの実験を通じて、我々のフレームワークを検証する。
相補的な強みを活用することで、コラボレーションが各モデルを単独で著しく上回っていることが分かりました。
さらに、弱いモデルを協調的な好みに合わせることで、全体的なパフォーマンスがさらに向上する。
関連論文リスト
- Towards Harnessing the Collaborative Power of Large and Small Models for Domain Tasks [20.370633539861746]
大規模言語モデル(LLM)は目覚ましい能力を示しているが、膨大な量のデータと計算資源を必要とする。
対照的に、より小さなモデル(SM)は特定のドメインに適応し、より効率的である。
論文 参考訳(メタデータ) (2025-04-24T10:24:35Z) - Chimera: Improving Generalist Model with Domain-Specific Experts [35.706585190958634]
ドメイン特化の専門家による既存のLMMの能力を高めるために,スケーラブルで低コストなマルチモーダルパイプラインを導入する。
具体的には、プログレッシブ・トレーニング・ストラテジーを設計し、専門家モデルからの機能をジェネラリストLMMの入力に統合する。
結果として、チャート、テーブル、数学、ドキュメントドメインにまたがる多用途モデルが出来上がります。
論文 参考訳(メタデータ) (2024-12-08T16:10:42Z) - A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Unconstrained Model Merging for Enhanced LLM Reasoning [42.079040543428036]
複数のエキスパートモデルをひとつの大きな言語モデルにマージする可能性について検討する。
等質なモデルアーキテクチャと異質なモデルアーキテクチャの両方に対応可能な,制約のないモデルマージフレームワークを提案する。
7つのベンチマークと9つの推論最適化LDMで、推論がマージから出現する重要な発見を明らかにする。
論文 参考訳(メタデータ) (2024-10-17T16:04:07Z) - Fine-tuning large language models for domain adaptation: Exploration of training strategies, scaling, model merging and synergistic capabilities [4.389938747401259]
本研究は、材料科学や工学などの分野における大規模言語モデル(LLM)に対する微調整戦略の効果について考察する。
複数の微調整モデルの融合は、親モデルの個々の貢献を超越した能力の出現につながる可能性がある。
論文 参考訳(メタデータ) (2024-09-05T11:49:53Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - DaRec: A Disentangled Alignment Framework for Large Language Model and Recommender System [83.34921966305804]
大規模言語モデル (LLM) はレコメンデーションシステムにおいて顕著な性能を示した。
LLMと協調モデルのための新しいプラグ・アンド・プレイアライメントフレームワークを提案する。
我々の手法は既存の最先端アルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2024-08-15T15:56:23Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。