論文の概要: Exploring Domain Robust Lightweight Reward Models based on Router Mechanism
- arxiv url: http://arxiv.org/abs/2407.17546v1
- Date: Wed, 24 Jul 2024 17:25:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 18:08:23.868993
- Title: Exploring Domain Robust Lightweight Reward Models based on Router Mechanism
- Title(参考訳): ルータ機構に基づくドメインロバスト軽量リワードモデルの探索
- Authors: Hyuk Namgoong, Jeesu Jung, Sangkeun Jung, Yoonhyung Roh,
- Abstract要約: 本稿では,ルータ機構に基づくドメイン固有方式で動作する小言語モデルの利用について検討する。
筆者らの3つのアプローチは,1)内部ルータとエキスパートをモジュール化した単一報酬モデルの構築,2)複数のドメイン固有モデルから適切な報酬モデルを選択するための外部ルータの利用,3)アダプタを用いた単一小言語モデルへの報酬モデルとルータアダプタのロードによるパラメータサイズ削減である。
- 参考スコア(独自算出の注目度): 1.3624495460189863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models have heavily relied on the large reward model from reinforcement learning from human feedback for fine-tuning. However, the use of a single reward model across various domains may not always be optimal, often requiring retraining from scratch when new domain data is introduced. To address these challenges, we explore the utilization of small language models operating in a domain-specific manner based on router mechanisms. Our three approaches are: 1) utilize mixture of experts to form a single reward model by modularizing an internal router and experts, 2) employing external router to select the appropriate reward model from multiple domain-specific models, and 3) the framework reduces parameter size by loading reward models and router adapters onto a single small language model using adapters. Experimental validation underscores the effectiveness of our approach, demonstrating performance comparable to baseline methods while also reducing the total parameter size.
- Abstract(参考訳): 近年の大規模言語モデルの進歩は、人間からのフィードバックを微調整するための強化学習から得られる大きな報酬モデルに大きく依存している。
しかし、様々なドメインにまたがる単一の報酬モデルの使用は必ずしも最適とは限りません。
これらの課題に対処するために、我々は、ルータ機構に基づいたドメイン固有の操作を行う小さな言語モデルの利用について検討する。
私たちの3つのアプローチは以下のとおりです。
1)内部ルータとエキスパートをモジュール化することにより、専門家の混在を利用して単一の報酬モデルを形成する。
2)複数のドメイン固有モデルから適切な報酬モデルを選択するために外部ルータを用いる。
3) このフレームワークは, 報酬モデルとルータアダプタを, アダプタを用いた単一小言語モデルにロードすることで, パラメータサイズを小さくする。
実験により,本手法の有効性を実証し,基本手法に匹敵する性能を示すとともに,パラメータの総和も低減した。
関連論文リスト
- RedTest: Towards Measuring Redundancy in Deep Neural Networks Effectively [10.812755570974929]
深層学習モデル構造における冗長度を測定するために,モデル構造冗長スコア(MSRS)を用いる。
MSRSは、多くの最先端モデルにおける冗長性の問題を明らかにし、評価するのに効果的である。
最適なモデル構造を探索するための新しい冗長性認識アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-11-15T14:36:07Z) - MoDEM: Mixture of Domain Expert Models [23.846823652305027]
大規模言語モデル(LLM)の性能と効率を向上させる新しい手法を提案する。
本稿では、BERTベースのルータを用いて、最も適切なドメインエキスパートモデルに入力プロンプトを指示するシステムを提案する。
本研究は,本手法が同等の大きさの汎用モデルを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-09T23:52:54Z) - RouterRetriever: Exploring the Benefits of Routing over Multiple Expert Embedding Models [58.987116118425995]
本稿では,複数のドメインの専門家を対象とする検索モデルであるReuterRetrieverを紹介する。
軽量で、追加のトレーニングなしでエキスパートの追加や削除が簡単にできる。
複数のドメイン固有の専門的な埋め込みモデルを使用することの利点を示す最初の研究である。
論文 参考訳(メタデータ) (2024-09-04T13:16:55Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - SepRep-Net: Multi-source Free Domain Adaptation via Model Separation And Reparameterization [75.74369886582394]
本稿では,SepRep-Netと呼ばれる新しいフレームワークを提案する。
SepRep-Netは複数の既存モデルを統合ネットワークに再組み立て、別々の経路(分離)を維持した。
SepRep-Net は、1) 効果、2) 目標領域での競争性能、2) 効率、低い計算コスト、3) 一般化可能性、既存のソリューションよりも多くのソース知識を維持する。
論文 参考訳(メタデータ) (2024-02-13T06:35:00Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Mixture Manifold Networks: A Computationally Efficient Baseline for
Inverse Modeling [7.891408798179181]
汎用逆問題に対処する新しい手法を提案する。
近年の研究では、ディープラーニングによる顕著な結果が示されているが、モデルの性能と計算時間との間にはトレードオフがある。
論文 参考訳(メタデータ) (2022-11-25T20:18:07Z) - Multi-path Neural Networks for On-device Multi-domain Visual
Classification [55.281139434736254]
本稿では,モバイルデバイス上でのマルチドメイン視覚分類のためのマルチパスネットワークの自動学習手法を提案する。
提案するマルチパスネットワークは,各ドメインに1つの強化学習コントローラを適用して,MobileNetV3のような検索空間から生成されたスーパーネットワークの最適経路を選択することにより,ニューラルネットワーク検索から学習する。
決定されたマルチパスモデルは、個々のドメインパス内の非共有ノード内にドメイン固有のパラメータを保持しながら、共有ノード内のドメイン間でパラメータを選択的に共有する。
論文 参考訳(メタデータ) (2020-10-10T05:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。