Fugu-MT 論文翻訳(概要): Self-Specialization: Uncovering Latent Expertise within Large Language Models

論文の概要: Self-Specialization: Uncovering Latent Expertise within Large Language Models

arxiv url: http://arxiv.org/abs/2310.00160v2
Date: Wed, 5 Jun 2024 19:48:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-08 00:39:36.738654
Title: Self-Specialization: Uncovering Latent Expertise within Large Language Models
Title（参考訳）: 自己スペシャライゼーション - 大規模言語モデルにおける潜在専門家の発見
Authors: Junmo Kang, Hongyin Luo, Yada Zhu, Jacob Hansen, James Glass, David Cox, Alan Ritter, Rogerio Feris, Leonid Karlinsky,
Abstract要約: 近年の研究では、大規模言語モデルが一般的な指示に従うように整列された自己アライメントの有効性が実証されている。我々はエキスパートドメイン専門化のための自己調整に焦点を当てる。我々の自己特殊化モデルは、ベースモデルよりも大きなマージンで優れていることを示す。
参考スコア（独自算出の注目度）: 39.04128008742973
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent works have demonstrated the effectiveness of self-alignment in which a large language model is aligned to follow general instructions using instructional data generated from the model itself starting from a handful of human-written seeds. Instead of general alignment, in this work, we focus on self-alignment for expert domain specialization (e.g., biomedicine, finance). As a preliminary, we quantitively show the marginal effect that generic instruction-following training has on downstream expert domains' performance. To remedy this, we propose self-specialization - allowing for effective model specialization while achieving cross-task generalization by leveraging only a few labeled seeds. Self-specialization offers a data- and parameter-efficient way of "carving out" an expert model out of a generalist pre-trained LLM. Exploring a variety of popular open large models as a base for specialization, our experimental results in both biomedical and financial domains show that our self-specialized models outperform their base models by a large margin, and even larger models that are generally instruction-tuned or that have been adapted to the target domain by other means.
Abstract（参考訳）: 近年の研究では、人間の手書き種子から始まるモデル自体から生成された命令データを用いて、大規模言語モデルが一般的な指示に従うように整列された自己アライメントの有効性が実証されている。本研究では、総合的なアライメントではなく、専門家ドメイン専門化(例えば、バイオメディシン、ファイナンス)のための自己アライメントに焦点を当てる。予備的な例として、汎用的な指示追従訓練が下流の専門家ドメインの性能に及ぼす限界効果を定量的に示す。そこで本研究では,数個のラベル付き種子を有効利用して,クロスタスクの一般化を実現しつつ,効果的なモデル特化を可能にする自己特殊化を提案する。自己専門化(Self-specialization)は、ジェネラリストが事前訓練したLLMから専門家モデルを“彫り出す”ための、データとパラメータ効率のよい方法を提供する。バイオメディカル・ファイナンシャル・ドメインにおける実験結果から,我々の自己専門化モデルは,そのベースモデルよりも大きなマージンで優れており,また,一般に訓練されたり,他の方法で対象ドメインに適応した大規模モデルよりも大きいことが示唆された。

関連論文リスト

Detecting and Pruning Prominent but Detrimental Neurons in Large Language Models [68.57424628540907]
大規模言語モデル(LLM)は、しばしば特定のデータセットに特化した学習メカニズムを開発する。本稿では,データセット固有のメカニズムに関連するニューロンの同定と解析により,一般化の促進を目的とした微調整手法を提案する。本手法では,各ニューロンの高信頼度予測への影響を定量化するため,データセット固有の性能に不均等に寄与するニューロンを同定する。
論文参考訳（メタデータ） (2025-07-12T08:10:10Z)
SELF: Surrogate-light Feature Selection with Large Language Models in Deep Recommender Systems [51.09233156090496]
ディープレコメンデータシステムのためのSurrogatE-Light特徴選択法 SELFは、大規模言語モデルからのセマンティック推論と、代理モデルからのタスク固有の学習を統合する。実世界のレコメンデータプラットフォームからの3つの公開データセットに関する総合的な実験は、SELFの有効性を検証する。
論文参考訳（メタデータ） (2024-12-11T16:28:18Z)
From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [85.99268361356832]
一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。 GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文参考訳（メタデータ） (2024-12-11T15:06:25Z)
Chimera: Improving Generalist Model with Domain-Specific Experts [35.706585190958634]
ドメイン特化の専門家による既存のLMMの能力を高めるために,スケーラブルで低コストなマルチモーダルパイプラインを導入する。具体的には、プログレッシブ・トレーニング・ストラテジーを設計し、専門家モデルからの機能をジェネラリストLMMの入力に統合する。結果として、チャート、テーブル、数学、ドキュメントドメインにまたがる多用途モデルが出来上がります。
論文参考訳（メタデータ） (2024-12-08T16:10:42Z)
LFME: A Simple Framework for Learning from Multiple Experts in Domain Generalization [61.16890890570814]
ドメイン一般化(Domain Generalization, DG)手法は、複数のソースドメインからのトレーニングデータを使用することで、目に見えないターゲットドメインにおける優れたパフォーマンスを維持することを目的としている。この作業では、DGを改善するために、ターゲットモデルをすべてのソースドメインの専門家にすることを目的とした、複数の専門家(LFME)からの学習と呼ばれる、シンプルだが効果的なフレームワークを導入している。
論文参考訳（メタデータ） (2024-10-22T13:44:10Z)
Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling [21.762562172089236]
代わりに、大規模なジェネラリストのトレーニングセットからスペシャリストモデルを構築します。我々は、限られたドメイン固有データからのガイダンスにより、ジェネリストデータのトレーニング分布を調整する。スケーラブルで、事前トレーニングと継続事前トレーニングに適しており、マルチタスク設定でうまく機能する。
論文参考訳（メタデータ） (2024-09-30T20:49:54Z)
LoRKD: Low-Rank Knowledge Decomposition for Medical Foundation Models [59.961172635689664]
知識分解」は、特定の医療課題のパフォーマンス向上を目的としている。我々はLow-Rank Knowledge Decomposition(LoRKD)という新しいフレームワークを提案する。 LoRKDは、低ランクのエキスパートモジュールと効率的な知識分離畳み込みを組み込むことで、グラデーションを異なるタスクから明確に分離する。
論文参考訳（メタデータ） (2024-09-29T03:56:21Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文参考訳（メタデータ） (2024-07-30T08:50:16Z)
VANER: Leveraging Large Language Model for Versatile and Adaptive Biomedical Named Entity Recognition [3.4923338594757674]
大型言語モデル(LLM)は、様々な種類のエンティティを抽出できるモデルを訓練するために使用することができる。本稿では,オープンソースのLLM LLaMA2をバックボーンモデルとして利用し,異なるタイプのエンティティとデータセットを区別するための具体的な命令を設計する。我々のモデルVANERは、パラメータの小さな分割で訓練され、従来のLLMモデルよりも大幅に優れており、LLMをベースとしたモデルとして初めて、従来の最先端のBioNERシステムの大部分を上回りました。
論文参考訳（メタデータ） (2024-04-27T09:00:39Z)
On Good Practices for Task-Specific Distillation of Large Pretrained Visual Models [42.57860180847724]
最近の事前学習モデルの優れた堅牢性と汎用性は、文献で確立された共通の実践に挑戦することを示します。また、安定拡散に基づくMixupの変種が標準データ拡張を補完することを示す。
論文参考訳（メタデータ） (2024-02-17T15:15:43Z)
Learning to Route Among Specialized Experts for Zero-Shot Generalization [39.56470042680907]
我々は,専門専門家の海洋上での時間的適応的整合性ゲーティング(PHATGOOSE)を提案する。パラメータ効率の細かいチューニングによって生成された特殊なモジュール間のルートを学習する。特別なモデルを作成するために使用されるデータセットに同時アクセスする必要はなく、各エキスパートモデルがトレーニングされた後のみ、わずかな量の計算が必要になります。
論文参考訳（メタデータ） (2024-02-08T17:43:22Z)
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文参考訳（メタデータ） (2023-10-26T17:59:46Z)
Domain Generalization using Pretrained Models without Fine-tuning [25.489714555859944]
微調整事前訓練モデルは、ドメイン一般化(DG)タスクにおいて一般的なプラクティスである。ドメイン一般化のための特別アンサンブル学習(SEDGE)という,様々な事前学習モデルを活用するための新しいドメイン一般化パラダイムを提案する。 SEDGEは、DGタスクの最先端メソッドを含む強力なベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2022-03-09T09:33:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。