Fugu-MT 論文翻訳(概要): Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling

論文の概要: Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling

arxiv url: http://arxiv.org/abs/2410.03735v1
Date: Mon, 30 Sep 2024 20:49:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 20:18:28.513099
Title: Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling
Title（参考訳）: クラスタ化重要度サンプリングによるタスク適応型事前学習言語モデル
Authors: David Grangier, Simin Fan, Skyler Seto, Pierre Ablin,
Abstract要約: 代わりに、大規模なジェネラリストのトレーニングセットからスペシャリストモデルを構築します。我々は、限られたドメイン固有データからのガイダンスにより、ジェネリストデータのトレーニング分布を調整する。スケーラブルで、事前トレーニングと継続事前トレーニングに適しており、マルチタスク設定でうまく機能する。
参考スコア（独自算出の注目度）: 21.762562172089236
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Specialist language models (LMs) focus on a specific task or domain on which they often outperform generalist LMs of the same size. However, the specialist data needed to pretrain these models is only available in limited amount for most tasks. In this work, we build specialist models from large generalist training sets instead. We adjust the training distribution of the generalist data with guidance from the limited domain-specific data. We explore several approaches, with clustered importance sampling standing out. This method clusters the generalist dataset and samples from these clusters based on their frequencies in the smaller specialist dataset. It is scalable, suitable for pretraining and continued pretraining, it works well in multi-task settings. Our findings demonstrate improvements across different domains in terms of language modeling perplexity and accuracy on multiple-choice question tasks. We also present ablation studies that examine the impact of dataset sizes, clustering configurations, and model sizes.
Abstract（参考訳）: スペシャリスト言語モデル(LM)は特定のタスクやドメインに焦点を合わせ、それらがしばしば同じ大きさのジェネラリスト言語モデルより優れている。しかし、これらのモデルを事前訓練するために必要な専門的なデータは、ほとんどのタスクで限られた量でしか利用できない。そこで本研究では,大規模なジェネラリスト学習セットから専門モデルを構築する。我々は、限られたドメイン固有データからのガイダンスにより、ジェネリストデータのトレーニング分布を調整する。我々は、クラスタ化された重要度サンプリングを目立たせながら、いくつかのアプローチを探求する。この方法は、より小さな専門データセットの周波数に基づいて、一般的なデータセットとこれらのクラスタからのサンプルをクラスタ化する。スケーラブルで、事前トレーニングと継続事前トレーニングに適しており、マルチタスク設定でうまく機能する。本研究は,複数質問課題における言語モデリングの難易度と精度の観点から,各領域にまたがる改善を実証するものである。また,データセットサイズ,クラスタリング構成,モデルサイズの影響について検討した。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Large Language Models in the Task of Automatic Validation of Text Classifier Predictions [55.2480439325792]
テキスト分類のための機械学習モデルは、与えられたテキストのクラスを予測するために訓練される。これを行うには、トレーニングと検証のサンプルを用意し、各テキストにクラスを割り当てる必要がある。人間のアノテーションは通常、特定の分類タスクによって異なる専門レベルを持つ人間のアノテーションによって割り当てられる。本稿では,人間のアノテータを大規模言語モデルに置き換えるためのいくつかのアプローチを提案する。
論文参考訳（メタデータ） (2025-05-24T13:19:03Z)
Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts [13.21626568246313]
視覚言語基礎モデルが、分布やクラスが全く異なるデータセットに適応できるかどうかを解析する。本稿では,少数のサンプルに対して,このような大規模VLMを直接適用するための新しいプロンプトチューニング手法であるPromptMarginを提案する。 PromptMarginは、このタスクのテキストと視覚的なプロンプトを効果的に調整し、2つのメインモジュールを持っている。
論文参考訳（メタデータ） (2025-05-21T13:26:56Z)
DataS^3: Dataset Subset Selection for Specialization [60.589117206895125]
我々はDS3問題に特化して設計された最初のデータセットとベンチマークであるDataS3を紹介する。 DataS3には、さまざまな現実世界のアプリケーションドメインが含まれており、それぞれに専門的なデプロイのセットがある。我々は、手動でキュレートされた(デプロイ固有の)専門家サブセットの存在を実証し、正確さで利用可能なすべてのデータでトレーニングを上回り、51.3%まで向上することを示した。
論文参考訳（メタデータ） (2025-04-22T21:25:14Z)
The interplay between domain specialization and model size [8.653321928148547]
計算制約シナリオ下での継続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。我々の目標は、このシナリオに最適なトレーニング体制を特定し、異なるモデルサイズとドメインにまたがって一般化可能な、この相互作用のパターンを検出することです。
論文参考訳（メタデータ） (2025-01-03T19:28:53Z)
Test-Time Alignment via Hypothesis Reweighting [56.71167047381817]
大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-11T23:02:26Z)
Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文参考訳（メタデータ） (2024-10-14T15:48:09Z)
NuwaTS: a Foundation Model Mending Every Incomplete Time Series [24.768755438620666]
textbfNuwaTSは,事前学習型言語モデルを用いて時系列計算を行う新しいフレームワークである。 NuwaTSは、任意のドメインにまたがる欠落したデータをインプットするために適用することができる。我々はNuwaTSが予測などの他の時系列タスクに一般化していることを示す。
論文参考訳（メタデータ） (2024-05-24T07:59:02Z)
Balanced Data Sampling for Language Model Training with Clustering [96.46042695333655]
本稿では,学習データのテキスト分布のバランスをとるためにClusterClip Smplingを提案する。大規模な実験は、ClusterClip Smplingの有効性を検証する。
論文参考訳（メタデータ） (2024-02-22T13:20:53Z)
Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文参考訳（メタデータ） (2024-02-12T17:52:05Z)
Task-customized Masked AutoEncoder via Mixture of Cluster-conditional Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。 MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文参考訳（メタデータ） (2024-02-08T03:46:32Z)
Large Pre-trained time series models for cross-domain Time series analysis tasks [20.228846068418765]
本稿では,事前学習中に最適なデータセット固有のセグメンテーション戦略を自動的に識別する,テクスタイディショナルセグメンテーションの新たな手法を提案する。これにより、異なるダウンストリーム時系列分析タスクに微調整され、ゼロショット設定下では、LPTMはドメイン固有の最先端モデルと同等かそれ以上の性能を発揮する。
論文参考訳（メタデータ） (2023-11-19T20:16:16Z)
Unsupervised Calibration through Prior Adaptation for Text Classification using Large Language Models [37.39843935632105]
ラベル付きサンプルを必要とせずにテキスト分類タスクを実行するために,先行クラス分布に適応する手法を提案する。その結果,これらの手法は,プロンプト内の訓練ショット数が異なる場合,適応しないモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-07-13T12:11:36Z)
Scaling Expert Language Models with Unsupervised Domain Discovery [107.08940500543447]
本稿では,任意のテキストコーパス上で,大規模でスパースな言語モデルを非同期に訓練する,シンプルだが効果的な手法を提案する。提案手法では,コーパスを関連文書の集合に集約し,各クラスタ上で個別の専門家言語モデルを訓練し,それらをスパースアンサンブルに組み合わせて推論を行う。
論文参考訳（メタデータ） (2023-03-24T17:38:58Z)
Meta-learning Pathologies from Radiology Reports using Variance Aware Prototypical Networks [3.464871689508835]
本稿では,数ショットのテキスト分類のためのプロトタイプネットワークの簡易拡張を提案する。我々の主な考えは、クラスプロトタイプをガウスに置き換え、サンプルを適切なクラスセントロイドの近くでクラスタ化することを奨励する正規化項を導入することである。
論文参考訳（メタデータ） (2022-10-22T05:22:29Z)
CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文参考訳（メタデータ） (2022-05-30T13:34:46Z)
A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-04-11T18:31:53Z)
Zero-shot meta-learning for small-scale data from human subjects [10.320654885121346]
我々は,サンプル外テストデータに対する限られたトレーニングデータを用いて,新しい予測タスクに迅速に適応するフレームワークを開発した。本モデルでは, 介入による遅延処理効果を学習し, 設計上はマルチタスク予測を自然に処理できる。我々のモデルは、より広い人口への小型人間研究の一般化を向上するために重要である。
論文参考訳（メタデータ） (2022-03-29T17:42:04Z)
CLIN-X: pre-trained language models and a study on cross-task transfer for concept extraction in the clinical domain [22.846469609263416]
事前学習したCLIN-X(Clinical XLM-R)言語モデルを導入し、CLIN-Xが他の事前学習したトランスフォーマーモデルよりも優れていることを示す。本研究は,250のラベル付き文が利用可能である場合に,47F1ポイントまで改善された注釈付きデータがないにもかかわらず,安定したモデル性能を示す。本研究は,非標準領域における概念抽出におけるCLIN-Xとしての特殊言語モデルの重要性を強調した。
論文参考訳（メタデータ） (2021-12-16T10:07:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。