論文の概要: On the Utility of Domain-Adjacent Fine-Tuned Model Ensembles for Few-shot Problems
- arxiv url: http://arxiv.org/abs/2406.13720v1
- Date: Wed, 19 Jun 2024 17:24:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 18:45:06.711876
- Title: On the Utility of Domain-Adjacent Fine-Tuned Model Ensembles for Few-shot Problems
- Title(参考訳): ファウショット問題に対するドメイン隣接細調整モデルアンサンブルの有用性について
- Authors: Md Ibrahim Ibne Alam, Parikshit Ram, Soham Dan, Horst Samulowitz, Koushik Kar,
- Abstract要約: 本稿では,ドメイン・アジャセント・ファイン・チューン・ファウンデーション・モデル(DAFT-E)を数ショット問題に応用したフレームワークについて検討する。
ゼロショット問題に対して、このアンサンブル法は、単一最良モデルの精度に近い性能を提供する。
数ショットの問題を発生させると、この性能はさらに向上し、DEFT-Eはどのドメイン・アジャセントモデルよりも優れている。
- 参考スコア(独自算出の注目度): 19.474143928078366
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have been observed to perform well on a wide range of downstream tasks when fine-tuned on domain-specific data. However, such data may not be readily available in many applications, motivating zero-shot or few-shot approaches using domain-adjacent models. While several fine-tuned models for various tasks are available, finding an appropriate domain-adjacent model for a given task is often not straight forward. In this paper, we study DAFT-E, a framework that utilizes an Ensemble of Domain-Adjacent Fine-Tuned Foundation Models for few-shot problems. We show that for zero-shot problems, this ensembling method provides an accuracy performance close to that of the single best model. With few-shot problems, this performance improves further, at which point DEFT-E can outperform any single domain-adjacent model while requiring much less data for domain-specific fine-tuning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ドメイン固有のデータに基づいて微調整された場合、幅広い下流タスクでうまく機能することが観察されている。
しかし、そのようなデータは、ドメイン・アジャセント・モデルを用いてゼロショットや少数ショットのアプローチを動機付ける多くのアプリケーションでは容易には利用できないかもしれない。
様々なタスクのための微調整されたモデルがいくつか用意されているが、与えられたタスクに適切なドメイン・アジャセント・モデルを見つけることは、多くの場合、直接の前進ではない。
本稿では,ドメイン・アジャセント・ファイン・チューン・ファウンデーション・モデル(DAFT-E)を数ショット問題に応用したフレームワークについて検討する。
ゼロショット問題に対して、このアンサンブル法は、単一最良モデルの精度に近い性能を提供する。
数ショットの問題により、このパフォーマンスはさらに向上し、DFT-Eはドメイン固有の微調整のためのデータよりもはるかに少ないデータを必要とする。
関連論文リスト
- Cross-Domain Content Generation with Domain-Specific Small Language Models [3.2772349789781616]
そこで本研究では,2つのドメインに対して,コーヒーレントかつ関連する出力を生成するための小言語モデルを提案する。
それぞれのデータセットに合わせてカスタマイズされたカスタムトークン化ツールを利用することで、生成品質が大幅に向上することがわかった。
凍結層による知識拡張は,小言語モデルがドメイン固有のコンテンツを生成するのに有効な方法であることを示す。
論文 参考訳(メタデータ) (2024-09-19T21:45:13Z) - Enabling Small Models for Zero-Shot Classification through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。
7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文 参考訳(メタデータ) (2024-08-21T09:08:26Z) - Tabular Embedding Model (TEM): Finetuning Embedding Models For Tabular RAG Applications [0.0]
Tabular Embedding Model (TEM) は、表型検索・拡張生成(RAG)アプリケーションのためのファインチューン埋め込みモデルに対する新しいアプローチである。
TEMは現在のSOTA埋め込みモデルよりも優れているだけでなく、より小さく、より効率的なモデル構造でも優れている。
論文 参考訳(メタデータ) (2024-04-28T14:58:55Z) - Multi-BERT: Leveraging Adapters and Prompt Tuning for Low-Resource Multi-Domain Adaptation [14.211024633768986]
テキストのボリュームと多様性の急速な拡大は、マルチドメイン設定において重大な課題を生じさせる。
従来のアプローチでは、複数のドメインに統一モデルを採用するか、各ドメインに個別モデルを使用するかのいずれかが、しばしば重大な制限を課している。
本稿では,複数のドメイン固有パラメータからなる1つのコアモデルからなる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-02T22:15:48Z) - UniTime: A Language-Empowered Unified Model for Cross-Domain Time Series
Forecasting [59.11817101030137]
この研究はドメイン境界を超越する統一モデルパラダイムを提唱する。
効果的なクロスドメインモデルを学ぶことは、以下の課題を提示します。
効果的なドメイン間時系列学習のためのUniTimeを提案する。
論文 参考訳(メタデータ) (2023-10-15T06:30:22Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Earning Extra Performance from Restrictive Feedbacks [41.05874087063763]
モデルチューニング問題の形式を記述するために,rerestriCTive feeddbacks (EXPECTED) から emphEarning eXtra PerformancE という課題を設定した。
モデルプロバイダの目標は、最終的にフィードバックを利用することで、ローカルユーザに対して満足のいくモデルを提供することです。
本稿では,パラメータ分布を探索し,モデルパラメータに関するモデル性能の幾何を特徴付けることを提案する。
論文 参考訳(メタデータ) (2023-04-28T13:16:54Z) - SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation [62.889835139583965]
我々は、ソースデータとターゲットデータに基づいて、暗黙の基盤となる表面表現を同時に学習する教師なし補助タスクを導入する。
両方のドメインが同じ遅延表現を共有しているため、モデルは2つのデータソース間の不一致を許容せざるを得ない。
実験の結果,本手法は実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
論文 参考訳(メタデータ) (2023-04-06T17:36:23Z) - Multi-Domain Long-Tailed Learning by Augmenting Disentangled
Representations [80.76164484820818]
多くの現実世界の分類問題には、避けられない長い尾のクラスバランスの問題がある。
本稿では,この多領域長鎖学習問題について検討し,すべてのクラスとドメインにまたがってよく一般化されたモデルを作成することを目的とする。
TALLYは、選択的均衡サンプリング戦略に基づいて、ある例のセマンティック表現と別の例のドメイン関連ニュアンスを混合することでこれを達成している。
論文 参考訳(メタデータ) (2022-10-25T21:54:26Z) - Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning [65.268245109828]
視覚、言語、音声などのデータに富む領域では、ディープラーニングが高性能なタスク固有モデルを提供するのが一般的である。
リソース制限されたドメインでのディープラーニングは、(i)限られたデータ、(ii)制約付きモデル開発コスト、(iii)効果的な微調整のための適切な事前学習モデルの欠如など、多くの課題に直面している。
モデル再プログラミングは、ソースドメインから十分に訓練されたモデルを再利用して、モデル微調整なしでターゲットドメインのタスクを解くことで、リソース効率のよいクロスドメイン機械学習を可能にする。
論文 参考訳(メタデータ) (2022-02-22T02:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。