論文の概要: Text Alignment Is An Efficient Unified Model for Massive NLP Tasks
- arxiv url: http://arxiv.org/abs/2307.02729v1
- Date: Thu, 6 Jul 2023 02:28:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 15:22:54.636602
- Title: Text Alignment Is An Efficient Unified Model for Massive NLP Tasks
- Title(参考訳): テキストアライメントは大規模NLPタスクのための効率的な統一モデル
- Authors: Yuheng Zha, Yichi Yang, Ruichen Li, Zhiting Hu
- Abstract要約: 次単語予測は、多くのNLPタスクの効率的な定式化ではないことが多い。
テキストアライメントは、幅広い重要なタスクに対して効率的な統一モデルとして提案する。
私たちのモデルは、より小さなモデルサイズで同等か、あるいはさらに優れたパフォーマンスを提供します。
- 参考スコア(独自算出の注目度): 23.622016687934376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), typically designed as a function of next-word
prediction, have excelled across extensive NLP tasks. Despite the generality,
next-word prediction is often not an efficient formulation for many of the
tasks, demanding an extreme scale of model parameters (10s or 100s of billions)
and sometimes yielding suboptimal performance. In practice, it is often
desirable to build more efficient models -- despite being less versatile, they
still apply to a substantial subset of problems, delivering on par or even
superior performance with much smaller model sizes. In this paper, we propose
text alignment as an efficient unified model for a wide range of crucial tasks
involving text entailment, similarity, question answering (and answerability),
factual consistency, and so forth. Given a pair of texts, the model measures
the degree of alignment between their information. We instantiate an alignment
model (Align) through lightweight finetuning of RoBERTa (355M parameters) using
5.9M examples from 28 datasets. Despite its compact size, extensive experiments
show the model's efficiency and strong performance: (1) On over 20 datasets of
aforementioned diverse tasks, the model matches or surpasses FLAN-T5 models
that have around 2x or 10x more parameters; the single unified model also
outperforms task-specific models finetuned on individual datasets; (2) When
applied to evaluate factual consistency of language generation on 23 datasets,
our model improves over various baselines, including the much larger GPT-3.5
(ChatGPT) and sometimes even GPT-4; (3) The lightweight model can also serve as
an add-on component for LLMs such as GPT-3.5 in question answering tasks,
improving the average exact match (EM) score by 17.94 and F1 score by 15.05
through identifying unanswerable questions.
- Abstract(参考訳): 大きな言語モデル(LLM)は、通常、次の単語予測の関数として設計され、広範なNLPタスクに優れていた。
一般性にもかかわらず、次の単語予測は多くの場合、多くのタスクにおいて効率的な定式化ではなく、極端なモデルパラメータ(10億から100億)を必要とし、時には準最適性能をもたらす。
実際には、より効率的なモデルを構築することが望ましいことが多い -- 汎用性は低いが、問題のかなりのサブセットに適用され、モデルサイズがはるかに小さい同等あるいは優れたパフォーマンスを提供する。
本稿では,テキストの包含,類似性,質問応答(と応答性),事実整合性などを含む幅広い重要なタスクに対して,テキストアライメントを効率的な統一モデルとして提案する。
一対のテキストが与えられると、モデルはその情報間のアライメントの度合いを測定する。
28データセットの5.9M例を用いて,RoBERTa(355Mパラメータ)の軽量微調整によりアライメントモデル(Align)をインスタンス化する。
Despite its compact size, extensive experiments show the model's efficiency and strong performance: (1) On over 20 datasets of aforementioned diverse tasks, the model matches or surpasses FLAN-T5 models that have around 2x or 10x more parameters; the single unified model also outperforms task-specific models finetuned on individual datasets; (2) When applied to evaluate factual consistency of language generation on 23 datasets, our model improves over various baselines, including the much larger GPT-3.5 (ChatGPT) and sometimes even GPT-4; (3) The lightweight model can also serve as an add-on component for LLMs such as GPT-3.5 in question answering tasks, improving the average exact match (EM) score by 17.94 and F1 score by 15.05 through identifying unanswerable questions.
関連論文リスト
- What Should Baby Models Read? Exploring Sample-Efficient Data Composition on Model Performance [0.0]
我々は、子指向音声(CHILDES)、古典書(Gutenberg)、合成データ(TinyStories)、様々なモデルサイズにまたがる混合データなど、いくつかのデータセットソースを評価した。
GPT2-97M, GPT2-705M, Llama-360Mなどの小さなモデルでは, Gutenbergのようなより複雑でリッチなデータセットでトレーニングすると, より優れた性能が得られた。
論文 参考訳(メタデータ) (2024-11-11T02:37:21Z) - Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report) [6.789534723913505]
大規模言語モデル(LLM)は、サードパーティにデータを提供する必要をなくすことで、データのプライバシ保護を可能にする。
持続可能な開発目標マッピングタスクにおいて,様々な言語モデルの性能を比較した。
この研究の結果によると、LLaMA 2とGemmaは依然として改善の余地がある。
論文 参考訳(メタデータ) (2024-08-05T03:05:02Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - Explanation-based Finetuning Makes Models More Robust to Spurious Cues [21.327036110196637]
大きな言語モデル(LLM)は非常に強力で、ラベルとタスクとは無関係な機能の間に相関関係を学習することがある。
本稿では,LLMの素早い相関性への依存を軽減するための一般的なアプローチとして,説明ベースファインタニングを提案する。
我々は、その解答をサポートする自由テキスト説明を新たに生成するように、モデルを微調整する。
論文 参考訳(メタデータ) (2023-05-08T18:53:45Z) - Maximizing Use-Case Specificity through Precision Model Tuning [0.0]
バイオメディカル情報検索における4つのトランスフォーマーベース言語モデルの性能の詳細な分析を行う。
この結果から,10Bパラメータとドメイン固有のデータセットを微調整した小さなモデルでは,高い特定の質問に対して,より大きな言語モデルよりも優れる傾向が示唆された。
論文 参考訳(メタデータ) (2022-12-29T07:50:14Z) - Data-Efficient Finetuning Using Cross-Task Nearest Neighbors [75.07773863013001]
我々は、ラベル付きターゲットタスクの例を用いて、プロンプトを付加したマルチタスクデータのプールから、最も類似したラベル付きサンプルを検索する。
マルチタスク近傍におけるファインタニングモデルのアプローチは,データ効率が著しく向上する。
論文 参考訳(メタデータ) (2022-12-01T00:53:04Z) - Scaling Instruction-Finetuned Language Models [126.4789306516927]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。
命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-20T16:58:32Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。