論文の概要: Inroads to a Structured Data Natural Language Bijection and the role of
LLM annotation
- arxiv url: http://arxiv.org/abs/2401.07190v1
- Date: Sun, 14 Jan 2024 03:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 19:20:09.760815
- Title: Inroads to a Structured Data Natural Language Bijection and the role of
LLM annotation
- Title(参考訳): 構造化データ自然言語ビジェクションへの道のりとLLMアノテーションの役割
- Authors: Blake Vente
- Abstract要約: この研究は、シーケンス・ツー・シーケンス・トランスフォーマー言語モデルで複数のタスクを使用することで、いくつかのメトリクスのパフォーマンスを向上させることができるという理論を裏付ける限られた証拠を見出した。
逆タスクだけでは最適化戦略に過ぎず、この研究で探索されたモデルサイズにおいて、大幅な全般的な改善は得られない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work finds limited evidence supporting the theory that using multiple
tasks with sequence-to-sequence transformer language models can improve
performance on some metrics. In particular, the multi-task generalist t5-small
outperforms the specialist t5-small with a $F_1$ of $0.771$ up from $0.692$,
which may point to underlying cross-task knowledge generalization. This further
suggests that even with the same network, "re-using" the same data in a
different way may lead to higher performance in some metrics. However, the
inverse task alone is likely only an optimization strategy, since it does not
yield a significant general improvement at the model sizes explored in this
work. Also, adding $\approx 4500$ LLM annotated records (interlaced with the
$12800$ WebNLG training records) does not substantially change automatic metric
performance compared to the same t5-small model without the synthetic data.
This may be due to a learning capacity bottleneck on account of model size, and
decreases observed may be due to distributional differences in the corpora.
Future research using larger models or human evaluation is required to more
fully explain the mechanisms contributing to performance on these tasks.
- Abstract(参考訳): この研究は、シーケンシャル・ツー・シーケンシャルなトランスフォーマー言語モデルで複数のタスクを使用すると、いくつかのメトリクスのパフォーマンスが向上する、という理論を裏付ける限られた証拠を見出している。
特に、マルチタスクのジェネラリスト t5-小は、F_1$$0.771$から0.692$まで、専門家 t5-小よりも優れている。
これはさらに、同じネットワークであっても、異なる方法で同じデータを"再使用"することは、いくつかのメトリクスでより高いパフォーマンスにつながる可能性があることを示唆している。
しかし、逆タスクだけでは最適化戦略に過ぎず、この研究で探索されたモデルサイズにおいて、大幅な全体的な改善は得られない。
また、$\approx 4500$ LLMアノテートレコード($12800$ WebNLGトレーニングレコードに組み込まれている)を追加すると、合成データのない同じt5小モデルと比較して、自動メートル法のパフォーマンスは大幅に変化しない。
これはモデルサイズによる学習能力のボトルネックによるものかもしれないし、観察された減少はコーパスの分布的差異によるものかもしれない。
より大きなモデルや人的評価を用いた将来の研究は、これらのタスクのパフォーマンスに寄与するメカニズムをより完全に説明する必要がある。
関連論文リスト
- Improving Large Models with Small models: Lower Costs and Better Performance [81.55672406002715]
我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$+$ (DS$+$)を提案する。
例えば、ChatGPTはAmazon Productの感情分析で9,43%の精度を達成し、DS$+は9,5.64%の精度を達成している。
論文 参考訳(メタデータ) (2024-06-15T14:44:43Z) - GLiNER multi-task: Generalist Lightweight Model for Various Information Extraction Tasks [0.0]
我々は,小さなエンコーダモデルであると同時に,様々な情報抽出タスクに使用できる新しい種類のGLiNERモデルを導入する。
我々のモデルは,ゼロショットNERベンチマークにおけるSoTA性能を達成し,質問応答,要約,関係抽出タスクにおける主要な性能を実現した。
論文 参考訳(メタデータ) (2024-06-14T13:54:29Z) - MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。
GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。
評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
論文 参考訳(メタデータ) (2024-04-16T17:59:10Z) - Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-16T11:58:34Z) - Evaluating Instruction-Tuned Large Language Models on Code Comprehension
and Generation [4.310519298899164]
本研究では,4つの代表的コード理解および生成タスクに対して,オープンソースのLLMを10個評価する。
ゼロショット設定では、命令されたLLMはコード理解と生成タスクに非常に競合する。
数ショット設定では,実演例の追加がLLMの性能向上に有効であることが判明した。
論文 参考訳(メタデータ) (2023-08-02T15:54:22Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Improving Cross-task Generalization of Unified Table-to-text Models with
Compositional Task Configurations [63.04466647849211]
メソッドは通常、タスク情報をエンコーダのプレフィックスとして単純なデータセット名でエンコードする。
本稿では,エンコーダがタスク間の一般化を改善するためのプロンプトセットであるコンポジションタスク構成を提案する。
これは、モデルがトレーニング中に異なるタスク間で共有知識をより良く学習できるだけでなく、新しい構成を構築することでモデルを制御できることを示している。
論文 参考訳(メタデータ) (2022-12-17T02:20:14Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。