論文の概要: Tiny Titans: Can Smaller Large Language Models Punch Above Their Weight
in the Real World for Meeting Summarization?
- arxiv url: http://arxiv.org/abs/2402.00841v1
- Date: Thu, 1 Feb 2024 18:31:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 14:03:19.501240
- Title: Tiny Titans: Can Smaller Large Language Models Punch Above Their Weight
in the Real World for Meeting Summarization?
- Title(参考訳): Tiny Titans: 大規模な言語モデルでは,要約を現実の世界で達成できるのか?
- Authors: Xue-Yong Fu, Md Tahmid Rahman Laskar, Elena Khasanova, Cheng Chen,
Shashi Bhushan TN
- Abstract要約: 大規模言語モデル(LLM)は、タスク固有のデータセットを明示的に微調整することなく、幅広いタスクを解決できる印象的な機能を示している。
本研究では,LLM の小型化が,LLM の現実的利用に伴う大きなコストに対処するために,比較的大型の LLMs2 の代替となるかを検討する。
- 参考スコア(独自算出の注目度): 8.234063663233595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive capabilities to
solve a wide range of tasks without being explicitly fine-tuned on
task-specific datasets. However, deploying LLMs in the real world is not
trivial, as it requires substantial computing resources. In this paper, we
investigate whether smaller, compact LLMs are a good alternative to the
comparatively Larger LLMs2 to address significant costs associated with
utilizing LLMs in the real world. In this regard, we study the meeting
summarization task in a real-world industrial environment and conduct extensive
experiments by comparing the performance of fine-tuned compact LLMs (e.g.,
FLAN-T5, TinyLLaMA, LiteLLaMA) with zero-shot larger LLMs (e.g., LLaMA-2,
GPT-3.5, PaLM-2). We observe that most smaller LLMs, even after fine-tuning,
fail to outperform larger zero-shot LLMs in meeting summarization datasets.
However, a notable exception is FLAN-T5 (780M parameters), which performs on
par or even better than many zero-shot Larger LLMs (from 7B to above 70B
parameters), while being significantly smaller. This makes compact LLMs like
FLAN-T5 a suitable cost-efficient solution for real-world industrial
deployment.
- Abstract(参考訳): 大規模言語モデル(llm)は、タスク固有のデータセットに明示的に微調整されることなく、幅広いタスクを解決できる素晴らしい能力を示している。
しかし、LLMを現実世界に展開するのは、かなりの計算資源を必要とするため、簡単ではない。
本稿では,LLM の小型化が,LLM の現実的利用に伴う大きなコストに対処するために,比較的大型の LLMs2 の代替となるかを検討する。
本研究では, 実世界の産業環境における会議要約タスクについて検討し, 微調整小型LCM(FLAN-T5, TinyLLaMA, LiteLLaMA)とゼロショット大型LCM(LLaMA-2, GPT-3.5, PaLM-2)の性能を比較し, 広範な実験を行った。
微調整後であっても、ほとんどの小さなLLMは、要約データセットを満たす際に、より大きなゼロショットLLMを上回りません。
しかし、注目すべき例外はFLAN-T5 (780Mパラメータ) であり、これは多くのゼロショットLLM (7Bから70Bパラメータ以上) よりも同等かそれ以上に動作する。
これにより、FLAN-T5のようなコンパクトなLCMが、現実の産業展開に適したコスト効率のソリューションとなる。
関連論文リスト
- LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
LLM2LLMは、教師のLLMを使用して、特定のタスクの微調整に使用できる追加データを追加することで、小さなシードデータセットを強化する。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - LLM-Oriented Retrieval Tuner [25.563739811422874]
Dense Retrieval(DR)は現在、LLM(Large Language Models)の記憶能力を高めるための有望なツールと考えられている。
本稿では,LLM から DR 容量を分離する効率的な LLM-Oriented Retrieval Tuner,すなわち LMORT を提案する。
提案手法は,強力なDRモデルと比較して,競争力のあるゼロショット検索性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-04T12:50:25Z) - The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits [129.6765656933016]
我々は1ビットのLarge Language Models (LLMs) 、すなわちBitNet b1.58を導入する。
1.58ビット LLM は、新しい世代の LLM を訓練するための新しいスケーリング法則とレシピを定義している。
これは新しいパラダイムを可能にし、1ビットLLM向けに最適化された特定のハードウェアを設計するための扉を開く。
論文 参考訳(メタデータ) (2024-02-27T18:56:19Z) - Identifying Factual Inconsistency in Summaries: Towards Effective
Utilization of Large Language Model [50.71344457241456]
この研究は2つの重要な疑問に焦点をあてる: 現実の不整合検出に大規模言語モデル(LLM)を利用する最善の方法は何か、そして、どのようにしてより小さなLCMを高い効率と有効性で蒸留できるのか?
実験の結果、LLM自体が適切なパラダイム設計の下でこのタスクを無断で解決でき、訓練されたベースラインが平均2.8%を超えることが示唆された。
実用性をさらに向上するため,我々はより小型のオープンソースLCMを蒸留し,要約全体を高精度にまとめることを目指す訓練戦略を提案する。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。
我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。
4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文 参考訳(メタデータ) (2023-05-22T22:07:50Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Large Language Model Is Not a Good Few-shot Information Extractor, but a
Good Reranker for Hard Samples! [43.51393135075126]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。
その結果,従来のLCMは微調整SLMに比べて性能が劣り,レイテンシが高く,予算要求も増大していることがわかった。
LLMの強度とSLMの強度を結合する適応フィルタ-then-rerankパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T12:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。