論文の概要: Simple is Better and Large is Not Enough: Towards Ensembling of
Foundational Language Models
- arxiv url: http://arxiv.org/abs/2308.12272v1
- Date: Wed, 23 Aug 2023 17:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 13:16:57.086189
- Title: Simple is Better and Large is Not Enough: Towards Ensembling of
Foundational Language Models
- Title(参考訳): 単純で良い、大きいだけでは十分ではない - 基礎言語モデルの理解に向けて
- Authors: Nancy Tyagi, Aidin Shiri, Surjodeep Sarkar, Abhishek Kumar Umrawal,
Manas Gaur
- Abstract要約: 基礎言語モデル(FLM)は、高度な自然言語処理(NLP)の研究である。
現在の研究者は、文脈化された言語表現、分類、生成を可能にするため、より大きなFLMを開発している。
より大きなFLMを開発することは大きな利点であるが、幻覚や予測の不確実性に関する負債でもある。
- 参考スコア(独自算出の注目度): 8.902348901281334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundational Language Models (FLMs) have advanced natural language processing
(NLP) research. Current researchers are developing larger FLMs (e.g., XLNet,
T5) to enable contextualized language representation, classification, and
generation. While developing larger FLMs has been of significant advantage, it
is also a liability concerning hallucination and predictive uncertainty.
Fundamentally, larger FLMs are built on the same foundations as smaller FLMs
(e.g., BERT); hence, one must recognize the potential of smaller FLMs which can
be realized through an ensemble. In the current research, we perform a reality
check on FLMs and their ensemble on benchmark and real-world datasets. We
hypothesize that the ensembling of FLMs can influence the individualistic
attention of FLMs and unravel the strength of coordination and cooperation of
different FLMs. We utilize BERT and define three other ensemble techniques:
{Shallow, Semi, and Deep}, wherein the Deep-Ensemble introduces a
knowledge-guided reinforcement learning approach. We discovered that the
suggested Deep-Ensemble BERT outperforms its large variation i.e. BERTlarge, by
a factor of many times using datasets that show the usefulness of NLP in
sensitive fields, such as mental health.
- Abstract(参考訳): 基礎言語モデル(FLM)は、高度な自然言語処理(NLP)の研究である。
現在の研究者は、文脈化された言語表現、分類、生成を可能にするより大きなFLM(例えば、XLNet、T5)を開発している。
大きなflmの開発には大きな利点があるが、幻覚や予測の不確実性に関する責任でもある。
基本的に、より大きなFLMは小さなFLM(例えばBERT)と同じ基盤上に構築されているため、アンサンブルによって実現可能な小さなFLMの可能性を認識する必要がある。
現在の研究では、FLMとそのベンチマークおよび実世界のデータセットにおけるアンサンブルの実態チェックを行う。
我々は、FLMのアンサンブルがFLMの個性的注意に影響を与え、異なるFLMの協調と協調の強さを解き明かすことができると仮定する。
Shallow, Semi, and Deep} という3つのアンサンブル技法を定義しており,Deep-Ensemble では知識誘導型強化学習手法を導入している。
提案したDeep-Ensemble BERTは、精神保健などの敏感な分野におけるNLPの有用性を示すデータセットを用いて、BERTlargeという大きな変動を何回も比較した。
関連論文リスト
- Enhancing LLM's Cognition via Structurization [41.13997892843677]
大規模言語モデル(LLM)は因果的かつシーケンシャルな視点で入力コンテキストを処理する。
本稿では,コンテキスト構造化という新しい概念を提案する。
具体的には、平易で秩序のない文脈文を、適切に順序付けされ階層的に構造化された要素に変換する。
論文 参考訳(メタデータ) (2024-07-23T12:33:58Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Beyond Answers: Transferring Reasoning Capabilities to Smaller LLMs Using Multi-Teacher Knowledge Distillation [23.736611338497244]
TinyLLMは、複数の大規模LLMから小学生のLLMを学ぶための新しい知識蒸留パラダイムである。
そこで本研究では,文脈的に適切なシナリオにおいて,理科が正確で基礎が整っていることを保証するために,文脈内サンプル生成と教師強制型Chain-of-Thought戦略を導入する。
その結果,TinyLLMはモデルサイズがかなり小さいにもかかわらず,大きなLLMよりも優れていた。
論文 参考訳(メタデータ) (2024-02-07T06:48:24Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。