論文の概要: On the Universality of Deep COntextual Language Models
- arxiv url: http://arxiv.org/abs/2109.07140v1
- Date: Wed, 15 Sep 2021 08:00:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:06:41.923436
- Title: On the Universality of Deep COntextual Language Models
- Title(参考訳): 深層文脈言語モデルの普遍性について
- Authors: Shaily Bhatt, Poonam Goyal, Sandipan Dandapat, Monojit Choudhury,
Sunayana Sitaram
- Abstract要約: ELMOやBERTのような深い文脈言語モデル(LM)は、自然言語処理のランドスケープを支配している。
XLM-RやmBERTのような多言語モデルでは、ゼロショットのクロスリンガル転送が期待できる結果となった。
この最初の成功により、訓練済みのモデルはユニバーサル言語モデルとして使用されている。
- 参考スコア(独自算出の注目度): 15.218264849664715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Contextual Language Models (LMs) like ELMO, BERT, and their successors
dominate the landscape of Natural Language Processing due to their ability to
scale across multiple tasks rapidly by pre-training a single model, followed by
task-specific fine-tuning. Furthermore, multilingual versions of such models
like XLM-R and mBERT have given promising results in zero-shot cross-lingual
transfer, potentially enabling NLP applications in many under-served and
under-resourced languages. Due to this initial success, pre-trained models are
being used as `Universal Language Models' as the starting point across diverse
tasks, domains, and languages. This work explores the notion of `Universality'
by identifying seven dimensions across which a universal model should be able
to scale, that is, perform equally well or reasonably well, to be useful across
diverse settings. We outline the current theoretical and empirical results that
support model performance across these dimensions, along with extensions that
may help address some of their current limitations. Through this survey, we lay
the foundation for understanding the capabilities and limitations of massive
contextual language models and help discern research gaps and directions for
future work to make these LMs inclusive and fair to diverse applications,
users, and linguistic phenomena.
- Abstract(参考訳): ELMOやBERTなどの深層文脈言語モデル(LM)は、単一モデルを事前学習し、タスク固有の微調整を行うことによって、複数のタスクを迅速にスケールできる能力によって、自然言語処理のランドスケープを支配している。
さらに、XLM-RやmBERTのようなマルチ言語バージョンは、ゼロショットのクロスランガル転送において有望な結果をもたらし、多くの未使用およびアンダーリソース言語でのNLPアプリケーションを可能にする可能性がある。
この最初の成功により、事前訓練されたモデルは、さまざまなタスク、ドメイン、言語間の出発点として 'Universal Language Models' として使用されている。
この研究は、「普遍性」の概念を探求し、普遍モデルがスケールできる7つの次元、すなわち、等しく、あるいは合理的に機能し、多様な設定で有用であるように識別する。
これらの次元にわたるモデルパフォーマンスをサポートする現在の理論的および経験的な結果と、現在の制限に対処するのに役立つ拡張の概要を概説する。
本調査を通じて,大規模文脈言語モデルの能力と限界を理解する基盤を構築し,これらのLMを多様なアプリケーション,ユーザ,言語現象に包括的かつ公平にするための今後の研究のギャップと方向性を明らかにする。
関連論文リスト
- IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities [4.269326314400742]
マルチモーダル大言語モデル(MLLM)のための内適応アーキテクチャを導入する。
このアーキテクチャは、大きな言語モデル内の様々な深さで複数のマルチモーダルアダプタを組み込んで、テキスト指向のトランスフォーマー層との直接の相互作用を容易にする。
大規模な整列データを必要とする従来のフリーズ言語モデルとは異なり、提案アーキテクチャは小規模データセットにおいて優れた性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-23T08:10:13Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Benchmarking Large Language Model Capabilities for Conditional
Generation [15.437176676169997]
既存のアプリケーション固有の生成ベンチマークをPLMに適応させる方法について論じる。
PLMは異なるデータ体系に適用可能であり、複数の言語に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-06-29T08:59:40Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Evaluating Cross-Lingual Transfer Learning Approaches in Multilingual
Conversational Agent Models [1.52292571922932]
自然言語理解(NLU)モデルのための汎用多言語モデルフレームワークを提案する。
これらの多言語モデルが,言語固有のテストデータにまたがる単言語モデルと比較して,同等あるいは優れた性能に到達できることを示す。
論文 参考訳(メタデータ) (2020-12-07T17:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。