論文の概要: Advancing State of the Art in Language Modeling
- arxiv url: http://arxiv.org/abs/2312.03735v1
- Date: Tue, 28 Nov 2023 12:30:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 03:10:35.762346
- Title: Advancing State of the Art in Language Modeling
- Title(参考訳): 言語モデリングにおける最先端技術
- Authors: David Herel and Tomas Mikolov
- Abstract要約: 一般化は統計言語モデリング研究の最も重要な目標であることは間違いない。
オープンソースコードで公開された公開ベンチマークと論文は、この分野を前進させる上で重要なものだ。
本稿では,一般化の観点から言語モデリングにおける最先端技術を支援するための,シンプルなフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalization is arguably the most important goal of statistical language
modeling research. Publicly available benchmarks and papers published with an
open-source code have been critical to advancing the field. However, it is
often very difficult, and sometimes even impossible, to reproduce the results
fully as reported in publications. In this paper, we propose a simple framework
that should help advance the state of the art in language modeling in terms of
generalization. We propose to publish not just the code, but also probabilities
on dev and test sets with future publications so that one can easily add the
new model into an ensemble. This has crucial advantages: it is much easier to
determine whether a newly proposed model is actually complementary to the
current baseline. Therefore, instead of inventing new names for the old tricks,
the scientific community can advance faster. Finally, this approach promotes
diversity of ideas: one does not need to create an individual model that is the
new state of the art to attract attention; it will be sufficient to develop a
new model that learns patterns which other models do not. Thus, even a
suboptimal model can be found to have value. Remarkably, our approach has
yielded new state-of-the-art results across various language modeling
benchmarks up to 10%.
- Abstract(参考訳): 一般化は統計言語モデリング研究の最も重要な目標である。
オープンソースのコードで公開されたベンチマークや論文は、この分野の進歩に不可欠である。
しかし、出版物で報告されているように結果を完全に再現することはしばしば困難であり、時には不可能である。
本稿では,一般化の観点から言語モデリングの最先端化を支援するための,シンプルなフレームワークを提案する。
我々は,コードだけでなく,新たなモデルをアンサンブルに簡単に追加できるように,将来の出版物による開発やテストセットの確率も提案する。
新しく提案されたモデルが実際に現在のベースラインを補完しているかどうかを判断するのはずっと簡単です。
したがって、古いトリックの新しい名前を発明する代わりに、科学コミュニティはより早く前進することができる。
最後に、このアプローチはアイデアの多様性を促進する: 注目を惹きつけるために、新しい技術の状態である個々のモデルを作成する必要はない; 他のモデルがしないパターンを学ぶ新しいモデルを開発するのに十分である。
したがって、準最適モデルでさえも値を持つことが分かる。
注目すべきことに、我々のアプローチは、様々な言語モデリングベンチマークで10%まで、最先端の結果をもたらしました。
関連論文リスト
- Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - GreekT5: A Series of Greek Sequence-to-Sequence Models for News
Summarization [0.0]
本稿では,ギリシャのニュース記事を対象とした新しいTSモデルを提案する。
提案したモデルは、ギリシャのBARTに対して同じデータセットで徹底的に評価された。
評価結果から, 提案したモデルのほとんどは, 様々な評価指標において, ギリシャ語BARTを著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-13T21:33:12Z) - Large Language Models Are Also Good Prototypical Commonsense Reasoners [11.108562540123387]
従来の微調整アプローチはリソース集約的であり、モデルの一般化能力を損なう可能性がある。
我々は、調整されたタスクのための大規模モデルの出力からインスピレーションを受け、半自動で新しいプロンプトのセットを開発した。
より優れた設計のプロンプトによって、ProtoQAのリーダーボードで新しい最先端(SOTA)を達成することができます。
論文 参考訳(メタデータ) (2023-09-22T20:07:24Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。
二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。
より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文 参考訳(メタデータ) (2022-01-23T22:00:54Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - On the comparability of Pre-trained Language Models [0.0]
教師なし表現学習の最近の進歩は、NLPにおける伝達学習の概念を確立することに成功している。
より精巧なアーキテクチャは、コンテキスト情報をよりよく活用しています。
より大規模なコーパスは、自己教師型で大規模言語モデルを事前訓練するためのリソースとして使用される。
並列コンピューティングとクラウドコンピューティングの進歩により、これらのモデルを、以前確立されたモデルよりも短い時間で、同じまたは短い時間で、拡張能力でトレーニングすることが可能になった。
論文 参考訳(メタデータ) (2020-01-03T10:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。