Fugu-MT 論文翻訳(概要): Circling Back to Recurrent Models of Language

論文の概要: Circling Back to Recurrent Models of Language

arxiv url: http://arxiv.org/abs/2211.01848v2
Date: Tue, 18 Apr 2023 12:52:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-19 18:23:50.049836
Title: Circling Back to Recurrent Models of Language
Title（参考訳）: 繰り返し発生する言語のモデルに戻る
Authors: G\'abor Melis
Abstract要約: 我々は、小さなデータセットとEnwik8上での言語モデリングのための新しい最先端技術を確立し、動的評価を行う。純粋なリカレントモデルの中には、今日のハードウェアで最適化が困難で非効率なものもあるからといって、必ずしも悪い言語モデルではないのです。我々は、これらのモデルが少し改善されたリカレントセル、アーキテクチャ、目的、最適化の組み合わせによって、まだ改善できる範囲でこれを実証する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Just because some purely recurrent models suffer from being hard to optimize and inefficient on today's hardware, they are not necessarily bad models of language. We demonstrate this by the extent to which these models can still be improved by a combination of a slightly better recurrent cell, architecture, objective, as well as optimization. In the process, we establish a new state of the art for language modelling on small datasets and on Enwik8 with dynamic evaluation.
Abstract（参考訳）: 純粋なリカレントモデルの中には、今日のハードウェアで最適化が困難で非効率なものもあるため、必ずしも悪い言語モデルではない。我々は、これらのモデルが若干改善された再帰セル、アーキテクチャ、目的、および最適化の組み合わせによって、改善できる程度で、これを実証する。この過程で, 動的評価を伴う小規模データセットとenwik8上での言語モデリングの新たな技術を確立した。

関連論文リスト

Grow Up and Merge: Scaling Strategies for Efficient Language Adaptation [4.2178072320683375]
我々は、事前学習されたモデルを新しいターゲット言語に適応するための効率的な戦略として、スケーリングについて検討する。十分なターゲット言語データに晒されると、より大規模なモデルでは、継続的に事前訓練された小さなモデルの性能にマッチしたり、超えたりすることができる。最後に、そのようなスケールした言語固有のモデルをマージして、モジュール化された柔軟な多言語システムを構築する方法について検討する。
論文参考訳（メタデータ） (2025-12-11T16:09:54Z)
Resona: Improving Context Copying in Linear Recurrence Models with Retrieval [24.84741364872597]
本稿では,リニアリカレントモデルとリカレントモデルを組み合わせたシンプルでスケーラブルなフレームワークである__Resona__を紹介する。様々な線形リカレントモデルの実験は、様々な合成および実世界の自然言語タスクにおいて顕著な性能向上を示す。
論文参考訳（メタデータ） (2025-03-28T23:43:33Z)
Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文参考訳（メタデータ） (2024-12-09T21:36:10Z)
Scalable Ensembling For Mitigating Reward Overoptimisation [24.58937616758007]
ヒューマンフィードバックからの強化学習は、強力な命令追従モデルのための言語モデリングにおける大幅な進歩を可能にした。ポリシーが学習したプロキシ"報酬モデルに過度に適合する傾向にあるため、これらのモデルの整合性は依然として急進的な課題である。
論文参考訳（メタデータ） (2024-06-03T05:46:53Z)
RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文参考訳（メタデータ） (2023-08-15T17:59:18Z)
Compressing Sentence Representation with maximum Coding Rate Reduction [0.0]
ほとんどの自然言語推論問題では、文表現は意味検索タスクに必要である。スペースとハードウェアの制限のため、より小さなモデルを使用する場合には、同等の結果を得る必要がある。複雑性と文埋め込みサイズを低減した新しい言語モデルは,セマンティック検索ベンチマークにおいて同等の結果が得られることを実証した。
論文参考訳（メタデータ） (2023-04-25T09:23:43Z)
Investigating Ensemble Methods for Model Robustness Improvement of Text Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文参考訳（メタデータ） (2022-10-28T17:52:10Z)
DIRECTOR: Generator-Classifiers For Supervised Language Modeling [27.86870968048833]
現在の言語モデルは難易度は低いが、結果として生じる世代は依然として有毒な反応、反復性、矛盾に悩まされている。我々は,各出力トークンに対して,言語モデリングと分類ヘッドを併用した統一型ジェネレータからなる新しいアーキテクチャであるc Directorを導入する。
論文参考訳（メタデータ） (2022-06-15T17:44:08Z)
Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。 Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文参考訳（メタデータ） (2022-05-30T16:55:59Z)
Internet-augmented language models through few-shot prompting for open-domain question answering [6.573232954655063]
私たちは、大規模な言語モデルによって提供されるユニークないくつかのショット機能を活用して、いくつかの課題を克服しています。 Google Searchを使って、ウェブから返された情報に対して言語モデルを条件付けるために、数発のプロンプトを使用します。ウェブ上で条件付けされた言語モデルは、オープンドメイン質問応答において、類似またはそれ以上のモデルサイズを持つクローズドブックモデルの性能を上回ることが判明した。
論文参考訳（メタデータ） (2022-03-10T02:24:14Z)
Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文参考訳（メタデータ） (2021-12-20T17:05:11Z)
Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。 ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文参考訳（メタデータ） (2021-06-07T11:13:05Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。