論文の概要: Cabrita: closing the gap for foreign languages
- arxiv url: http://arxiv.org/abs/2308.11878v1
- Date: Wed, 23 Aug 2023 02:49:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 16:09:30.810663
- Title: Cabrita: closing the gap for foreign languages
- Title(参考訳): カブリタ:外国語のギャップを埋める
- Authors: Celio Larcher, Marcos Piau, Paulo Finardi, Pedro Gengo, Piero
Esposito, Vinicius Carid\'a
- Abstract要約: 特定の言語やドメインのスクラッチからモデルをトレーニングする戦略は、2つの重要な目的に役立ちます。
このコスト課題を克服する主な解決策は、利用可能なトレーニング済みモデルに依存することである。
本稿では,性能と効率的なトークン化問題に対処する手法であるCabritaを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The strategy of training the model from scratch in a specific language or
domain serves two essential purposes: i) enhancing performance in the
particular linguistic or domain context, and ii) ensuring effective
tokenization. The main limitation inherent to this approach lies in the
associated cost, which can reach six to seven-digit dollar values, depending on
the model size and the number of parameters involved.
The main solution to overcome the cost challenge is to rely on available
pre-trained models, which, despite recent advancements such as the LLaMA and
LLaMA-2 models, still demonstrate inefficiency for certain specific domain
problems or prove ineffective in scenarios involving conversational memory
resources, given the large number of tokens required to represent text.
To overcome this issue, we present a methodology named Cabrita, which, as our
research demonstrates, successfully addresses the performance and efficient
tokenization problem, all at an affordable cost. We believe that this
methodology can be applied to any transformer-like architecture model. To
validate the study, we conducted continuous pre-training exclusively using
Portuguese text on a 3-billion-parameter model known as OpenLLaMA, resulting in
a model named openCabrita 3B. The openCabrita 3B also features a new tokenizer
that results in a significant reduction in the number of tokens required to
represent the text. In our assessment, for few-shot learning tasks, we achieved
similar results with this 3B model compared to a traditional continuous
pre-training approach as well as to 7B models English pre-trained models.
- Abstract(参考訳): 特定の言語やドメインのスクラッチからモデルをトレーニングする戦略は、以下の2つの重要な目的を果たす。
一 特定の言語的又は領域的文脈における性能の向上及び
二 効果的なトークン化の確保。
このアプローチに固有の主な制限は関連するコストであり、モデルのサイズと関連するパラメータの数によって、6桁から7桁の値に達することができる。
LLaMAやLLaMA-2のような最近の進歩にもかかわらず、特定のドメイン問題に対する非効率性を示したり、テキストを表すのに必要な大量のトークンを考慮すれば、会話記憶資源を含むシナリオでは効果がないことを証明している。
この課題を克服するために,本研究が示すように,性能と効率的なトークン化問題に対して,安価に対処できる手法であるcabritaを提案する。
この方法論は、トランスフォーマーのようなアーキテクチャモデルにも適用できると考えています。
本研究は,OpenLLaMAとして知られる3ビリオンパラメータモデルを用いて,ポルトガル語のテキストのみを用いた継続事前学習を行い,OpenCabrita 3Bと命名した。
opencabrita 3bはまた、テキストを表すのに必要なトークンの数を大幅に削減する新しいトークン化機能を備えている。
評価では,この3bモデルと,従来の連続前トレーニングアプローチと,英語前トレーニングモデルの7bモデルとで類似した結果を得た。
関連論文リスト
- The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - $C^3$: Confidence Calibration Model Cascade for Inference-Efficient
Cross-Lingual Natural Language Understanding [28.853593305486832]
言語間自然言語理解(NLU)は自然言語処理(NLP)において重要な課題である
近年,多言語事前学習言語モデル (mPLM) の進歩により,これらのタスクの性能が著しく向上している。
既存のモデルカスケード法は、様々なモデルから電流入力を処理できる最も軽量なモデルを選択して、推論効率を向上させる。
論文 参考訳(メタデータ) (2024-02-25T05:07:56Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - DeBERTinha: A Multistep Approach to Adapt DebertaV3 XSmall for Brazilian
Portuguese Natural Language Processing Task [0.3499870393443269]
本稿では,ブラジルのポルトガル語自然言語処理(NLP)タスクに対して,英語で事前学習したDebertaV3 XSmallモデルを適用するためのアプローチを提案する。
この方法論の重要な側面は、ポルトガル語でモデルを効果的に調整するためのマルチステップのトレーニングプロセスである。
DeBERTinhaと呼ばれる適応型モデルは、名前付きエンティティ認識、感情分析、文関連性の決定といった下流タスクに効果を示す。
論文 参考訳(メタデータ) (2023-09-28T20:53:25Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。