論文の概要: Aligning a medium-size GPT model in English to a small closed domain in
Spanish using reinforcement learning
- arxiv url: http://arxiv.org/abs/2303.17649v1
- Date: Thu, 30 Mar 2023 18:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 16:14:32.893780
- Title: Aligning a medium-size GPT model in English to a small closed domain in
Spanish using reinforcement learning
- Title(参考訳): 強化学習を用いた英語中規模GPTモデルをスペイン語の小さな閉領域にアライメントする
- Authors: Oscar R. Navarrete-Parra, Victor Uc-Cetina, Jorge Reyes-Magana
- Abstract要約: 本稿では、もともと英語で訓練された中規模のGPTモデルを、スペイン語の小さな閉領域に整合させる手法を提案する。
また、ある質問に対する回答が適切かどうかをスコア付けして判断できる別のニューラルネットワークのトレーニングと実装も必要でした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a methodology to align a medium-sized GPT model,
originally trained in English for an open domain, to a small closed domain in
Spanish. The application for which the model is finely tuned is the question
answering task. To achieve this we also needed to train and implement another
neural network (which we called the reward model) that could score and
determine whether an answer is appropriate for a given question. This component
served to improve the decoding and generation of the answers of the system.
Numerical metrics such as BLEU and perplexity were used to evaluate the model,
and human judgment was also used to compare the decoding technique with others.
Finally, the results favored the proposed method, and it was determined that it
is feasible to use a reward model to align the generation of responses.
- Abstract(参考訳): 本稿では,もともとオープンドメインのために英語で訓練された中規模gptモデルを,スペイン語の小さなクローズドドメインに整合させる手法を提案する。
モデルを微調整したアプリケーションは、質問応答タスクである。
これを実現するためには、別のニューラルネットワーク(報酬モデルと呼んでいます)をトレーニングし、実装する必要があります。
このコンポーネントは、システムのデコードと応答の生成を改善するのに役立った。
BLEUやパープレキシティなどの数値指標をモデル評価に使用し、デコード手法と他の手法との比較にも人的判断を用いた。
その結果,提案手法が好適であり,報奨モデルを用いて応答の生成を調整することが可能であることが判明した。
関連論文リスト
- Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - CANTONMT: Investigating Back-Translation and Model-Switch Mechanisms for Cantonese-English Neural Machine Translation [9.244878233604819]
本稿では、カントン語から英語への機械翻訳モデルの開発と評価について述べる。
オンラインで利用可能なさまざまなコーパスと事前処理とクリーニングを組み合わせることで、新しい並列コーパスが作成されている。
合成並列コーパス生成を支援するために、Webスクレイピングを通じてモノリンガルなカントンデータセットが作成されている。
論文 参考訳(メタデータ) (2024-05-13T20:37:04Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - A Simple Baseline for Beam Search Reranking [42.416019490068614]
本稿では,翻訳候補のBLEUスコアを,追加データやパラメータを導入することなく予測するための簡単な手法について検討する。
当社のアプローチは, 外部要因から分離したクリーンベースラインとして, この分野の今後の研究に利用することができる。
論文 参考訳(メタデータ) (2022-12-17T18:22:20Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Adapting the Mean Teacher for keypoint-based lung registration under
geometric domain shifts [75.51482952586773]
ディープニューラルネットワークは一般的に、ラベル付きトレーニングデータが多く必要であり、トレーニングデータとテストデータの間のドメインシフトに弱い。
本稿では,ラベル付きソースからラベル付きターゲットドメインへのモデルの適用により,画像登録のための幾何学的領域適応手法を提案する。
本手法は,ベースラインモデルの精度を目標データに適合させながら,ベースラインモデルの50%/47%を継続的に改善する。
論文 参考訳(メタデータ) (2022-07-01T12:16:42Z) - Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network [0.0]
RNNトランスデューサモデルは,少量のテキストデータのみを用いて,新しいドメインに効果的に適応できることを示した。
本稿では,複数のASR評価タスクを用いて,目標タスクWERにおける相対的な10〜45%の利得が得られる方法を示す。
論文 参考訳(メタデータ) (2021-04-22T15:21:41Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Model family selection for classification using Neural Decision Trees [4.286327408435937]
本稿では,タスクに必要な探索範囲を削減する手法を提案する。
その考え方は、厳格な決定境界を持つ特定のファミリー、参照モデル(RM)の訓練されたインスタンスから、どのくらいの費用を逸脱する必要があるかの定量化である。
論文 参考訳(メタデータ) (2020-06-20T01:27:01Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。