論文の概要: Evaluating Large Language Models on Controlled Generation Tasks
- arxiv url: http://arxiv.org/abs/2310.14542v1
- Date: Mon, 23 Oct 2023 03:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 22:51:27.376204
- Title: Evaluating Large Language Models on Controlled Generation Tasks
- Title(参考訳): 制御された生成課題における大規模言語モデルの評価
- Authors: Jiao Sun, Yufei Tian, Wangchunshu Zhou, Nan Xu, Qian Hu, Rahul Gupta,
John Frederick Wieting, Nanyun Peng, Xuezhe Ma
- Abstract要約: 本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
- 参考スコア(独自算出の注目度): 92.64781370921486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent studies have looked into the abilities of large language models
in various benchmark tasks, including question generation, reading
comprehension, multilingual and etc, there have been few studies looking into
the controllability of large language models on generation tasks. We present an
extensive analysis of various benchmarks including a sentence planning
benchmark with different granularities. After comparing large language models
against state-of-the-start finetuned smaller models, we present a spectrum
showing large language models falling behind, are comparable, or exceed the
ability of smaller models. We conclude that **large language models struggle at
meeting fine-grained hard constraints**.
- Abstract(参考訳): 近年の研究では,質問生成,読解,多言語など,様々なベンチマークタスクにおける大規模言語モデルの能力について検討されているが,生成タスクにおける大規模言語モデルの制御性についての研究は少ない。
粒度の異なる文計画ベンチマークを含む,様々なベンチマークの広範な分析を行う。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、小型モデルの能力を超えたりしたスペクトルを示す。
我々は**大きな言語モデルがきめ細かい制約を満たすのに苦労していると結論づける*。
関連論文リスト
- Language Models on a Diet: Cost-Efficient Development of Encoders for Closely-Related Languages via Additional Pretraining [4.38070902806635]
クロアチア語、セルビア語、ボスニア語、モンテネグロ語のベンチマークを設定しました。
我々は、利用可能な多言語モデルの追加事前学習により、専用のin-scratchモデルに匹敵する性能が得られることを示す。
また、Slovenianの場合、隣接する言語は、最終モデルの性能にほとんど、あるいは全く損なわない追加の事前訓練に含めることができることを示す。
論文 参考訳(メタデータ) (2024-04-08T11:55:44Z) - Perturbed examples reveal invariances shared by language models [8.04604449335578]
2つのNLPモデルを比較するための新しいフレームワークを提案する。
このフレームワークは、同じおよび異なるアーキテクチャファミリーのモデルに関する実験であり、モデルの変化が言語機能にどのように影響するかについての洞察を提供する。
論文 参考訳(メタデータ) (2023-11-07T17:48:35Z) - Black-box language model explanation by context length probing [7.526153863886609]
本稿では、因果言語モデルのための新しい説明手法である文脈長探索について述べる。
この技術はモデルに依存しず、トークンレベルの確率の計算以上のモデル内部へのアクセスに依存しない。
事前学習された大規模言語モデルに文脈長探索を適用し、初期分析と洞察を提供する。
論文 参考訳(メタデータ) (2022-12-30T16:24:10Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - On the Multilingual Capabilities of Very Large-Scale English Language
Models [0.0]
GPT(Generative Pre-trained Transformer)は、機械学習の歴史において、前例のない規模に拡張されている。
本研究では,GPT-3の多言語的スキルについて検討し,事前学習用コーパスであるカタルーニャ語にはほとんど現れない1つの言語に着目した。
このモデルでは、特に生成タスクにおいて、主に言語理解タスクでは予測可能な制限があるが、ゼロショットシナリオでは顕著な結果が得られる。
論文 参考訳(メタデータ) (2021-08-30T16:18:50Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。