論文の概要: Sensitivity and Robustness of Large Language Models to Prompt in
Japanese
- arxiv url: http://arxiv.org/abs/2305.08714v1
- Date: Mon, 15 May 2023 15:19:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 13:55:05.574094
- Title: Sensitivity and Robustness of Large Language Models to Prompt in
Japanese
- Title(参考訳): 日本語発音に対する大規模言語モデルの感度とロバスト性
- Authors: Chengguang Gan and Tatsunori Mori
- Abstract要約: 大規模言語モデル (LLM) と広く利用されている事前学習モデル (PLM, T5) の評価を行った。
Promptテンプレートの文構造の簡単な変更により、GPT-4の精度は49.21から25.44に大幅に低下した。
高性能なGPT-4モデルでさえ、多種多様な日本語プロンプトテンプレートを扱う際に大きな安定性に直面する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt Engineering has gained significant relevance in recent years, fueled
by advancements in pre-trained and large language models. However, a critical
issue has been identified within this domain: the lack of sensitivity and
robustness of these models towards Prompt Templates, particularly in
lesser-studied languages such as Japanese. This paper explores this issue
through a comprehensive evaluation of several representative Large Language
Models (LLMs) and a widely-utilized pre-trained model(PLM), T5. These models
are scrutinized using a benchmark dataset in Japanese, with the aim to assess
and analyze the performance of the current multilingual models in this context.
Our experimental results reveal startling discrepancies. A simple modification
in the sentence structure of the Prompt Template led to a drastic drop in the
accuracy of GPT-4 from 49.21 to 25.44. This observation underscores the fact
that even the highly performance GPT-4 model encounters significant stability
issues when dealing with diverse Japanese prompt templates, rendering the
consistency of the model's output results questionable. In light of these
findings, we conclude by proposing potential research trajectories to further
enhance the development and performance of Large Language Models in their
current stage.
- Abstract(参考訳): 近年、事前訓練と大規模言語モデルの進歩により、プロンプトエンジニアリングは重要な意味を持つようになった。
しかし、これらのモデルがプロンプトテンプレートに対する感度と堅牢性の欠如、特に日本語のようなより研究の少ない言語では、この領域では重要な問題が指摘されている。
本稿では,複数の代表言語モデル (LLM) と広く利用されている事前学習モデル (PLM, T5) を包括的に評価することにより,この問題を考察する。
これらのモデルは,現在の多言語モデルの性能評価と解析を目的とした,日本語のベンチマークデータセットを用いて精査される。
実験結果から, 急激な相違が明らかとなった。
簡単なPromptテンプレートの文構造の変更により、GPT-4の精度は49.21から25.44に大幅に低下した。
この観察は、高性能なGPT-4モデルでさえ、多種多様な日本語のプロンプトテンプレートを扱う際に重大な安定性に直面するという事実を強調し、モデルの出力の一貫性を疑問視する。
これらの知見を踏まえて,本研究では,大規模言語モデルの開発と性能をさらに向上させるために,潜在的研究軌道を提案する。
関連論文リスト
- Large corpora and large language models: a replicable method for automating grammatical annotation [0.0]
英語評価動詞構築における形式的変化の事例研究に応用された方法論的パイプライン「consider X (as) (to be) Y」を紹介する。
少数のトレーニングデータだけで、保留中のテストサンプルで90%以上の精度でモデルに到達します。
本研究は, 文法的構成と文法的変化および変化に関する幅広いケーススタディに対して, 結果の一般化可能性について論じる。
論文 参考訳(メタデータ) (2024-11-18T03:29:48Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Multilingual and Multi-topical Benchmark of Fine-tuned Language models and Large Language Models for Check-Worthy Claim Detection [1.4779899760345434]
本研究では,(1)微調整言語モデルと(2)チェック価値のあるクレーム検出タスクにおける大規模言語モデルの性能を比較した。
様々なソースやスタイルのテキストからなる多言語・多言語データセットを構築した。
論文 参考訳(メタデータ) (2023-11-10T15:36:35Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - A Systematic Investigation of Commonsense Understanding in Large
Language Models [23.430757316504316]
大規模な言語モデルでは、ゼロショット設定で多くの自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。
これらのモデルが4つのコモンセンスベンチマークに対してモデルを評価することによってコモンセンス理解を示すかどうかを問う。
論文 参考訳(メタデータ) (2021-10-31T22:20:36Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Comparative Study of Language Models on Cross-Domain Data with Model
Agnostic Explainability [0.0]
この研究は、最先端の言語モデルであるBERT、ELECTRAとその派生品であるRoBERTa、ALBERT、DistilBERTを比較した。
実験結果は、2013年の格付けタスクとフィナンシャル・フレーズバンクの感情検出タスクの69%、そして88.2%の精度で、新たな最先端の「評価タスク」を確立した。
論文 参考訳(メタデータ) (2020-09-09T04:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。