論文の概要: Meta Semantic Template for Evaluation of Large Language Models
- arxiv url: http://arxiv.org/abs/2310.01448v1
- Date: Sun, 1 Oct 2023 15:06:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 19:47:46.388727
- Title: Meta Semantic Template for Evaluation of Large Language Models
- Title(参考訳): 大規模言語モデル評価のためのメタセマンティックテンプレート
- Authors: Yachuan Liu, Liang Chen, Jindong Wang, Qiaozhu Mei, Xing Xie
- Abstract要約: MSTempは、大規模な言語モデルの意味理解能力を評価するメタセマンティックテンプレートを作成するアプローチである。
MSTempは、意味テンプレート上で文解析とランダムな単語置換によって評価サンプルを生成する。
最初の実験では、MSTemp生成サンプルは、既存のデータセットをシードとして使用することで、LLMの性能を大幅に低下させることができることを示した。
- 参考スコア(独自算出の注目度): 42.28579444078492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Do large language models (LLMs) genuinely understand the semantics of the
language, or just memorize the training data? The recent concern on potential
data contamination of LLMs has raised awareness of the community to conduct
research on LLMs evaluation. In this paper, we propose MSTemp, an approach that
creates meta semantic templates to evaluate the semantic understanding ability
of LLMs. The core of MSTemp is not to perform evaluation directly on existing
benchmark datasets, but to generate new out-of-distribution (OOD) evaluation
sets using existing datasets as seeds. Specifically, for a given sentence,
MSTemp leverages another language model to generate new samples while
preserving its semantics. The new samples are called semantic templates to the
original sentence. Then, MSTemp generates evaluation samples via sentence
parsing and random word replacement on the semantic templates. MSTemp is highly
flexible, dynamic, and cost-effective. Our initial experiments show that
MSTemp-generated samples can significantly reduce the performance of LLMs using
existing datasets as seeds. We hope this initial work can shed light on future
research of LLMs evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語のセマンティクスを本当に理解しているか、あるいは単にトレーニングデータを記憶しているか?
LLMのデータ汚染に関する最近の懸念は、LCMの評価研究を行うコミュニティの意識を高めている。
本稿では,メタセマンティックテンプレートを作成する手法であるMSTempを提案し,LLMのセマンティック理解能力を評価する。
mstempの中核は、既存のベンチマークデータセットを直接評価することではなく、既存のデータセットを種として使用する新しいout-of-distribution(ood)評価セットを生成することである。
具体的には、ある文に対して、MSTempは別の言語モデルを利用して意味を保ちながら新しいサンプルを生成する。
新しいサンプルは、元の文のセマンティックテンプレートと呼ばれる。
そして、MSTempは、意味テンプレート上で文解析とランダムな単語置換によって評価サンプルを生成する。
mstempは柔軟性が高く、動的で、コスト効率が高い。
最初の実験では、MSTemp生成サンプルは、既存のデータセットをシードとして使用することで、LLMの性能を大幅に低下させることができることを示した。
今後のLCM評価研究に光を当てることが期待できる。
関連論文リスト
- What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating
Generalization Capacity of Language Models [18.874880342410876]
本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。
我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。
時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
論文 参考訳(メタデータ) (2023-06-19T07:00:14Z) - TempLM: Distilling Language Models into Template-Based Generators [11.808788755444647]
本研究では、事前学習した言語モデルをテンプレートベースジェネレータに蒸留することにより、両方の世界の長所を達成できるTempLMを提案する。
TempLM は元々の PLM よりも忠実であり,従来のテンプレートシステムよりも流動性が高いことを示す。
人間の研究では、BERTScoreにおけるTempLMのテンプレートは、人書きのテンプレートよりも大幅に改善されていることが判明した。
論文 参考訳(メタデータ) (2022-05-23T05:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。