論文の概要: BenchCLAMP: A Benchmark for Evaluating Language Models on Semantic
Parsing
- arxiv url: http://arxiv.org/abs/2206.10668v1
- Date: Tue, 21 Jun 2022 18:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-25 06:12:27.236953
- Title: BenchCLAMP: A Benchmark for Evaluating Language Models on Semantic
Parsing
- Title(参考訳): BenchCLAMP:セマンティックパースにおける言語モデル評価ベンチマーク
- Authors: Subhro Roy, Sam Thomson, Tongfei Chen, Richard Shin, Adam Pauls, Jason
Eisner, Benjamin Van Durme
- Abstract要約: 本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
インプットテキストの分析に基づいて、インプットまたは微調整された言語モデルの制約付き復号化によって意味的な出力を生成する。
提案するベンチマークでは,インプロンプトベース学習と微調整の両方をサポートし,言語モデル開発者がセマンティック解析で評価できる使いやすいツールキットを提供する。
- 参考スコア(独自算出の注目度): 49.51186562384306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce BenchCLAMP, a Benchmark to evaluate Constrained LAnguage Model
Parsing, which produces semantic outputs based on the analysis of input text
through constrained decoding of a prompted or fine-tuned language model.
Developers of pretrained language models currently benchmark on classification,
span extraction and free-text generation tasks. Semantic parsing is neglected
in language model evaluation because of the complexity of handling
task-specific architectures and representations. Recent work has shown that
generation from a prompted or fine-tuned language model can perform well at
semantic parsing when the output is constrained to be a valid semantic
representation. BenchCLAMP includes context-free grammars for six semantic
parsing datasets with varied output meaning representations, as well as a
constrained decoding interface to generate outputs covered by these grammars.
We provide low, medium, and high resource splits for each dataset, allowing
accurate comparison of various language models under different data regimes.
Our benchmark supports both prompt-based learning as well as fine-tuning, and
provides an easy-to-use toolkit for language model developers to evaluate on
semantic parsing.
- Abstract(参考訳): 本稿では,制約付き言語モデル解析のベンチマークであるbenchmarkclampについて紹介する。このベンチマークでは,入力テキストの分析に基づく意味的出力を,入力または微調整された言語モデルの制約付き復号によって生成する。
事前訓練された言語モデルの開発者は、現在、分類、スパン抽出、自由テキスト生成タスクをベンチマークしている。
セマンティック解析は、タスク固有のアーキテクチャや表現を扱う複雑さのため、言語モデル評価において無視される。
最近の研究によると、出力が有効な意味表現であるように制約された場合、インジェクションまたは微調整された言語モデルの生成はセマンティック解析においてうまく機能する。
BenchCLAMPには、6つの意味解析データセットのための文脈自由文法と、様々な出力の意味表現、およびこれらの文法でカバーされた出力を生成する制約付き復号インタフェースが含まれている。
各データセットに対して低、中、高リソースの分割を提供し、異なるデータ構造下で様々な言語モデルの正確な比較を可能にする。
提案するベンチマークでは,インプロンプトベース学習と微調整の両方をサポートし,言語モデル開発者がセマンティック解析で評価できる使いやすいツールキットを提供する。
関連論文リスト
- Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - Towards Computationally Verifiable Semantic Grounding for Language
Models [18.887697890538455]
本論文は、エンティティ関係三重項の集合として形式化された所望のセマンティックメッセージが与えられた条件モデル生成テキストとしてLMを概念化する。
LMを自動エンコーダに埋め込むと、出力が入力メッセージと同じ表現領域にあるセマンティック・フラエンシに出力を送り込む。
提案手法は,グリーディ検索のベースラインを大幅に改善することを示す。
論文 参考訳(メタデータ) (2022-11-16T17:35:52Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Constrained Language Models Yield Few-Shot Semantic Parsers [73.50960967598654]
我々は,事前学習された大規模言語モデルの利用を,少ない意味論として検討する。
意味構文解析の目標は、自然言語入力によって構造化された意味表現を生成することである。
言語モデルを用いて、入力を英語に似た制御されたサブ言語にパラフレーズし、対象の意味表現に自動的にマッピングする。
論文 参考訳(メタデータ) (2021-04-18T08:13:06Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - Contextualized Spoken Word Representations from Convolutional
Autoencoders [2.28438857884398]
本稿では,畳み込み型オートエンコーダに基づくニューラルアーキテクチャを提案し,様々な長さの音声単語の構文的かつ意味論的に適切な文脈化表現をモデル化する。
提案モデルでは,他の2つの言語モデルと比較して頑健性を示すことができた。
論文 参考訳(メタデータ) (2020-07-06T16:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。