論文の概要: XferBench: a Data-Driven Benchmark for Emergent Language
- arxiv url: http://arxiv.org/abs/2407.03456v1
- Date: Wed, 3 Jul 2024 19:02:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 20:00:48.325844
- Title: XferBench: a Data-Driven Benchmark for Emergent Language
- Title(参考訳): XferBench: 創発的言語のためのデータ駆動ベンチマーク
- Authors: Brendon Boldt, David Mortensen,
- Abstract要約: 創発的言語の全体的な品質を評価するためのベンチマークを導入する。
人間の言語における下流のNLPタスクの事前学習データとして、創発言語を用いてこれを計測する。
我々は,人,合成,創発的な言語ベースラインを用いて,ベンチマークの有効性を実証的に検証する。
- 参考スコア(独自算出の注目度): 1.6574413179773761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a benchmark for evaluating the overall quality of emergent languages using data-driven methods. Specifically, we interpret the notion of the "quality" of an emergent language as its similarity to human language within a deep learning framework. We measure this by using the emergent language as pretraining data for a downstream NLP tasks in human language -- the better the downstream performance, the better the emergent language. We implement this benchmark as an easy-to-use Python package that only requires a text file of utterances from the emergent language to be evaluated. Finally, we empirically test the benchmark's validity using human, synthetic, and emergent language baselines.
- Abstract(参考訳): 本稿では,データ駆動手法を用いて創発言語全体の品質を評価するベンチマークを提案する。
具体的には、深層学習フレームワークにおける人間の言語との類似性として、創発的言語の「品質」の概念を解釈する。
人間の言語における下流のNLPタスクのための事前トレーニングデータとして、創発言語を使用することで、これを測定します。
我々はこのベンチマークを,評価対象の創発言語からの発話のテキストファイルのみを必要とする,使い易いPythonパッケージとして実装する。
最後に,人,合成,創発的な言語ベースラインを用いて,ベンチマークの有効性を実証的に検証する。
関連論文リスト
- DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - NLPre: a revised approach towards language-centric benchmarking of Natural Language Preprocessing systems [2.141587359797428]
規則に基づく形態解析や辞書を頼りに、新しい解を十分に整合した前処理ツールキットと比較することは困難である。
GLUEベンチマークにインスパイアされたこの言語中心ベンチマークシステムは、複数のNLPreツールの包括的な評価を可能にする。
プロトタイプアプリケーションはポーランド語用に設定されており、完全に組み立てられたNLPre-PLベンチマークと統合されている。
論文 参考訳(メタデータ) (2024-03-07T14:07:00Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - Pre-training Universal Language Representation [46.51685959045527]
この研究は普遍言語表現学習、すなわち、一様ベクトル空間に非常に多様な長さを持つ言語単位やテキストの異なるレベルの埋め込みを導入している。
我々は、よく設計された事前学習スキームが、効果的に普遍的な言語表現をもたらすことを実証的に検証する。
論文 参考訳(メタデータ) (2021-05-30T09:29:01Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Constrained Language Models Yield Few-Shot Semantic Parsers [73.50960967598654]
我々は,事前学習された大規模言語モデルの利用を,少ない意味論として検討する。
意味構文解析の目標は、自然言語入力によって構造化された意味表現を生成することである。
言語モデルを用いて、入力を英語に似た制御されたサブ言語にパラフレーズし、対象の意味表現に自動的にマッピングする。
論文 参考訳(メタデータ) (2021-04-18T08:13:06Z) - Quinductor: a multilingual data-driven method for generating
reading-comprehension questions using Universal Dependencies [0.0]
係り受け木を用いた読解質問を生成するための多言語データ駆動手法を提案する。
提案手法は,低リソース言語に対して,強力で決定論的かつ安価なベースラインを提供する。
論文 参考訳(メタデータ) (2021-03-18T09:49:56Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。