論文の概要: CLSE: Corpus of Linguistically Significant Entities
- arxiv url: http://arxiv.org/abs/2211.02423v1
- Date: Fri, 4 Nov 2022 12:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 16:35:04.923707
- Title: CLSE: Corpus of Linguistically Significant Entities
- Title(参考訳): CLSE:言語学的に重要なエンティティのコーパス
- Authors: Aleksandr Chuklin, Justin Zhao, Mihir Kale
- Abstract要約: 専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
- 参考スコア(独自算出の注目度): 73.02611823896432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the biggest challenges of natural language generation (NLG) is the
proper handling of named entities. Named entities are a common source of
grammar mistakes such as wrong prepositions, wrong article handling, or
incorrect entity inflection. Without factoring linguistic representation, such
errors are often underrepresented when evaluating on a small set of arbitrarily
picked argument values, or when translating a dataset from a linguistically
simpler language, like English, to a linguistically complex language, like
Russian. However, for some applications, broadly precise grammatical
correctness is critical -- native speakers may find entity-related grammar
errors silly, jarring, or even offensive.
To enable the creation of more linguistically diverse NLG datasets, we
release a Corpus of Linguistically Significant Entities (CLSE) annotated by
linguist experts. The corpus includes 34 languages and covers 74 different
semantic types to support various applications from airline ticketing to video
games. To demonstrate one possible use of CLSE, we produce an augmented version
of the Schema-Guided Dialog Dataset, SGD-CLSE. Using the CLSE's entities and a
small number of human translations, we create a linguistically representative
NLG evaluation benchmark in three languages: French (high-resource), Marathi
(low-resource), and Russian (highly inflected language). We establish quality
baselines for neural, template-based, and hybrid NLG systems and discuss the
strengths and weaknesses of each approach.
- Abstract(参考訳): 自然言語生成(NLG)の最大の課題の1つは、名前付きエンティティの適切な処理である。
名前付きエンティティは、誤った前置詞、間違った記事ハンドリング、誤ったエンティティの反転といった文法上のミスの一般的なソースである。
言語表現を分解しなければ、任意に選択された議論値の小さなセットを評価する場合や、英語のような言語的に単純な言語からロシア語のような言語的に複雑な言語にデータセットを翻訳する場合に、このような誤りは過小評価されることが多い。
しかし、いくつかのアプリケーションでは、広範囲に正確な文法的正しさが不可欠である。
言語学的に多様なNLGデータセットの作成を可能にするため,言語学者が注釈を付けた言語学的意義のコーパス(CLSE)を作成した。
コーパスには34の言語が含まれており、航空券売機からビデオゲームまで様々な用途をサポートする74のセマンティックタイプをカバーしている。
CLSEの1つの可能性を示すために、SGD-CLSEのSchema-Guided Dialog Datasetの拡張版を作成する。
CLSEの実体と少数の人間の翻訳を用いて、言語的に代表されるNLG評価ベンチマークを、フランス語(高資源)、マラティー語(低資源)、ロシア語(高屈折言語)の3言語で作成する。
ニューラルネットワーク,テンプレートベース,ハイブリッドnlgシステムの品質基準を確立し,それぞれのアプローチの長所と短所について論じる。
関連論文リスト
- From English-Centric to Effective Bilingual: LLMs with Custom Tokenizers for Underrepresented Languages [0.5706164516481158]
そこで本研究では,二言語ベース大言語モデル (LLM) を開発するための,モデルに依存しないコスト効率のアプローチを提案する。
私たちは3つの言語で実験を行い、それぞれが非ラテン文字(ウクライナ語、アラビア語、グルジア語)を使用しました。
論文 参考訳(メタデータ) (2024-10-24T15:20:54Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - RuBLiMP: Russian Benchmark of Linguistic Minimal Pairs [2.9521383230206966]
本稿では,RuBLiMP (Linguistic Minimal Pairs) のロシア語ベンチマークを紹介する。
RuBLiMPは文法性が異なる45k対の文を含み、形態的、構文的、意味的な現象を分離する。
ロシア語の言語モデルは, 構造的・合意的コントラストに敏感であるが, 構造的関係, 否定, 推移性, 時制の理解を必要とする現象に人間に遅れがあることが判明した。
論文 参考訳(メタデータ) (2024-06-27T14:55:19Z) - How do lexical semantics affect translation? An empirical study [1.0152838128195467]
本稿では,ソースとターゲット言語間の単語の順序付けと語彙的類似性が翻訳性能に与える影響について検討する。
対象言語が英語に類似するほど、翻訳性能が向上することがわかった。
さらに、英単語列における単語(POS)の一部を含むNMTモデルの提供が与える影響について検討した。
論文 参考訳(メタデータ) (2021-12-31T23:28:28Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - On the Difficulty of Translating Free-Order Case-Marking Languages [2.9434930072968584]
我々は、最先端のニューラルマシン翻訳モデル(NMT)により、自由順序のケースマーキング言語が翻訳困難であるかどうかを検討する。
ソース言語における単語順の柔軟性は、NMTの品質を非常に低下させるだけである。
中・低リソース環境では、固定順序言語の全体的なNMT品質は未整合のままである。
論文 参考訳(メタデータ) (2021-07-13T13:09:58Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。