論文の概要: Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating
Generalization Capacity of Language Models
- arxiv url: http://arxiv.org/abs/2306.10727v1
- Date: Mon, 19 Jun 2023 07:00:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 18:56:16.948502
- Title: Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating
Generalization Capacity of Language Models
- Title(参考訳): jamp:言語モデルの一般化能力評価のための日本語時間的推論データセット
- Authors: Tomoki Sugimoto, Yasumasa Onoe, Hitomi Yanaka
- Abstract要約: 本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。
我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。
時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
- 参考スコア(独自算出の注目度): 18.874880342410876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Inference (NLI) tasks involving temporal inference remain
challenging for pre-trained language models (LMs). Although various datasets
have been created for this task, they primarily focus on English and do not
address the need for resources in other languages. It is unclear whether
current LMs realize the generalization capacity for temporal inference across
languages. In this paper, we present Jamp, a Japanese NLI benchmark focused on
temporal inference. Our dataset includes a range of temporal inference
patterns, which enables us to conduct fine-grained analysis. To begin the data
annotation process, we create diverse inference templates based on the formal
semantics test suites. We then automatically generate diverse NLI examples by
using the Japanese case frame dictionary and well-designed templates while
controlling the distribution of inference patterns and gold labels. We evaluate
the generalization capacities of monolingual/multilingual LMs by splitting our
dataset based on tense fragments (i.e., temporal inference patterns). Our
findings demonstrate that LMs struggle with specific linguistic phenomena, such
as habituality, indicating that there is potential for the development of more
effective NLI models across languages.
- Abstract(参考訳): 時間的推論を含む自然言語推論(NLI)タスクは、事前訓練された言語モデル(LM)では依然として困難である。
このタスクのために様々なデータセットが作成されているが、主に英語に焦点を当てており、他の言語でのリソースの必要性に対処していない。
現在のLMが言語間の時間的推論の一般化能力を実現するかどうかは不明である。
本稿では,時間的推論に着目したNLIベンチマークであるJampについて述べる。
我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を可能にする。
データアノテーションプロセスを開始するために、形式的セマンティクステストスイートに基づいた様々な推論テンプレートを作成します。
次に,日本語のケースフレーム辞書とよく設計されたテンプレートを用いて,推論パターンとゴールドラベルの分布を制御しながら,多様なNLIサンプルを自動生成する。
テンスフラグメント(つまり時間的推論パターン)に基づいてデータセットを分割することにより,単言語/多言語lmsの一般化能力を評価する。
本研究は, LMが習慣性などの特定の言語現象に苦しむことを示し, 言語間でより効果的なNLIモデルの開発の可能性を示している。
関連論文リスト
- Natural Language Processing for Dialects of a Language: A Survey [59.78833854847185]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark
Dataset for Generative Language Models in Norwegian [4.236983772147863]
低リソース言語であるノルウェー語で自然言語生成能力を評価するためのベンチマークであるNLEBenchを紹介する。
NLEBenchは、ニュースストーリーテリング、要約、オープンドメイン会話、自然言語理解、命令の微調整、毒性、バイアス評価から、自己計算されたChain-of-Thought調査まで、現実世界のNLPタスクスイートを含んでいる。
本稿では,多様なパラメータスケールとトランスフォーマーに基づくアーキテクチャで開発されたノルウェー生成言語モデル(NorGLM)についても紹介する。
論文 参考訳(メタデータ) (2023-12-03T08:09:45Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Benchmarking Large Language Model Capabilities for Conditional
Generation [15.437176676169997]
既存のアプリケーション固有の生成ベンチマークをPLMに適応させる方法について論じる。
PLMは異なるデータ体系に適用可能であり、複数の言語に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-06-29T08:59:40Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Are Large Language Models Robust Coreference Resolvers? [17.60248310475889]
我々は、コア参照のプロンプトが、現在の教師なしコア参照システムより優れていることを示す。
さらなる調査により、命令調整されたLMが驚くほどドメイン、言語、時間にまたがって一般化されることが判明した。
論文 参考訳(メタデータ) (2023-05-23T19:38:28Z) - How do languages influence each other? Studying cross-lingual data
sharing during LLM fine-tuning [16.8212280804151]
多言語大言語モデル(MLLM)は、多くの異なる言語からのデータに基づいて共同で訓練される。
言語がどの程度、どの条件下で、互いのデータに依存しているかは、まだ不明である。
MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度が徐々に増加することが判明した。
論文 参考訳(メタデータ) (2023-05-22T17:47:41Z) - Compositional Evaluation on Japanese Textual Entailment and Similarity [20.864082353441685]
自然言語推論(NLI)とセマンティックテキスト類似性(STS)は、事前訓練された言語モデルの合成評価に広く用いられている。
言語普遍論への関心が高まりつつあるにもかかわらず、ほとんどのNLI/STS研究は英語にのみ焦点を絞っている。
日本語で利用可能な多言語NLI/STSデータセットは存在しない。
論文 参考訳(メタデータ) (2022-08-09T15:10:56Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。