論文の概要: ESNLIR: A Spanish Multi-Genre Dataset with Causal Relationships
- arxiv url: http://arxiv.org/abs/2503.08803v1
- Date: Tue, 11 Mar 2025 18:32:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:36:30.976554
- Title: ESNLIR: A Spanish Multi-Genre Dataset with Causal Relationships
- Title(参考訳): ESNLIR:因果関係を持つスペインのマルチジャンルデータセット
- Authors: Johan R. Portela, Nicolás Perez, Rubén Manrique,
- Abstract要約: 自然言語推論(NLI)は、自然言語処理(NLP)分野において重要な分野である。
本稿ではNLI, ESNLIR, 特に因果関係を考慮したマルチジャンルのスペイン語データセットを作成することに焦点を当てる。
この結果は、ジャンルの豊かさが、モデルを一般化する能力の豊かさに本質的に寄与していることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Natural Language Inference (NLI), also known as Recognizing Textual Entailment (RTE), serves as a crucial area within the domain of Natural Language Processing (NLP). This area fundamentally empowers machines to discern semantic relationships between assorted sections of text. Even though considerable work has been executed for the English language, it has been observed that efforts for the Spanish language are relatively sparse. Keeping this in view, this paper focuses on generating a multi-genre Spanish dataset for NLI, ESNLIR, particularly accounting for causal Relationships. A preliminary baseline has been conceptualized and subjected to an evaluation, leveraging models drawn from the BERT family. The findings signify that the enrichment of genres essentially contributes to the enrichment of the model's capability to generalize. The code, notebooks and whole datasets for this experiments is available at: https://zenodo.org/records/15002575. If you are interested only in the dataset you can find it here: https://zenodo.org/records/15002371.
- Abstract(参考訳): 自然言語推論(英: Natural Language Inference、略称:NLI)は、自然言語処理(英: Natural Language Processing、略称:NLP)の分野において重要な分野である。
この領域は基本的に、テキストの分類されたセクション間の意味的関係を識別する機械に権限を与える。
英語についてはかなりの研究が続けられているが、スペイン語への取り組みは比較的疎いことが観察されている。
これを踏まえて、本論文はNLI, ESNLIR, 特に因果関係を考慮したマルチジャンルのスペイン語データセットを作成することに焦点を当てる。
BERTファミリーから引き出されたモデルを利用して、予備ベースラインが概念化され、評価の対象となった。
この結果は、ジャンルの豊かさが、モデルを一般化する能力の豊かさに本質的に寄与していることを示している。
この実験のためのコード、ノートブック、全データセットは、https://zenodo.org/records/15002575で公開されている。
データセットのみに興味がある場合は、こちらを参照してください。
関連論文リスト
- BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTER - 28の異なる言語のマルチラベルデータセットのコレクション。
データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。
BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - MASIVE: Open-Ended Affective State Identification in English and Spanish [10.41502827362741]
本研究は,人間が感情経験を説明するために使用する言葉を含む,事実上拘束力のないテクスタフェクティブな状態にまで範囲を広げる。
私たちは、英語とスペイン語でReddit投稿のデータセットであるMASIVEを収集し、公開しています。
このタスクでは、より小さな微調整された多言語モデルの方が、地域固有のスペイン感情状態においても、ずっと大きなLLMより優れていることが分かる。
論文 参考訳(メタデータ) (2024-07-16T21:43:47Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Improving Natural Language Inference in Arabic using Transformer Models
and Linguistically Informed Pre-Training [0.34998703934432673]
本稿では,自然言語処理分野におけるアラビア語テキストデータの分類について述べる。
この制限を克服するため、公開リソースから専用のデータセットを作成します。
言語固有モデル (AraBERT) が最先端の多言語アプローチと競合することがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:40:11Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Embedding generation for text classification of Brazilian Portuguese
user reviews: from bag-of-words to transformers [0.0]
この研究は、古典的(バグ・オブ・ワード)から最先端(トランスフォーマーベース)NLPモデルまで含んでいる。
本研究の目的は,ブラジルポルトガル語におけるユーザレビューのバイナリ感情分類を対象とする埋め込みアプローチに関する総合的な実験的研究を提供することである。
論文 参考訳(メタデータ) (2022-12-01T15:24:19Z) - Dataset Geography: Mapping Language Data to Language Users [17.30955185832338]
本研究では,NLPデータセットが言語話者の期待するニーズにどの程度一致しているかを定量化することを目的として,NLPデータセットの地理的代表性について検討する。
その際、エンティティ認識とリンクシステムを使用し、言語間の一貫性について重要な観察を行う。
最後に,観測された分布データセットを説明するための地理的・経済的要因について検討する。
論文 参考訳(メタデータ) (2021-12-07T05:13:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。