論文の概要: A New Dataset for Natural Language Inference from Code-mixed
Conversations
- arxiv url: http://arxiv.org/abs/2004.05051v2
- Date: Mon, 13 Apr 2020 04:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 20:53:08.133122
- Title: A New Dataset for Natural Language Inference from Code-mixed
Conversations
- Title(参考訳): コード混合会話からの自然言語推論のための新しいデータセット
- Authors: Simran Khanuja, Sandipan Dandapat, Sunayana Sitaram, Monojit Choudhury
- Abstract要約: 我々は,コード混合自然言語推論 (NLI) のための最初のデータセットを提示する。
我々はヒンディー語映画(ボリウッド)のデータを前提として、ヒンディー語と英語のバイリンガルからのクラウドソース仮説を用いている。
得られたデータセットでよく見られる言語現象を推定するために,広範な分析を行う。
- 参考スコア(独自算出の注目度): 17.172612406457752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Inference (NLI) is the task of inferring the logical
relationship, typically entailment or contradiction, between a premise and
hypothesis. Code-mixing is the use of more than one language in the same
conversation or utterance, and is prevalent in multilingual communities all
over the world. In this paper, we present the first dataset for code-mixed NLI,
in which both the premises and hypotheses are in code-mixed Hindi-English. We
use data from Hindi movies (Bollywood) as premises, and crowd-source hypotheses
from Hindi-English bilinguals. We conduct a pilot annotation study and describe
the final annotation protocol based on observations from the pilot. Currently,
the data collected consists of 400 premises in the form of code-mixed
conversation snippets and 2240 code-mixed hypotheses. We conduct an extensive
analysis to infer the linguistic phenomena commonly observed in the dataset
obtained. We evaluate the dataset using a standard mBERT-based pipeline for NLI
and report results.
- Abstract(参考訳): 自然言語推論(英: natural language inference、nli)は、前提と仮説の間の論理的関係を推論するタスクである。
コード混合(code-mixing)は、同じ会話や発話で複数の言語を使用することであり、世界中の多言語コミュニティで広く使われている。
本稿では,コード混合NLIのための最初のデータセットについて述べる。
ヒンディー語映画(ボリウッド)からのデータと、ヒンディー語と英語のバイリンガルによるクラウドソース仮説を用いている。
パイロットアノテーションの研究を行い、パイロットからの観察に基づいて最終アノテーションプロトコルを記述する。
現在、収集されたデータは、コードミキシングされた会話スニペットの400の前提と2240のコードミキシングされた仮説で構成されている。
得られたデータセットでよく見られる言語現象を推定するために,広範な分析を行う。
我々は,NLIのための標準mBERTパイプラインを用いてデータセットを評価し,その結果を報告する。
関連論文リスト
- OffMix-3L: A Novel Code-Mixed Dataset in Bangla-English-Hindi for
Offensive Language Identification [26.11758147703999]
コードミキシング(Code-mixing)は、2つ以上の言語がテキストや音声に混在している場合によく研究される言語現象である。
OFMix-3Lは、3つの異なる言語のコード混合データを含む新しい攻撃的言語識別データセットである。
論文 参考訳(メタデータ) (2023-10-27T09:59:35Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating
Generalization Capacity of Language Models [18.874880342410876]
本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。
我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。
時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
論文 参考訳(メタデータ) (2023-06-19T07:00:14Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - Comparative Study of Pre-Trained BERT Models for Code-Mixed
Hindi-English Data [0.7874708385247353]
コードミックス(Code Mixed)とは、複数の言語を同一のテキストで使用すること。
本研究では、低リソースのヒンディー語-英語のコード混合言語に焦点を当てる。
我々は,HingBERTに基づくモデルを用いて,各データセットの最先端結果について報告する。
論文 参考訳(メタデータ) (2023-05-25T05:10:28Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - Transferring Knowledge Distillation for Multilingual Social Event
Detection [42.663309895263666]
最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。
本稿では,多言語データストリーム中の事象を検出するために,言語間単語埋め込みを組み込んだGNNを提案する。
合成データセットと実世界のデータセットの両方の実験では、多言語データとトレーニングサンプルが不足している言語の両方において、検出に非常に効果的なフレームワークが示されている。
論文 参考訳(メタデータ) (2021-08-06T12:38:42Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。