論文の概要: TyDiP: A Dataset for Politeness Classification in Nine Typologically
Diverse Languages
- arxiv url: http://arxiv.org/abs/2211.16496v1
- Date: Tue, 29 Nov 2022 18:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 16:02:49.927180
- Title: TyDiP: A Dataset for Politeness Classification in Nine Typologically
Diverse Languages
- Title(参考訳): TyDiP:9言語多言語におけるポリテネス分類のためのデータセット
- Authors: Anirudh Srinivasan, Eunsol Choi
- Abstract要約: 類型的多様言語9言語における丁寧さ現象について検討する。
それぞれの言語で500の例に対して3方向の丁寧なアノテーションを含むデータセットであるTyDiPを作成します。
- 参考スコア(独自算出の注目度): 33.540256516320326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study politeness phenomena in nine typologically diverse languages.
Politeness is an important facet of communication and is sometimes argued to be
cultural-specific, yet existing computational linguistic study is limited to
English. We create TyDiP, a dataset containing three-way politeness annotations
for 500 examples in each language, totaling 4.5K examples. We evaluate how well
multilingual models can identify politeness levels -- they show a fairly robust
zero-shot transfer ability, yet fall short of estimated human accuracy
significantly. We further study mapping the English politeness strategy lexicon
into nine languages via automatic translation and lexicon induction, analyzing
whether each strategy's impact stays consistent across languages. Lastly, we
empirically study the complicated relationship between formality and politeness
through transfer experiments. We hope our dataset will support various research
questions and applications, from evaluating multilingual models to constructing
polite multilingual agents.
- Abstract(参考訳): 類型的多様言語9言語における丁寧さ現象について検討する。
丁寧さはコミュニケーションの重要な側面であり、文化的に特有であるが、既存の計算言語学の研究は英語に限られている。
tydipは、各言語で500例の3方向の丁寧なアノテーションを含むデータセットで、総計4.5k例です。
我々は、多言語モデルが丁寧さのレベルをいかに正確に識別できるかを評価する -- かなり堅牢なゼロショット転送能力を示すが、推定された人間の正確さにかなり不足する。
さらに、英語の丁寧性戦略レキシコンを、自動翻訳と語彙誘導によって9つの言語にマッピングし、各戦略の影響が言語間で一定であるかどうかを解析する。
最後に,伝達実験を通して形式性と丁寧さの複雑な関係を実証的に研究する。
我々は,多言語モデルの評価から丁寧な多言語エージェントの構築に至るまで,我々のデータセットが様々な研究課題や応用をサポートすることを願っている。
関連論文リスト
- A Computational Model for the Assessment of Mutual Intelligibility Among
Closely Related Languages [1.5773159234875098]
密接に関連する言語は、ある言語の話者が積極的に学習することなく他の言語の話者を理解することができる言語類似性を示す。
相互の知性は程度によって異なり、典型的には精神言語実験でテストされる。
本稿では,人間による言語学習の認知過程を近似するために,線形識別学習システムを用いたコンピュータ支援手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T11:32:13Z) - Languages You Know Influence Those You Learn: Impact of Language
Characteristics on Multi-Lingual Text-to-Text Transfer [4.554080966463776]
マルチ言語モデル (LM) は低リソース言語での自然言語処理の実現に成功している。
このようなモデル、特にmT5は、言語間の言語的および意味的な知識をどう転送するかをよりよく理解しようとしています。
この研究の鍵となる発見は、構文、形態学、音韻学の類似性が言語間移動のよい予測因子であることである。
論文 参考訳(メタデータ) (2022-12-04T07:22:21Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Are pre-trained text representations useful for multilingual and
multi-dimensional language proficiency modeling? [6.294759639481189]
本稿では,多次元多言語習熟度分類における事前学習および微調整多言語組込みの役割に関する実験と観察について述べる。
提案手法は,多言語習熟度モデリングに有用であるが,どの特徴も言語習熟度の全次元において一貫した最高の性能を得られていないことを示唆する。
論文 参考訳(メタデータ) (2021-02-25T16:23:52Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - TyDi QA: A Benchmark for Information-Seeking Question Answering in
Typologically Diverse Languages [27.588857710802113]
TyDi QAは、204Kの問合せ対を持つ11の類型的多様言語をカバーする質問応答データセットである。
本稿では,観測された言語現象のデータ品質と例レベルの定性言語分析について定量的に分析する。
論文 参考訳(メタデータ) (2020-03-10T21:11:53Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。