論文の概要: Around the world in 60 words: A generative vocabulary test for online
research
- arxiv url: http://arxiv.org/abs/2302.01614v1
- Date: Fri, 3 Feb 2023 09:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 16:43:53.230434
- Title: Around the world in 60 words: A generative vocabulary test for online
research
- Title(参考訳): 60語で世界の周辺:オンライン研究のための生成語彙テスト
- Authors: Pol van Rijn, Yue Sun, Harin Lee, Raja Marjieh, Ilia Sucholutsky,
Francesca Lanzarini, Elisabeth Andr\'e, Nori Jacoby
- Abstract要約: ウィキペディアのテキストを用いて語彙テストを生成する自動パイプラインを提案する。
我々のパイプラインは希少な名詞をサンプリングし、同じ低レベル統計を持つ擬似単語を生成する。
私たちのテストは8つの言語で利用可能で、簡単に他の言語に拡張できます。
- 参考スコア(独自算出の注目度): 12.91296932597502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conducting experiments with diverse participants in their native languages
can uncover insights into culture, cognition, and language that may not be
revealed otherwise. However, conducting these experiments online makes it
difficult to validate self-reported language proficiency. Furthermore, existing
proficiency tests are small and cover only a few languages. We present an
automated pipeline to generate vocabulary tests using text from Wikipedia. Our
pipeline samples rare nouns and creates pseudowords with the same low-level
statistics. Six behavioral experiments (N=236) in six countries and eight
languages show that (a) our test can distinguish between native speakers of
closely related languages, (b) the test is reliable ($r=0.82$), and (c)
performance strongly correlates with existing tests (LexTale) and self-reports.
We further show that test accuracy is negatively correlated with the linguistic
distance between the tested and the native language. Our test, available in
eight languages, can easily be extended to other languages.
- Abstract(参考訳): ネイティブ言語における多様な参加者による実験を行うことで、文化、認知、言語に関する洞察を明らかにすることができる。
しかし,これらの実験をオンラインで行うと,自己報告型言語能力の検証が困難になる。
さらに、既存の熟練度テストは小さく、少数の言語しかカバーしていない。
ウィキペディアのテキストを用いて語彙テストを生成する自動パイプラインを提案する。
我々のパイプラインは希少名詞をサンプリングし、同じ低レベル統計量を持つ擬似語を生成する。
6カ国8言語における6つの行動実験(N=236)
a)我々のテストは、密接に関連する言語のネイティブ話者を区別することができる。
(b)検査は信頼性(r=0.82$)で、
(c) パフォーマンスは既存のテスト(LexTale)と自己レポートと強く相関する。
さらに,テスト精度は,テスト言語とネイティブ言語との言語的距離と負の相関関係を示す。
私たちのテストは8つの言語で利用可能で、簡単に他の言語に拡張できます。
関連論文リスト
- Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - A Computational Model for the Assessment of Mutual Intelligibility Among
Closely Related Languages [1.5773159234875098]
密接に関連する言語は、ある言語の話者が積極的に学習することなく他の言語の話者を理解することができる言語類似性を示す。
相互の知性は程度によって異なり、典型的には精神言語実験でテストされる。
本稿では,人間による言語学習の認知過程を近似するために,線形識別学習システムを用いたコンピュータ支援手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T11:32:13Z) - Matching Tweets With Applicable Fact-Checks Across Languages [27.762055254009017]
ソーシャルメディア投稿(ツイート)のクレームに対する既存のファクトチェックを自動的に見つけることに重点を置いています。
モノリンガル(英語のみ)、マルチリンガル(スペイン語、ポルトガル語)、クロスリンガル(ヒンディー語-英語)の設定において、分類と検索の両方の実験を行う。
4つの言語対における「マッチ」分類(平均精度93%)の有望な結果を示す。
論文 参考訳(メタデータ) (2022-02-14T23:33:02Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - MultiAzterTest: a Multilingual Analyzer on Multiple Levels of Language
for Readability Assessment [0.0]
MultiAzterTestは、125以上の凝集度、言語、可読性のテキストを分析する、オープンソースのNLPツールである。
MultiAzterTestは、言語横断的な機能を使用して、より複雑なものと単純なものとの競争結果も得る。
論文 参考訳(メタデータ) (2021-09-10T13:34:52Z) - Improving Multilingual Models with Language-Clustered Vocabularies [8.587129426070979]
本稿では,複数の自動派生言語クラスタの別々に訓練された語彙を組み合わせた多言語語彙生成のための新しい手法を提案する。
我々の実験は、主要なマルチ言語ベンチマークタスクにおける言語間の改善を示す。
論文 参考訳(メタデータ) (2020-10-24T04:49:15Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。