論文の概要: Gamified Crowdsourcing for Idiom Corpora Construction
- arxiv url: http://arxiv.org/abs/2102.00881v1
- Date: Mon, 1 Feb 2021 14:44:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:47:13.731344
- Title: Gamified Crowdsourcing for Idiom Corpora Construction
- Title(参考訳): イディオムコーポラ建設のためのガミファイドクラウドソーシング
- Authors: G\"ul\c{s}en Eryi\u{g}it, Ali \c{S}enta\c{s}, Johanna Monti
- Abstract要約: 本稿では,慣用的な表現のための言語学習教材を収集するための,ゲーミフィケーションなクラウドソーシング手法を紹介する。
メッセージングボットは、互いに競合するネイティブスピーカーのための非同期マルチプレイヤーゲームとして設計されている。
このアプローチは、異なる自然言語に対するイディオムコーパスの構築を高速化する可能性があることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning idiomatic expressions is seen as one of the most challenging stages
in second language learning because of their unpredictable meaning. A similar
situation holds for their identification within natural language processing
applications such as machine translation and parsing. The lack of high-quality
usage samples exacerbates this challenge not only for humans but also for
artificial intelligence systems. This article introduces a gamified
crowdsourcing approach for collecting language learning materials for idiomatic
expressions; a messaging bot is designed as an asynchronous multiplayer game
for native speakers who compete with each other while providing idiomatic and
nonidiomatic usage examples and rating other players' entries. As opposed to
classical crowdprocessing annotation efforts in the field, for the first time
in the literature, a crowdcreating & crowdrating approach is implemented and
tested for idiom corpora construction. The approach is language independent and
evaluated on two languages in comparison to traditional data preparation
techniques in the field. The reaction of the crowd is monitored under different
motivational means (namely, gamification affordances and monetary rewards). The
results reveal that the proposed approach is powerful in collecting the
targeted materials, and although being an explicit crowdsourcing approach, it
is found entertaining and useful by the crowd. The approach has been shown to
have the potential to speed up the construction of idiom corpora for different
natural languages to be used as second language learning material, training
data for supervised idiom identification systems, or samples for lexicographic
studies.
- Abstract(参考訳): 慣用的な表現を学ぶことは、その予測不可能な意味のために第二言語学習の最も困難な段階の1つと見なされます。
同様の状況は、機械翻訳や構文解析などの自然言語処理アプリケーション内での識別にも当てはまる。
高品質の使用サンプルの欠如は、人間だけでなく人工知能システムにとってもこの課題を悪化させます。
本稿では,慣用的・非慣用的な使用例を提供し,他のプレイヤーのエントリーを評価しながら,互いに競合するネイティブスピーカーのための非同期マルチプレイヤーゲームとして,メッセージングボットを設計する。
古典的なクラウドプロセッシングアノテーションの分野への取り組みとは対照的に,文献の中では初めて,クラウドプロセッシングとクラウドプロセッシングのアプローチが実装され,イディオムコーパス構築のためにテストされている。
このアプローチは言語に依存しず、フィールドの従来のデータ準備技術と比較して2つの言語で評価されます。
群衆の反応は、異なる動機づけの手段(すなわち、ゲーミフィケーションと金銭的報酬)で監視される。
その結果, 提案手法は対象資料の収集に有効であり, 露骨なクラウドソーシング手法であるにもかかわらず, 観客を楽しませ, 有用であることがわかった。
このアプローチは、第二言語学習教材として使用する異なる自然言語のためのイディオムコーパスの構築、教師付きイディオム識別システムのためのトレーニングデータ、辞書研究のためのサンプルをスピードアップする可能性があることが示されている。
関連論文リスト
- Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Learning an Artificial Language for Knowledge-Sharing in Multilingual
Translation [15.32063273544696]
コードブック内のエントリにエンコーダ状態を割り当てることで,多言語モデルの潜伏空間を識別する。
我々は,現実的なデータ量と領域を用いた大規模実験へのアプローチを検証する。
また、学習した人工言語を用いてモデル行動を分析し、類似のブリッジ言語を使用することで、残りの言語間での知識共有が向上することを発見した。
論文 参考訳(メタデータ) (2022-11-02T17:14:42Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - A simple language-agnostic yet very strong baseline system for hate
speech and offensive content identification [0.0]
古典的な教師付きアルゴリズムに基づくシステムは、文字n-gramのみを供給し、したがって完全に言語に依存しないシステムを提案する。
英語では中程度のパフォーマンスに達しており、ディープラーニングアプローチの開発が容易な言語である。
これらの言語の3つのタスクでパフォーマンスが平均化され、多くのディープラーニングアプローチを上回ります。
論文 参考訳(メタデータ) (2022-02-05T08:09:09Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - It's All in the Heads: Using Attention Heads as a Baseline for
Cross-Lingual Transfer in Commonsense Reasoning [4.200736775540874]
我々は,重みを重み付けした線形分類器を特徴として訓練するコモンセンス推論への簡単なアプローチを設計する。
本手法は,近年のコモンセンス推論における教師なし・教師なしの手法と競合する。
パフォーマンスの大部分は、すべての研究対象言語に対する注目の小さなサブセットによって与えられる。
論文 参考訳(メタデータ) (2021-06-22T21:25:43Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。