論文の概要: TeleCrowd: A Crowdsourcing Approach to Create Informal to Formal Text
Corpora
- arxiv url: http://arxiv.org/abs/2004.11771v1
- Date: Fri, 24 Apr 2020 14:32:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 06:12:31.774328
- Title: TeleCrowd: A Crowdsourcing Approach to Create Informal to Formal Text
Corpora
- Title(参考訳): TeleCrowd:Informal to Formal Text Corporaを作るためのクラウドソーシングアプローチ
- Authors: Vahid Masoumi, Mostafa Salehi, Hadi Veisi, Golnoush Haddadian, Vahid
Ranjbar, Mahsa Sahebdel
- Abstract要約: われわれはTelegram MessengerをベースとしたクラウドソーシングプラットフォームTeleCrowdを提案している。
本研究では,2700人の候補者と21000人の投票者が参加し,最上位の候補者を用いた並列データセットを作成した。
収集したデータセットからBLEUスコア0.54を達成し,提案するプラットフォームを用いて大規模コーパスを作成可能であることを示した。
- 参考スコア(独自算出の注目度): 2.666873129054222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowdsourcing has been widely used recently as an alternative to traditional
annotations that is costly and usually done by experts. However, crowdsourcing
tasks are not interesting by themselves, therefore, combining tasks with game
will increase both participants motivation and engagement. In this paper, we
have proposed a gamified crowdsourcing platform called TeleCrowd based on
Telegram Messenger to use its social power as a base platform and facilitator
for accomplishing crowdsourcing projects. Furthermore, to evaluate the
performance of the proposed platform, we ran an experimental crowdsourcing
project consisting of 500 informal Persian sentences in which participants were
supposed to provide candidates that were the formal equivalent of sentences or
qualify other candidates by upvoting or downvoting them. In this study, 2700
candidates and 21000 votes were submitted by the participants and a parallel
dataset using candidates with the highest points, sum of their upvotes and
downvotes, as the best candidates was built. As the evaluation, BLEU score of
0.54 was achieved on the collected dataset which shows that our proposed
platform can be used to create large corpora. Also, this platform is highly
efficient in terms of time period and cost price in comparison with other
related works, because the whole duration of the project was 28 days at a cost
of 40 dollars.
- Abstract(参考訳): クラウドソーシングは、コストがかかり、通常は専門家によって行われる従来のアノテーションの代替として、近年広く使われている。
しかし、クラウドソーシングタスクはそれ自体が面白くないため、ゲームとタスクを組み合わせることで、参加者のモチベーションとエンゲージメントが増大する。
本稿では,Telegram MessengerをベースとしたクラウドソーシングプラットフォームTeleCrowdを提案し,そのソーシャルパワーをベースプラットフォームとして活用し,クラウドソーシングプロジェクトを実現する。
さらに,提案するプラットフォームの性能を評価するために,500文の非公式ペルシア語文からなる実験的なクラウドソーシングプロジェクトを実施した。
本研究は,2700人の候補者と21000人の票が提出され,最上位の候補者と上位の候補者と下位の候補者の総和を用いた並列データセットが構築された。
その結果, BLEUスコアは0.54であり, 提案するプラットフォームを用いて大規模コーパスを作成可能であることがわかった。
また、このプラットフォームは、他の関連作品と比較して、時間とコストの面で非常に効率が良く、プロジェクト全体の期間は、40ドルというコストで28日間であった。
関連論文リスト
- Towards Personalized Evaluation of Large Language Models with An
Anonymous Crowd-Sourcing Platform [64.76104135495576]
大規模言語モデルのための匿名クラウドソーシング評価プラットフォームであるBingJianを提案する。
このプラットフォームを通じて、ユーザーは質問を提出し、パーソナライズされ、潜在的に幅広い機能でモデルをテストできる。
論文 参考訳(メタデータ) (2024-03-13T07:31:20Z) - Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference [48.99117537559644]
人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。
本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。
本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
論文 参考訳(メタデータ) (2024-03-07T01:22:38Z) - MyVoice: Arabic Speech Resource Collaboration Platform [8.098700090427721]
MyVoiceはアラビア語の音声を集めるためのクラウドソーシングプラットフォームだ。
MyVoiceは、コントリビュータが都市レベルの微粒な方言を選択することを可能にする。
ユーザーはコントリビュータとアノテータの間で役割を切り替えることができる。
論文 参考訳(メタデータ) (2023-07-23T07:13:30Z) - Game of Privacy: Towards Better Federated Platform Collaboration under
Privacy Restriction [95.12382372267724]
Vertical Federated Learning (VFL)は、異なるプラットフォームに格納された異なる機能空間を持つクロスサイロデータからモデルをトレーニングすることを目的としている。
フェデレーション学習の固有のプライバシーリスクのため、関連するデータの総量は制限される可能性がある。
我々は、VFLフレームワークのマルチプラットフォーム情報を活用して、各プラットフォームが自身のタスクに役立てることができるような、相互協力を通じて、異なるプラットフォームをインセンティブにすることを提案する。
論文 参考訳(メタデータ) (2022-02-10T16:45:40Z) - Detecting Speaker Personas from Conversational Texts [52.4557098875992]
本研究では,平易な会話テキストに基づく話者ペルソナの検出を目的とした,話者ペルソナ検出(SPD)という新しいタスクについて検討する。
我々は、Persona Match on Persona-Chat (PMPC)と呼ばれるSPDのためのデータセットを構築している。
本稿では,複数のベースラインモデルを評価し,この課題に対する発話対注目(U2P)マッチングネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-03T06:14:38Z) - DeliData: A dataset for deliberation in multi-party problem solving [17.152995902615235]
リソース不足のため、グループ協議が実施されている。
グループ会話の64%では、グループメンバーは個人が特定したよりも優れたソリューションを見つけることができる。
最終解答として正解を得たグループの43.8%では、参加者の1人ひとりが正しい解答をしていない。
論文 参考訳(メタデータ) (2021-08-11T15:13:07Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - What Ingredients Make for an Effective Crowdsourcing Protocol for
Difficult NLU Data Collection Tasks? [31.39009622826369]
我々は、データ品質を改善する方法として、先行研究で提案された介入の有効性を比較した。
我々は,NLU例の難易度を高めるための非効率なスタンドアロン戦略として,実例の説明書を書くよう労働者に求めていることを見出した。
専門家評価を伴う反復的プロトコルからのデータは、いくつかの尺度によりより困難であることが観察された。
論文 参考訳(メタデータ) (2021-06-01T21:05:52Z) - UPB at SemEval-2020 Task 9: Identifying Sentiment in Code-Mixed Social
Media Texts using Transformers and Multi-Task Learning [1.7196613099537055]
本研究チームは,SemEval-2020 Task 9のために開発したシステムについて述べる。
私たちは、ヒンディー語とスペイン語の2つのよく知られた混成言語をカバーすることを目指しています。
提案手法は, 平均F1スコアが0.6850であるヒンディー語タスクにおいて, 有望な性能を達成する。
スペイン語と英語のタスクでは、29人中17人として、平均で0.7064のF1スコアを獲得しました。
論文 参考訳(メタデータ) (2020-09-06T17:19:18Z) - SemEval-2020 Task 10: Emphasis Selection for Written Text in Visual
Media [50.29389719723529]
本稿では,SemEval-2020 Task 10, Emphasis Selection for Written Text in Visual Media の主な成果とその結果を比較した。
この共有タスクの目的は、強調選択のための自動メソッドを設計することである。
タスクに送信されたシステムの解析は、BERTとRoBERTaが、トレーニング済みモデルの最も一般的な選択であることを示している。
論文 参考訳(メタデータ) (2020-08-07T17:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。