論文の概要、ライセンス

# (参考訳) コードミキシングタミル英語コメントからの攻撃的スパン識別における共有課題の発見 [全文訳有]

Findings of the Shared Task on Offensive Span Identification from Code-Mixed Tamil-English Comments ( http://arxiv.org/abs/2205.06118v1 )

ライセンス: CC BY 4.0
Manikandan Ravikiran, Bharathi Raja Chakravarthi, Anand Kumar Madasamy, Sangeetha Sivanesan, Ratnavel Rajalakshmi, Sajeetha Thavareesan, Rahul Ponnusamy, Shankar Mahadevan./(参考訳) ソーシャルメディアプラットフォームでは、攻撃的なコンテンツモデレーションが、健全なオンライン議論をサポートする上で不可欠である。 しかし、codemixed dravidian言語における彼らの流行は、攻撃性に寄与する部分を特定することなくコメント全体を分類することに限定されている。 このような制限は、主に攻撃的なスパンの注釈付きデータがないためである。 したがって、この共有タスクでは、タミル語でコード入りのソーシャルコメントを攻撃的なスパンで提供します。 本稿では,提案システムから得られたデータセット,方法,結果について概説する。

Offensive content moderation is vital in social media platforms to support healthy online discussions. However, their prevalence in codemixed Dravidian languages is limited to classifying whole comments without identifying part of it contributing to offensiveness. Such limitation is primarily due to the lack of annotated data for offensive spans. Accordingly, in this shared task, we provide Tamil-English code-mixed social comments with offensive spans. This paper outlines the dataset so released, methods, and results of the submitted systems
公開日: Thu, 12 May 2022 14:31:57 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
2 2 0 2 y a M 2 1 2 2 0 2 y a m 2 1 である。 0.52
] L C . s c [ 1 v 8 1 1 6 0 ]LC。 sc [ 1 v 8 1 1 6 0 0.30
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Findings of the Shared Task on Offensive Span Identification from 攻撃時スパン識別における共有課題の発見 0.63
Code-Mixed Tamil-English Comments コード混合タミル英語コメント 0.56
Manikandan Ravikiran†∗, Bharathi Raja Chakravarthi‡, Anand Kumar Madasamy(cid:63) マニカンダン・ラヴィキラン(Manikandan Ravikiran)*, Bharathi Raja Chakravarthi, Anand Kumar Madasamy (cid:63) 0.84
Sangeetha Sivanesan ◦, Ratnavel Rajalakshmi ⊕, Sajeetha Thavareesan(cid:5) サンギータ・シヴァネサン(sangeetha sivanesan)、ラトナヴェル・ラジャラクシミ(rajalakshmi)、サジェタ・タヴァレサン(sajeetha thavareesan、cid:5) 0.53
Rahul Ponnusamy (cid:9), Shankar Mahadevan(cid:46)(ci d:47) †Georgia Institute of Technology, Atlanta, Georgia Rahul Ponnusamy (cid:9), Shankar Mahadevan (cid:46)(cid:47) ジョージア・アトランタのジョージア工科大学 0.83
‡Data Science Institute, National University of Ireland Galway (cid:63)National Institute of Technology Karnataka Surathkal, India アイルランド国立大学ガルウェイ研究センター(ID:63)インド・カルナタカ・スラトカル国立技術研究所 0.60
◦National Institute of Technology, Trichy, India ⊕Vellore Institute of Technology, Chennai, India インド・トリキ国立技術研究所 チェンナイ・ヴェロア技術研究所 0.45
(cid:5)Eastern University, Sri Lanka (cid:5)東大学スリランカ 0.71
(cid:9)Indian Institute of Information Technology and Management, Kerala, India (cid:9)インド・ケララのインド情報技術管理研究所 0.73
(cid:46)(cid:47)Thia garajar College of Engineering, Madurai, India (cid:46)(cid:47)インド・マドゥライのティアガラジャル工学大学 0.75
mravikiran3@gatech.e du, bharathi.raja@insigh t-centre.org mravikiran3@gatech.e du, bharathi.raja@insigh t-centre.org 0.28
Abstract Offensive content moderation is vital in social media platforms to support healthy online discussions. 概要 ソーシャルメディアプラットフォームでは、攻撃的なコンテンツモデレーションが、健全なオンライン議論をサポートする上で不可欠である。 0.47
However, their prevalence in codemixed Dravidian languages is limited to classifying whole comments without identifying part of it contributing to offensiveness. しかし、codemixed dravidian言語における彼らの流行は、攻撃性に寄与する部分を特定することなくコメント全体を分類することに限定されている。 0.54
Such limitation is primarily due to the lack of annotated data for offensive spans. このような制限は、主に攻撃的なスパンの注釈付きデータがないためである。 0.63
Accordingly, in this shared task, we provide Tamil-English code-mixed social comments with offensive spans. したがって、この共有タスクでは、タミル語でコード入りのソーシャルコメントを攻撃的なスパンで提供します。 0.50
This paper outlines the dataset so released, methods, and results of the submitted systems. 本稿では,提案システムから得られたデータセット,メソッド,結果について概説する。 0.72
1 Introduction Combating offensive content is crucial for different entities involved in content moderation, which includes social media companies as well as individuals (Kumaresan et al , 2021; Chakravarthi and Muralidaran, 2021). 1 はじめに 攻撃的なコンテンツと戦うことは、ソーシャルメディア企業や個人を含むコンテンツモデレーションに関わるさまざまな組織にとって不可欠である(kumaresan et al, 2021; chakravarthi and muralidaran, 2021)。 0.58
To this end, moderation is often restrictive with either usage of human content moderators, who are expected to read through the content and flag the offensive mentions (Arsht and Etcovitch, 2018). この目的のために、モデレーションは人間のコンテンツモデレーターの使用によって制限され、コンテンツを読み、攻撃的な言及にフラグを付けることが期待されている(Arsht and Etcovitch, 2018)。 0.65
Alternatively, there are semi-automated and automated tools that employ trivial algorithms and block lists (Jhaver et al , 2018). あるいは、自明なアルゴリズムとブロックリストを使用する半自動化された自動ツールもある(Jhaver et al , 2018)。 0.80
Though content moderation looks like a one-way street, where either it should be allowed or removed, such decision-making is fairly hard. コンテンツモデレーションは、許可または削除されるべき片道通りのように見えますが、そのような意思決定はかなり難しいです。 0.75
This is more significant, especially on social media platforms, where the sheer volume of content これは、特に大量のコンテンツがあるソーシャルメディアプラットフォームにおいて、より重要となる。 0.77
∗Corresponding Author is overwhelming for human moderators especially. ∗ 対応作者 特に人間のモデレーターにとっては 圧倒的です 0.55
With ever increasing offensive social media contents focusing "racism", "sexism", "hate speech", "aggressiveness" etc. semi-automated and fully automated content moderation is favored (Priyadharshini et al , 2021; Chakravarthi et al , 2020b; Sampath et al , 2022). 人種差別、セクシズム、ヘイトスピーチ、アグレッシブネス等に焦点を当てた攻撃的なソーシャルメディアコンテンツの増加とともに、半自動的で完全に自動化されたコンテンツモデレーションが好まれる(Priyadharshini et al , 2021; Chakravarthi et al , 2020b; Sampath et al , 2022)。 0.85
However, most of the existing works (Zampieri et al , 2020; Chakravarthi et al , 2022a; Bharathi et al , 2022; Priyadharshini et al , 2022) are restricted to English only, with few of them permeating into research that focuses on a more granular understanding of offensiveness. しかし、現存する作品(Zampieri et al , 2020; Chakravarthi et al , 2022a; Bharathi et al , 2022; Priyadharshini et al , 2022)のほとんどは英語のみに限られており、攻撃性のより詳細な理解に焦点を当てた研究に浸透しているものは少ない。 0.88
Tamil is a agglutinative language from the Dravidian language family dating back to the 580 BCE (Sivanantham and Seran, 2019). タミル語(tamil)は、紀元前580年に遡るドラヴィダ語族(シヴァンタム語、セラン語、2019年)の言語である。 0.62
It is widely spoken in the southern state of Tamil Nadu in India, Sri Lanka, Malaysia, and Singapore. インド南部のタミル・ナードゥ州、スリランカ州、マレーシア、シンガポールで広く話されている。 0.51
Tamil is an official language of Tamil Nadu, Sri Lanka, Singapore, and the Union Territory of Puducherry in India. タミル語(タミル語: Tamil Nadu)は、シンガポールのスリランカ州タミル・ナドゥと、インドのプドゥチェリ連邦準州の公用語である。 0.67
Significant minority speak Tamil in the four other South Indian states of Kerala, Karnataka, Andhra Pradesh, and Telangana, as well as the Union Territory of the Andaman and Nicobar Islands (Sakuntharaj and Mahesan, 2021, 2017, 2016; Thavareesan and Mahesan, 2019, 2020a,b, 2021). 他の4つの南インド州、ケララ州、カルナタカ州、アンドラ・プラデーシュ州、テランガナ州、およびアンダマン諸島とニコバル諸島の連合領(Sakuntharaj and Mahesan, 2021, 2017; Thavareesan and Mahesan, 2019, 2020a,b, 2021)でタミル語が話されている。 0.78
It is also spoken by the Tamil diaspora, which may be found in Malaysia, Myanmar, South Africa, the United Kingdom, the United States, Canada, Australia, and Mauritius. タミル・ディアスポラはマレーシア、ミャンマー、南アフリカ、イギリス、アメリカ合衆国、カナダ、オーストラリア、モーリシャスでも話されている。
訳抜け防止モード: また、マレーシアで見られるタミル・ディアスポラ(Tamil diaspora)にも話されている。 ミャンマー、南アフリカ、イギリス、アメリカ合衆国 カナダ、オーストラリア、モーリシャス。
0.57
Tamil is also the native language of Sri Lankan Moors. タミル語はスリランカ・ムーア語の母語でもある。 0.72
Tamil, one of the 22 scheduled languages in the Indian Constitution, was the first to be designated as a classical language of India (Subalalitha, 2019; Srinivasan and インド憲法における22の言語のうちの1つであるタミル語は、インドで最初に古典言語に指定された言語である(subalalitha, 2019; srinivasan and)。 0.75
英語(論文から抽出)日本語訳スコア
Subalalitha, 2019; Narasimhan et al , 2018). Subalalitha, 2019; Narasimhan et al , 2018)。 0.41
Tamil is one of the world’s longest-surviving classical languages. タミル語は世界最長の古典言語の一つである。 0.71
The earliest epigraphic documents discovered on rock edicts and "hero stones" date from the 6th century BC. 岩の碑文や「英雄の石」で発見された最古のエピグラフィック文書は紀元前6世紀にさかのぼる。 0.67
Tamil has the oldest ancient non-Sanskritic Indian literature of any Indian language (Anita and Subalalitha, 2019b,a; Subalalitha and Poovammal, 2018). タミル語は、どのインド言語でも最古の非サンスクリット文学である(Anita and Subalalitha, 2019b,a; Subalalitha and Poovammal, 2018)。 0.83
Despite its own script, with the advent of social media, code-switching has permeated into the Tamil language across informal contexts like forums and messaging outlets (Chakravarthi et al , 2019, 2018; Ghanghor et al , 2021a,b; Yasaswini et al , 2021). 独自のスクリプトにもかかわらず、ソーシャルメディアの出現とともに、コードスイッチングはフォーラムやメッセージアウトレットといった非公式な文脈でタミル語に浸透した(Chakravarthi et al , 2019, 2018; Ghanghor et al , 2021a, b; Yasaswini et al , 2021)。 0.82
As a result, codeswitched content is part and parcel of offensive conversations in social media. 結果として、codeswitched contentは、ソーシャルメディアにおける攻撃的な会話の一部であり、部分的なものだ。 0.58
Despite many recent NLP advancements, handling code-mixed offensive content is still a challenge in Dravidian Languages (Sitaram et al , 2019) including Tamil owing to limitations in data and tools. 最近のNLPの進歩にもかかわらず、データやツールの制限のため、Dravidian Languages(Sitaram et al , 2019)では、コード混在の攻撃的コンテンツを扱うことが依然として難しい。 0.61
However, recently the research of offensive code-mixed texts in Dravidian languages has seen traction (Chakravarthi et al , 2021, 2020a; Priyadharshini et al , 2020; Chakravarthi, 2020). しかし、近年、ドラヴィダ語における攻撃的なコード混合テキストの研究が牽引されている(Chakravarthi et al , 2021, 2020a; Priyadharshini et al , 2020; Chakravarthi, 2020)。 0.82
Yet, very few of these focus on identifying the spans that make a comment offensive (Ravikiran and Annamalai, 2021). しかし、コメント攻撃を行うスパンを特定することに焦点を絞ったものはほとんどない(ravikiran and annamalai, 2021)。 0.70
But accentuating such spans can help content moderators and semi-automated tools which prefer attribution instead of just a systemgenerated unexplained score per comment. しかし、このようなスパンのアクセント付けは、コメントごとにシステム生成された説明されていないスコアではなく、属性を好むコンテンツモデレーターや半自動化ツールに役立つ。 0.46
Accordingly, in this shared task, we provided code-mixed social media text for the Tamil language with offensive spans inviting participants to develop and submit systems under two different settings. そこで,本課題では,タミル語にコード混合したソーシャルメディアテキストを攻撃的スパンで提供し,参加者に2つの異なる設定でシステムの開発と提出を依頼する。 0.69
Our CodaLab website1 will remain open to foster further research in this area. 当社のCodaLab Webサイト1は、この分野のさらなる研究を促進するためにオープンのままです。 0.60
2 Related Work 2.1 Offensive Span Identification Much of the literature related to offensive span identification find their roots in SemEval Offensive Span identification shared task focusing on English Language (Pavlopoulos et al , 2021), with development of more than 36 different systems using a variety of approaches. 2 攻撃的スパン識別に関する文献の多くは、英語(Pavlopoulos et al , 2021)に着目したSemEval攻撃的スパン識別タスクにおいて、様々なアプローチを用いて36以上の異なるシステムを開発することにより、そのルーツを見いだすことができる。
訳抜け防止モード: 2 関連作業 2.1 攻撃的スパン識別に関する文献の多くは、英語(Pavlopoulos et al, 2021)に着目したSemEval 攻撃的スパン識別タスクにおいて、そのルーツを見いだしている。 36以上の異なるシステムを開発し 様々なアプローチを使っています
0.77
Notable among these include work by Zhu et al (2021) that uses token labeling using one or more language models with a combination of Conditional Random Fields (CRF). 中でも注目すべきなのは、Zhu et al (2021)による1つ以上の言語モデルと条件付きランダムフィールド(CRF)を組み合わせたトークンラベルの使用である。 0.76
These approaches often rely on BIO encoding of the text corresponding to offensive spans. これらのアプローチは、しばしば攻撃的スパンに対応するテキストのBIO符号化に依存している。 0.59
Al- 1https://competition s.codalab.org/ アル 1https://competition s.codalab.org/ 0.42
competitions/36395 コンペティション36395 0.46
ternatively, some systems employ post-processing on these token level labels, including re-ranking and stacked ensembling for predictions (Nguyen et al , 2021). 第三に、いくつかのシステムはこれらのトークンレベルラベルにポストプロセッシングを採用しており、例えば、予測のための再ランク付けとスタック化センスリング (nguyen et al , 2021) がある。
訳抜け防止モード: 第三に、いくつかのシステムはこれらのトークンレベルラベルにpost- processingを使用している。 re - ranking and stacked ensembling for predictions (nguyen et al, 2021)を含む。
0.53
Then, there are exciting works of Rusert (2021); Pluci´nski and Klimczak (2021) that exploit rationale extraction mechanism with pretrained classifiers on external offensive classification datasets to produce toxic spans as explanations of the decisions of the classifiers. 次に、Rusert (2021) と Pluci ́nski と Klimczak (2021) のエキサイティングな作品があり、これは、外部攻撃的分類データセット上の事前訓練された分類器による合理的抽出機構を利用して、分類器の決定の説明として有毒なスパンを生成する。 0.62
Lexicon-based baseline models, which uses look-up operations for offensive words (Burtenshaw and Kestemont, 2021) and run statistical analysis (Palomino et al , 2021) are also widely explored. 攻撃的単語のルックアップ操作(burtenshaw and kestemont, 2021)と統計解析の実行(palomino et al, 2021)を使用する、レキシコンベースのベースラインモデルも広く研究されている。 0.79
Finally, there are a few approaches that employ custom loss functions tailored explicitly for false spans. 最後に、偽スパン用に明示的に調整されたカスタム損失関数を使用するいくつかのアプローチがある。 0.54
For code-mixed Tamil-English to date, there is only preliminary work by Ravikiran and Annamalai (2021) that uses token level labeling. コードミックスされたタミル英語では、raviranとannamalai(2021年)によるトークンレベルのラベリングの予備作業のみである。 0.68
3 Task Description Our task of offensive span identification required participants to identify offensive spans i.e, character offsets that were responsible for the offensive of the comments, when identifying such spans was possible. 3 タスク記述 我々の攻撃的スパン識別のタスクは、参加者が攻撃的スパン、すなわち、そのようなスパンを識別できるときに、コメントを攻撃する責任を負う文字オフセットを識別することを必要とした。
訳抜け防止モード: 3 タスク記述 我々の攻撃的スパン識別の課題は、参加者が攻撃的スパンを特定することを必要とした。 コメントの攻撃に責任がある文字のオフセット このようなスパンの特定は可能でした
0.66
To this end, we created two subtasks each of which are as described. この目的のために、私たちは2つのサブタスクを作成しました。 0.55
Example of offensive span is shown in Figure 1 攻撃的スパンの例を図1に示す。 0.73
3.1 Subtask 1: Supervised Offensive Span 3.1 Subtask 1: Supervised Offensive Span 0.47
Identification Given comments and annotated offensive spans for training, here the systems were asked to identify the offensive spans in each of the comments in test data. 識別 トレーニングのためにコメントと注釈付き攻撃スパンが与えられた場合、システムはテストデータ内の各コメントの攻撃スパンを特定するように求められた。 0.66
This task could be approached as supervised sequence labeling, training on the provided posts with gold offensive spans. この任務は、ゴールド・アサルト・スパンで提供されたポストの訓練である、教師付きシーケンスラベリングとしてアプローチすることができる。 0.43
It could also be treated as rationale extraction using classifiers trained on other datasets of posts manually annotated for offensiveness classification, without any span annotations. また、スパンアノテーションを使わずに、攻撃性の分類のために手動で注釈付けされたポストの他のデータセットで訓練された分類器を使って合理的抽出として扱うこともできる。 0.48
3.2 Subtask 2: Semi-supervised Offensive 3.2 Subtask 2: 半監督攻撃 0.72
Span Identification All the participants of subtask 1 were also encouraged to submit a system to subtask 2 using semisupervised approaches. スパン識別 subtask 1 のすべての参加者は、半教師付きアプローチを使って subtask 2 にシステムを送るように勧められた。 0.62
Here in addition to training data of subtask 1, more unannotated data was provided. ここではサブタスク1のトレーニングデータに加えて、さらに注釈のないデータが提供されている。 0.59
Participants were asked to develop systems using both of these datasets together. 参加者は両方のデータセットを使ってシステムを開発するよう求められた。 0.62
To this end, the unannotated data was allowed to be used in anyway as necessary to aid in overall model この目的のために、アノテートされていないデータは、全体モデルを支援するために必要に応じて使用することができる。
訳抜け防止モード: この目的のために、注釈のないデータは許可された モデル全体を支援するために,必要に応じて使用する
0.71
英語(論文から抽出)日本語訳スコア
Figure 1: Example Offensive Span Identification from Code-Mixed Tamil-English Text 図1:コードミスタミル英語テキストからの攻撃的スパン識別例 0.69
Figure 2: Annotation of offensive spans using Doccano. 図2: doccanoを使用した攻撃的スパンのアノテーション。 0.64
development including creating semi-supervised annotations, ranking based on similarity etc. 半教師付きアノテーションの作成、類似性に基づくランキングなどを含む開発 0.69
4 Dataset For this shared task, we build upon dataset from earlier work of Ravikiran and Annamalai (2021), which originally released 4786 code-mixed TamilEnglish comments with 6202 offensive spans. この共有タスクのデータセットは、ravikiranとannamalai(2021年)の以前の作業から得られたデータセットに基づいて構築されます。
訳抜け防止モード: 4 データセット この共有タスクでは、Ravikiranの以前の作業からデータセットを構築します。 そしてアンナマライ(2021年) 元々は4786のコードをリリースした。
0.67
We released this dataset to the participants during training phase for model development. 私たちはこのデータセットを,モデル開発のトレーニングフェーズの参加者にリリースしました。 0.62
Meanwhile for testing we extended this dataset with new additional annotated comments. 一方、テストでは、新たな注釈付きコメントでこのデータセットを拡張しました。 0.53
To this end, we use dataset of Chakravarthi et al (2022b) that consist of 10K+ offensive comments. この目的のために、私たちは10K以上の攻撃的なコメントからなるChakravarthi et al (2022b)のデータセットを使用します。 0.62
From this we filter out comments that were already part of train set resulting 4442 comments suitable for annotation. この結果から、すでに列車設定の一部であったコメントをフィルタリングし、4442のコメントをアノテーションに適したものにしました。
訳抜け防止モード: ここからコメントをフィルタリングする。 すでに列車の一部だった 4442のコメントが アノテーションに適合した
0.74
Out of this we created 私たちが作ったものから 0.62
(a) 3742 comments were used for creating the test data and (a)テストデータの作成に3742のコメントが使用された 0.82
(b) 700 comments were used for training phase of subtask 2. b)サブタスク2のトレーニングフェーズには700のコメントが使用された。 0.74
Split Number of Sentences Number of unique tokens Number of annotated spans 分割 文章数 ユニークなトークンの数 注釈付きスパンの数 0.62
Average size of spans (# of characters) スパンの平均サイズ(文字数) 0.67
Min size of spans (# of characters) Max size of spans (# of characters) Number of unique tokens in spans スパンの最小サイズ(文字の#)スパンの最大サイズ(文字の#)スパンのユニークなトークンの数 0.66
Train 4786 22096 6202 21 4 82 Train 4786 22096 6202 21 4 82 0.43
10737 Test 876 5362 1025 21 3 85 1006 10737 Test 876 5362 1025 21 3 85 1006 0.43
Table 1: Dataset Statistics used in this shared task 表1: この共有タスクで使用されるデータセット統計 0.85
In line with earlier works (Ravikiran and Annamalai, 2021) for the 3742 comments we create span 以前の作品 (ravikiran and annamalai, 2021) と合わせて,3742のコメントスパンを作成した。 0.70
level annotations where at least two annotators annotated every comment. 少なくとも2つのアノテーションがすべてのコメントに注釈を付けているレベルアノテーション。 0.53
Additionally, we also employ similar guidelines for annotation, anonymity maintenance etc. さらに、アノテーションや匿名性維持など、同様のガイドラインも採用しています。 0.64
Besides, no annotator data was collected other than their educational background and their expertise in the Tamil language. また、タミル語の教育的背景や専門知識以外には注釈データも収集されなかった。 0.70
Additionally, all the annotators were informed in prior about the inherent profanity of the content along with an option to withdraw from the annotation process if necessary. さらに、すべてのアノテーションは、必要であればアノテーションプロセスから削除するオプションとともに、コンテンツの固有性について事前に通知された。 0.60
For annotation, we use doccano (Nakayama et al , 2018)which was locally hosted by each annotator. アノテーションには、各アノテーションがローカルにホストしたdoccano(nakayama et al , 2018)を使用します。 0.68
Within doccano, all the annotators were explicitly asked to create a single label called CAUSE with label id of 1, thus maintaining consistency of annotation labels. Doccano内では、すべてのアノテーションが明示的にCAUSEと呼ばれるラベルを1のラベルIDで作成するよう求められたため、アノテーションラベルの一貫性が保たれた。 0.61
(See Figure 2). To ensure quality each annotation was verified by one or more annotation verifier, prior to merging and creating gold standard test set. (図2参照)。 品質を保証するために、各アノテーションは金の標準テストセットをマージして作成する前に、1つ以上のアノテーション検証者によって検証された。 0.65
The overall dataset statistics is given in the Table 1. データセット全体の統計は表1で示されます。 0.86
Compared to train set, we can see that the test set consists of significantly lesser number of samples, this is because many of the comments were either small or were hard to clearly identify the offensive spans. 列車セットと比較して、テストセットはサンプルの数が非常に少ないことが分かる。これは、多くのコメントが小さいか、攻撃的なスパンを明確に識別することが困難であったためである。 0.69
Overall for the 876 comments we obtained Cohen’s Kappa inter-annotator agreement of 0.61 inline with Ravikiran and Annamalai (2021). 876のコメントを総合すると、cohenのkappaインターアノテータ合意は、ravikiranとannamalai(2021年)との0.01インラインであった。 0.51
英語(論文から抽出)日本語訳スコア
5 Competition Phases 5.1 Training Phase In the training phase, the train split with 4786 comments, and their annotated spans were released for model development. 5 コンペティションフェーズ 5.1 トレーニングフェーズ トレーニングフェーズでは、4786 コメントで列車が分割され、アノテーション付きスパンがモデル開発用にリリースされた。 0.72
Participants were given training data and offensive spans. 参加者には訓練データと攻撃スパンが与えられた。 0.57
No validation set was released; rather, participants were emphasized on cross-validation by creating their splits for preliminary evaluations or hyperparameter tuning. 検証セットはリリースされず、参加者は予備評価やハイパーパラメータチューニングのために分割を作成することで、クロスバリデーションを強調した。 0.59
In total, 30 participants registered for the task and downloaded the dataset. 合計30人がタスクに登録し、データセットをダウンロードした。 0.71
5.2 Testing Phase Test set comments without any span annotation were released in the testing phase. 5.2 テストフェーズ テストフェーズでは、スパンアノテーションのないコメントがリリースされた。 0.71
Each participating team was asked to submit their generated span predictions for evaluation. 各参加チームは、評価のために生成されたスパン予測を提出するよう求められた。 0.58
Predictions are submitted via Google form, which was used to evaluate the systems. 予測はGoogleフォーム経由で送信され、システムの評価に使用された。 0.69
Though CodaLab supports evaluation inherently, we used google form due to its simplicity. CodaLabは本質的に評価をサポートしていますが、単純さからGoogleフォームを使用しました。 0.57
Finally, we assessed the submitted spans of the test set and were scored using character-based F1 (See section 7.2). 最後に、テストセットのスパンを評価し、文字ベースのf1で得点した(セクション7.2)。 0.60
6 System Descriptions Overall we received only a total of 4 submissions (2 main + 2 additional) from two teams out of 30 registered participants. 6 システム説明 総じて、30人の登録参加者のうち2チームから4つの応募(メイン+2の追加)しか受け取れませんでした。 0.76
All these were only for subtask これらはすべてサブタスク専用です 0.65
1. No submissions were made for subtask 1.サブタスクの提出は行われなかった 0.74
2. Each of their respective systems are as described. 2.それぞれの制度が記載されている。 0.70
6.1 The NITK-IT_NLP Submission The best performing system from NITK-IT_NLP (Hariharan RamakrishnaIyer LekshmiAmmal, 2022) experimented with rationale extraction by training offensive language classifiers and employing model-agnostic rationale extraction mechanisms to produce toxic spans as explanations of the decisions of the classifier. The NITK-IT_NLP Submission NITK-IT_NLP (Hariharan RamakrishnaIyer LekshmiAmmal, 2022) は、攻撃的言語分類器の訓練による合理抽出の実験を行い、分類器の決定の説明として有毒なスパンを生成するために、モデル非依存の合理抽出機構を採用した。
訳抜け防止モード: 6.1 NITK - IT_NLP 提出 NITK - IT_NLP (Hariharan RamakrishnaIyer LekshmiAmmal, 2022 )による攻撃言語分類器の訓練による合理的抽出実験 モデル - 不可知的合理的抽出機構 分類器の判断の 説明として有毒なスパンを作ります
0.76
Specifically NITK-IT_NLP used MuRIL (Khanuja et al , 2021) classifier and coupled with LIME (Ribeiro et al , 2016) and used the explanation scores to select words suitable for offensive spans. 具体的には, NITK-IT_NLP は MuRIL (Khanuja et al , 2021) 分類器を使用し, LIME (Ribeiro et al , 2016) と結合し, 分析スコアを用いて攻撃的スパンに適した単語を選択する。
訳抜け防止モード: 具体的には NITK - IT_NLP using MuRIL (Khanuja et al, 2021 ) LIME (Ribeiro et al, 2016) と組み合わせたものです。 説明スコアを使い 攻撃的な言葉を選びます
0.78
6.2 The DLRG submission The DLRG team (Mohit et al , 2022) formulated the problem as a combination of token labeling and span extraction. 6.2 DLRGの提出 DLRGチーム(Mohit et al , 2022)はトークンラベルとスパン抽出の組み合わせとしてこの問題を定式化した。 0.69
Specifically, the team created word-level BIO tags i.e., words were labelled as B (beginning word of a offensive span), I (inside word of a offensive span), or O (outside of any offensive 具体的には、B(攻撃的スパンの語)、I(攻撃的スパンの語)、O(攻撃的スパンの語)とラベル付けされたワードレベルのBIOタグを作成した。 0.73
span). Following which word level embeddings are created using GloVe (Pennington et al , 2014) and BiLSTM-CRF (Panchendrarajan and Amaresan, 2018) model is trained. スパン)。 次に、GloVe (Pennington et al , 2014) と BiLSTM-CRF (Panchendrarajan and Amaresan, 2018) モデルを用いて単語レベルの埋め込みを作成する。 0.63
6.3 Additional Submission After testing phase, we also requested each team to submit additional runs if they have variants of approaches. 6.3 追加の提出 テストフェーズ後、各チームにアプローチのバリエーションがあれば追加の実行を依頼しました。 0.75
Accordingly we received two additional submissions from NITK-IT_NLP where they replaced MuRIL from their initial submission with そのため、NITK-IT_NLP からさらに2つのサブミッションを受け取り、最初のサブミッションから MuRIL を置き換えました。 0.42
(i) Multilingual-BERT (Devlin et al , 2019) and (i)Multilingual-BERT (Devlin et al , 2019)及び 0.95
(ii) ELECTRA (Clark et al , 2020) respectively without any other changes. (ii) ELECTRA (Clark et al , 2020) は, その他の変化はない。 0.91
More details in section 7.2. 詳細は7.2節を参照。 0.64
7 Evaluation This section focuses on the evaluation framework of the task. 7 評価 この節は、タスクの評価フレームワークに焦点を当てます。 0.72
First, the official measure that was used to evaluate the participating systems is described. まず、参加システムの評価に使用された公式指標について述べる。 0.67
Then, we discuss baseline models that were selected as benchmarks for comparison reasons. 次に,比較のためにベンチマークとして選択されたベースラインモデルについて考察する。 0.59
Finally, the results are presented. 最後に結果が提示される。 0.79
7.1 Evaluation Measure In line with work of Pavlopoulos et al (2021) each system was evaluated F1 score computed on character offset. 7.1 評価尺度 Pavlopoulos et al (2021) の作業に合わせて, 各システムが文字オフセットで計算されたF1スコアを評価した。 0.74
For each system, we computed the F1 score per comments, between the predicted and the ground truth character offsets. 各システムに対して、予測された真理文字のオフセット間のコメント毎のF1スコアを計算した。 0.73
Following this we calculated macro-average score over all the 876 test comments. これに続いて,876のテストコメントのマクロ平均スコアを算出した。 0.67
If in case both ground truth and predicted character offsets were empty we assigned a F1 of 1 other wise 0 and vice versa. もし基底真理と予測された文字オフセットの両方が空であれば、別のワイズ 0 の F1 を割り振る。 0.72
7.2 Benchmark To establish fair comparison we first created two baseline benchmark systems which are as described. 7.2 ベンチマーク 公正な比較を確立するために、まず2つのベースラインベンチマークシステムを作成しました。
訳抜け防止モード: 7.2 ベンチマーク 公正比較を確立するために 最初に 2つのベースラインベンチマークシステムを作成しました
0.64
• BENCHMARK 1 is a random baseline model which randomly labels 50% of characters in comments to belong to be offensive. • BENCHMARK 1 はランダムなベースラインモデルであり、攻撃的なコメントの50%の文字をランダムにラベル付けする。 0.77
To this end, we run this benchmark 10 times and average results are presented in Table 2. このために、このベンチマークを10回実行し、平均結果を表2に示します。 0.68
• BENCHMARK 2 is a lexicon based system, which first extracted all the offensive words from the train set and during inference these words were searched in comments from testset and corresponding spans were extracted. • BENCHMARK 2は、まず列車セットから全ての攻撃語を抽出し、推論中にこれらの単語をテストセットからのコメントで検索し、対応するスパンを抽出した辞書ベースシステムである。 0.72
• BENCHMARK 3 is RoBERTA (Liu et al , 2019; Ravikiran and Annamalai, 2021) model •BENCHMARK 3はRoBERTA(Liu et al , 2019; Ravikiran and Annamalai, 2021)モデルである。 0.93
英語(論文から抽出)日本語訳スコア
trained using token labeling approach with BIO encoded texts corresponding to annotated spans. 注釈付きスパンに対応するバイオエンコードされたテキストを用いたトークンラベリングアプローチによるトレーニング。 0.59
Table 2: Official rank and F1 score (%) of the 2 participating teams that submitted systems. 表2: システムを提出した2チームのうち、公式ランクとF1スコア(%)。 0.79
The baselines benchmarks are shown in red. ベースラインベンチマークは赤で表示されます。 0.65
RANK 1 BASELINE BASELINE BASELINE RANK 1 ベースラインベースライン 0.43
2 TEAM NITK-IT_NLP BENCHMARK 1 BENCHMARK 2 BENCHMARK 3 2 チーム NIT_NLP ベンチマスク1 ベンチマスク2 ベンチマスク3 0.46
DLRG F1 (%) 44.89 39.75 37.84 38.61 17.28 DLRG F1 (%) 44.89 39.75 37.84 38.61 17.28 0.35
Table 2 shows the scores and ranks of two teams that made their submission. 表2は、応募した2つのチームのスコアとランクを示しています。 0.65
NITK-IT_NLP (Section 6.1) was ranked first, followed by DLRG (Section 6.2) that scored 27% lower was ranked second. NITK-IT_NLP (Section 6.1) が第1位、DLRG (Section 6.2) が第2位となった。 0.72
The median score was 31.08%, which is far below the top ranked team and the benchmark baseline models. 平均スコアは31.08%で、トップランクチームとベンチマークベースラインモデルよりはるかに低い。
訳抜け防止モード: 中央値は31.08%で トップランクのチームとベンチマーク基準モデルよりはるかに低いのです。
0.68
Meanwhile the additional submission post testing phase are excluded from ranked table. 一方、追加の提出後テストフェーズはランキング表から除外される。 0.66
Instead they are presented separately in Table 3. 表3では別々に表示される。 0.67
BENCHMARK 1 achieves a considerably high score and, hence, is very highly ranked with character F1 of 39.83%. BENCHMARK 1は非常に高いスコアを獲得し、F1の文字は39.83%である。 0.68
Combination of MuRIL with LIME interpretability by model NITK-IT_NLP is ahead of BENCHMARK 1 by 11%, indicating the language models ability to effectively rationalize and identify the spans. モデル NITK-IT_NLP による MuRIL と LIME の解釈可能性の組み合わせは BENCHMARK 1 よりも 11% 上であり,言語モデルがスパンを効果的に合理化し識別する能力を示している。 0.70
This is inline the results of Rusert (2021) which show higher results than random baseline. これは、ランダムベースラインよりも高い結果を示すrusert (2021)の結果のインラインである。 0.72
Meanwhile BENCHMARK 2 and BENCHMARK 3, also shows F1 of 37.84% and 38.61% which again NITK-IT_NLP model tend to beat significantly. 一方、BENCHMARK 2とBENCHMARK 3もF1の37.84%と38.61%を示しており、NITK-IT_NLPモデルも大きく勝っている。 0.62
On contrary we could see that DLRG model to show least results of 17.28% lesser than akk the baselines as well as the top performing system. それとは対照的に、dlrgモデルは、ベースラインおよび上位パフォーマンスシステムよりも17.28%少ない結果を示すことができる。 0.64
The lexicon-based BENCHMARK 2 and RoBERTA based BENCHMARK 3 too score very high. 辞書ベースのBENCHMARK 2とRoBERTAベースのBENCHMARK 3も非常に高いスコアを得た。 0.62
Especially as it overcomes, the submission of DLRG. 特に、DLRGの提出は克服される。 0.62
This may be attributed to dataset domain itself. これはデータセットドメイン自体に帰属する可能性がある。 0.72
Especially, since much of the dataset was collected from Youtube comments section of Movie Trailers, often we see usages of same word or similar words. 特に、データセットの多くは、Movie TrailersのYoutubeコメントセクションから収集されたため、同じ単語や類似語の使用例がよく見られる。 0.81
Such behavior is well established across social media forums including Youtube (Duricic et al , 2021), which begs to ask if indeed the dataset construction needs to be revisited, which forms one potential exploration for immediate future. このような行動は、Youtube(Duricic et al , 2021)を含むソーシャルメディアのフォーラムでよく定着している。
訳抜け防止モード: このような行動は、Youtube(Duricic et al, 2021)を含むソーシャルメディアフォーラムでよく定着している。 データセットの構築を再考する必要があるかどうかを尋ねます 近い将来の探査の可能性を秘めています
0.71
8 Analysis and Discussion Overall we were happy to see the degree of involvement in this shared task with multiple participants registering, requesting access to datasets and potential baseline codes for the shared task. 8 分析と議論 全体としては、複数の参加者が登録し、データセットへのアクセスと共有タスクの潜在的なベースラインコードを要求することで、この共有タスクへの関与の度合いがわかりました。 0.70
Though only two teams submitted the systems, the resulting diversity of approaches to this problem is fairly encouraging. システムを提出したのは2チームだけですが、その結果、この問題に対するアプローチの多様性はかなり励みになります。 0.63
However we include some of our observations below, from our evaluation and what we have learned from the results. しかしながら、評価から学んだこと、その結果から学んだことまで、下記の観察の一部を含む。
訳抜け防止モード: しかし、我々の評価から、下記のいくつかの観察結果を含める。 結果から学んだことは
0.67
Table 3: Results of additional runs submitted by NITKIT_NLP. 表3: NITKIT_NLP による追加実行の結果。 0.82
Method ELECTRA + LIME M-BERT + LIME 方法 ELECTRA + LIME M-BERT + LIME 0.42
F1 (%) 37.33 33.95 f1 (%) 37.33 33.95 0.33
8.1 Participation Characteristics The authors reached out to teams that initially registered but failed to create any systems and the vast majority were undergraduate students who were new into the concept of shared task and were timelimited due to semester exams. 8.1 参加特性 著者らは、最初に登録したが、どんなシステムも作成できなかったチームと接触し、大多数は、共有タスクの概念に新規で、学期試験のために制限された学部生だった。 0.68
The fact that students participated in the task is promising and we plan to consider more ways to introduce Shared tasks on Low-Resource Dravidian Languages in classrooms. この課題に学生が参加できることは有望であり、私たちは教室で低リソースのドラビダ言語でタスクを共有する方法をもっと検討する予定です。 0.66
To this end, the we used social media and other medium to spread the word around universities. この目的のために、私たちはソーシャルメディアやその他のメディアを使って大学に広めました。 0.66
On the other hand, 60% of the participants did not download dataset after registering and instead chose to participate in other shared tasks, which is problematic and should be addressed. 一方、参加者の60%は登録後にデータセットをダウンロードせず、代わりに他の共有タスクへの参加を選択した。 0.59
To this end, correspondence with such teams revealed potential favoritism towards classification based problems that are common in undergraduate studies. この結果から,本研究に共通する分類に基づく問題に対して,これらのチームとの対応性が示唆された。 0.57
Moreover we also received multiple queries on the concept of offensive span itself during the training phase, which is a indicates potential need of improving the overall task structure with potential early release of data and task details. さらに,データとタスクの詳細を早期にリリースすることで,全体的なタスク構造を改善する必要性が示唆された,adsponsive span自体のトレーニングフェーズにおいて,複数のクエリを受信した。 0.74
Yet, upon extending the number of submissions NITK-IT_NLP submitted additional runs (See Table 3). しかし、提出数を延ばすと、NITK-IT_NLPは追加の実行を提出する(表3参照)。 0.59
Additionally both the teams also submitted source codes 2 for their respective models encouraging further development of systems. さらに、両チームはそれぞれのモデルにソースコード2を提出し、システムのさらなる開発を奨励した。 0.75
2https://drive.googl e.com/drive/ 2https://drive.googl e.com/drive/ 0.17
folders/1T3kl8mljPt8 oXcKVn7OQqaU3d55za2z Z? フォルダ/1T3kl8mljPt8oXcKVn7 OQqaU3d55za2zZ? 0.16
usp=sharing usp=共有 0.25
英語(論文から抽出)日本語訳スコア
Table 4: Results of submitted systems across comments of different lengths. 表4: 異なる長さのコメントにまたがって提出されたシステムの結果。 0.66
NITK-IT_NLP NITK-IT_NLP 0.20
DLRG F1@30 (%) F1@50 (%) F1@>50 (%) DLRG F1@30(%) F1@50(%) F1@>50(%) 0.45
42.39 39.62 42.39 39.62 0.25
37.05 23.47 37.05 23.47 0.25
26.42 14.05 26.42 14.05 0.25
8.2 General remarks on the approaches Though neither of teams that made final submissions created any simple baselines, we could see that all the submissions of NITK-IT_NLP use well established approaches in recent NLP focusing on pretrained language models. 8.2 NITK-IT_NLPの全ての提案が、事前訓練された言語モデルに焦点を当てた最近のNLPにおいて、確立されたアプローチを使用していることが分かる。 0.70
Meanwhile DLRG used well-grounded Non-Transformer based approach. 一方, DLRGは非変圧器ベースアプローチを用いた。 0.56
Yet neither of teams used any ensembles, data augmentation strategies or modifications to loss functions that are seen for the task of span identification in the past across shared tasks. しかし、どちらのチームもアンサンブルやデータ拡張戦略、あるいは共有タスクにまたがって過去の識別を分散するタスクで見られる損失関数に対する修正は使用していません。 0.71
8.3 Error Analysis Table 2 shows maximum result of 0.4489 with DLRG failing significantly compared to random baseline. 8.3 エラー解析表 2 は 0.4489 の最大結果を示し、dlrg はランダムベースラインと比較して著しく失敗している。 0.62
To this end, we wonder if potentially these approaches have any weaknesses or strengths. この目的のために、これらのアプローチに弱点や強みがあるかどうか疑問に思う。 0.54
To understand this, first we study the character F1 results across sentences of different lengths. これを理解するために、まず、異なる長さの文にまたがるF1の文字について検討する。
訳抜け防止モード: これを理解するために。 まず F1 の文字を異なる長さの文で調べる。
0.74
Specifically we analysis results of (a) comments with less than 30 characters (F1@30) 特に分析した結果は (a)30文字未満のコメント(F1@30) 0.80
(b) comments with 3050 characters (F1@50) (b)3050文字のコメント(f1@50) 0.84
(c) comments with more than 50 characters (F1@>50). (c)50文字以上のコメント(F1@>50)。 0.75
The results so obtained are as shown in Table 4. 得られた結果は表4に示すとおりである。 0.89
Firstly we can see though NITK-IT_NLP shows high results overall for cases of comments with larger lengths the model fails significantly. まず、NITK-IT_NLPは、モデルが大幅に失敗するコメントの場合、全体として高い結果を示す。 0.65
Specifically, comparing results with ground truth showed that use of LIME often restricts the overall word so selected as the rationale for offensiveness in turn reducing number of character offsets predicted as spans. 具体的には, LIME を用いた場合, 攻撃性の理論的根拠として選択された全単語が制限されることが多かった。 0.58
This is because with larger texts the net score distribution weakens and span extraction is largely off leading to significant drop in results. これは、より大きなテキストでは、ネットスコアの分布が弱まり、スパン抽出は大半がオフとなり、結果は大幅に低下するからである。
訳抜け防止モード: これは、より大きなテキストで、ネットスコアの分布が弱まるためである。 スパン抽出は 結果の大幅な低下につながります
0.67
Meanwhile for DLRG the results are more mixed, especially we can see that for comments with less than 30 characters the model shows improvement in F1. 一方、DLRGでは、結果はより混ざり合っており、特に30文字未満のコメントでは、F1の改善が見られる。 0.67
Analysis of results reveal that token labeling is highly accurate, which drops significantly with large size sentences. 結果から, トークンラベルの精度は高く, 大きな文で顕著に低下することが明らかとなった。 0.61
This may be attributed to nonlocal interactions between the words that may not be captured by the Bi-LSTM CRF model. これは、Bi-LSTM CRFモデルで捉えられない単語間の非局所的な相互作用に起因する可能性がある。 0.70
Further more much of these sentences often contained only cuss words or clearly abusive words that are easily identifiable and often present in the train set. さらに、これらの文の多くは、しばしば、列車のセットに容易に識別でき、しばしば存在する、カス語または明らかに虐待的な単語のみを含む。 0.56
Also we found few bugs in the training code so used, which was already informed to the authors. また 使用したトレーニングコードに バグはほとんど見つからなかった 既に著者に 報告されていた 0.67
Besides error analysis also showed some implicit challenges in the proposed shared task. エラー分析に加えて、提案されている共有タスクにおける暗黙の課題も示された。 0.50
First the strong dependency of offensiveness on context makes it particularly difficult to solve as evident from NITK-IT_NLP which used language models. まず、文脈に対する攻撃性の強い依存により、言語モデルを用いたNITK-IT_NLPから明らかなように、特に解決が困難になる。 0.59
Second, offensiveness often is expressed as sarcasm or even is very subtle. 第二に、攻撃性はしばしば皮肉として表現されるか、非常に微妙である。 0.50
In such cases we often see the offensiveness results to depend only the words bearing the most negative sentiment, meanwhile the ground truth spans annotated are larger thus showing high errors. このような場合、攻撃性は最も否定的な感情を持つ単語にのみ依存するが、アノテートされた基礎的真実は大きいので、高い誤りを示す。
訳抜け防止モード: このような場合、最も否定的な感情を持つ単語のみに依存する攻撃性結果がしばしば見られる。 一方、注釈付きの基底真理はより大きく、高い誤差を示す。
0.71
Finally, many times the nature of offensiveness itself becomes debatable without clear context. 最後に、攻撃性そのものが明確な文脈なしで議論されることが多い。 0.53
Often these are the cases where we find the developed approaches to fail significantly. 多くの場合、発達したアプローチが著しく失敗するケースを見つけます。 0.55
9 Conclusion Overall this shared task on offensive span identification we introduced a new dataset for codemixed Tamil-English language with total of 5652 social media comments annotated for offensive spans. 9 結論 全体として、攻撃的スパン識別に関する共有タスク 私たちは、攻撃的スパンに注釈をつけた5652のソーシャルメディアコメントを含む、コード混合タミル英語言語のための新しいデータセットを導入しました。 0.61
The task though has large participants, eventually had only two teams that submitted their systems. タスクには大きな参加者がいて、最終的にシステムを提出したチームは2つに過ぎなかった。 0.60
In this paper we described their approaches and discussed their results. 本稿では,それらのアプローチを概説し,その結果について考察する。 0.57
Surprisingly rationale extraction based approach involving combination MuRIL and LIME performed significantly well. MuRILとLIMEの組み合わせによる抽出法は, 驚くほど良好であった。 0.67
Meanwhile Bi-LSTM CRF model was found showing sensitivity towards shorter sentences, though it performed significantly worse than the random baseline. 一方, Bi-LSTM CRFモデルでは, 短い文に対する感度が認められたが, ランダムベースラインよりも有意に低かった。 0.75
Also extracting offensive spans for long sentences were found to be difficult especially as they are context dependent. また, 長期文に対する攻撃的スパンの抽出は, 特に文脈に依存しているため困難であることが判明した。
訳抜け防止モード: 長文に対する攻撃的スパンも抽出する 特に文脈に依存しているため 難しいことが分かりました
0.66
To this end, we release the baseline models and datasets to foster further research. この目的のために、我々はさらなる研究を促進するためにベースラインモデルとデータセットをリリースします。 0.64
Meanwhile in the future we plan to re-do the task of offensive span identification where we could require the participants to identify offensive spans and simultaneously classify different types of offensiveness. 一方,我々は今後,攻撃的スパン識別のタスクを再実行し,攻撃的スパンを識別し,異なるタイプの攻撃性を同時に分類する計画を立てている。 0.61
Acknowledgements We thank our anonymous reviewers for their valuable feedback. 覚書 貴重なフィードバックを頂いて、匿名のレビュアーに感謝します。 0.44
Any opinions, findings, and conclusion or recommendations expressed in this material are those of the authors only and does not reflect the view of their employing organization or graduate schools. この資料で示される意見、所見、結論または推奨事項は、著者のみのものであり、彼らの雇用組織や大学院の見解を反映していない。 0.72
The shared task was result of series projects done during CS7646ML4T (Fall 2020), CS6460-Edtech Foundations 共有タスクはCS7646ML4T (Fall 2020)、CS6460-Edtech Foundationsで実施された一連のプロジェクトの結果である。 0.59
英語(論文から抽出)日本語訳スコア
(Spring 2020) and CS7643-Deep learning (Spring 2022) at Georgia Institute of Technology (OMSCS Program). (2020年春)とジョージア工科大学(OMSCS)のCS7643-Deep Learning(2022年春)。 0.76
Bharathi Raja Chakravarthi were supported in part by a research grant from Science Foundation Ireland (SFI) under Grant Number SFI/12/RC/2289_P2 (Insight_2), co-funded by the European Regional Development Fund and Irish Research Council grant IRCLA/2017/129 (CARDAMOM-Comparativ e Deep Models of Language for Minority and Historical Languages). Bharathi Raja Chakravarthiは、欧州地域開発基金とIRCLA/2017/129(CARDA MOM-Comparative Deep Models of Language for Minority and Historical Languages)が共同出資した、Grant Number SFI/12/RC/2289_P2 (Insight_2)の下でSFI(Science Foundation Ireland)の研究助成金によって部分的に支援された。 0.68
References R Anita and CN Subalalitha. 参考文献 rアニタとcnサブアラリス 0.52
2019a. An approach to cluster Tamil literatures using discourse connectives. 2019年。 談話接続を用いたタミル文学のクラスター化へのアプローチ 0.71
In 2019 IEEE 1st International Conference on Energy, Systems and Information Processing (ICESIP), pages 1–4. 2019年、IEEE 1st International Conference on Energy, Systems and Information Processing (ICESIP) 1-4頁。
訳抜け防止モード: 2019年ieee第1回エネルギー・システム・情報処理国際会議(icesip)参加報告 1-4頁。
0.74
IEEE. R Anita and CN Subalalitha. IEEE。 rアニタとcnサブアラリス 0.39
2019b. Building discourse parser for Thirukkural. 2019年。 Thirukkuralのための談話パーサーの構築。 0.65
In Proceedings of the 16th International Conference on Natural Language Processing, pages 18–25. 第16回自然言語処理国際会議の議事録18-25頁。 0.71
Andrew Arsht and Daniel Etcovitch. アンドリュー・アーシュトとダニエル・エクソビッチ 0.60
2018. The human cost of online content moderation. 2018. オンラインコンテンツモデレーションの人的コスト。 0.43
Harvard Journal of Law & Technology. ハーバード・ジャーナル・オブ・ロー&テクノロジー(Harvard Journal of Law & Technology)の略。 0.29
B Bharathi, Bharathi Raja Chakravarthi, Subalalitha Chinnaudayar Navaneethakrishnan, N Sripriya, Arunaggiri Pandian, and Swetha Valli. B Bharathi, Bharathi Raja Chakravarthi, Subalalitha Chinnaudayar Navaneethakrishnan, N Sripriya, Arunaggiri Pandian, Swetha Valli 0.36
2022. Findings of the shared task on Speech Recognition for Vulnerable Individuals in Tamil. 2022. タミルの脆弱者に対する音声認識における共通課題の検討 0.47
In Proceedings of the Second Workshop on Language Technology for Equality, Diversity and Inclusion. 第2回「平等・多様性・包摂性のための言語技術に関するワークショップ」の開催にあたって 0.57
Association for Computational Linguistics. Ben Burtenshaw and Mike Kestemont. 計算言語学会会員。 ベン・バーテンショーとマイク・ケステモント 0.50
2021. UAntwerp at SemEval-2021 task 5: Spans are stacking a binary word level approach spans, In Proceedings of the to toxic span detection. 2021. UAntwerp at SemEval-2021 Task 5: Spansはバイナリワードレベルのアプローチを積み重ねている。
訳抜け防止モード: 2021. uantwerp at semeval-2021 task 5 : spans are stacking a binary word level approach spans, to 毒性スパン検出の手続きにおいて。
0.61
15th International Workshop on Semantic Evaluation (SemEval-2021), pages 898–903, Online. 第15回意味評価国際ワークショップ (semeval-2021), page 898–903, online 0.77
Association for Computational Linguistics. Bharathi Raja Chakravarthi. 計算言語学会会員。 bharathi raja chakravarthi の略。 0.56
2020. HopeEDI: A multilingual hope speech detection dataset for equality, diversity, and inclusion. 2020. hopeedi: 平等、多様性、包含性のための多言語音声検出データセット。 0.61
In Proceedings of the Third Workshop on Computational Modeling of People’s Opinions, Personality, and Emotion’s in Social Media, pages 41–53, Barcelona, Spain (Online). ソーシャルメディアにおける人々の意見、性格、感情の計算モデリングに関する第3回ワークショップの議事録(41-53ページ、スペイン・バルセロナ(オンライン))。 0.70
Association for Computational Linguistics. Bharathi Raja Chakravarthi, Mihael Arcan, and John P. McCrae. 計算言語学会会員。 Bharathi Raja Chakravarthi、Mihael Arcan、John P. McCrae。 0.45
2018. Improving wordnets for underresourced languages using machine translation. 2018. 機械翻訳を用いた低リソース言語のためのwordnetsの改善。 0.52
In Proceedings of the 9th Global Wordnet Conference, pages 77–86, Nanyang Technological University (NTU), Singapore. 第9回world wordnet conferenceの議事録では、シンガポールの南陽工業大学(ntu)の77-86ページが紹介されている。
訳抜け防止モード: 第9回Global Wordnet Conference紀要、77-86頁。 南陽工業大学(NTU) - シンガポールの大学。
0.73
Global Wordnet Association. global wordnet association所属。 0.79
Bharathi Raja Chakravarthi, Mihael Arcan, and John P. McCrae. Bharathi Raja Chakravarthi、Mihael Arcan、John P. McCrae。 0.39
2019. WordNet gloss translation for underresourced languages using multilingual neural maIn Proceedings of the Second chine translation. 2019. 多言語ニューラルmaIn Proceedings of the Second chine Translationを用いた低リソース言語のためのWordNetグロス翻訳 0.60
Workshop on Multilingualism at the Intersection of Knowledge Bases and Machine Translation, pages 1–7, Dublin, Ireland. 知識基盤と機械翻訳における多言語主義に関するワークショップ, 1-7ページ, アイルランド, ダブリン 0.78
European Association for Machine Translation. ヨーロッパ機械翻訳協会会員。 0.70
Bharathi Raja Chakravarthi and Vigneshwaran Muralidaran. Bharathi Raja ChakravarthiとVigneshwaran Muralidaran。 0.38
2021. Findings of the shared task on hope speech detection for equality, diversity, and inclusion. 2021. 平等・多様性・包摂性の希望音声検出における共有課題の発見 0.52
In Proceedings of the First Workshop on Language Technology for Equality, Diversity and Inclusion, pages 61–72, Kyiv. In Proceedings of the First Workshop on Language Technology for Equality, Diversity and Inclusion, page 61–72, Kyiv.
訳抜け防止モード: 平等・多様性・包摂のための言語技術に関する第1回ワークショップの開催にあたって 61-72頁。
0.61
Association for Computational Linguistics. Bharathi Raja Chakravarthi, Vigneshwaran Muralidaran, Ruba Priyadharshini, and John Philip McCrae. 計算言語学会会員。 Bharathi Raja Chakravarthi, Vigneshwaran Muralidaran, Ruba Priyadharshini, John Philip McCrae 0.43
2020a. Corpus creation for sentiment analIn Proysis in code-mixed Tamil-English text. 2020年。 コード混合タミル英語テキストにおける感情アナリンプロイシスのためのコーパス作成 0.69
ceedings of the 1st Joint Workshop on Spoken Language Technologies for Under-resourced languages (SLTU) and Collaboration and Computing for Under-Resourced Languages (CCURL), pages 202–210, Marseille, France. 第1回非ソース言語のための音声言語技術(sltu)と、非ソース言語(ccurl)のためのコラボレーションとコンピューティングに関するワークショップ(joint workshop on spoken language technologies for under-resource languages)のセッションは、マルセイユの202-210ページである。
訳抜け防止モード: 第1回Spoken Language Technologies for Under- Resourced Language(SLTU)に参加して Under- Resourced Languages (CCURL) のためのコラボレーションとコンピューティング 202-210頁、マルセイユ、フランス。
0.82
European Language Resources association. 欧州言語資源協会会員。 0.85
Bharathi Raja Chakravarthi, Ruba Priyadharshini, Thenmozhi Durairaj, John Phillip McCrae, Paul Buitaleer, Prasanna Kumar Kumaresan, and Rahul Ponnusamy. Bharathi Raja Chakravarthi, Ruba Priyadharshini, Thenmozhi Durairaj, John Phillip McCrae, Paul Buitaleer, Prasanna Kumar Kumaresan, Rahul Ponnusamy 0.38
2022a. Findings of the shared task on Homophobia Transphobia Detection in Social Media Comments. 2022年。 ソーシャルメディアコメントにおけるホモフォビア・トランスフォビア検出における共有課題の発見 0.50
In Proceedings of the Second Workshop on Language Technology for Equality, Diversity and Inclusion. 第2回「平等・多様性・包摂性のための言語技術に関するワークショップ」の開催にあたって 0.57
Association for Computational Linguistics. Bharathi Raja Chakravarthi, Ruba Priyadharshini, Vigneshwaran Muralidaran, Navya Jose, Shardul Suryawanshi, Elizabeth Sherly, and John P. McCrae. 計算言語学会会員。 Bharathi Raja Chakravarthi, Ruba Priyadharshini, Vigneshwaran Muralidaran, Navya Jose, Shardul Suryawanshi, Elizabeth Sherly, John P. McCrae
訳抜け防止モード: 計算言語学会会員。 bharathi raja chakravarthi, ruba priyadharshini, vigneshwaran muralidaran, navya jose シャードル・スルヤワンシ、エリザベス・シェリー、ジョン・p・マクレイ。
0.55
2022b. DravidianCodeMix: sentiment analysis and offensive language identification dataset for dravidian languages in code-mixed text. 2022年。 dravidiancodemix: コード混合テキスト中のdravidian言語に対する感情分析と攻撃的言語識別データセット。 0.58
Language Resources and Evaluation. Bharathi Raja Chakravarthi, Ruba Priyadharshini, Vigneshwaran Muralidaran, Shardul Suryawanshi, Navya Jose, Elizabeth Sherly, and John P McCrae. 言語資源と評価。 Bharathi Raja Chakravarthi, Ruba Priyadharshini, Vigneshwaran Muralidaran, Shardul Suryawanshi, Navya Jose, Elizabeth Sherly, John P McCrae
訳抜け防止モード: 言語資源と評価。 bharathi raja chakravarthi, ruba priyadharshini, vigneshwaran muralidaran, shardul suryawanshi ネイビー・ホセ、エリザベス・シェリー、ジョン・p・マクレイ。
0.66
2020b. Overview of the track on sentiment analysis for Dravidian languages in code-mixed text. 2020年。 code-mixed textにおけるdravidian languageの感情分析トラックの概要 0.73
In Forum for Information Retrieval Evaluation, pages 21–24. 情報検索評価フォーラム』21-24頁。 0.60
Bharathi Raja Chakravarthi, Ruba Priyadharshini, Rahul Ponnusamy, Prasanna Kumar Kumaresan, Kayalvizhi Sampath, Durairaj Thenmozhi, Sathiyaraj Thangasamy, Rajendran Nallathambi, and John Phillip McCrae. Bharathi Raja Chakravarthi, Ruba Priyadharshini, Rahul Ponnusamy, Prasanna Kumar Kumaresan, Kayalvizhi Sampath, Durairaj Thenmozhi, Sathiyaraj Thangasamy, Rajendran Nallathambi, John Phillip McCrae
訳抜け防止モード: Bharathi Raja Chakravarthi, Ruba Priyadharshini, Rahul Ponnusamy, Prasanna Kumar Kumaresan Kayalvizhi Sampath, Durairaj Thenmozhi, Sathiyaraj Thangasamy, Rajendran Nallathambi ジョン・フィリップ・マクレー(John Phillip McCrae)。
0.44
2021. Dataset for identification of homophobia and transophobia in mularXiv preprint tilingual YouTube comments. 2021. mularXivプレプリントYouTubeコメントにおけるホモフォビアとトランスフォビアの識別のためのデータセット。 0.47
arXiv:2109.00227. arXiv:2109.00227 0.27
Kevin Clark, Minh-Thang Luong, Quoc V. Le, and Christopher D. Manning. Kevin Clark、Minh-Thang Luong、Quoc V. Le、Christopher D. Manning。 0.85
2020. ELECTRA: pretraining text encoders as discriminators rather than 2020. ELECTRA: テキストエンコーダを差別者として訓練する 0.57
英語(論文から抽出)日本語訳スコア
In 8th International Conference on generators. 第8回ジェネレータ国際会議に参加。 0.71
Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020. Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020 0.44
OpenReview.net. OpenReview.net 0.41
2021. Findings of shared task on offensive language In Forum identification in Tamil and Malayalam. 2021. タミルおよびマラヤラムにおけるフォーラム識別における攻撃言語共通課題の検討 0.55
for Information Retrieval Evaluation, pages 16–18. 情報検索評価については16-18頁。 0.52
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.38
2019. BERT: pre-training of deep bidirectional transformers for language underIn Proceedings of the 2019 Conference standing. 2019. bert: 2019年のカンファレンススタンディングでは、言語のための深い双方向トランスフォーマーを事前トレーニングしています。 0.50
of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2019, Minneapolis, MN, USA, June 2-7, 2019, Volume 1 (Long and Short Papers), pages 4171–4186. The North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2019, Minneapolis, MN, USA, June 2-7, 2019, Volume 1 (Long and Short Papers), page 4171–4186.
訳抜け防止モード: 計算言語学会北米支部の紹介 : 人間言語技術 naacl - hlt 2019, minneapolis, mn, usa, june 2 - 7, 2019 (英語) 第1巻(長編・短編)、4171-4186頁。
0.71
Association for Computational Linguistics. Tomislav Duricic, Volker Seiser, and Elisabeth Lex. 計算言語学会会員。 トミスラフ・デュリシック、フォルカー・セイザー、エリザベート・レックス。 0.44
2021. Cross-platform analysis of user comments in youtube videos linked on reddit conspiracy theory forum. 2021. reddit conspiracy theory forumにリンクされたyoutubeビデオにおけるユーザーコメントのクロスプラットフォーム分析。 0.58
CoRR, abs/2109.01127. corr, abs/2109.01127。 0.46
Nikhil Ghanghor, ニクヒル・ガンホル(nikhil ghanghor)。 0.31
Bharathi Thavareesan, Raja バーラティ Thavareesan, Raja 0.44
Parameswari Krishnamurthy, Priyadharshini, Sajeetha and 2021a. Parameswari Krishnamurthy, Priyadharshini, Sajeetha, 2021a。 0.42
IIITK@DravidianLangT ech-EACL2021: Offensive language identification and meme classification in Tamil, Malayalam and Kannada. IIITK@DravidianLangT ech-EACL2021: タミル語、マラヤラム語、カナダ語における攻撃的な言語識別とミーム分類。 0.60
In Proceedings of the First Workshop on Speech and Language Technologies for Dravidian Languages, pages 222–229, Kyiv. 第1回ドヴィダ語の音声と言語技術に関するワークショップの議事録では、222-229ページ、kyiv。 0.70
Association for Computational Linguistics. Ruba Chakravarthi. 計算言語学会会員。 ルバ・チャクラヴァルティ(Ruba Chakravarthi)。 0.44
Nikhil Ghanghor, Rahul Ponnusamy, Prasanna Kumar Kumaresan, Ruba Priyadharshini, Sajeetha Thavareesan, and Bharathi Raja Chakravarthi. Nikhil Ghanghor, Rahul Ponnusamy, Prasanna Kumar Kumaresan, Ruba Priyadharshini, Sajeetha Thavareesan, Bharathi Raja Chakravarthi。 0.38
2021b. IIITK@LT-EDI-EACL202 1: Hope speech detection for equality, diversity, and inclusion in Tamil , Malayalam and English. 2021年。 IIITK@LT-EDI-EACL202 1: タミル語、マラヤラム語、英語における平等性、多様性、包含性の音声検出を希望する。 0.61
In Proceedings of the First Workshop on Language Technology for Equality, Diversity and Inclusion, pages 197–203, Kyiv. In Proceedings of the First Workshop on Language Technology for Equality, Diversity and Inclusion, page 197–203, Kyiv.
訳抜け防止モード: 平等・多様性・包摂のための言語技術に関する第1回ワークショップの開催にあたって 197-203頁。
0.60
Association for Computational Linguistics. Manikandan 計算言語学会会員。 マニカンダン 0.49
Ravikiran Hariharan RamakrishnaIyer LekshmiAmmal, Anand Kumar Madasamy. ラビキラン 張原 Ramakrishna Iyer LekshmiAmmal, Anand Kumar Madasamy 0.36
2022. Nitk-it_nlp@tamilnlp -acl2022: Transformer based model for toxic span identification in tamil. 2022. nitk-it_nlp@tamilnlp -acl2022:タミルの有害スパン識別用トランスフォーマーモデル。 0.50
In Proceedings of the Second Workshop on Speech and Language Technologies for Dravidian Languages. 第2回ドヴィダ語の音声・言語技術ワークショップの開催にあたって 0.57
Association for Computational Linguistics. Shagun Jhaver, Sucheta Ghoshal, Amy S. Bruckman, and Eric Gilbert. 計算言語学会会員。 Shagun Jhaver, Sucheta Ghoshal, Amy S. Bruckman, Eric Gilbert 0.44
2018. Online harassment and content moderation: The case of blocklists. 2018. オンラインハラスメントとコンテンツモデレーション:ブロックリストの場合。 0.56
ACM Trans. Comput. ACMトランス。 Comput 0.49
Hum. Interact. うーん。 相互作用する。 0.59
, 25(2):12:1–12:33. , 25(2):12:1–12:33. 0.31
Simran Khanuja, Diksha Bansal, Sarvesh Mehtani, Savya Khosla, Atreyee Dey, Balaji Gopalan, Dilip Kumar Margam, Pooja Aggarwal, Rajiv Teja Nagipogu, Shachi Dave, Shruti Gupta, Subhash Chandra Bose Gali, Vish Subramanian, and Partha P. Talukdar. Simran Khanuja, Diksha Bansal, Sarvesh Mehtani, Savya Khosla, Atreyee Dey, Balaji Gopalan, Dilip Kumar Margam, Pooja Aggarwal, Rajiv Teja Nagipogu, Shachi Dave, Shruti Gupta, Subhash Chandra Bose Gali, Vish Subramanian, Partha P. Talukdar 0.40
2021. Muril: Multilingual representations for indian languages. 2021. Muril: インド語の多言語表現。 0.58
CoRR, abs/2103.10730. corr, abs/2103.10730。 0.50
Prasanna Kumar Kumaresan, Ratnasingam Sakuntharaj, Sajeetha Thavareesan, Subalalitha Navaneethakrishnan, Anand Kumar Madasamy, Bharathi Raja Chakravarthi, and John P McCrae. Prasanna Kumar Kumaresan, Ratnasingam Sakuntharaj, Sajeetha Thavareesan, Subalalitha Navaneethakrishnan, Anand Kumar Madasamy, Bharathi Raja Chakravarthi, John P McCrae 0.37
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。
訳抜け防止モード: yinhan liu, myle ott, naman goyal, jingfei du, マンダー・ジョシ、ダンチー・チェン、オマー・レヴィ、マイク・ルイス ルーク・ゼトルモイヤー(luke zettlemoyer)とヴェセリン・ストヤノフ(veslin stoyanov)。
0.61
2019. Roberta: A robustly optimized BERT pretraining approach. 2019. Roberta: 堅牢に最適化されたBERT事前トレーニングアプローチです。 0.51
CoRR, abs/1907.11692. CoRR、abs/1907.11692。 0.54
More Mohit, Naga Shrikriti Bhamatipati, Saharan Gitansh, Hanchate Samyuktha, Nandy Sayantan, and Rajalakshmi Ratnavel. More Mohit, Naga Shrikriti Bhamatipati, Saharan Gitansh, Hanchate Samyuktha, Nandy Sayantan, Rajalakshmi Ratnavel。 0.38
2022. Dlrg@tamilnlpacl2022 : Offensive span identification in tamil using bilstm-crf approach. 2022. Dlrg@tamilnlpacl2022 :bilstm-crf法を用いたタミルにおける攻撃的スパン同定 0.45
In Proceedings of the Second Workshop on Speech and Language Technologies for Dravidian Languages. 第2回ドヴィダ語の音声・言語技術ワークショップの開催にあたって 0.57
Association for Computational Linguistics. Hiroki Nakayama, Takahiro Kubo, Junya Kamura, Yasufumi Taniguchi, and Xu Liang. 計算言語学会会員。 中山弘樹、久保隆弘、香村順也、谷口安文、Xu Liang。 0.49
2018. doccano: Text annotation tool for human. 2018. doccano: 人間のテキストアノテーションツール。 0.58
Software available from https://github.com/d occano/ doccano. ソフトウェアはhttps://github.com/d occano/doccanoから入手できる。 0.51
Anitha Narasimhan, Aarthy Anandan, Madhan Karky, and CN Subalalitha. anitha narasimhan、arthy anandan、madhan karky、cn subalalithaなど。 0.48
2018. Porul: Option generation and selection and scoring algorithms for a tamil flash card game. 2018. Porul: タミルフラッシュカードゲームのオプション生成と選択とスコアリングアルゴリズム。 0.53
International Journal of Cognitive and Language Sciences, 12(2):225–228. 国際認知言語学会、12(2):225-228頁。 0.60
Viet Anh Nguyen, Tam Minh Nguyen, Huy Quang Dao, and Quang Huu Pham. Viet Anh Nguyen, Tam Minh Nguyen, Huy Quang Dao, Quang Huu Pham。 0.37
2021. S-NLP at SemEval2021 task 5: An analysis of dual networks for sequence tagging. 2021. S-NLP at SemEval2021 Task 5: An Analysis of dual network for sequence tagging。 0.44
In Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval2021), pages 888–897, Online. 第15回意味評価国際ワークショップ(semeval2021)第888-897ページオンライン。 0.62
Association for Computational Linguistics. Marco Palomino, Dawid Grad, and James Bedwell. 計算言語学会会員。 マルコ・パロミノ、ダウィド・グラッド、ジェームズ・ベッドウェル。 0.48
2021. GoldenWind at SemEval-2021 task 5: Orthrus - an ensemble approach to identify toxicity. 2021. GoldenWind at SemEval-2021 Task 5: Orthrus - 毒性を識別するためのアンサンブルアプローチ。 0.61
In Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021), pages 860– 864, Online. 第15回意味評価国際ワークショップ(semeval-2021)第860-864ページオンライン。
訳抜け防止モード: 第15回セマンティック評価国際ワークショップ(SemEval-2021)に参加して 860ページ - 864ページ、オンライン。
0.77
Association for Computational Linguistics. Rrubaa Panchendrarajan and Aravindh Amaresan. 計算言語学会会員。 Rrubaa PanchendrarajanとAravindh Amaresan。 0.45
2018. Bidirectional LSTM-CRF for named entity recognition. 2018. 名前付きエンティティ認識のための双方向LSTM-CRF 0.53
In Proceedings of the 32nd Pacific Asia Conference on Language, Information and Computation, Hong Kong. 第32回太平洋アジア言語・情報・計算会議に参加して 0.54
Association for Computational Linguistics. John Pavlopoulos, Léo Laugier, Jeffrey Sorensen, and Ion Androutsopoulos. 計算言語学会会員。 John Pavlopoulos、Léo Laugier、Jeffrey Sorensen、Ion Androutsopoulos。 0.44
2021. Semeval-2021 task 5: Toxic spans detection (to appear). 2021. Semeval-2021 Task 5: Toxic spans detection (to appear)。 0.44
In Proceedings of the 15th International Workshop on Semantic Evaluation. 第15回国際意味評価ワークショップの開催にあたって 0.66
Jeffrey Pennington, Richard Socher, and Christopher Manning. ジェフリー・ペニントン、リチャード・ソッチャー、クリストファー・マニング。 0.62
2014. GloVe: Global vectors for word representation. 2014. GloVe: ワード表現のためのグローバルベクトル。 0.61
In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1532–1543, Doha, Qatar. 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) において、1532–1543頁、Doha, Qatar。 0.77
Association for Computational Linguistics. 計算言語学会会員。 0.52
英語(論文から抽出)日本語訳スコア
Kamil Pluci´nski and Hanna Klimczak. Kamil Pluci ́nski and Hanna Klimczak 0.45
2021. GHOST Is explanation all you at SemEval-2021 task 5: In Proceedings of the 15th International need? 2021. ghost is explanation you at semeval-2021 task 5: in proceedings of the 15th international need? 0.40
Workshop on Semantic Evaluation (SemEval-2021), pages 852–859, Online. セマンティック評価ワークショップ (Semantic Evaluation, SemEval-2021), page 852–859, Online. 0.77
Association for Computational Linguistics. Ruba Priyadharshini, Bharathi Raja Chakravarthi, Subalalitha Chinnaudayar Navaneethakrishnan, Thenmozhi Durairaj, Malliga Subramanian, Kogilavani Shanmugavadivel, Siddhanth U Hegde, and Prasanna Kumar Kumaresan. 計算言語学会会員。 Ruba Priyadharshini, Bharathi Raja Chakravarthi, Subalalitha Chinnaudayar Navaneethakrishnan, Thenmozhi Durairaj, Malliga Subramanian, Kogilavani Shanmugavadivel, Siddhanth U Hegde, Prasanna Kumar Kumaresan 0.45
2022. Findings of the shared task on Abusive Comment Detection in Tamil. 2022. タミルにおける虐待コメント検出における共有課題の発見 0.53
In Proceedings of the Second Workshop on Speech and Language Technologies for Dravidian Languages. 第2回ドヴィダ語の音声・言語技術ワークショップの開催にあたって 0.57
Association for Computational Linguistics. Ruba Priyadharshini, Bharathi Raja Chakravarthi, Sajeetha Thavareesan, Dhivya Chinnappa, Durairaj Thenmozhi, and Rahul Ponnusamy. 計算言語学会会員。 Ruba Priyadharshini, Bharathi Raja Chakravarthi, Sajeetha Thavareesan, Dhivya Chinnappa, Durairaj Thenmozhi, Rahul Ponnusamy。 0.45
2021. Overview of the dravidiancodemix 2021 shared task on sentiment detection in Tamil, Malayalam, and KanIn Forum for Information Retrieval Evaluanada. 2021. タミル、マラヤラム、KanIn Forum for Information Retrieval Evaluanadaにおいて、2021年のドラビディアン・コードミックスの概要が感情検出の課題を共有した。 0.49
tion, pages 4–6. Ruba Priyadharshini, Bharathi Raja Chakravarthi, Mani Vegupatti, and John P McCrae. 4-6頁。 ruba priyadharshini、bharathi raja chakravarthi、mani vegupatti、john p mccrae。 0.54
2020. Named entity recognition for code-mixed Indian corpus using meta embedding. 2020. メタ埋め込みを用いたコード混合インドコーパスのための名前付きエンティティ認識 0.52
In 2020 6th international conference on advanced computing and communication systems (ICACCS), pages 68–72. 2020年、第6回advanced computing and communication systems (icaccs) 第68-72頁。 0.62
IEEE. Manikandan Ravikiran and Subbiah Annamalai. IEEE。 Manikandan RavikiranとSubbiah Annamalai。 0.40
2021. DOSA: Dravidian code-mixed offensive span identification dataset. 2021. dosa: dravidian code-mixed offensive span identificationデータセット。 0.55
In Proceedings of the First Workshop on Speech and Language Technologies for Dravidian Languages, pages 10–17, Kyiv. 第1回ドヴィダ語の音声と言語技術に関するワークショップの議事録10-17ページ、kyiv。 0.73
Association for Computational Linguistics. Marco Túlio Ribeiro, Sameer Singh, and Carlos Guestrin. 計算言語学会会員。 マルコ・トゥリオ・リベイロ、サマー・シン、カルロス・ゲストリン。 0.50
2016. "why should I trust you?": Explaining the predictions of any classifier. 2016. 「なぜあなたを信頼すべきなのか?」:あらゆる分類器の予測を説明する。 0.56
In Proceedings of the Demonstrations Session, NAACL HLT 2016, The 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, San Diego California, USA, June 12-17, 2016, pages 97–101. In Proceedings of the Demonstrations Session, NAACL HLT 2016 The 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, San Diego California, USA, June 12-17, 2016 page 97–101.
訳抜け防止モード: naacl hlt 2016, the 2016 conference of the north american chapter of the association for computational linguistics: human language technologies, in proceedings of the demonstrations session, naacl hlt 2016 (英語) 2016年6月12日 - 17日、カリフォルニア州サンディエゴ。 97-101頁。
0.84
The Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)の略。 0.49
Jonathan Rusert. ジョナサン・ルサート。 0.41
2021. NLP_UIOWA at Semeval-2021 task 5: Transferring toxic sets to tag toxic spans. 2021. Semeval-2021 Task 5: 有害なスパンをタグ付けするために有毒なセットを転送する。 0.48
In Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021), pages 881– 887, Online. 第15回セマンティクス評価国際ワークショップ(semeval-2021)の議事録では、オンライン上で881-887ページを閲覧した。
訳抜け防止モード: 第15回セマンティック評価国際ワークショップ(SemEval-2021)に参加して 881年 - 887年、オンライン。
0.72
Association for Computational Linguistics. Ratnasingam Sakuntharaj and Sinnathamby Mahesan. 計算言語学会会員。 Ratnasingam SakuntharajとSinnathamby Mahesan。 0.44
2016. A novel hybrid approach to detect and correct spelling in Tamil text. 2016. タミル文字の綴り検出と訂正のための新しいハイブリッド手法 0.48
In 2016 IEEE International Conference on Information and Automation for Sustainability (ICIAfS), pages 1–6. 2016年、IEEE International Conference on Information and Automation for Sustainability (ICIAfS) 1-6ページ。 0.84
Ratnasingam Sakuntharaj and Sinnathamby Mahesan. Ratnasingam SakuntharajとSinnathamby Mahesan。 0.36
2017. Use of a novel hash-table for speeding-up sugIn 2017 IEEE gestions for misspelt Tamil words. 2017. ミススペルタミル語のスカン2017ieeeゲスティオンを高速化するための新しいハッシュテーブルの使用。 0.46
International Conference on Industrial and Information Systems (ICIIS), pages 1–5. International Conference on Industrial and Information Systems (ICIIS) 1-5頁。 0.40
Ratnasingam Sakuntharaj and Sinnathamby Mahesan. Ratnasingam SakuntharajとSinnathamby Mahesan。 0.36
2021. Missing word detection and correction based on context of Tamil sentences using n-grams. 2021. n-gramを用いたタミル語文の文脈に基づく単語の検出と訂正 0.56
In 2021 10th International Conference on Information and Automation for Sustainability (ICIAfS), pages 42–47. 2021年の第10回国際情報自動化会議(ICIAfS)で42-47頁。 0.68
Anbukkarasi Anbukkarasi 0.42
Sampath, Thenmozhi サムパス じゃあ モジ 0.45
Sathiyaraj Thangasamy, Sathiyaraj Thangasamy 0.27
Durairaj, Bharathi Raja Chakravarthi, Ruba Priyadharshini, Subalalitha Chinnaudayar Navaneethakrishnan, Kogilavani Shanmugavadivel, Sajeetha Thavareesan, Parameswari Krishnamurthy, Adeep Hande, Sean Benhur, and Santhiya Ponnusamy, Kishor Kumar Pandiyan. Durairaj, Bharathi Raja Chakravarthi, Ruba Priyadharshini, Subalalitha Chinnaudayar Navaneethakrishnan, Kogilavani Shanmugavadivel, Sajeetha Thavareesan, Parameswari Krishnamurthy, Adeep Hande, Sean Benhur, Santhiya Ponnusamy, Kishor Kumar Pandiyan
訳抜け防止モード: durairaj, bharathi raja chakravarthi, ruba priyadharshini, subalalitha chinnaudayar navaneethakrishnan, kogilavani shanmugavadivel, sajeetha thavareesan, parameswari krishnamurthy, a deep hande ショーン・ベンハー(sean benhur)、サンティヤ・ポンサミー(santhiya ponnusamy)、キスホル・クマール・パンディヤン(kishor kumar pandiyan)。
0.77
Findings of the shared task on Emotion 2022. Emotion 2022における共有タスクの発見 0.72
In Proceedings of the Second Analysis in Tamil. In Proceedings of the Second Analysis in Tamil (英語) 0.84
Workshop on Speech and Language Technologies for Dravidian Languages. ドラビディアン言語のための音声・言語技術ワークショップ 0.56
Association for Computational Linguistics. Sunayana Sitaram, Khyathi Raghavi Chandu, Sai Krishna Rallabandi, and A. Black. 計算言語学会会員。 Sunayana Sitaram、Khyathi Raghavi Chandu、Sai Krishna Rallabandi、A. Black。 0.60
2019. A survey of code-switched speech and language processing. 2019. コード変更音声と言語処理に関する調査 0.56
ArXiv, abs/1904.00784. ArXiv, abs/1904.00784。 0.60
R Sivanantham and M Seran. シバナンタムとmセランだ 0.55
2019. Keeladi: An urban settlement of sangam age on the banks of river vaigai. 2019. キーラディ(keeladi):ヴァイガイ川の岸にあるサンガム時代の都市集落。 0.48
India: Department of Archaeology, Government of Tamil Nadu, Chennai. インド:チェンナイのタミル・ナドゥ州考古学部。 0.52
R Srinivasan and CN Subalalitha. R SrinivasanとCN Subalalitha。 0.37
2019. Automated named entity recognition from tamil documents. 2019. タミルの文書からの自動名前付きエンティティ認識。 0.52
In 2019 IEEE 1st International Conference on Energy, Systems and Information Processing (ICESIP), pages 1–5. 2019年、IEEE 1st International Conference on Energy, Systems and Information Processing (ICESIP) 1-5ページ。
訳抜け防止モード: 2019年ieee第1回エネルギー・システム・情報処理国際会議(icesip)参加報告 1-5頁。
0.72
IEEE. C. N. Subalalitha. IEEE。 C. N. Subalalitha 0.44
2019. Information extraction frame- 2019. 情報抽出フレーム 0.57
work for Kurunthogai. クルントガイで働いてる 0.40
S¯adhan¯a, 44(7):156. 44(7):156。 0.59
CN Subalalitha and E Poovammal. CN SubalalithaとE Poovammal。 0.35
2018. Automatic bilingual dictionary construction for Tirukural. 2018. Tirukuralのための自動バイリンガル辞書構築 0.49
Applied Artificial Intelligence, 32(6):558–567. 応用人工知能 32(6):558-567。 0.79
Sajeetha Thavareesan and Sinnathamby Mahesan. Sajeetha ThavareesanとSinnathamby Mahesan。 0.35
2019. Sentiment analysis in Tamil texts: A study on machine learning techniques and feature representation. 2019. タミル語のテキストにおける感情分析:機械学習技術と特徴表現に関する研究 0.63
In 2019 14th Conference on Industrial and Information Systems (ICIIS), pages 320–325. 2019年の第14回産業情報システム会議(ICIIS)、320-325頁。 0.84
Sajeetha Thavareesan and Sinnathamby Mahesan. Sajeetha ThavareesanとSinnathamby Mahesan。 0.35
2020a. lexicon expansion using Word2vec and fastText for sentiment prediction in In 2020 Moratuwa Engineering ReTamil texts. 2020年。 感情予測のためのWord2vecとfastTextを使用した辞書拡張 In 2020 Moratuwa Engineering ReTamilテキスト。 0.75
search Conference (MERCon), pages 272–276. サーチ・コンファレンス(mercon)、272-276頁。 0.55
Sentiment Sajeetha Thavareesan and Sinnathamby Mahesan. 感性 Sajeetha ThavareesanとSinnathamby Mahesan。 0.53
2020b. Word embedding-based part of speech tagging in Tamil texts. 2020年。 タミル語テキストにおける単語埋め込みに基づく音声タグ付け 0.69
In 2020 IEEE 15th International Conference on Industrial and Information Systems (ICIIS), pages 478–482. 2020年、ieee 15th international conference on industrial and information systems (iciis) 478-482ページ。 0.82
英語(論文から抽出)日本語訳スコア
Sajeetha Thavareesan and Sinnathamby Mahesan. Sajeetha ThavareesanとSinnathamby Mahesan。 0.35
2021. Sentiment analysis in Tamil texts using kmeans and k-nearest neighbour. 2021. kmeans と k-nearest neighbor を用いたタミル語テキストの感情分析 0.55
In 2021 10th International Conference on Information and Automation for Sustainability (ICIAfS), pages 48–53. 2021年の第10回国際情報自動化会議(ICIAfS)、48-53頁。 0.69
Konthala Yasaswini, Karthik コンタラヤサスウィニ カルティク 0.24
Puranik, Adeep Hande, Ruba Priyadharshini, Sajeetha Thavareesan, and Bharathi Raja Chakravarthi. プラーニク、adeep hande、ruba priyadharshini、sajeetha thavareesan、bharathi raja chakravarthi。 0.67
2021. IIITT@DravidianLangT ech-EACL2021: Transfer learning for offensive language detection in In Proceedings of the First Dravidian languages. 2021. IIITT@DravidianLangT ech-EACL2021: In Proceedings of the First Dravidian Languageにおける攻撃的言語検出のためのトランスファー学習。 0.60
Workshop on Speech and Language Technologies for Dravidian Languages, pages 187–194, Kyiv. ドラヴィダ語の音声と言語技術に関するワークショップ、187-194ページ、kyiv。 0.76
Association for Computational Linguistics. Marcos Zampieri, Preslav Nakov, Sara Rosenthal, Pepa Atanasova, Georgi Karadzhov, Hamdy Mubarak, Leon Derczynski, Zeses Pitenis, and Çagri Çöltekin. 計算言語学会会員。 Marcos Zampieri、Preslav Nakov、Sara Rosenthal、Pepa Atanasova、Georgi Karadzhov、Hamdy Mubarak、Leon Derczynski、Zeses Pitenis、Sagri söltekin。
訳抜け防止モード: 計算言語学会会員。 Marcos Zampieri, Preslav Nakov, Sara Rosenthal, Pepa Atanasova Georgi Karadzhov, Hamdy Mubarak, Leon Derczynski, Zeses Pitenis と、ヘールテキンは言った。
0.66
2020. Semeval-2020 task 12: Multilingual offensive language identification in social media (offenseval 2020). 2020. Semeval-2020 task 12: Multilingual offensive language identification in social media (offenseval 2020) 0.42
In Proceedings of the Fourteenth Workshop on Semantic Evaluation, SemEval@COLING 2020, Barcelona (online), December 12-13, 2020, pages 1425–1447. 第14回意味評価ワークショップの議事録において、semeval@coling 2020, barcelona (online), december 12-13, 2020, pages 1425–1447。 0.77
International Committee for Computational Linguistics. 計算言語学国際委員会委員。 0.69
Qinglin Zhu, Zijie Lin, Yice Zhang, Jingyi Sun, Xiang Li, Qihui Lin, Yixue Dang, and Ruifeng Xu. 清林朱、ジジー・リン、yice zhang、jingyi sun、xiang li、qihui lin、yixue dang、ruifeng xu。 0.73
2021. HITSZ-HLT at SemEval-2021 task 5: Ensemble sequence labeling and span boundary detection for toxic span detection. 2021. HITSZ-HLT at SemEval-2021 Task 5: Ensemble sequence labeling and span boundary detection for toxic span detection。
訳抜け防止モード: 2021. HITSZ - HLT at SemEval-2021 Task 5 : Ensemble sequence labeling 有毒なスパン検出のための スパン境界検出
0.59
In Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021), pages 521–526, Online. 第15回意味評価国際ワークショップ(semeval-2021)第521-526ページオンライン。 0.67
Association for Computational Linguistics. 計算言語学会会員。 0.52
                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。