論文の概要: RaFoLa: A Rationale-Annotated Corpus for Detecting Indicators of Forced
Labour
- arxiv url: http://arxiv.org/abs/2205.02684v1
- Date: Thu, 5 May 2022 14:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 14:51:21.899807
- Title: RaFoLa: A Rationale-Annotated Corpus for Detecting Indicators of Forced
Labour
- Title(参考訳): RaFoLa:強制労働の指標を検知するRationale-Annotated Corpus
- Authors: Erick Mendez Guzman, Viktor Schlegel and Riza Batista-Navarro
- Abstract要約: 本稿では,マルチクラスおよび複数ラベルの強制労働検出のための注釈付き英語コーパスについて紹介する。
コーパスは、国際労働機関(ILO)が定めるリスク指標に従って、専門データソースから検索した989のニュース記事で構成されている。
- 参考スコア(独自算出の注目度): 4.393754160527062
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Forced labour is the most common type of modern slavery, and it is
increasingly gaining the attention of the research and social community. Recent
studies suggest that artificial intelligence (AI) holds immense potential for
augmenting anti-slavery action. However, AI tools need to be developed
transparently in cooperation with different stakeholders. Such tools are
contingent on the availability and access to domain-specific data, which are
scarce due to the near-invisible nature of forced labour. To the best of our
knowledge, this paper presents the first openly accessible English corpus
annotated for multi-class and multi-label forced labour detection. The corpus
consists of 989 news articles retrieved from specialised data sources and
annotated according to risk indicators defined by the International Labour
Organization (ILO). Each news article was annotated for two aspects: (1)
indicators of forced labour as classification labels and (2) snippets of the
text that justify labelling decisions. We hope that our data set can help
promote research on explainability for multi-class and multi-label text
classification. In this work, we explain our process for collecting the data
underpinning the proposed corpus, describe our annotation guidelines and
present some statistical analysis of its content. Finally, we summarise the
results of baseline experiments based on different variants of the
Bidirectional Encoder Representation from Transformer (BERT) model.
- Abstract(参考訳): 強制労働は現代の奴隷制の最も一般的なタイプであり、研究や社会社会の注目を集めている。
最近の研究は、人工知能(AI)が反奴隷制度運動を増強する大きな可能性を秘めていることを示唆している。
しかし、AIツールは異なる利害関係者と協力して透過的に開発する必要がある。
このようなツールは、強制労働のほとんど見えない性質のため、ドメイン固有のデータへの可用性とアクセスに必須です。
本稿では,マルチクラスおよびマルチラベル強制労働検出のためのアノテーション付き英語コーパスについて述べる。
コーパスは、国際労働機関(ILO)が定めるリスク指標に従って、専門データソースから検索した989のニュース記事で構成されている。
各ニュース記事は,(1)分類ラベルとしての強制労働の指標,(2)ラベル決定を正当化するテキストの断片の2つの側面について注釈を付した。
当社のデータセットは,マルチクラスおよびマルチラベルテキスト分類における説明可能性の研究を促進できることを願っている。
本稿では,提案するコーパスの基盤となるデータ収集のプロセスを説明し,ガイドラインを解説し,その内容に関する統計的分析を行う。
最後に,変換器(BERT)モデルからの双方向エンコーダ表現の異なる変種に基づいて,ベースライン実験の結果を要約する。
関連論文リスト
- Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Automatic Detection of Industry Sectors in Legal Articles Using Machine
Learning Approaches [0.0]
1,700以上の注釈付き法律論文からなるデータセットが6つの産業セクターの識別のために作成された。
このシステムは、6つの産業セクターに対して0.90以上の特性曲線と0.81以上のFスコアを受信機が操作する領域で有望な結果を得た。
論文 参考訳(メタデータ) (2023-03-08T12:41:56Z) - PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and
Entailment Recognition [63.51569687229681]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。
提案するPropSegmEntは45K以上の提案のコーパスであり, 専門家によるアノテートを行う。
我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文 参考訳(メタデータ) (2022-12-21T04:03:33Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Generating Diversified Comments via Reader-Aware Topic Modeling and
Saliency Detection [25.16392119801612]
生成したコメントの質を高めるために,読者が認識するトピックモデリングとサリエンシー情報検出フレームワークを提案する。
読者対応トピックモデリングのために,読者コメントからの潜在意味学習と話題マイニングのための変分生成クラスタリングアルゴリズムを設計した。
サリエンシー情報検出のために、ニュースコンテンツを推定してサリエンシー情報を選択するBernoulli分布について紹介します。
論文 参考訳(メタデータ) (2021-02-13T03:50:31Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - Topic-Centric Unsupervised Multi-Document Summarization of Scientific
and News Articles [3.0504782036247438]
本稿では,トピック中心のマルチドキュメント要約フレームワークを提案し,抽象的な要約を生成する。
提案アルゴリズムは,有能な言語単位選択とテキスト生成技術を開発することにより,抽象的な要約を生成する。
提案手法は,自動抽出評価指標を用いて評価した場合の最先端技術と一致し,人間の5つの評価指標の抽象的要約に優れる。
論文 参考訳(メタデータ) (2020-11-03T04:04:21Z) - Hierarchical Interaction Networks with Rethinking Mechanism for
Document-level Sentiment Analysis [37.20068256769269]
文書レベルの感性分析(DSA)は、あいまいなセマンティックリンクと感情情報の複雑化により、より困難である。
そこで本研究では,DSAにおける対象の明示的パターンと感情文脈を用いた識別表現を効果的に生成する方法について検討する。
感性に基づく再考機構(SR)を,感情ラベル情報を用いてHINを精製し,より感情に敏感な文書表現を学習することによって設計する。
論文 参考訳(メタデータ) (2020-07-16T16:27:38Z) - XREF: Entity Linking for Chinese News Comments with Supplementary
Article Reference [19.811371589597382]
本研究では,中国のニュースコメントに対するエンティティリンクの問題点について考察する。
本稿では、注意機構を利用して関連するコンテキストをピンポイントする新しいモデルXREFを提案する。
大規模未ラベルコーパスを利用した弱教師付きトレーニング手法を開発した。
論文 参考訳(メタデータ) (2020-06-24T19:42:54Z) - Commonsense Evidence Generation and Injection in Reading Comprehension [57.31927095547153]
本稿では,CEGI と命名された理解を読み取るためのコモンセンス・エビデンス・ジェネレーション・インジェクション・フレームワークを提案する。
この枠組みは、2種類の補助的コモンセンス証拠を包括的読解に注入し、機械に合理的思考能力を持たせる。
CosmosQAデータセットの実験では、提案されたCEGIモデルが現在の最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-11T16:31:08Z) - Exploring Explainable Selection to Control Abstractive Summarization [51.74889133688111]
説明可能性を重視した新しいフレームワークを開発する。
新しいペアワイズ行列は、文の相互作用、中心性、属性スコアをキャプチャする。
コンストラクタ内の文分割アテンション機構は、最終要約が所望のコンテンツを強調することを保証する。
論文 参考訳(メタデータ) (2020-04-24T14:39:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。