論文の概要: A Corpus for Sentence-level Subjectivity Detection on English News Articles
- arxiv url: http://arxiv.org/abs/2305.18034v3
- Date: Fri, 24 May 2024 12:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 00:15:41.169622
- Title: A Corpus for Sentence-level Subjectivity Detection on English News Articles
- Title(参考訳): 英語ニュース記事における文レベル主観性検出コーパス
- Authors: Francesco Antici, Andrea Galassi, Federico Ruggeri, Katerina Korre, Arianna Muti, Alessandra Bardi, Alice Fedotova, Alberto Barrón-Cedeño,
- Abstract要約: 我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
- 参考スコア(独自算出の注目度): 49.49218203204942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop novel annotation guidelines for sentence-level subjectivity detection, which are not limited to language-specific cues. We use our guidelines to collect NewsSD-ENG, a corpus of 638 objective and 411 subjective sentences extracted from English news articles on controversial topics. Our corpus paves the way for subjectivity detection in English and across other languages without relying on language-specific tools, such as lexicons or machine translation. We evaluate state-of-the-art multilingual transformer-based models on the task in mono-, multi-, and cross-language settings. For this purpose, we re-annotate an existing Italian corpus. We observe that models trained in the multilingual setting achieve the best performance on the task.
- Abstract(参考訳): 我々は,言語固有の手がかりに限らず,文レベルの主観性検出のための新しいガイドラインを開発した。
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語や他の言語で主観的検出を行う方法を舗装している。
単言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語
この目的のために、既存のイタリアのコーパスを再注釈する。
マルチ言語設定で訓練されたモデルがタスク上で最高のパフォーマンスを達成するのを観察する。
関連論文リスト
- Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement [1.4335183427838039]
我々は,特定の特性を持つ大規模でキュレートされた合成データを開発するためのアプローチを採っている。
我々は、ブラックバード言語行列(Blackbird Language Matrices)と呼ばれる新しい複数選択タスクとデータセットを使用して、特定の文法構造現象に焦点を当てる。
多言語テキストを一貫した方法で訓練したにもかかわらず、多言語事前学習言語モデルには言語固有の違いがあることが示される。
論文 参考訳(メタデータ) (2024-09-10T14:58:55Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - Corpus-Guided Contrast Sets for Morphosyntactic Feature Detection in
Low-Resource English Varieties [3.3536302616846734]
コーパス誘導編集による効率的なコントラストセットの生成とフィルタリングを行う。
我々は、インド英語とアフリカ系アメリカ人の英語の特徴検出を改善し、言語研究をいかに支援できるかを実証し、他の研究者が使用するための微調整されたモデルをリリースすることを示した。
論文 参考訳(メタデータ) (2022-09-15T21:19:31Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。