論文の概要: RAAMove: A Corpus for Analyzing Moves in Research Article Abstracts
- arxiv url: http://arxiv.org/abs/2403.15872v1
- Date: Sat, 23 Mar 2024 15:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 20:42:03.572827
- Title: RAAMove: A Corpus for Analyzing Moves in Research Article Abstracts
- Title(参考訳): RAAMove:研究論文要約におけるモブの分析コーパス
- Authors: Hongzheng Li, Ruojin Wang, Ge Shi, Xing Lv, Lei Lei, Chong Feng, Fang Liu, Jinkun Lin, Yangguang Mei, Lingnan Xu,
- Abstract要約: RAAMoveは、研究論文(RA)における移動構造のアノテーション専用の包括的なコーパスである。
コーパスは、まず、エキスパートアノテータが手動で高品質なデータをアノテートし、次に、人間のアノテートデータに基づいて、BERTベースのモデルが自動アノテーションに使用される。
その結果、33,988の注釈付きインスタンスからなる大規模で高品質なコーパスが得られた。
- 参考スコア(独自算出の注目度): 9.457460355411582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Move structures have been studied in English for Specific Purposes (ESP) and English for Academic Purposes (EAP) for decades. However, there are few move annotation corpora for Research Article (RA) abstracts. In this paper, we introduce RAAMove, a comprehensive multi-domain corpus dedicated to the annotation of move structures in RA abstracts. The primary objective of RAAMove is to facilitate move analysis and automatic move identification. This paper provides a thorough discussion of the corpus construction process, including the scheme, data collection, annotation guidelines, and annotation procedures. The corpus is constructed through two stages: initially, expert annotators manually annotate high-quality data; subsequently, based on the human-annotated data, a BERT-based model is employed for automatic annotation with the help of experts' modification. The result is a large-scale and high-quality corpus comprising 33,988 annotated instances. We also conduct preliminary move identification experiments using the BERT-based model to verify the effectiveness of the proposed corpus and model. The annotated corpus is available for academic research purposes and can serve as essential resources for move analysis, English language teaching and writing, as well as move/discourse-related tasks in Natural Language Processing (NLP).
- Abstract(参考訳): 特定の目的のための英語(ESP)と学術目的のための英語(EAP)では、何十年にもわたってモブ構造が研究されてきた。
しかし、研究論文(RA)要約の移動注釈コーパスはほとんどない。
本稿では,RA抽象における移動構造アノテーション専用の総合的マルチドメインコーパスであるRAAMoveを紹介する。
RAAMoveの主な目的は、移動解析と自動移動識別を容易にすることである。
本稿では, コーパス構築プロセスについて, 提案手法, データ収集, アノテーションガイドライン, アノテーション手順など, 徹底的な議論を行う。
コーパスは、最初は専門家アノテータが手動で高品質なデータをアノテートし、その後、人間のアノテートデータに基づいて、BERTベースのモデルが専門家の修正の助けを借りて自動アノテーションに使用される。
その結果、33,988の注釈付きインスタンスからなる大規模で高品質なコーパスが得られた。
また,提案したコーパスとモデルの有効性を検証するため,BERTモデルを用いた事前動作同定実験を行った。
注釈付きコーパスは学術的な研究目的に利用でき、移動分析、英語の教育と執筆、および自然言語処理(NLP)における移動/談話関連のタスクに不可欠なリソースとして機能する。
関連論文リスト
- FASSILA: A Corpus for Algerian Dialect Fake News Detection and Sentiment Analysis [0.0]
アルジェ方言(AD)は、注釈付きコーパスがないため、課題に直面している。
本研究では,Fake News(FN)検出・感情分析(SA)のための専門コーパスの開発プロセスについて概説する。
論文 参考訳(メタデータ) (2024-11-07T10:39:10Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - Specifying Genericity through Inclusiveness and Abstractness Continuous Scales [1.024113475677323]
本稿では,自然言語における名詞句(NP)の詳細なモデリングのための新しいアノテーションフレームワークを提案する。
このフレームワークはシンプルで直感的に設計されており、専門家でないアノテータにもアクセスでき、クラウドソースのタスクに適している。
論文 参考訳(メタデータ) (2024-03-22T15:21:07Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Revise and Resubmit: An Intertextual Model of Text-based Collaboration
in Peer Review [52.359007622096684]
ピアレビューは、ほとんどの科学分野における出版プロセスの重要な要素である。
既存のNLP研究は個々のテキストの分析に重点を置いている。
編集補助は、しばしばテキストのペア間の相互作用をモデル化する必要がある。
論文 参考訳(メタデータ) (2022-04-22T16:39:38Z) - Hierarchical Annotation for Building A Suite of Clinical Natural
Language Processing Tasks: Progress Note Understanding [4.5939673461957335]
本研究は,臨床テキスト理解,臨床推論,要約を行うための3段階の階層的アノテーションスキーマを導入する。
我々は,公開日誌の広範囲な収集に基づいて注釈付きコーパスを作成した。
また、3つのアノテーションステージを利用する3つのタスクで、プログレッシブノート理解という新しいタスクスイートも定義します。
論文 参考訳(メタデータ) (2022-04-06T18:38:08Z) - BERT-ASC: Auxiliary-Sentence Construction for Implicit Aspect Learning in Sentiment Analysis [4.522719296659495]
本稿ではアスペクト分類とアスペクトベース感情サブタスクに対処する統合フレームワークを提案する。
コーパスのセマンティック情報を用いて暗黙的側面のための補助文を構築する機構を導入する。
次に、BERTはアスペクト自体ではなく、この補助文に応答してアスペクト固有の表現を学ぶことを推奨する。
論文 参考訳(メタデータ) (2022-03-22T13:12:27Z) - Understanding Pre-trained BERT for Aspect-based Sentiment Analysis [71.40586258509394]
本稿では、アスペクトベース感情分析(ABSA)におけるタスクに対するBERTのレビューから得られた事前学習された隠れ表現について分析する。
アスペクトや意見のアノテーションなしでラベル付けされていないコーパスでトレーニングされた(マスクされた)言語モデルの一般的なプロキシタスクが、ABSAの下流タスクにどのように重要な機能を提供するかは明らかではない。
論文 参考訳(メタデータ) (2020-10-31T02:21:43Z) - Entity and Evidence Guided Relation Extraction for DocRED [33.69481141963074]
この課題に対して,共同トレーニングフレームワークE2GRE(Entity and Evidence Guided Relation extract)を提案する。
事前訓練された言語モデル(例えばBERT, RoBERTa)への入力としてエンティティ誘導シーケンスを導入する。
これらのエンティティ誘導シーケンスは、事前訓練された言語モデル(LM)がエンティティに関連するドキュメントの領域に集中するのに役立ちます。
我々は最近リリースされた関係抽出のための大規模データセットDocREDに対するE2GREアプローチを評価した。
論文 参考訳(メタデータ) (2020-08-27T17:41:23Z) - DomBERT: Domain-oriented Language Model for Aspect-based Sentiment
Analysis [71.40586258509394]
本研究では、ドメイン内コーパスと関連するドメインコーパスの両方から学習するためのBERTの拡張であるDomBERTを提案する。
アスペクトベース感情分析における課題の整理実験を行い、有望な結果を示す。
論文 参考訳(メタデータ) (2020-04-28T21:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。