論文の概要: A RoBERTa-Based Functional Syntax Annotation Model for Chinese Texts
- arxiv url: http://arxiv.org/abs/2509.04046v1
- Date: Thu, 04 Sep 2025 09:27:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.113447
- Title: A RoBERTa-Based Functional Syntax Annotation Model for Chinese Texts
- Title(参考訳): 中国語テキストに対するRoBERTaに基づく機能的構文アノテーションモデル
- Authors: Han Xiaohui, Zhang Yunlong, Guo Yuxi,
- Abstract要約: 本研究では,RoBERTaをベースとした中国語の構文構文モデルを提案する。
この研究は、ピープルズ・デイリー2014コーパスから4100の文をランダムに選択し、機能構文理論に基づいて注釈付けした。
このモデルは、主語(S)、主語(M)、補語(Complement)などの中核的な構文要素を同定する上で優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Systemic Functional Grammar and its branch, Cardiff Grammar, have been widely applied to discourse analysis, semantic function research, and other tasks across various languages and texts. However, an automatic annotation system based on this theory for Chinese texts has not yet been developed, which significantly constrains the application and promotion of relevant theories. To fill this gap, this research introduces a functional syntax annotation model for Chinese based on RoBERTa (Robustly Optimized BERT Pretraining Approach). The study randomly selected 4,100 sentences from the People's Daily 2014 corpus and annotated them according to functional syntax theory to establish a dataset for training. The study then fine-tuned the RoBERTa-Chinese wwm-ext model based on the dataset to implement the named entity recognition task, achieving an F1 score of 0.852 on the test set that significantly outperforms other comparative models. The model demonstrated excellent performance in identifying core syntactic elements such as Subject (S), Main Verb (M), and Complement (C). Nevertheless, there remains room for improvement in recognizing entities with imbalanced label samples. As the first integration of functional syntax with attention-based NLP models, this research provides a new method for automated Chinese functional syntax analysis and lays a solid foundation for subsequent studies.
- Abstract(参考訳): 体系的機能文法とその分岐であるカーディフ・グラマー(Cardiff Grammar)は、言論分析、意味関数の研究、および様々な言語やテキストのタスクに広く応用されている。
しかし、この論に基づく漢文の自動注釈システムはまだ開発されておらず、関連する理論の適用と普及を著しく制限している。
このギャップを埋めるために,RoBERTa(Robustly Optimized BERT Pretraining Approach)に基づく中国語の構文アノテーションモデルを提案する。
この研究は、ピープルズ・デイリー2014コーパスから4100の文章をランダムに選択し、機能構文理論に従って注釈付けし、トレーニングのためのデータセットを確立した。
その後、データセットに基づいてRoBERTa- Chinese wwm-extモデルを微調整して名前付きエンティティ認識タスクを実装し、他の比較モデルを大幅に上回るテストセットでF1スコア0.852を達成した。
このモデルは、主語(S)、主語(M)、補語(C)などの中核的構文要素の同定において優れた性能を示した。
それでも、不均衡なラベルサンプルを持つエンティティを認識するための改善の余地は残されている。
本研究は,機能構文と注意に基づくNLPモデルとの初めての統合として,中国における機能構文解析の自動化手法を提供し,その後の研究の基盤を固めるものである。
関連論文リスト
- Chinese Financial Text Emotion Mining: GCGTS -- A Character
Relationship-based Approach for Simultaneous Aspect-Opinion Pair Extraction [7.484918031250864]
中国の財務文献からのアスペクト・オピニオン・ペア抽出(AOPE)は、微粒テキスト感情分析の専門課題である。
従来の研究は主に、この抽出プロセスを容易にするためにグリッドモデル内のグリッドアノテーションスキームの開発に重点を置いてきた。
我々は、GCGTS(Graph-based Character-level Grid Tagging Scheme)と呼ばれる新しい手法を提案する。
GCGTS法は、グラフ畳み込みネットワーク(GCN)を用いた構文構造を明示的に取り入れ、同じ意味単位(中国語の単語レベル)内で文字の符号化を統一する。
論文 参考訳(メタデータ) (2023-08-04T02:20:56Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Enhancing Pashto Text Classification using Language Processing
Techniques for Single And Multi-Label Analysis [0.0]
本研究では,Pashtoテキストの自動分類システムの構築を目的とする。
平均テスト精度は94%だった。
DistilBERTのような事前訓練された言語表現モデルの使用は、有望な結果を示した。
論文 参考訳(メタデータ) (2023-05-04T23:11:31Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Entity-Assisted Language Models for Identifying Check-worthy Sentences [23.792877053142636]
テキスト分類とランキングのための統一的なフレームワークを提案する。
本フレームワークは,文の意味的分析と,文内の識別されたエンティティから得られる追加のエンティティ埋め込みを組み合わせる。
CLEFの2019年と2020年のCheckThat! Labsから公開されている2つのデータセットを使用して、我々のフレームワークの有効性を広く評価する。
論文 参考訳(メタデータ) (2022-11-19T12:03:30Z) - A Unified Neural Network Model for Readability Assessment with Feature
Projection and Length-Balanced Loss [17.213602354715956]
本稿では,可読性評価のための特徴投影と長さバランス損失を考慮したBERTモデルを提案する。
本モデルは,2つの英語ベンチマークデータセットと1つの中国語教科書データセットを用いて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-19T05:33:27Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Learning Which Features Matter: RoBERTa Acquires a Preference for
Linguistic Generalizations (Eventually) [25.696099563130517]
我々はMSGS(Mixed Signals Generalization Set)と呼ばれる新しい英語診断セットを導入する。
MSGSは20のあいまいなバイナリ分類タスクから構成されており、事前訓練されたモデルが微調整中に言語的あるいは表面的な一般化を好むかどうかをテストするのに使用される。
我々は、RoBERTaモデルを100万語から10億語までのデータ量でスクラッチからプレトレーニングし、MSGS上でのパフォーマンスをRoBERTaベースと比較する。
モデルは事前学習したデータで言語的特徴を表現することができるが、言語的な一般化を表わすためには、はるかに多くのデータが必要である。
論文 参考訳(メタデータ) (2020-10-11T22:09:27Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。