論文の概要: CERD: A Comprehensive Chinese Rhetoric Dataset for Rhetorical Understanding and Generation in Essays
- arxiv url: http://arxiv.org/abs/2409.19691v1
- Date: Sun, 29 Sep 2024 12:47:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:05:05.599546
- Title: CERD: A Comprehensive Chinese Rhetoric Dataset for Rhetorical Understanding and Generation in Essays
- Title(参考訳): CERD:エッセイにおける修辞的理解と生成のための総合的な中国の修辞的データセット
- Authors: Nuowei Liu, Xinhao Chen, Hongyi Wu, Changzhi Sun, Man Lan, Yuanbin Wu, Xiaopeng Bai, Shaoguang Mao, Yan Xia,
- Abstract要約: 既存の修辞的データセットやコーパスは主に単一の粗いカテゴリや細かいカテゴリに焦点を当てている。
提案手法は,4つの大まかなカテゴリからなる中国エッセイレトリックデータセット(CERD)を提案する。
CERDは、手動で注釈付きで包括的な中国の修辞的データセットで、5つの相互関連サブタスクがある。
- 参考スコア(独自算出の注目度): 30.728539221991188
- License:
- Abstract: Existing rhetorical understanding and generation datasets or corpora primarily focus on single coarse-grained categories or fine-grained categories, neglecting the common interrelations between different rhetorical devices by treating them as independent sub-tasks. In this paper, we propose the Chinese Essay Rhetoric Dataset (CERD), consisting of 4 commonly used coarse-grained categories including metaphor, personification, hyperbole and parallelism and 23 fine-grained categories across both form and content levels. CERD is a manually annotated and comprehensive Chinese rhetoric dataset with five interrelated sub-tasks. Unlike previous work, our dataset aids in understanding various rhetorical devices, recognizing corresponding rhetorical components, and generating rhetorical sentences under given conditions, thereby improving the author's writing proficiency and language usage skills. Extensive experiments are conducted to demonstrate the interrelations between multiple tasks in CERD, as well as to establish a benchmark for future research on rhetoric. The experimental results indicate that Large Language Models achieve the best performance across most tasks, and jointly fine-tuning with multiple tasks further enhances performance.
- Abstract(参考訳): 既存の修辞的理解と生成データセットやコーパスは、主に単一の粗いカテゴリまたは細かなカテゴリに焦点を当て、独立したサブタスクとして扱うことで、異なる修辞的装置間の共通的な相互関係を無視している。
本稿では, 比喩, 人格化, ハイパーボレ, 並列性を含む4つの大まかなカテゴリと, 形と内容の双方で23の細かなカテゴリから構成される中国のエッセイ・レトリック・データセット(CERD)を提案する。
CERDは、手動で注釈付きで包括的な中国の修辞的データセットで、5つの相互関連サブタスクがある。
過去の研究と異なり,我々のデータセットは,様々な修辞装置を理解し,対応する修辞要素を認識し,与えられた条件下で修辞文を生成することを支援する。
CERDにおける複数のタスク間の相互関係を実証し、将来の修辞学研究のためのベンチマークを確立するために、広範囲な実験を行った。
実験結果から,大規模言語モデルがほとんどのタスクで最高のパフォーマンスを達成し,複数のタスクを共同で微調整することで,パフォーマンスがさらに向上することが示唆された。
関連論文リスト
- CADS: A Systematic Literature Review on the Challenges of Abstractive Dialogue Summarization [7.234196390284036]
本稿では、英語対話におけるトランスフォーマーに基づく抽象要約に関する研究を要約する。
ダイアログ要約における主な課題(言語、構造、理解、話者、サリエンス、事実)をカバーします。
言語などいくつかの課題がかなりの進歩を遂げているのに対して、理解、事実性、サリエンスといった課題は依然として困難であり、重要な研究機会を持っている。
論文 参考訳(メタデータ) (2024-06-11T17:30:22Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - A Survey of Implicit Discourse Relation Recognition [9.57170901247685]
暗黙的談話関係認識(IDRR)は、暗黙的関係を検出し、接続性のない2つのテキストセグメント間でその感覚を分類することである。
この記事では、IDRRタスクに関する包括的で最新の調査を提供する。
論文 参考訳(メタデータ) (2022-03-06T15:12:53Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - A Bag of Tricks for Dialogue Summarization [7.7837843673493685]
課題は,複数の話者に属する対話の部分の処理と識別,否定的理解,状況の推論,非公式言語理解の4つである。
事前訓練されたシーケンス・ツー・シーケンス言語モデルを用いて、話者名置換、否定的スコープハイライト、関連するタスクによるマルチタスク学習、ドメイン内のデータの事前学習について検討する。
論文 参考訳(メタデータ) (2021-09-16T21:32:02Z) - Multi-modal Sarcasm Detection and Humor Classification in Code-mixed
Conversations [14.852199996061287]
我々は,会話対話におけるマルチモーダルサルカズム検出とユーモア分類のための,ヒンディー語と英語の混成データセットMaSaCを開発した。
発話分類のための新しい注目度の高いニューラルアーキテクチャであるMSH-COMICSを提案する。
論文 参考訳(メタデータ) (2021-05-20T18:33:55Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Detecting and Classifying Malevolent Dialogue Responses: Taxonomy, Data
and Methodology [68.8836704199096]
コーパスベースの会話インタフェースは、テンプレートベースのエージェントや検索ベースのエージェントよりも多様な自然なレスポンスを生成することができる。
コーパスベースの会話エージェントの生成能力が増大すると、マレヴォレントな反応を分類し、フィルタリングする必要性が生じる。
不適切な内容の認識と分類に関するこれまでの研究は、主にある種のマレヴォレンスに焦点を絞っている。
論文 参考訳(メタデータ) (2020-08-21T22:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。