論文の概要: A New Dataset for Topic-Based Paragraph Classification in
Genocide-Related Court Transcripts
- arxiv url: http://arxiv.org/abs/2204.02712v1
- Date: Wed, 6 Apr 2022 10:24:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 21:22:07.242496
- Title: A New Dataset for Topic-Based Paragraph Classification in
Genocide-Related Court Transcripts
- Title(参考訳): ジェノサイド関連裁判所書写におけるトピックに基づく段落分類のための新しいデータセット
- Authors: Miriam Schirmer, Udo Kruschwitz, Gregor Donabauer
- Abstract要約: GTC (Genocide Transcript Corpus) を報告した。
1)コミュニティに最初のリファレンスコーパスを提供すること、(2)ベンチマークパフォーマンスを確立すること、(3)ドメイン内の学習を移行するための最初のステップを検討すること、の3つの目的を果たす。
- 参考スコア(独自算出の注目度): 3.5702513723542295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in natural language processing has been impressive in many
different areas with transformer-based approaches setting new benchmarks for a
wide range of applications. This development has also lowered the barriers for
people outside the NLP community to tap into the tools and resources applied to
a variety of domain-specific applications. The bottleneck however still remains
the lack of annotated gold-standard collections as soon as one's research or
professional interest falls outside the scope of what is readily available. One
such area is genocide-related research (also including the work of experts who
have a professional interest in accessing, exploring and searching large-scale
document collections on the topic, such as lawyers). We present GTC (Genocide
Transcript Corpus), the first annotated corpus of genocide-related court
transcripts which serves three purposes: (1) to provide a first reference
corpus for the community, (2) to establish benchmark performances (using
state-of-the-art transformer-based approaches) for the new classification task
of paragraph identification of violence-related witness statements, (3) to
explore first steps towards transfer learning within the domain. We consider
our contribution to be addressing in particular this year's hot topic on
Language Technology for All.
- Abstract(参考訳): 自然言語処理の最近の進歩は多くの分野で印象的であり、トランスフォーマーベースのアプローチが幅広いアプリケーションに新しいベンチマークを設定している。
この開発により、nlpコミュニティ外の人々が様々なドメイン固有のアプリケーションに適用されるツールやリソースを利用するための障壁も低くなった。
しかし、調査や専門的な関心がすぐに手に入る範囲外になると、このボトルネックはいまだに注釈付き金本位制のコレクションがないままである。
そのような分野の1つがジェノサイド関連の研究(弁護士のような大規模な文書コレクションへのアクセス、探索、検索に関心を持つ専門家の仕事を含む)である。
本稿では,(1)コミュニティに第1の基準コーパスを提供すること,(2)暴力関連証人供述書の新たな分類タスクのベンチマークパフォーマンス(最先端のトランスフォーマーに基づくアプローチ)を確立すること,(3)ドメイン内の移行学習への第一歩を探求すること,の3つの目的を果たすジェノサイド関連裁判所文書の最初の注釈付きコーパスであるGTC(Genocide Transcript Corpus)を紹介する。
我々は、特に今年の言語技術に関するホットトピックに取り組むために、私たちの貢献を考えている。
関連論文リスト
- A Survey of Ontology Expansion for Conversational Understanding [25.39780882479585]
本報告では,会話理解のためのOnExpの最先端技術について概説する。
既存の文献を,(1)新しい発見,(2)新しいスロットバリュー発見,(3)ジョイントオンExpの3つの領域に分類する。
論文 参考訳(メタデータ) (2024-10-19T07:27:30Z) - A Benchmark for Cross-Domain Argumentative Stance Classification on Social Media [12.479554210753664]
論証的姿勢分類は、特定のトピックに対する著者の視点を特定する上で重要な役割を担っている。
既存のベンチマークは、単一のドメインからのものや、限られたトピックにフォーカスすることが多い。
我々は,人的アノテーションの必要性を回避するために,プラットフォームルール,手軽に利用可能な専門家によるコンテンツ,および大規模言語モデルを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-11T15:20:11Z) - NaSGEC: a Multi-Domain Chinese Grammatical Error Correction Dataset from
Native Speaker Texts [51.64770549988806]
複数のドメインからのネイティブ話者テキストに対する中国語文法誤り訂正(CGEC)の研究を容易にする新しいデータセットであるNaSGECを紹介する。
対象ドメインを広げるために,3つの母国ドメイン,すなわちソーシャルメディア,科学文献,試験から12,500の文に対する複数の参照を注釈付けする。
我々は,最先端CGECモデルと異なるトレーニングデータを用いて,NaSGECのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2023-05-25T13:05:52Z) - Topic Taxonomy Expansion via Hierarchy-Aware Topic Phrase Generation [58.3921103230647]
TopicExpanというトピック分類拡張のための新しいフレームワークを提案する。
TopicExpanは、新しいトピックに属するトピック関連用語を直接生成する。
2つの実世界のテキストコーパスの実験結果から、TopicExpanは出力の質という点で他のベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-18T22:38:49Z) - TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters [57.59286394188025]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。
TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。
2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
論文 参考訳(メタデータ) (2022-01-18T07:07:38Z) - A Survey on Temporal Sentence Grounding in Videos [69.13365006222251]
ビデオ(TSGV)における時間的文グラウンドングは、与えられた文クエリに関する未編集ビデオから1つのターゲットセグメントをローカライズすることを目的としている。
我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。
論文 参考訳(メタデータ) (2021-09-16T15:01:46Z) - Preliminary Steps Towards Federated Sentiment Classification [17.520351189577]
我々は、コーパスを分散デバイスに格納しなければならないという制約の下で、複数のドメイン感情分類のための連合学習を利用する。
まず,フェデレートされた感情分類におけるモデルアグリゲーションとパーソナライゼーションを改善するための知識伝達強化型私的共有フレームワークを提案する。
第二に、単語ベクトルのリッチな意味と巨大な埋め込みサイズ特性を考慮したKTEPS$star$を提案する。
論文 参考訳(メタデータ) (2021-07-26T04:57:49Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - Legal Document Classification: An Application to Law Area Prediction of
Petitions to Public Prosecution Service [6.696983725360808]
本稿では,NLPを用いたテキスト分類手法を提案する。
我々の主な目標は、各分野の法律に請願書を割り当てるプロセスを自動化することです。
最高の結果は、ドメイン固有のコーパスとリカレントニューラルネットワークアーキテクチャに基づいてトレーニングされたWord2Vecの組み合わせで得られる。
論文 参考訳(メタデータ) (2020-10-13T18:05:37Z) - Detecting and Classifying Malevolent Dialogue Responses: Taxonomy, Data
and Methodology [68.8836704199096]
コーパスベースの会話インタフェースは、テンプレートベースのエージェントや検索ベースのエージェントよりも多様な自然なレスポンスを生成することができる。
コーパスベースの会話エージェントの生成能力が増大すると、マレヴォレントな反応を分類し、フィルタリングする必要性が生じる。
不適切な内容の認識と分類に関するこれまでの研究は、主にある種のマレヴォレンスに焦点を絞っている。
論文 参考訳(メタデータ) (2020-08-21T22:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。