論文の概要: Language Resources in Spanish for Automatic Text Simplification across Domains
- arxiv url: http://arxiv.org/abs/2409.20466v1
- Date: Mon, 30 Sep 2024 16:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 06:50:32.274281
- Title: Language Resources in Spanish for Automatic Text Simplification across Domains
- Title(参考訳): スペイン語の言語資源を用いたドメイン間テキストの簡易化
- Authors: Antonio Moreno-Sandoval, Leonardo Campillos-Llanos, Ana García-Serrano,
- Abstract要約: 本研究は, 3つの領域(財務, 医学, 歴史研究)におけるスペイン語テキストの自動簡略化のために開発された言語資源とモデルについて述べる。
私たちは、各ドメインにいくつかのコーパス、技術的および単純化された医療用語の語彙、金融ドメインの共有タスクで使用されるデータセット、そして2つの単純化ツールを作成しました。
- 参考スコア(独自算出の注目度): 1.0350509558976482
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This work describes the language resources and models developed for automatic simplification of Spanish texts in three domains: Finance, Medicine and History studies. We created several corpora in each domain, annotation and simplification guidelines, a lexicon of technical and simplified medical terms, datasets used in shared tasks for the financial domain, and two simplification tools. The methodology, resources and companion publications are shared publicly on the web-site: https://clara-nlp.uned.es/.
- Abstract(参考訳): 本研究は, 3つの領域(財務, 医学, 歴史研究)におけるスペイン語テキストの自動簡略化のために開発された言語資源とモデルについて述べる。
我々は、各ドメインにいくつかのコーパス、アノテーションと単純化ガイドライン、技術的および単純化された医療用語の語彙、金融ドメインの共有タスクで使用されるデータセット、そして2つの単純化ツールを作成しました。
方法論、リソース、関連出版物は、Webサイトで公開されています。
関連論文リスト
- LexGen: Domain-aware Multilingual Lexicon Generation [40.97738267067852]
マルチドメイン設定で6つのインド語のための辞書語を生成する新しいモデルを提案する。
私たちのモデルは、情報をエンコードするドメイン固有層とドメイン生成層で構成されています。
8つの異なるドメインにまたがる6つのインドの言語を対象とした新しいベンチマークデータセットをリリースしました。
論文 参考訳(メタデータ) (2024-05-18T07:02:43Z) - Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.47046536073682]
本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。
私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
論文 参考訳(メタデータ) (2024-04-07T11:52:44Z) - MUST&P-SRL: Multi-lingual and Unified Syllabification in Text and
Phonetic Domains for Speech Representation Learning [0.76146285961466]
言語特徴抽出の方法論として,複数の言語における単語の自動分割に着目した手法を提案する。
本手法は,テキストと音声の両領域において,テキストから音素の書き起こしを抽出すること,ストレスマーク,統合された自動音節分類に重点を置いている。
このシステムはオープンソースのコンポーネントとリソースで構築された。
論文 参考訳(メタデータ) (2023-10-17T19:27:23Z) - Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文 参考訳(メタデータ) (2023-05-21T18:25:07Z) - MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。
Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。
我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2022-12-20T17:34:25Z) - Sequence-to-Sequence Resources for Catalan [0.6562256987706128]
我々はニュースワイヤの領域に2つの新しい抽象的要約データセットを示す。
また、パラレルなカタルーニャ語と英語のコーパスを3つの新しいテストセットと組み合わせて導入する。
カタルーニャ語における言語技術の発展を促進するために、オープンライセンスの下でこの成果のリソースを公開します。
論文 参考訳(メタデータ) (2022-02-14T16:58:19Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - Studying Taxonomy Enrichment on Diachronic WordNet Versions [70.27072729280528]
本稿では,資源の乏しい環境での分類拡張の可能性について検討し,多数の言語に適用可能な手法を提案する。
我々は、分類の豊かさを訓練し評価するための新しい英語とロシア語のデータセットを作成し、他の言語のためのそのようなデータセットを作成する技術を記述する。
論文 参考訳(メタデータ) (2020-11-23T16:49:37Z) - DomBERT: Domain-oriented Language Model for Aspect-based Sentiment
Analysis [71.40586258509394]
本研究では、ドメイン内コーパスと関連するドメインコーパスの両方から学習するためのBERTの拡張であるDomBERTを提案する。
アスペクトベース感情分析における課題の整理実験を行い、有望な結果を示す。
論文 参考訳(メタデータ) (2020-04-28T21:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。