論文の概要: A User-Centered Evaluation of Spanish Text Simplification
- arxiv url: http://arxiv.org/abs/2308.07556v1
- Date: Tue, 15 Aug 2023 03:49:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 13:59:19.360489
- Title: A User-Centered Evaluation of Spanish Text Simplification
- Title(参考訳): スペイン語テキスト簡易化のユーザ中心評価
- Authors: Adrian de Wynter, Anthony Hevia, Si-Qing Chen
- Abstract要約: 生産システムにおけるスペイン語のテキスト単純化(TS)の評価について述べる。
我々は、スペイン固有の可読性スコアをニューラルネットワークと比較し、後者がTSに関するユーザの好みを予測するのに一貫して優れていることを示す。
我々は,スペインの自然言語処理の最先端を推し進めることを目指して,我々の評価のコーパスを広いコミュニティに公開する。
- 参考スコア(独自算出の注目度): 6.046875672600245
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present an evaluation of text simplification (TS) in Spanish for a
production system, by means of two corpora focused in both complex-sentence and
complex-word identification. We compare the most prevalent Spanish-specific
readability scores with neural networks, and show that the latter are
consistently better at predicting user preferences regarding TS. As part of our
analysis, we find that multilingual models underperform against equivalent
Spanish-only models on the same task, yet all models focus too often on
spurious statistical features, such as sentence length. We release the corpora
in our evaluation to the broader community with the hopes of pushing forward
the state-of-the-art in Spanish natural language processing.
- Abstract(参考訳): 本稿では,複合語と複合語の両方に焦点をあてたコーパスを用いて,生産システムのためのスペイン語のテキスト簡易化(ts)を評価する。
我々は、スペイン固有の可読性スコアをニューラルネットワークと比較し、後者がTSに関するユーザの好みを予測するのに一貫して優れていることを示す。
分析の結果、複数の言語モデルは同じタスクでスペイン語のみのモデルに劣ることがわかったが、全てのモデルは文長のような散発的な統計的特徴に重きを置きすぎていることがわかった。
我々は,スペインの自然言語処理の最先端を推し進めることを目指して,我々の評価のコーパスを広いコミュニティに公開する。
関連論文リスト
- MASIVE: Open-Ended Affective State Identification in English and Spanish [10.41502827362741]
本研究は,人間が感情経験を説明するために使用する言葉を含む,事実上拘束力のないテクスタフェクティブな状態にまで範囲を広げる。
私たちは、英語とスペイン語でReddit投稿のデータセットであるMASIVEを収集し、公開しています。
このタスクでは、より小さな微調整された多言語モデルの方が、地域固有のスペイン感情状態においても、ずっと大きなLLMより優れていることが分かる。
論文 参考訳(メタデータ) (2024-07-16T21:43:47Z) - Spanish Pre-trained BERT Model and Evaluation Data [0.0]
本稿では,スペイン語データのみを対象としたBERTに基づく言語モデルを提案する。
また、スペイン語用のタスクを1つのリポジトリにまとめました。
我々は、我々のモデル、事前トレーニングデータ、およびスペインのベンチマークのコンパイルを公開しました。
論文 参考訳(メタデータ) (2023-08-06T00:16:04Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Evaluation Benchmarks for Spanish Sentence Representations [24.162683655834847]
本稿では,スペイン語のSentEvalとスペイン語のDiscoEvalを紹介する。
さらに,最近トレーニング済みのスペイン語モデルの評価と分析を行い,その能力と限界を明らかにした。
論文 参考訳(メタデータ) (2022-04-15T17:53:05Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - The futility of STILTs for the classification of lexical borrowings in
Spanish [0.0]
STILTは、多言語モデルの直接微調整よりも改善していない。
少数の言語のサブセットでトレーニングされた多言語モデルは、多言語BERTよりも合理的に優れているが、与えられたデータセットに対する多言語RoBERTaほど良くない。
論文 参考訳(メタデータ) (2021-09-17T15:32:02Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Predicting metrical patterns in Spanish poetry with language models [0.0]
スペイン語で利用可能な自動メートル法パターン識別システムと、同じタスクで訓練された微調整言語モデルによる実験とを比較した。
以上の結果から,BERTをベースとしたモデルでは,スペイン語スキャンに十分な構造情報を保持できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-11-18T22:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。