論文の概要: A User-Centered Evaluation of Spanish Text Simplification
- arxiv url: http://arxiv.org/abs/2308.07556v1
- Date: Tue, 15 Aug 2023 03:49:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 13:59:19.360489
- Title: A User-Centered Evaluation of Spanish Text Simplification
- Title(参考訳): スペイン語テキスト簡易化のユーザ中心評価
- Authors: Adrian de Wynter, Anthony Hevia, Si-Qing Chen
- Abstract要約: 生産システムにおけるスペイン語のテキスト単純化(TS)の評価について述べる。
我々は、スペイン固有の可読性スコアをニューラルネットワークと比較し、後者がTSに関するユーザの好みを予測するのに一貫して優れていることを示す。
我々は,スペインの自然言語処理の最先端を推し進めることを目指して,我々の評価のコーパスを広いコミュニティに公開する。
- 参考スコア(独自算出の注目度): 6.046875672600245
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present an evaluation of text simplification (TS) in Spanish for a
production system, by means of two corpora focused in both complex-sentence and
complex-word identification. We compare the most prevalent Spanish-specific
readability scores with neural networks, and show that the latter are
consistently better at predicting user preferences regarding TS. As part of our
analysis, we find that multilingual models underperform against equivalent
Spanish-only models on the same task, yet all models focus too often on
spurious statistical features, such as sentence length. We release the corpora
in our evaluation to the broader community with the hopes of pushing forward
the state-of-the-art in Spanish natural language processing.
- Abstract(参考訳): 本稿では,複合語と複合語の両方に焦点をあてたコーパスを用いて,生産システムのためのスペイン語のテキスト簡易化(ts)を評価する。
我々は、スペイン固有の可読性スコアをニューラルネットワークと比較し、後者がTSに関するユーザの好みを予測するのに一貫して優れていることを示す。
分析の結果、複数の言語モデルは同じタスクでスペイン語のみのモデルに劣ることがわかったが、全てのモデルは文長のような散発的な統計的特徴に重きを置きすぎていることがわかった。
我々は,スペインの自然言語処理の最先端を推し進めることを目指して,我々の評価のコーパスを広いコミュニティに公開する。
関連論文リスト
- Evaluation of End-to-End Continuous Spanish Lipreading in Different Data Conditions [0.0]
本稿では,スペイン語の自動連続唇読解法における顕著な進歩について述べる。
異なる性質の2つのコーパスで実験を行い、最先端の結果を得た。
厳密な誤り解析を行い、自動システムの学習に影響を与える様々な要因について検討した。
論文 参考訳(メタデータ) (2025-02-01T15:48:20Z) - CODEOFCONDUCT at Multilingual Counterspeech Generation: A Context-Aware Model for Robust Counterspeech Generation in Low-Resource Languages [1.9263811967110864]
本稿では,MCG-COING-2025共有タスクにおいて大きな成功を収めた,頑健な対音声生成のための文脈認識モデルを提案する。
多言語データセットに微調整されたシミュレーションアニーリングアルゴリズムを活用することで、モデルはヘイトスピーチに対する現実的に正確な応答を生成する。
4つの言語で最先端のパフォーマンスを実証し、バスク語で第1位、イタリア語で第2位、英語とスペイン語で第3位にランク付けしました。
論文 参考訳(メタデータ) (2025-01-01T03:36:31Z) - Spanish Pre-trained BERT Model and Evaluation Data [0.0]
本稿では,スペイン語データのみを対象としたBERTに基づく言語モデルを提案する。
また、スペイン語用のタスクを1つのリポジトリにまとめました。
我々は、我々のモデル、事前トレーニングデータ、およびスペインのベンチマークのコンパイルを公開しました。
論文 参考訳(メタデータ) (2023-08-06T00:16:04Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Evaluation Benchmarks for Spanish Sentence Representations [24.162683655834847]
本稿では,スペイン語のSentEvalとスペイン語のDiscoEvalを紹介する。
さらに,最近トレーニング済みのスペイン語モデルの評価と分析を行い,その能力と限界を明らかにした。
論文 参考訳(メタデータ) (2022-04-15T17:53:05Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Predicting metrical patterns in Spanish poetry with language models [0.0]
スペイン語で利用可能な自動メートル法パターン識別システムと、同じタスクで訓練された微調整言語モデルによる実験とを比較した。
以上の結果から,BERTをベースとしたモデルでは,スペイン語スキャンに十分な構造情報を保持できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-11-18T22:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。