論文の概要: Text Simplification of College Admissions Instructions: A Professionally
Simplified and Verified Corpus
- arxiv url: http://arxiv.org/abs/2209.04529v1
- Date: Fri, 9 Sep 2022 21:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:57:33.255467
- Title: Text Simplification of College Admissions Instructions: A Professionally
Simplified and Verified Corpus
- Title(参考訳): 大学進学指導のテキスト簡易化--専門職に簡略化・検証されたコーパス
- Authors: Zachary W. Taylor, Maximus H. Chu, Junyi Jessy Li
- Abstract要約: PSAT(Professionally Simplified Admissions Texts)は、全米の高等教育機関からランダムに選抜された112の入学命令を含むデータセットである。
PSATは1,883の原文対を手動でアライメントする。
- 参考スコア(独自算出の注目度): 24.78304477384542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Access to higher education is critical for minority populations and emergent
bilingual students. However, the language used by higher education institutions
to communicate with prospective students is often too complex; concretely, many
institutions in the US publish admissions application instructions far above
the average reading level of a typical high school graduate, often near the
13th or 14th grade level. This leads to an unnecessary barrier between students
and access to higher education. This work aims to tackle this challenge via
text simplification. We present PSAT (Professionally Simplified Admissions
Texts), a dataset with 112 admissions instructions randomly selected from
higher education institutions across the US. These texts are then
professionally simplified, and verified and accepted by subject-matter experts
who are full-time employees in admissions offices at various institutions.
Additionally, PSAT comes with manual alignments of 1,883 original-simplified
sentence pairs. The result is a first-of-its-kind corpus for the evaluation and
fine-tuning of text simplification systems in a high-stakes genre distinct from
existing simplification resources.
- Abstract(参考訳): 高等教育へのアクセスは少数民族や創発的なバイリンガルの学生にとって重要である。
しかし、高等教育機関が先進的な学生とコミュニケーションするために使う言語は複雑すぎることが多く、具体的には、米国内の多くの機関が、13年生か14年生に近い典型的な高校卒業者の平均読解レベルよりもはるかに高い許可申請書を発行している。
これにより、生徒と高等教育へのアクセスが不要になる。
この作業は、テキストの単純化によってこの問題に取り組むことを目的としている。
PSAT(Professionally Simplified Admissions Texts)は、全米の高等教育機関からランダムに選抜された112の入学命令を含むデータセットである。
これらのテキストは、専門的に単純化され、様々な機関の入社事務所でフルタイムの従業員である専門家によって検証され、受け入れられる。
さらに、PSATは1,883の原文対を手動でアライメントする。
その結果,既存の単純化資源と異なるジャンルのテキスト単純化システムの評価と微調整を行う第一種コーパスが得られた。
関連論文リスト
- A Benchmark for Text Expansion: Datasets, Metrics, and Baselines [87.47745669317894]
本研究はテキスト拡張(TE)の新たな課題として,平文の適切な位置に細粒度修飾子を挿入することを目的とする。
補完的な4つのアプローチを活用して、1200万の自動生成インスタンスと2Kの人間注釈付き参照を持つデータセットを構築します。
事前訓練されたテキストインフィルモデルの上にパイプラインと共同でLocate&Infillモデルを構築し、Text2Textベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T07:54:38Z) - ARTIST: ARTificial Intelligence for Simplified Text [5.095775294664102]
テキスト単純化は、テキストの言語的複雑さを減らすことを目的とした、自然言語処理の重要なタスクである。
生成人工知能(AI)の最近の進歩により、語彙レベルと構文レベルの両方で自動テキストの簡略化が可能になった。
論文 参考訳(メタデータ) (2023-08-25T16:06:06Z) - A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文 参考訳(メタデータ) (2023-05-21T18:25:07Z) - Elaborative Simplification as Implicit Questions Under Discussion [51.17933943734872]
本稿では,QUD フレームワークのレンズによる共同作業の簡略化について考察する。
本研究は,QUDを明示的にモデル化することで,作業の単純化と,作業内容と作業内容の関連性について,重要な理解が得られていることを示す。
論文 参考訳(メタデータ) (2023-05-17T17:26:16Z) - Lexical Simplification Benchmarks for English, Portuguese, and Spanish [23.90236014260585]
英語,スペイン語,(ブラジル語)ポルトガル語の語彙単純化のための新しいベンチマークデータセットを提案する。
これは3つの言語の語彙的単純化システムを直接比較した最初のデータセットである。
最先端の神経語彙単純化システムは,3言語すべてで最先端の非神経語彙単純化システムより優れていた。
論文 参考訳(メタデータ) (2022-09-12T15:06:26Z) - Unsupervised Sentence Simplification via Dependency Parsing [4.337513096197002]
本稿では,単純だが教師なしの文簡略化システムを提案する。
構文解析と文の埋め込みを利用して言語学的に効果的な単純化を生成する。
我々は、テュルクコルプスの39.13 SARIにおいて、教師なしの最先端を定め、様々な品質指標の教師なしベースラインに対して競争的に行動する。
論文 参考訳(メタデータ) (2022-06-10T07:55:25Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-09-20T18:40:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。