論文の概要: Pseudo-Labels Are All You Need
- arxiv url: http://arxiv.org/abs/2208.09243v1
- Date: Fri, 19 Aug 2022 09:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 16:59:39.345714
- Title: Pseudo-Labels Are All You Need
- Title(参考訳): Pseudo-Labelsは必要なものすべて
- Authors: Bogdan Kosti\'c and Mathis Lucka and Julian Risch
- Abstract要約: 我々は,テキスト複雑度DEチャレンジ2022に応募する。
目標は、レベルBのドイツ語学習者のドイツ語文の複雑さを予測することである。
擬似ラベルに基づくアプローチは印象的な結果を与えるが、特定のタスクの調整はほとんど必要としない。
- 参考スコア(独自算出の注目度): 3.52359746858894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically estimating the complexity of texts for readers has a variety of
applications, such as recommending texts with an appropriate complexity level
to language learners or supporting the evaluation of text simplification
approaches. In this paper, we present our submission to the Text Complexity DE
Challenge 2022, a regression task where the goal is to predict the complexity
of a German sentence for German learners at level B. Our approach relies on
more than 220,000 pseudo-labels created from the German Wikipedia and other
corpora to train Transformer-based models, and refrains from any feature
engineering or any additional, labeled data. We find that the
pseudo-label-based approach gives impressive results yet requires little to no
adjustment to the specific task and therefore could be easily adapted to other
domains and tasks.
- Abstract(参考訳): 読み手のテキストの複雑さを自動的に見積もるには、言語学習者に対して適切な複雑さレベルのテキストを推薦したり、テキスト簡易化アプローチの評価をサポートするなど、さまざまな応用がある。
本稿では,ドイツ語学習者のドイツ語文の複雑さをレベルBで予測することを目的とした回帰課題であるText Complexity DE Challenge 2022を提示する。我々のアプローチは,ドイツ語ウィキペディアや他のコーパスから作られた220,000以上の擬似ラベルを用いてトランスフォーマーベースのモデルをトレーニングし,機能工学や追加ラベル付きデータから除外する。
擬似ラベルに基づくアプローチは印象的な結果を与えるが、特定のタスクの調整をほとんど必要としないため、他のドメインやタスクに容易に適応できる。
関連論文リスト
- SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Natural Language Decomposition and Interpretation of Complex Utterances [47.30126929007346]
本稿では,階層的な自然言語分解のプロセスを通じて,ユーザからの複雑な入出力発話を処理する手法を提案する。
我々のアプローチは、事前訓練された言語モデルを用いて、複雑な発話を単純な自然言語ステップのシーケンスに分解する。
実験の結果,提案手法は複雑な発話の解釈を可能にし,複雑な学習データはほとんどないことがわかった。
論文 参考訳(メタデータ) (2023-05-15T14:35:00Z) - Measuring Annotator Agreement Generally across Complex Structured,
Multi-object, and Free-text Annotation Tasks [79.24863171717972]
品質保証のための重要な指標は、IAA(Inter-annotator Agreement)である。
単純な分類的および順序的なラベリングタスクには対策があるが、より複雑なラベリングタスクを考える作業はほとんどない。
クリッペンドルフのαは、より単純なラベリングタスクでよく用いられるが、より広い適用性を持つ距離ベースの定式化を持つ。
論文 参考訳(メタデータ) (2022-12-15T20:12:48Z) - Lexical Complexity Controlled Sentence Generation [6.298911438929862]
語彙複雑性制御文生成の新しいタスクを提案する。
学級の読み書き、言語教育、取得などの分野では大きな可能性を秘めている。
本稿では,複雑性の埋め込みに基づく,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-26T11:03:56Z) - Domain Adaptation in Multilingual and Multi-Domain Monolingual Settings
for Complex Word Identification [0.27998963147546146]
複雑な単語識別(CWI)は、適切なテキストの単純化に向けた基礎的なプロセスである。
CWIはコンテキストに大きく依存するが、その困難さは利用可能なデータセットの不足によって増大する。
対象文字とコンテキスト表現を改善するために,ドメイン適応に基づくCWIタスクのための新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-05-15T13:21:02Z) - Uniform Complexity for Text Generation [4.867923281108005]
テキスト生成のための統一複雑度(UCTG)は,生成モデルに一様言語特性をプロンプトに関して観察させるという課題を提起する新しいベンチマークテストである。
GPT-2のようなモデルは、プロフェッショナルなテキストで微調整しても、代々使われる入力プロンプトの複雑さを維持するのに苦労している。
論文 参考訳(メタデータ) (2022-04-11T15:19:47Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。