論文の概要: Score Combination for Improved Parallel Corpus Filtering for Low
Resource Conditions
- arxiv url: http://arxiv.org/abs/2011.07933v1
- Date: Mon, 16 Nov 2020 13:31:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 00:16:23.112756
- Title: Score Combination for Improved Parallel Corpus Filtering for Low
Resource Conditions
- Title(参考訳): 低資源環境における並列コーパスフィルタの改良のためのスコア結合
- Authors: Muhammad N. ElNokrashy, Amr Hendy, Mohamed Abdelghaffar, Mohamed
Afify, Ahmed Tawfik and Hany Hassan Awadalla
- Abstract要約: 本研究では,(1)各ソース言語用に構築されたカスタムLASER,(2)正と負のペアをセマンティックアライメントで識別する分類器,(3)タスクデキットに含まれる元のスコアからスコアを合成する。
オーガナイザが提供したmBARTファインタニング装置では, Pashto と Khmer の試験セットにおける SareBLEU スコアにおいて, ベースラインよりも7% と 5% の相対的な改善が見られた。
- 参考スコア(独自算出の注目度): 5.239936773379319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our submission to the WMT20 sentence filtering task. We
combine scores from (1) a custom LASER built for each source language, (2) a
classifier built to distinguish positive and negative pairs by semantic
alignment, and (3) the original scores included in the task devkit. For the
mBART finetuning setup, provided by the organizers, our method shows 7% and 5%
relative improvement over baseline, in sacreBLEU score on the test set for
Pashto and Khmer respectively.
- Abstract(参考訳): 本稿では,WMT20文フィルタリングタスクについて述べる。
本研究では,(1)各ソース言語用に構築されたカスタムLASER,(2)正と負のペアをセマンティックアライメントで識別する分類器,(3)タスクデキットに含まれる元のスコアからスコアを合成する。
オーガナイザが提供したmBARTファインタニング装置では, Pashto と Khmer の試験セットにおける SareBLEU スコアにおいて, ベースラインよりも7% と 5% の相対的な改善が見られた。
関連論文リスト
- Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - Prompt Algebra for Task Composition [131.97623832435812]
素早いチューニングを伴うビジュアル言語モデルを基本分類器として検討する。
合成分類器の性能向上のための制約付きプロンプトチューニングを提案する。
UTZapposでは、最高のベースモデルに対する分類精度を平均8.45%向上させる。
論文 参考訳(メタデータ) (2023-06-01T03:20:54Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - GersteinLab at MEDIQA-Chat 2023: Clinical Note Summarization from
Doctor-Patient Conversations through Fine-tuning and In-context Learning [4.2570830892708225]
本稿では,サブタスクAとサブタスクBの両方を含む,MEDIQA-2023 Dialogue2Note共有タスクへのコントリビューションについて述べる。
本稿では,対話要約問題としてタスクにアプローチし,a)事前学習した対話要約モデルとGPT-3の微調整,およびb)大規模言語モデルであるGPT-4を用いた少数ショットインコンテキスト学習(ICL)の2つのパイプラインを実装した。
どちらの方法もROUGE-1 F1、BERTScore F1(deberta-xlarge-mnli)、BLEURTで優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-08T19:16:26Z) - Order-sensitive Neural Constituency Parsing [9.858565876426411]
本稿では, 従来のニューラルスパンベースCKYデコーダの改良手法を提案する。
従来のスパンベースの復号法とは対照的に、スパンの組み合わせスコアが順序に敏感なベースからより慎重に導出される、順序に敏感な戦略を導入する。
我々のデコーダは,低レベルスパンを高レベルスパンに組み合わせるための細粒度スコアリング方式を決定する際に,既存のスパンベースデコーダの一般化と見なすことができる。
論文 参考訳(メタデータ) (2022-11-01T12:31:30Z) - ETMS@IITKGP at SemEval-2022 Task 10: Structured Sentiment Analysis Using
A Generative Approach [1.219140169445581]
構造化感性分析(Structured Sentiment Analysis, SSA)は、テキスト中の意見の抽出を扱う。
本稿では,SemEval共有タスクであるSSAを解くための新しい統合生成手法を提案する。
我々はモノリンガルサブタスクとクロスランガルサブタスクの両方に対して厳格な実験を行い、両方の設定でリーダーボード上で競争力のあるセンティメントF1スコアを達成する。
論文 参考訳(メタデータ) (2022-05-01T10:39:53Z) - Assessing Data Efficiency in Task-Oriented Semantic Parsing [54.87705549021248]
我々は、ある品質バーを達成するのに、ドメイン内の「ターゲット」データがどれだけ必要であるかを近似した4段階のプロトコルを導入する。
我々は,タスク指向セマンティック解析の実践者に対して,その柔軟性と適用性を示す実世界の2つのケーススタディに適用する。
論文 参考訳(メタデータ) (2021-07-10T02:43:16Z) - IIE-NLP-NUT at SemEval-2020 Task 4: Guiding PLM with Prompt Template
Reconstruction Strategy for ComVE [13.334749848189826]
サブタスクを複数選択の質問応答形式に形式化し、プロンプトテンプレートで入力を構築する。
実験結果から,本手法はベースラインシステムと比較して高い性能を示した。
最初の2つのサブタスクの2つの公式テストセットにおいて、96.4の精度と94.3の精度で第3位を確保した。
論文 参考訳(メタデータ) (2020-07-02T06:59:53Z) - UiO-UvA at SemEval-2020 Task 1: Contextualised Embeddings for Lexical
Semantic Change Detection [5.099262949886174]
本稿では,時とともに意味的ドリフトの度合いで単語をランク付けするSubtask 2に焦点を当てた。
最も効果的なアルゴリズムは、平均的なトークン埋め込みとトークン埋め込み間のペア距離のコサイン類似性に依存する。
論文 参考訳(メタデータ) (2020-04-30T18:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。