論文の概要: Score Combination for Improved Parallel Corpus Filtering for Low
Resource Conditions
- arxiv url: http://arxiv.org/abs/2011.07933v1
- Date: Mon, 16 Nov 2020 13:31:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 00:16:23.112756
- Title: Score Combination for Improved Parallel Corpus Filtering for Low
Resource Conditions
- Title(参考訳): 低資源環境における並列コーパスフィルタの改良のためのスコア結合
- Authors: Muhammad N. ElNokrashy, Amr Hendy, Mohamed Abdelghaffar, Mohamed
Afify, Ahmed Tawfik and Hany Hassan Awadalla
- Abstract要約: 本研究では,(1)各ソース言語用に構築されたカスタムLASER,(2)正と負のペアをセマンティックアライメントで識別する分類器,(3)タスクデキットに含まれる元のスコアからスコアを合成する。
オーガナイザが提供したmBARTファインタニング装置では, Pashto と Khmer の試験セットにおける SareBLEU スコアにおいて, ベースラインよりも7% と 5% の相対的な改善が見られた。
- 参考スコア(独自算出の注目度): 5.239936773379319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our submission to the WMT20 sentence filtering task. We
combine scores from (1) a custom LASER built for each source language, (2) a
classifier built to distinguish positive and negative pairs by semantic
alignment, and (3) the original scores included in the task devkit. For the
mBART finetuning setup, provided by the organizers, our method shows 7% and 5%
relative improvement over baseline, in sacreBLEU score on the test set for
Pashto and Khmer respectively.
- Abstract(参考訳): 本稿では,WMT20文フィルタリングタスクについて述べる。
本研究では,(1)各ソース言語用に構築されたカスタムLASER,(2)正と負のペアをセマンティックアライメントで識別する分類器,(3)タスクデキットに含まれる元のスコアからスコアを合成する。
オーガナイザが提供したmBARTファインタニング装置では, Pashto と Khmer の試験セットにおける SareBLEU スコアにおいて, ベースラインよりも7% と 5% の相対的な改善が見られた。
関連論文リスト
- LuxVeri at GenAI Detection Task 1: Inverse Perplexity Weighted Ensemble for Robust Detection of AI-Generated Text across English and Multilingual Contexts [0.8495482945981923]
本稿では,AI生成コンテンツの検出に関するコリング2025ワークショップのタスク1のために開発されたシステムについて述べる。
提案手法では,各モデルの逆パープレキシティに応じて重みが割り当てられたモデルのアンサンブルを利用して,分類精度を向上させる。
本研究は, 単言語と多言語の両方において, 機械によるテキスト検出の堅牢性を向上させるために, 逆パープレキシティ重み付けの有効性を示すものである。
論文 参考訳(メタデータ) (2025-01-21T06:32:32Z) - Enhancing Cross-Language Code Translation via Task-Specific Embedding Alignment in Retrieval-Augmented Generation [1.64043572114825]
本稿では,タスク固有の埋め込みアライメントを統合することで,FortranからC++へのクロス言語コード変換を強化する手法を提案する。
我々の戦略は、CodeBLEUメトリックによって定量化されているように、検索モデルを翻訳品質を最大化する目的と直接一致させる。
これらのCodeBLEU最適化埋め込みをRAGフレームワークに統合することにより、検索精度とコード生成品質の両方を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-06T16:22:32Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - Prompt Algebra for Task Composition [131.97623832435812]
素早いチューニングを伴うビジュアル言語モデルを基本分類器として検討する。
合成分類器の性能向上のための制約付きプロンプトチューニングを提案する。
UTZapposでは、最高のベースモデルに対する分類精度を平均8.45%向上させる。
論文 参考訳(メタデータ) (2023-06-01T03:20:54Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - GersteinLab at MEDIQA-Chat 2023: Clinical Note Summarization from
Doctor-Patient Conversations through Fine-tuning and In-context Learning [4.2570830892708225]
本稿では,サブタスクAとサブタスクBの両方を含む,MEDIQA-2023 Dialogue2Note共有タスクへのコントリビューションについて述べる。
本稿では,対話要約問題としてタスクにアプローチし,a)事前学習した対話要約モデルとGPT-3の微調整,およびb)大規模言語モデルであるGPT-4を用いた少数ショットインコンテキスト学習(ICL)の2つのパイプラインを実装した。
どちらの方法もROUGE-1 F1、BERTScore F1(deberta-xlarge-mnli)、BLEURTで優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-08T19:16:26Z) - ETMS@IITKGP at SemEval-2022 Task 10: Structured Sentiment Analysis Using
A Generative Approach [1.219140169445581]
構造化感性分析(Structured Sentiment Analysis, SSA)は、テキスト中の意見の抽出を扱う。
本稿では,SemEval共有タスクであるSSAを解くための新しい統合生成手法を提案する。
我々はモノリンガルサブタスクとクロスランガルサブタスクの両方に対して厳格な実験を行い、両方の設定でリーダーボード上で競争力のあるセンティメントF1スコアを達成する。
論文 参考訳(メタデータ) (2022-05-01T10:39:53Z) - Assessing Data Efficiency in Task-Oriented Semantic Parsing [54.87705549021248]
我々は、ある品質バーを達成するのに、ドメイン内の「ターゲット」データがどれだけ必要であるかを近似した4段階のプロトコルを導入する。
我々は,タスク指向セマンティック解析の実践者に対して,その柔軟性と適用性を示す実世界の2つのケーススタディに適用する。
論文 参考訳(メタデータ) (2021-07-10T02:43:16Z) - IIE-NLP-NUT at SemEval-2020 Task 4: Guiding PLM with Prompt Template
Reconstruction Strategy for ComVE [13.334749848189826]
サブタスクを複数選択の質問応答形式に形式化し、プロンプトテンプレートで入力を構築する。
実験結果から,本手法はベースラインシステムと比較して高い性能を示した。
最初の2つのサブタスクの2つの公式テストセットにおいて、96.4の精度と94.3の精度で第3位を確保した。
論文 参考訳(メタデータ) (2020-07-02T06:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。