論文の概要: Edit Distances and Their Applications to Downstream Tasks in Research and Commercial Contexts
- arxiv url: http://arxiv.org/abs/2410.05881v1
- Date: Tue, 8 Oct 2024 10:21:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 12:20:15.148845
- Title: Edit Distances and Their Applications to Downstream Tasks in Research and Commercial Contexts
- Title(参考訳): 研究・商業場面における下流課題への遠隔編集とその応用
- Authors: Félix do Carmo, Diptesh Kanojia,
- Abstract要約: チュートリアルでは、研究や商業の文脈に適用される編集距離について記述している。
我々は,翻訳編集率 (TER), Levenshtein, Damerau-Levenshtein, Longest Common Subsequence and $n$-gram distances を用いて,テキスト列の比較における統計指標の脆弱さを示す。
- 参考スコア(独自算出の注目度): 7.629053304626553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The tutorial describes the concept of edit distances applied to research and commercial contexts. We use Translation Edit Rate (TER), Levenshtein, Damerau-Levenshtein, Longest Common Subsequence and $n$-gram distances to demonstrate the frailty of statistical metrics when comparing text sequences. Our discussion disassembles them into their essential components. We discuss the centrality of four editing actions: insert, delete, replace and move words, and show their implementations in openly available packages and toolkits. The application of edit distances in downstream tasks often assumes that these accurately represent work done by post-editors and real errors that need to be corrected in MT output. We discuss how imperfect edit distances are in capturing the details of this error correction work and the implications for researchers and for commercial applications, of these uses of edit distances. In terms of commercial applications, we discuss their integration in computer-assisted translation tools and how the perception of the connection between edit distances and post-editor effort affects the definition of translator rates.
- Abstract(参考訳): チュートリアルでは、研究や商業の文脈に適用される編集距離について記述している。
我々は,翻訳編集率 (TER), Levenshtein, Damerau-Levenshtein, Longest Common Subsequence and $n$-gram distances を用いて,テキスト列の比較における統計指標の脆弱さを示す。
我々の議論はそれらをそれらの重要な構成要素に分解する。
我々は,単語の挿入,削除,置換,移動という4つの編集動作の中心性について議論し,公開パッケージやツールキットで実装を示す。
下流タスクにおける編集距離の適用は、これらが後処理によって実行される作業とMT出力で修正する必要がある実際のエラーを正確に表現していると仮定することが多い。
本稿では,この誤り訂正作業の詳細と,これらの編集距離を利用した研究者や商業的応用への応用について論じる。
商業的応用の観点からは、コンピュータ支援翻訳ツールへの統合と、編集距離と編集後作業の関連性に対する認識が翻訳者率の定義にどのように影響するかを論じる。
関連論文リスト
- EXCGEC: A Benchmark of Edit-wise Explainable Chinese Grammatical Error Correction [21.869368698234247]
本稿では,修正作業と説明作業の一体的な役割に着目したExplainable GEC(EXGEC)の課題を紹介する。
提案するEXCGECは,8,216個の説明増補サンプルからなる中国語EXGECの適合ベンチマークである。
論文 参考訳(メタデータ) (2024-07-01T03:06:41Z) - On the Robustness of Editing Large Language Models [57.477943944826904]
大型言語モデル(LLM)はコミュニケーションAIの構築において重要な役割を担っているが、効率的な更新の課題に直面している。
この研究は、編集方法の長所と短所を理解し、コミュニケーション型AIの実践的応用を促進することを目的としている。
論文 参考訳(メタデータ) (2024-02-08T17:06:45Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - DUnE: Dataset for Unified Editing [3.7346004746366384]
自然言語文を編集するDUnE-an編集ベンチマークを導入する。
検索強化言語モデリングは、特殊な編集技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-27T18:56:14Z) - Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。
ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。
直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - Beyond the Chat: Executable and Verifiable Text-Editing with LLMs [87.84199761550634]
近年,Large Language Models (LLMs) を利用した会話インタフェースが,文書編集時にフィードバックを得る手段として人気になっている。
InkSyncは、編集中のドキュメント内で直接実行可能な編集を推奨する編集インターフェースである。
論文 参考訳(メタデータ) (2023-09-27T00:56:17Z) - Reducing Sequence Length by Predicting Edit Operations with Large
Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-05-19T17:51:05Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z) - Recurrent Inference in Text Editing [6.4689151804633775]
本稿では,反復的に編集動作を行う新しい推論手法Recurrenceを提案する。
各イテレーションにおいて、部分的に編集されたテキストをエンコードするRecurrenceは、潜在表現をデコードし、短い、固定長のアクションを生成し、そのアクションを適用して単一の編集を完了させる。
総合的な比較として、算術演算子復元(AOR)、算術演算子単純化(AES)、算術演算子補正(AEC)の3種類のテキスト編集タスクを紹介する。
論文 参考訳(メタデータ) (2020-09-26T17:06:29Z) - Towards Minimal Supervision BERT-based Grammar Error Correction [81.90356787324481]
我々は、事前訓練された言語モデルからコンテキスト情報を取り入れて、アノテーションを活用し、多言語シナリオの恩恵を得ようとしている。
その結果、文法的誤り訂正タスクにおいて、変換器(BERT)からの双方向表現の強い可能性を示す。
論文 参考訳(メタデータ) (2020-01-10T15:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。