論文の概要: Beyond a Single Reference: Training and Evaluation with Paraphrases in Sign Language Translation
- arxiv url: http://arxiv.org/abs/2601.21128v1
- Date: Thu, 29 Jan 2026 00:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.482388
- Title: Beyond a Single Reference: Training and Evaluation with Paraphrases in Sign Language Translation
- Title(参考訳): 単一参照を超えて:手話翻訳におけるパラフレーズによる学習と評価
- Authors: Václav Javorek, Tomáš Železný, Alessa Carbo, Marek Hrúz, Ivan Gruber,
- Abstract要約: ほとんどの手話翻訳(SLT)コーパスペアは、それぞれ1つの書き言葉参照で署名された発話である。
この制限はモデルトレーニングと評価の両方を制約します。
BLEUparaは、複数のパラフレーズ参照に対する翻訳を評価するBLEUの拡張である。
- 参考スコア(独自算出の注目度): 1.9102169745315323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most Sign Language Translation (SLT) corpora pair each signed utterance with a single written-language reference, despite the highly non-isomorphic relationship between sign and spoken languages, where multiple translations can be equally valid. This limitation constrains both model training and evaluation, particularly for n-gram-based metrics such as BLEU. In this work, we investigate the use of Large Language Models to automatically generate paraphrased variants of written-language translations as synthetic alternative references for SLT. First, we compare multiple paraphrasing strategies and models using an adapted ParaScore metric. Second, we study the impact of paraphrases on both training and evaluation of the pose-based T5 model on the YouTubeASL and How2Sign datasets. Our results show that naively incorporating paraphrases during training does not improve translation performance and can even be detrimental. In contrast, using paraphrases during evaluation leads to higher automatic scores and better alignment with human judgments. To formalize this observation, we introduce BLEUpara, an extension of BLEU that evaluates translations against multiple paraphrased references. Human evaluation confirms that BLEUpara correlates more strongly with perceived translation quality. We release all generated paraphrases, generation and evaluation code to support reproducible and more reliable evaluation of SLT systems.
- Abstract(参考訳): ほとんどの手話翻訳(SLT)コーポラ対は、手話と音声言語の間に非常に非同型な関係があり、複数の翻訳が等しく有効であるにもかかわらず、1つの書き言葉参照でそれぞれ署名された発話を行う。
この制限は、モデルトレーニングと評価の両方、特にBLEUのようなn-gramベースのメトリクスを制約する。
本研究では,SLTの代用参照として,文章翻訳のパラフレーズ付き変種を自動生成するLarge Language Modelsについて検討する。
まず、適応されたParaScoreメトリックを用いて、複数のパラフレーズ戦略とモデルを比較する。
第2に、ポーズに基づくT5モデルのトレーニングと評価がYouTubeASLおよびHow2Signデータセットに与える影響について検討する。
以上の結果から,訓練中にパラフレーズを鼻で導入しても翻訳性能は改善せず,有害である可能性が示唆された。
対照的に、評価中にパラフレーズを使用すると、より高い自動スコアと人間の判断との整合性が向上する。
この観察を形式化するために、複数のパラフレーズ参照に対する翻訳を評価するBLEUの延長であるBLEUparaを紹介した。
人間による評価では、BLEUparaは認識される翻訳品質と強く相関している。
再現可能で信頼性の高いSLTシステム評価を支援するために,生成されたすべてのパラフレーズ,生成および評価コードをリリースする。
関連論文リスト
- SiLVERScore: Semantically-Aware Embeddings for Sign Language Generation Evaluation [29.960223851833785]
我々は手話生成のための意味論的埋め込みに基づく評価指標SiLVERScoreを提案する。
PHOENIX-14T と CSL-Daily のデータセットでは、SiLVERScore は正しいペアとランダムなペアのほぼ完全な識別を実現している。
論文 参考訳(メタデータ) (2025-09-04T00:58:43Z) - Child-Directed Language Does Not Consistently Boost Syntax Learning in Language Models [5.636296752147828]
英語の児童指向言語(CDL)で訓練された言語モデルは、成人向けテキストの多量化に基づいて訓練されたLMと同様の構文能力に達することを示す。
我々は、CDLとウィキペディアで訓練されたモデルを、2つのLM目標(masked and causal)、3つの言語(英語、フランス語、ドイツ語)、3つの構文的最小ペアベンチマークで比較することによって、これを検証した。
これらのベンチマークの結果,CDLの非一貫性の利点が示され,ほとんどの場合,ウィキペディアモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-29T17:25:36Z) - LLM-Based Evaluation of Low-Resource Machine Translation: A Reference-less Dialect Guided Approach with a Refined Sylheti-English Benchmark [1.3927943269211591]
本稿では,Large Language Models(LLMs)に基づく機械翻訳評価を強化する包括的フレームワークを提案する。
我々は、Sylheti- English文ペア、対応する機械翻訳、およびネイティブ話者が注釈付けしたダイレクトアセスメント(DA)スコアを組み込むことで、ONUBADデータセットを拡張した。
評価の結果,提案したパイプラインは既存の手法より常に優れており,スピアマン相関において+0.1083の高利得が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-18T07:24:13Z) - Unsupervised Approach to Evaluate Sentence-Level Fluency: Do We Really
Need Reference? [3.2528685897001455]
本報告では,参照を必要とせず,既存の教師なし手法を用いてテキストの流速を計測する。
提案手法では,様々な単語埋め込みを活用し,RNNアーキテクチャを用いて言語モデルを訓練する。
モデルの性能を評価するため,10言語を対象に比較分析を行った。
論文 参考訳(メタデータ) (2023-12-03T20:09:23Z) - BLEU Meets COMET: Combining Lexical and Neural Metrics Towards Robust
Machine Translation Evaluation [12.407789866525079]
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
論文 参考訳(メタデータ) (2023-05-30T15:50:46Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。