Fugu-MT 論文翻訳(概要): SiLVERScore: Semantically-Aware Embeddings for Sign Language Generation Evaluation

論文の概要: SiLVERScore: Semantically-Aware Embeddings for Sign Language Generation Evaluation

arxiv url: http://arxiv.org/abs/2509.03791v1
Date: Thu, 04 Sep 2025 00:58:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-05 20:21:10.003556
Title: SiLVERScore: Semantically-Aware Embeddings for Sign Language Generation Evaluation
Title（参考訳）: SiLVERScore:手話生成評価のためのセマンティック・アウェアな埋め込み
Authors: Saki Imai, Mert İnan, Anthony Sicilia, Malihe Alikhani,
Abstract要約: 我々は手話生成のための意味論的埋め込みに基づく評価指標SiLVERScoreを提案する。 PHOENIX-14T と CSL-Daily のデータセットでは、SiLVERScore は正しいペアとランダムなペアのほぼ完全な識別を実現している。
参考スコア（独自算出の注目度）: 29.960223851833785
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluating sign language generation is often done through back-translation, where generated signs are first recognized back to text and then compared to a reference using text-based metrics. However, this two-step evaluation pipeline introduces ambiguity: it not only fails to capture the multimodal nature of sign language-such as facial expressions, spatial grammar, and prosody-but also makes it hard to pinpoint whether evaluation errors come from sign generation model or the translation system used to assess it. In this work, we propose SiLVERScore, a novel semantically-aware embedding-based evaluation metric that assesses sign language generation in a joint embedding space. Our contributions include: (1) identifying limitations of existing metrics, (2) introducing SiLVERScore for semantically-aware evaluation, (3) demonstrating its robustness to semantic and prosodic variations, and (4) exploring generalization challenges across datasets. On PHOENIX-14T and CSL-Daily datasets, SiLVERScore achieves near-perfect discrimination between correct and random pairs (ROC AUC = 0.99, overlap < 7%), substantially outperforming traditional metrics.
Abstract（参考訳）: 手話生成の評価はしばしばバックトランスレーションによって行われ、そこで生成されたサインはまずテキストに認識され、次にテキストベースのメトリクスを使用して参照と比較される。しかし, この2段階評価パイプラインは, 表情や空間文法, 韻律といった手話のマルチモーダルな性質を捉えるのに失敗するだけでなく, 評価エラーが手話生成モデルから来たのか, あるいはそれを評価するのに使われた翻訳システムから来たのかを判断するのも困難である。そこで本研究では,手話生成を共同埋め込み空間で評価する,意味認識型埋め込みに基づく新しい評価指標SiLVERScoreを提案する。コントリビューションには,(1)既存のメトリクスの限界の識別,(2)意味論的評価のためのSiLVERScoreの導入,(3)意味的および韻律的変動に対する頑健さの実証,(4)データセット間の一般化課題の探索などが含まれている。 PHOENIX-14T と CSL-Daily のデータセットでは、SiLVERScore は正しいペアとランダムなペア(ROC AUC = 0.99、重なり < 7%)のほぼ完全な識別を実現し、従来のメトリクスを大幅に上回っている。

関連論文リスト

CAAD: Context-Aware Adaptive Decoding for Truthful Text Generation [31.469511576774252]
大規模言語モデルに対する文脈対応適応型復号法を提案する。当社のアプローチは、TrathfulQAで平均2.8%の改善を実現しています。モデルに依存しない,スケーラブルで,効率的な手法では,1世代パスしか必要としない。
論文参考訳（メタデータ） (2025-08-04T08:28:25Z)
A Benchmark of French ASR Systems Based on Error Severity [6.657432034629865]
誤りを4つの重大度に分類する新たな評価法を提案する。この基準は、フランス語で10の最先端のASRシステムのベンチマークに適用される。
論文参考訳（メタデータ） (2025-01-18T21:07:18Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
signwriting-evaluation: Effective Sign Language Evaluation via SignWriting [3.484261625026626]
本稿では,SignWritingに特化して設計された評価指標を総合的に紹介する。シングルサインの評価と継続的署名の課題に対処する。以上の結果から,各指標の長所と短所が明らかとなり,今後の進歩に有意義な洞察が得られた。
論文参考訳（メタデータ） (2024-10-17T15:28:45Z)
Learnable Item Tokenization for Generative Recommendation [78.30417863309061]
LETTER (Larnable Tokenizer for generaTivE Recommendation) を提案する。 LETTERは、セマンティック正規化のためのResidual Quantized VAE、協調正規化のためのコントラストアライメント損失、コードの割り当てバイアスを軽減するための多様性損失を組み込んでいる。
論文参考訳（メタデータ） (2024-05-12T15:49:38Z)
APPLS: Evaluating Evaluation Metrics for Plain Language Summarization [18.379461020500525]
本研究では,Plain Language Summarization (PLS) のメトリクス評価を目的とした,詳細なメタ評価テストベッド APPLS を提案する。従来の作業から4つのPLS基準を特定し,これらの基準に対応する摂動のセットを定義した。 APPLSを用いて、自動スコア、語彙特徴、LLMプロンプトに基づく評価を含む14のメトリクスのパフォーマンスを評価する。
論文参考訳（メタデータ） (2023-05-23T17:59:19Z)
INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。 LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文参考訳（メタデータ） (2023-05-23T17:27:22Z)
TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文参考訳（メタデータ） (2022-04-11T10:14:35Z)
On the Limitations of Cross-lingual Encoders as Exposed by Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文参考訳（メタデータ） (2020-05-03T22:10:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。