論文の概要: SiLVERScore: Semantically-Aware Embeddings for Sign Language Generation Evaluation
- arxiv url: http://arxiv.org/abs/2509.03791v1
- Date: Thu, 04 Sep 2025 00:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.003556
- Title: SiLVERScore: Semantically-Aware Embeddings for Sign Language Generation Evaluation
- Title(参考訳): SiLVERScore:手話生成評価のためのセマンティック・アウェアな埋め込み
- Authors: Saki Imai, Mert İnan, Anthony Sicilia, Malihe Alikhani,
- Abstract要約: 我々は手話生成のための意味論的埋め込みに基づく評価指標SiLVERScoreを提案する。
PHOENIX-14T と CSL-Daily のデータセットでは、SiLVERScore は正しいペアとランダムなペアのほぼ完全な識別を実現している。
- 参考スコア(独自算出の注目度): 29.960223851833785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating sign language generation is often done through back-translation, where generated signs are first recognized back to text and then compared to a reference using text-based metrics. However, this two-step evaluation pipeline introduces ambiguity: it not only fails to capture the multimodal nature of sign language-such as facial expressions, spatial grammar, and prosody-but also makes it hard to pinpoint whether evaluation errors come from sign generation model or the translation system used to assess it. In this work, we propose SiLVERScore, a novel semantically-aware embedding-based evaluation metric that assesses sign language generation in a joint embedding space. Our contributions include: (1) identifying limitations of existing metrics, (2) introducing SiLVERScore for semantically-aware evaluation, (3) demonstrating its robustness to semantic and prosodic variations, and (4) exploring generalization challenges across datasets. On PHOENIX-14T and CSL-Daily datasets, SiLVERScore achieves near-perfect discrimination between correct and random pairs (ROC AUC = 0.99, overlap < 7%), substantially outperforming traditional metrics.
- Abstract(参考訳): 手話生成の評価はしばしばバックトランスレーションによって行われ、そこで生成されたサインはまずテキストに認識され、次にテキストベースのメトリクスを使用して参照と比較される。
しかし, この2段階評価パイプラインは, 表情や空間文法, 韻律といった手話のマルチモーダルな性質を捉えるのに失敗するだけでなく, 評価エラーが手話生成モデルから来たのか, あるいはそれを評価するのに使われた翻訳システムから来たのかを判断するのも困難である。
そこで本研究では,手話生成を共同埋め込み空間で評価する,意味認識型埋め込みに基づく新しい評価指標SiLVERScoreを提案する。
コントリビューションには,(1)既存のメトリクスの限界の識別,(2)意味論的評価のためのSiLVERScoreの導入,(3)意味的および韻律的変動に対する頑健さの実証,(4)データセット間の一般化課題の探索などが含まれている。
PHOENIX-14T と CSL-Daily のデータセットでは、SiLVERScore は正しいペアとランダムなペア(ROC AUC = 0.99、重なり < 7%)のほぼ完全な識別を実現し、従来のメトリクスを大幅に上回っている。
関連論文リスト
- Cross-Lingual Stability of LLM Judges Under Controlled Generation: Evidence from Finno-Ugric Languages [0.22009842278462158]
大規模言語モデル(LLM)の言語間評価は、典型的には、真のモデルの性能差と測定不安定性の2つの要因を混同する。
対象言語が異なる場合に生成条件を一定に保って評価信頼性を評価する。
本研究は, 形態学的に豊かな言語における談話レベルの評価には, ゼロショット・ジャッジ・トランスファーが信頼できないことを示唆している。
論文 参考訳(メタデータ) (2026-02-02T16:27:32Z) - Beyond a Single Reference: Training and Evaluation with Paraphrases in Sign Language Translation [1.9102169745315323]
ほとんどの手話翻訳(SLT)コーパスペアは、それぞれ1つの書き言葉参照で署名された発話である。
この制限はモデルトレーニングと評価の両方を制約します。
BLEUparaは、複数のパラフレーズ参照に対する翻訳を評価するBLEUの拡張である。
論文 参考訳(メタデータ) (2026-01-29T00:02:19Z) - AQAScore: Evaluating Semantic Alignment in Text-to-Audio Generation via Audio Question Answering [97.52852990265136]
音声対応大規模言語モデルの推論機能を活用するバックボーン非依存評価フレームワークであるAQAScoreを紹介する。
AQAScoreは人格関連性、ペア比較、構成推論タスクを含む複数のベンチマークで評価する。
論文 参考訳(メタデータ) (2026-01-21T07:35:36Z) - SCORE: A Semantic Evaluation Framework for Generative Document Parsing [2.5101597298392098]
マルチモーダル生成文書解析システムは意味論的に正しいが構造的に異なる出力を生成する。
従来のメトリクス-CER, WER, IoU, TEDS-misclassized such diversity as error, penalizing valid interpretations and obscuring system behavior。
SCORE, (i) 調整した編集距離を頑健な内容の忠実度と統合する解釈非依存のフレームワーク, (ii) トークンレベルの診断で幻覚と排便を区別する, (iii) 空間的寛容とセマンティックアライメントによるテーブル評価, (iv) 階層対応の整合性チェックを紹介する。
論文 参考訳(メタデータ) (2025-09-16T16:06:19Z) - CAAD: Context-Aware Adaptive Decoding for Truthful Text Generation [31.469511576774252]
大規模言語モデルに対する文脈対応適応型復号法を提案する。
当社のアプローチは、TrathfulQAで平均2.8%の改善を実現しています。
モデルに依存しない,スケーラブルで,効率的な手法では,1世代パスしか必要としない。
論文 参考訳(メタデータ) (2025-08-04T08:28:25Z) - A Benchmark of French ASR Systems Based on Error Severity [6.657432034629865]
誤りを4つの重大度に分類する新たな評価法を提案する。
この基準は、フランス語で10の最先端のASRシステムのベンチマークに適用される。
論文 参考訳(メタデータ) (2025-01-18T21:07:18Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - signwriting-evaluation: Effective Sign Language Evaluation via SignWriting [3.484261625026626]
本稿では,SignWritingに特化して設計された評価指標を総合的に紹介する。
シングルサインの評価と継続的署名の課題に対処する。
以上の結果から,各指標の長所と短所が明らかとなり,今後の進歩に有意義な洞察が得られた。
論文 参考訳(メタデータ) (2024-10-17T15:28:45Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - Learnable Item Tokenization for Generative Recommendation [78.30417863309061]
LETTER (Larnable Tokenizer for generaTivE Recommendation) を提案する。
LETTERは、セマンティック正規化のためのResidual Quantized VAE、協調正規化のためのコントラストアライメント損失、コードの割り当てバイアスを軽減するための多様性損失を組み込んでいる。
論文 参考訳(メタデータ) (2024-05-12T15:49:38Z) - APPLS: Evaluating Evaluation Metrics for Plain Language Summarization [18.379461020500525]
本研究では,Plain Language Summarization (PLS) のメトリクス評価を目的とした,詳細なメタ評価テストベッド APPLS を提案する。
従来の作業から4つのPLS基準を特定し,これらの基準に対応する摂動のセットを定義した。
APPLSを用いて、自動スコア、語彙特徴、LLMプロンプトに基づく評価を含む14のメトリクスのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-05-23T17:59:19Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。