論文の概要: Intrinsic vs. Extrinsic Evaluation of Czech Sentence Embeddings: Semantic Relevance Doesn't Help with MT Evaluation
- arxiv url: http://arxiv.org/abs/2506.20203v1
- Date: Wed, 25 Jun 2025 07:46:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.649352
- Title: Intrinsic vs. Extrinsic Evaluation of Czech Sentence Embeddings: Semantic Relevance Doesn't Help with MT Evaluation
- Title(参考訳): チェコ語文の内在的対外的評価:意味的関連性はMT評価に役立たない
- Authors: Petra Barančíková, Ondřej Bojar,
- Abstract要約: 本稿では,チェコ語固有の文の埋め込みモデルと多言語文の埋め込みモデルを,本質的および外生的評価パラダイムを用いて比較する。
内在的評価には、複雑な文変換データセットであるCostraといくつかのセマンティックテキスト類似性(STS)ベンチマークを用いて、埋め込みが言語現象を捉える能力を評価する。
余分な評価では,マシン翻訳評価のためのCOMETベースのメトリクスを用いて,各埋め込みモデルを微調整する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we compare Czech-specific and multilingual sentence embedding models through intrinsic and extrinsic evaluation paradigms. For intrinsic evaluation, we employ Costra, a complex sentence transformation dataset, and several Semantic Textual Similarity (STS) benchmarks to assess the ability of the embeddings to capture linguistic phenomena such as semantic similarity, temporal aspects, and stylistic variations. In the extrinsic evaluation, we fine-tune each embedding model using COMET-based metrics for machine translation evaluation. Our experiments reveal an interesting disconnect: models that excel in intrinsic semantic similarity tests do not consistently yield superior performance on downstream translation evaluation tasks. Conversely, models with seemingly over-smoothed embedding spaces can, through fine-tuning, achieve excellent results. These findings highlight the complex relationship between semantic property probes and downstream task, emphasizing the need for more research into 'operationalizable semantics' in sentence embeddings, or more in-depth downstream tasks datasets (here translation evaluation)
- Abstract(参考訳): 本稿では,チェコ語固有の文の埋め込みモデルと多言語文の埋め込みモデルを,本質的および外生的評価パラダイムを用いて比較する。
内在的評価には、複雑な文変換データセットであるCostraと、セマンティックテキスト類似性(STS)ベンチマークを用いて、意味的類似性、時間的側面、スタイル的変動などの言語現象を捉えるための埋め込みの能力を評価する。
余分な評価では,マシン翻訳評価のためのCOMETベースのメトリクスを用いて,各埋め込みモデルを微調整する。
本実験では,本質的な意味的類似性テストに優れるモデルでは,下流翻訳評価タスクにおいて,常に優れた性能が得られない。
逆に、過度に滑らかな埋め込み空間を持つモデルは、微調整によって優れた結果が得られる。
これらの知見は、意味特性プローブと下流タスクの複雑な関係を強調し、文の埋め込みにおける「操作可能な意味論」やより深い下流タスクデータセットの研究の必要性を強調した(翻訳評価)。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Language model acceptability judgements are not always robust to context [30.868765627701457]
目標構文評価における言語モデルの性能の安定性について検討する。
モデル判断は、ランダムにサンプル化された言語コンテキストに置かれる場合、一般的には堅牢である。
これらのモデル性能の変化は、コンテキストとテスト入力にマッチする単純な特徴によって説明できないことを示す。
論文 参考訳(メタデータ) (2022-12-18T00:11:06Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - Just Rank: Rethinking Evaluation with Word and Sentence Similarities [105.5541653811528]
埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T08:40:05Z) - Comparative analysis of word embeddings in assessing semantic similarity
of complex sentences [8.873705500708196]
既存のベンチマークデータセットの文を解析し,文の複雑さに関する各種単語埋め込みの感度を解析する。
その結果, 文の複雑さの増大は, 埋め込みモデルの性能に重大な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。