論文の概要: Beyond N-Grams: Rethinking Evaluation Metrics and Strategies for Multilingual Abstractive Summarization
- arxiv url: http://arxiv.org/abs/2507.08342v1
- Date: Fri, 11 Jul 2025 06:44:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.26166
- Title: Beyond N-Grams: Rethinking Evaluation Metrics and Strategies for Multilingual Abstractive Summarization
- Title(参考訳): N-Gramsを超えて:多言語抽象要約のための評価基準と戦略の再考
- Authors: Itai Mondshine, Tzuf Paz-Argaman, Reut Tsarfaty,
- Abstract要約: 我々は,n-gramベースとニューラルベースの両方を生成するための評価指標を評価し,言語やタスク間での有効性を評価する。
本研究は,評価指標の言語タイプに対する感受性を明らかにするものである。
- 参考スコア(独自算出の注目度): 13.458891794688551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic n-gram based metrics such as ROUGE are widely used for evaluating generative tasks such as summarization. While these metrics are considered indicative (even if imperfect) of human evaluation for English, their suitability for other languages remains unclear. To address this, we systematically assess evaluation metrics for generation both n-gram-based and neural based to evaluate their effectiveness across languages and tasks. Specifically, we design a large-scale evaluation suite across eight languages from four typological families: agglutinative, isolating, low-fusional, and high-fusional, spanning both low- and high-resource settings, to analyze their correlation with human judgments. Our findings highlight the sensitivity of evaluation metrics to the language type. For example, in fusional languages, n-gram-based metrics show lower correlation with human assessments compared to isolating and agglutinative languages. We also demonstrate that proper tokenization can significantly mitigate this issue for morphologically rich fusional languages, sometimes even reversing negative trends. Additionally, we show that neural-based metrics specifically trained for evaluation, such as COMET, consistently outperform other neural metrics and better correlate with human judgments in low-resource languages. Overall, our analysis highlights the limitations of n-gram metrics for fusional languages and advocates for greater investment in neural-based metrics trained for evaluation tasks.
- Abstract(参考訳): ROUGEのようなn-gramベースの自動メトリクスは、要約などの生成タスクを評価するために広く使われている。
これらの指標は、英語に対する人間の評価の指標(たとえ不完全であっても)と考えられているが、他の言語への適合性は未だ不明である。
そこで我々は,n-gramベースとニューラルベースの両方で評価指標を体系的に評価し,言語やタスク間での有効性を評価する。
具体的には,低リソースと高リソースの両方にまたがる凝集性,孤立性,低融合性,高融合性という4つのタイプ族に属する8つの言語を対象とした大規模評価スイートを設計し,人間の判断との相関を分析する。
本研究は,評価指標の言語タイプに対する感受性を明らかにするものである。
例えば、融合言語では、n-gram-based metricsは、分離言語や凝集言語と比較して人間の評価との相関が低い。
また、適切なトークン化は、モルフォロジーに富んだ融合言語に対するこの問題を著しく軽減し、時には負の傾向を逆転させることも示している。
さらに、COMETなどの評価のために特別に訓練されたニューラルネットワークメトリクスが、他のニューラルネットワークメトリクスを一貫して上回り、低リソース言語における人間の判断と相関することを示す。
全体として、我々の分析は核融合言語におけるn-gramメトリクスの限界を強調し、評価タスクのために訓練されたニューラルベースメトリクスへのより多くの投資を提唱する。
関連論文リスト
- Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [49.09746599881631]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
本研究は,多言語学習モデルとの比較分析により同定された少数の臨界ニューロンの編集が,混乱を著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - FUSE : A Ridge and Random Forest-Based Metric for Evaluating MT in Indigenous Languages [2.377892000761193]
本稿では,RaaVaチームのAmerices 2025 Shared Task 3における自動機械翻訳のための評価基準の獲得について述べる。
評価のためのFUSE (Feature-Union Scorer) を導入し,FUSEはリッジ回帰とグラディエントブースティングを統合して翻訳品質をモデル化する。
その結果,FUSE はPearson と Spearman の相関関係を人間の判断と連続的に向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-28T06:58:55Z) - How Does Quantization Affect Multilingual LLMs? [50.867324914368524]
量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。
量子化多言語LLMの徹底的な分析を行い、言語間の性能と様々なスケールに焦点をあてる。
論文 参考訳(メタデータ) (2024-07-03T15:39:40Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Unsupervised Approach to Evaluate Sentence-Level Fluency: Do We Really
Need Reference? [3.2528685897001455]
本報告では,参照を必要とせず,既存の教師なし手法を用いてテキストの流速を計測する。
提案手法では,様々な単語埋め込みを活用し,RNNアーキテクチャを用いて言語モデルを訓練する。
モデルの性能を評価するため,10言語を対象に比較分析を行った。
論文 参考訳(メタデータ) (2023-12-03T20:09:23Z) - BLEU Meets COMET: Combining Lexical and Neural Metrics Towards Robust
Machine Translation Evaluation [12.407789866525079]
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
論文 参考訳(メタデータ) (2023-05-30T15:50:46Z) - ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。
以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文 参考訳(メタデータ) (2023-04-27T16:38:17Z) - On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation [86.19634542434711]
Mauveは、弦上の2つの確率分布間の情報理論のばらつきを測定する。
我々は,Mauveが誤った理由で正しいことを示し,新たに提案された分岐はハイパフォーマンスには必要ないことを示した。
テキストの構文的およびコヒーレンスレベルの特徴を符号化することで、表面的な特徴を無視しながら、文字列分布に対するクラスタベースの代替品は、単に最先端の言語ジェネレータを評価するのに良いかもしれない、と結論付けています。
論文 参考訳(メタデータ) (2022-05-31T17:58:49Z) - Discrete representations in neural models of spoken language [56.29049879393466]
音声言語の弱教師付きモデルの文脈における4つの一般的なメトリクスの利点を比較した。
異なる評価指標が矛盾する結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2021-05-12T11:02:02Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。