論文の概要: Adapting AlignScore Mertic for Factual Consistency Evaluation of Text in Russian: A Student Abstract
- arxiv url: http://arxiv.org/abs/2512.06586v1
- Date: Sat, 06 Dec 2025 22:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.419153
- Title: Adapting AlignScore Mertic for Factual Consistency Evaluation of Text in Russian: A Student Abstract
- Title(参考訳): ロシア語におけるテキストのFactual Consistency評価に対するAlignScore Merticの適用:学生の要約
- Authors: Mikhail Zimin, Milyausha Shamsutdinova, Georgii Andriushchenko,
- Abstract要約: ロシア語に対するAlignRuScoreメトリックの包括的適応であるAlignRuScoreを紹介する。
我々は、RuBERTに基づくアライメントモデルに、タスク固有の分類と、ロシア語および翻訳された英語データセットの回帰ヘッドを微調整した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring factual consistency in generated text is crucial for reliable natural language processing applications. However, there is a lack of evaluation tools for factual consistency in Russian texts, as existing tools primarily focus on English corpora. To bridge this gap, we introduce AlignRuScore, a comprehensive adaptation of the AlignScore metric for Russian. To adapt the metric, we fine-tuned a RuBERT-based alignment model with task-specific classification and regression heads on Russian and translated English datasets. Our results demonstrate that a unified alignment metric can be successfully ported to Russian, laying the groundwork for robust multilingual factual consistency evaluation. We release the translated corpora, model checkpoints, and code to support further research.
- Abstract(参考訳): 生成したテキストの事実整合性を保証することは、信頼できる自然言語処理アプリケーションに不可欠である。
しかし、既存のツールは主に英語コーパスに焦点を当てているため、ロシアのテキストには事実整合性を評価するツールが不足している。
このギャップを埋めるために、ロシア語に対するAlignRuScoreメトリックの包括的な適応であるAlignRuScoreを紹介する。
そこで我々は,RuBERTをベースとしたアライメントモデルを用いて,ロシア語および翻訳英語データセットのタスク固有分類と回帰ヘッドを微調整した。
以上の結果から,統一的なアライメント尺度をロシア語に移植できることが示され,ロバストな多言語事実整合性評価の基礎となった。
翻訳コーパス、モデルチェックポイント、さらなる研究を支援するためのコードをリリースします。
関連論文リスト
- Is Context Helpful for Chat Translation Evaluation? [23.440392979857247]
我々は、機械翻訳チャットの品質を評価するために、既存の文レベル自動メトリクスのメタ評価を行う。
参照なしのメトリクスは、特に英語外設定で翻訳品質を評価する場合、参照ベースのメトリクスよりも遅れていることが分かりました。
大規模言語モデルを用いたバイリンガル文脈を用いた新しい評価指標 Context-MQM を提案する。
論文 参考訳(メタデータ) (2024-03-13T07:49:50Z) - Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation [20.675242617417677]
言語横断要約(CLCTS)は、文化的アクセシビリティと理解を向上する可能性を持つ、ほとんど探索されていない領域である。
本稿では、データセット作成、モデリング、評価を含むCLCTSタスクを包括的に扱う。
論文 参考訳(メタデータ) (2023-06-22T14:31:18Z) - ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。
以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文 参考訳(メタデータ) (2023-04-27T16:38:17Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic
Mistakes [93.19166902594168]
テキスト生成評価のためのモデルベースメトリックを学習するための自己教師型アプローチSESCORE2を提案する。
鍵となる概念は、コーパスから取得した文を摂動することで、現実的なモデルミスを合成することである。
3言語にわたる4つのテキスト生成タスクにおいて,SESCORE2とそれ以前の手法を評価する。
論文 参考訳(メタデータ) (2022-12-19T09:02:16Z) - Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP
models [53.95094814056337]
本稿では,ロシアNLPモデルのGLUEを改良したベンチマークである,ロシアのSuperGLUE 1.1を提案する。
新バージョンには、技術的、ユーザエクスペリエンス、方法論的改善が多数含まれている。
我々は,ロシアのSuperGLUEをオープンソースモデルMOROCCOの産業的評価のためのフレームワークに統合する。
論文 参考訳(メタデータ) (2022-02-15T23:45:30Z) - Methods for Detoxification of Texts for the Russian Language [55.337471467610094]
我々は、攻撃的言語と戦うために、ロシア語のテキストを自動で解毒する研究を初めて紹介する。
我々は、局所的な修正を行う教師なしアプローチと、事前訓練された言語GPT-2モデルに基づく教師なしアプローチの2種類のモデルをテストする。
以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。
論文 参考訳(メタデータ) (2021-05-19T10:37:44Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark [5.258267224004844]
先進的なロシア語理解評価ベンチマークであるロシア語GLUEを紹介する。
9つのタスクのベンチマークは、SuperGLUEの手法と類似して収集され、ロシア語のスクラッチから開発された。
論文 参考訳(メタデータ) (2020-10-29T20:31:39Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。