論文の概要: BanglaSummEval: Reference-Free Factual Consistency Evaluation for Bangla Summarization
- arxiv url: http://arxiv.org/abs/2602.16843v1
- Date: Wed, 18 Feb 2026 20:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.328682
- Title: BanglaSummEval: Reference-Free Factual Consistency Evaluation for Bangla Summarization
- Title(参考訳): BanglaSummEval: Bangla Summarization における基準自由Factual Consistency 評価
- Authors: Ahmed Rafid, Rumman Adib, Fariya Ahmed, Ajwad Abrar, Mohammed Saidul Islam,
- Abstract要約: 本稿では,BanglaSummEvalについて紹介する。BanglaSummEvalは,Banglaの要約における事実整合性を評価するための質問応答ベースのフレームワークである。
単一の多言語命令チューニング言語モデルは、質問生成、質問応答、候補回答抽出、質問重要度重み付けを処理する。
教育・医療分野の人文要約300件についてBanglaSummEvalを検証した。
- 参考スコア(独自算出の注目度): 0.529335674224684
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating factual consistency is essential for reliable text summarization, particularly in high-stakes domains such as healthcare and news. However, most existing evaluation metrics overlook Bangla, a widely spoken yet under-resourced language, and often depend on reference summaries. We introduce BanglaSummEval, a reference-free, question-answering-based framework for evaluating factual consistency in Bangla summarization. The proposed method assesses both factual accuracy and content coverage through automatically generated questions and answers derived from the source document and the summary. A single multilingual instruction-tuned language model handles question generation, question answering, candidate answer extraction, and question importance weighting. This unified design reduces system complexity and computational cost. To capture semantic consistency beyond surface-level overlap, we use BERTScore-Recall for answer comparison. We validate BanglaSummEval on 300 human-written summaries from educational and medical domains, demonstrating strong correlation with expert human judgments (Pearson's $r = 0.694$, Spearman's $ρ= 0.763$). By providing interpretable, step-wise diagnostics alongside reliable evaluation scores, BanglaSummEval offers a practical and transparent solution for factual consistency evaluation in low-resource language settings.
- Abstract(参考訳): 事実整合性を評価することは、信頼性の高いテキスト要約に不可欠である。
しかしながら、既存の評価指標のほとんどは、広く話されているが、リソース不足の言語であるBanglaを見下ろしており、しばしば参照要約に依存する。
本稿では,Bangla summEvalについて紹介する。Bangla summarizationにおける事実整合性を評価するための,参照フリーで質問応答に基づくフレームワークである。
提案手法は,ソース文書と要約から抽出した質問や回答を自動的に生成し,事実の精度と内容のカバレッジを評価する。
単一の多言語命令チューニング言語モデルは、質問生成、質問応答、候補回答抽出、質問重要度重み付けを処理する。
この統一設計により、システムの複雑さと計算コストが削減される。
表面レベルのオーバーラップ以上のセマンティック一貫性を捉えるために, BERTScore-Recall を用いて回答の比較を行う。
教育領域と医学領域の300の人文要約に対してBanglaSummEvalを検証し、専門家の人間の判断と強い相関を示す(ピアソンの$r = 0.694$、スピアマンの$ρ = 0.763$)。
BanglaSummEvalは、信頼性の高い評価スコアとともに解釈可能なステップワイズ診断を提供することによって、低リソース言語設定における現実的な一貫性評価のための実用的で透明なソリューションを提供する。
関連論文リスト
- Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - PlainQAFact: Retrieval-augmented Factual Consistency Evaluation Metric for Biomedical Plain Language Summarization [5.5899921245557]
大きな言語モデルから得られた幻覚的アウトプットは、医療領域にリスクをもたらす。
そこで我々はPlainQAFactを紹介した。PlainFactは、人間に注釈を付けた詳細なデータセットに基づいてトレーニングされた、自動的な事実整合性評価指標である。
論文 参考訳(メタデータ) (2025-03-11T20:59:53Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。
一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。
しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文 参考訳(メタデータ) (2023-03-27T22:30:39Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z) - Reference and Document Aware Semantic Evaluation Methods for Korean
Language Summarization [6.826626737986031]
本稿では,参照要約と原文書の意味を反映した評価指標を提案する。
次に,人間の判断とメトリクスの相関性を改善する手法を提案する。
論文 参考訳(メタデータ) (2020-04-29T08:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。