Fugu-MT 論文翻訳(概要): Towards Interpretable and Efficient Automatic Reference-Based Summarization Evaluation

論文の概要: Towards Interpretable and Efficient Automatic Reference-Based Summarization Evaluation

arxiv url: http://arxiv.org/abs/2303.03608v1
Date: Tue, 7 Mar 2023 02:49:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-08 16:46:12.048263
Title: Towards Interpretable and Efficient Automatic Reference-Based Summarization Evaluation
Title（参考訳）: 自動参照ベース要約評価の解釈と効率化に向けて
Authors: Yixin Liu, Alexander R. Fabbri, Yilun Zhao, Pengfei Liu, Shafiq Joty, Chien-Sheng Wu, Caiming Xiong, Dragomir Radev
Abstract要約: 解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。本研究では,2段階評価パイプラインに基づく参照ベース要約評価のための高性能自動メトリクスを開発する。私たちが開発したメトリクスには、きめ細かいユニットレベルと要約レベルの両方で高い解釈性を提供する2段階のメトリクスと、効率性と相互運用性のバランスを達成する1段階のメトリクスが含まれています。
参考スコア（独自算出の注目度）: 147.97829666947433
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Interpretability and efficiency are two important considerations for the adoption of neural automatic metrics. In this work, we develop strong-performing automatic metrics for reference-based summarization evaluation, based on a two-stage evaluation pipeline that first extracts basic information units from one text sequence and then checks the extracted units in another sequence. The metrics we developed include two-stage metrics that can provide high interpretability at both the fine-grained unit level and summary level, and one-stage metrics that achieve a balance between efficiency and interoperability. We make the developed tools publicly available through a Python package and GitHub.
Abstract（参考訳）: 解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。本研究では,まず1つのテキストシーケンスから基本情報単位を抽出し,抽出した単位を別のシーケンスで確認する2段階評価パイプラインに基づいて,参照ベース要約評価のための高性能自動メトリクスを開発する。私たちが開発したメトリクスには、きめ細かい単位レベルとサマリーレベルの両方で高い解釈性を提供する2段階のメトリクスと、効率と相互運用性のバランスを達成する1段階のメトリクスが含まれています。開発したツールはpythonパッケージとgithubを通じて公開しています。

関連論文リスト

An Automated Length-Aware Quality Metric for Summarization [0.0]
本稿では,任意のテキストの要約品質を評価するための定量的客観的指標であるNormed Index of Retention(NOIR)を提案する。実験では、NOIRが要約器のトークン長/意味保持を効果的に捉え、要約品質に対する人間の認識に相関することを示した。提案手法は,様々な要約タスクに適用可能であり,要約アルゴリズムの評価と改善のための自動化ツールを提供する。
論文参考訳（メタデータ） (2025-07-10T11:25:16Z)
Generalized Tree Edit Distance (GTED): A Faithful Evaluation Metric for Statement Autoformalization [11.26658223467498]
GTEDは形式文を標準化し、それらを演算木に変換する評価フレームワークである。名前付き GTED 計量を用いて意味的類似性を決定する。 GTEDは一貫して最高性能の指標であり、MiniF2FではKappa、ProofNetでは最大精度でKappaを達成している。
論文参考訳（メタデータ） (2025-07-10T03:34:58Z)
AutoLibra: Agent Metric Induction from Open-Ended Feedback [44.905607036805634]
AutoLibraは、オープンな人間のフィードバックを変換するエージェント評価のためのフレームワークである。より具体的なエージェント評価指標を誘導するAutoLibraの能力を実験的に示す。 AutoLibraが引き起こすメトリクスは、タスクの成功率よりもプロンプトエンジニアリングの目標として役立ちます。
論文参考訳（メタデータ） (2025-05-05T17:47:49Z)
Visualizing Uncertainty in Translation Tasks: An Evaluation of LLM Performance and Confidence Metrics [0.20971479389679337]
大規模言語モデル(LLM)は機械翻訳にますます利用されているが、その予測は解釈可能性やユーザ信頼を妨げる不確実性を示すことが多い。本稿では,(1)モデルの信頼性に関するトークンレベルの洞察をユーザに提供すること,(2)翻訳の不確かさを定量化し表現するためのWebベースの可視化ツールを開発すること,の2つの目的に対処する。
論文参考訳（メタデータ） (2025-01-26T17:14:51Z)
Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for Positional Discourse Coherence [39.065349875944634]
本稿では,2つの長文間の談話の相違を定量化する手法を提案する。ヒトの嗜好やGPT-4のコヒーレンス評価とより密接に一致し,既存の評価方法よりも優れていた。
論文参考訳（メタデータ） (2024-02-15T18:23:39Z)
On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文参考訳（メタデータ） (2022-10-22T22:12:06Z)
How to Find Strong Summary Coherence Measures? A Toolbox and a Comparative Study for Summary Coherence Measure Evaluation [3.434197496862117]
球面上での要約コヒーレンスモデリングのための様々な手法を大規模に検討する。システム内相関とバイアス行列という2つの新しい分析尺度を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。現在利用可能な自動コヒーレンス対策はいずれも、すべての評価指標にわたるシステム要約に信頼性の高いコヒーレンススコアを割り当てることはできないが、大規模言語モデルは、異なる要約の長さにわたって一般化する必要があることを考慮すれば、有望な結果を示す。
論文参考訳（メタデータ） (2022-09-14T09:42:19Z)
Re-Examining System-Level Correlations of Automatic Summarization Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文参考訳（メタデータ） (2022-04-21T15:52:14Z)
Finding a Balanced Degree of Automation for Summary Evaluation [83.08810773093882]
本稿では,フレキシブル・セミオートマチック・自動要約評価指標を提案する。半自動 Lite2Pyramid は参照のための再利用可能な人間ラベル付き概要コンテンツユニット(SCU)を保持する完全自動Lite3Pyramidは、自動的に抽出されたセマンティックトリプルトユニット(STU)をSCUに置き換える
論文参考訳（メタデータ） (2021-09-23T17:12:35Z)
Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文参考訳（メタデータ） (2020-10-14T13:58:53Z)
Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文参考訳（メタデータ） (2020-10-01T15:33:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。