Fugu-MT 論文翻訳(概要): ESBM: An Entity Summarization BenchMark

論文の概要: ESBM: An Entity Summarization BenchMark

arxiv url: http://arxiv.org/abs/2003.03734v1
Date: Sun, 8 Mar 2020 07:12:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-25 14:32:33.488193
Title: ESBM: An Entity Summarization BenchMark
Title（参考訳）: ESBM: エンティティの要約 BenchMark
Authors: Qingxia Liu, Gong Cheng, Kalpa Gunaratna, Yuzhong Qu
Abstract要約: 私たちはEntity Summarization BenchMark(ESBM)を作成し、既存のベンチマークの制限を克服し、ベンチマークの標準的なデシラタを満たします。これらのシステムはすべて教師なしであるので、参照のための教師付き学習ベースシステムの実装と評価も行う。
参考スコア（独自算出の注目度）: 20.293900908253544
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Entity summarization is the problem of computing an optimal compact summary for an entity by selecting a size-constrained subset of triples from RDF data. Entity summarization supports a multiplicity of applications and has led to fruitful research. However, there is a lack of evaluation efforts that cover the broad spectrum of existing systems. One reason is a lack of benchmarks for evaluation. Some benchmarks are no longer available, while others are small and have limitations. In this paper, we create an Entity Summarization BenchMark (ESBM) which overcomes the limitations of existing benchmarks and meets standard desiderata for a benchmark. Using this largest available benchmark for evaluating general-purpose entity summarizers, we perform the most extensive experiment to date where 9~existing systems are compared. Considering that all of these systems are unsupervised, we also implement and evaluate a supervised learning based system for reference.
Abstract（参考訳）: エンティティ要約(Entity summarization)は、RDFデータから三重項のサイズ制限されたサブセットを選択することで、エンティティの最適なコンパクト要約を計算する問題である。エンティティの要約は、多くのアプリケーションをサポートし、実りある研究につながった。しかし、既存のシステムの幅広い範囲をカバーする評価努力の欠如がある。理由の1つは、評価のためのベンチマークの欠如である。一部のベンチマークはもはや利用できないが、制限のある小さなベンチマークもある。本稿では、既存のベンチマークの限界を克服し、ベンチマークの標準デシラタを満たすEntity Summarization BenchMark(ESBM)を作成します。汎用エンティティサマリーサの評価に利用可能な最大のベンチマークを用いて,9～既存のシステムを比較した,これまでで最も広範な実験を行う。これらのシステムはすべて教師なしであるため、参照のための教師付き学習ベースシステムの実装と評価も行う。

関連論文リスト

PRGB Benchmark: A Robust Placeholder-Assisted Algorithm for Benchmarking Retrieval-Augmented Generation [15.230902967865925]
Retrieval-Augmented Generation (RAG)は、外部知識を統合することで、大規模言語モデル(LLM)を強化する。現在のベンチマークでは、ノイズの堅牢性などの幅広い側面を強調しているが、文書利用に関する体系的できめ細かい評価フレームワークは欠如している。我々のベンチマークは、より信頼性が高く効率的なRAGシステムを開発するための再現可能なフレームワークを提供する。
論文参考訳（メタデータ） (2025-07-23T16:14:08Z)
Reasoning is All You Need for Video Generalization: A Counterfactual Benchmark with Sub-question Evaluation [19.46864730994867]
マルチ次元マルチモーダルベンチマークであるtextbfunderline(textbfunderlineCounterfactual textbfunderlineEo textbfunderlineReasoning)を導入する。複雑なクエリを構造化されたサブクエリに分解し、きめ細かい推論分析を可能にする。
論文参考訳（メタデータ） (2025-03-12T03:25:51Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
OCTrack: Benchmarking the Open-Corpus Multi-Object Tracking [63.53176412315835]
オープンコーパス多対象追跡(OCMOT)の新たな実用的課題について検討する。我々は,OCMOT問題に対する標準評価プラットフォームを提供するために,大規模かつ包括的なベンチマークであるOCTrackBを構築した。
論文参考訳（メタデータ） (2024-07-19T05:58:01Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
How to Evaluate Entity Resolution Systems: An Entity-Centric Framework with Application to Inventor Name Disambiguation [1.7812428873698403]
本稿では,要約統計をモニタリングする統合フレームワークと統合したエンティティ中心のデータラベリング手法を提案する。これらのベンチマークデータセットは、モデルトレーニングやさまざまな評価タスクに使用できる。
論文参考訳（メタデータ） (2024-04-08T15:53:29Z)
CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文参考訳（メタデータ） (2024-01-30T14:25:32Z)
Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文参考訳（メタデータ） (2023-05-24T11:53:29Z)
A Fair and In-Depth Evaluation of Existing End-to-End Entity Linking Systems [4.4351901934764975]
エンティティリンクシステムの評価は、システムが特定のアプリケーションに対してどのように機能するかについてほとんど語らないことが多い。既存のさまざまなエンド・ツー・エンド・エンティティ・リンカについて,より有意義で公平な評価を行う。評価は、上記の問題を様々な程度に示すために広く使われているベンチマークと、2つの新しいベンチマークに基づいて行われる。
論文参考訳（メタデータ） (2023-05-24T09:20:15Z)
Towards More Robust NLP System Evaluation: Handling Missing Scores in Benchmarks [9.404931130084803]
本稿は,NLP研究における既存の問題として,タスク中にシステムスコアが欠落している場合のベンチマークを定式化する。既存のベンチマークよりも桁違いに大きい1億3100万以上のスコアを含む拡張ベンチマークを導入する。
論文参考訳（メタデータ） (2023-05-17T15:20:31Z)
Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成したそれまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文参考訳（メタデータ） (2022-10-11T17:46:28Z)
Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文参考訳（メタデータ） (2021-05-31T21:14:58Z)
What Will it Take to Fix Benchmarking in Natural Language Understanding? [30.888416756627155]
我々は、NLUベンチマークが満たすべきと議論する4つの基準を定めている。健全な評価エコシステムの復元には、ベンチマークデータセットの設計に大きな進歩が必要だ。
論文参考訳（メタデータ） (2021-04-05T20:36:11Z)
Exploring and Analyzing Machine Commonsense Benchmarks [0.13999481573773073]
我々は、これらのアプローチのメタデータを調整するための共通の語彙の欠如は、システムの欠陥を理解するための努力で研究者を制限します。ベンチマークメタデータを形式化する一般的な語彙であるMCS Benchmark Ontologyについて説明します。
論文参考訳（メタデータ） (2020-12-21T19:01:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。