論文の概要: CzechTopic: A Benchmark for Zero-Shot Topic Localization in Historical Czech Documents
- arxiv url: http://arxiv.org/abs/2603.03884v1
- Date: Wed, 04 Mar 2026 09:35:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.256168
- Title: CzechTopic: A Benchmark for Zero-Shot Topic Localization in Historical Czech Documents
- Title(参考訳): Czech Topic: 歴史的チェコ文書におけるゼロショットトピックのローカライズのためのベンチマーク
- Authors: Martin Kostelník, Michal Hradiš, Martin Dočekal,
- Abstract要約: チェコの歴史的文書に基づく人手による注釈付きベンチマークを導入し、人手による注釈付きスパンとともに人手による定義されたトピックを含む。
蒸留した開発データセットに微調整したBERTモデルとともに,多種多様な大規模言語モデルを評価する。
その結果, LLM間では, ほぼ人間に近い話題の検出から, 局所的局所化における障害の顕著な評価まで, かなりの変動が認められた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic localization aims to identify spans of text that express a given topic defined by a name and description. To study this task, we introduce a human-annotated benchmark based on Czech historical documents, containing human-defined topics together with manually annotated spans and supporting evaluation at both document and word levels. Evaluation is performed relative to human agreement rather than a single reference annotation. We evaluate a diverse range of large language models alongside BERT-based models fine-tuned on a distilled development dataset. Results reveal substantial variability among LLMs, with performance ranging from near-human topic detection to pronounced failures in span localization. While the strongest models approach human agreement, the distilled token embedding models remain competitive despite their smaller scale. The dataset and evaluation framework are publicly available at: https://github.com/dcgm/czechtopic.
- Abstract(参考訳): トピックのローカライゼーションは、名前と記述によって定義された特定のトピックを表現するテキストのスパンを特定することを目的としている。
この課題について,チェコの歴史的文書をベースとした人手による注釈付きベンチマークを導入し,人手による注釈付きスパンと,文書レベルと単語レベルの評価を支援する。
評価は、単一の参照アノテーションではなく、人間の同意に対して行われる。
蒸留した開発データセットに微調整したBERTモデルとともに,多種多様な大規模言語モデルを評価する。
その結果, LLM間では, ほぼ人間に近い話題の検出から, 局所的局所化における障害の顕著な評価まで, かなりの変動が認められた。
最強のモデルは人間の合意に近づいているが、蒸留されたトークン埋め込みモデルはより小さなスケールにもかかわらず競争力を維持している。
データセットと評価フレームワークは、https://github.com/dcgm/czechtopic.comで公開されている。
関連論文リスト
- SwissGov-RSD: A Human-annotated, Cross-lingual Benchmark for Token-level Recognition of Semantic Differences Between Related Documents [38.797311337915175]
SwissGov-RSDは、意味的差分認識のための最初の自然な文書レベルの言語間データセットである。
英語・ドイツ語・英語・フランス語・英語・イタリア語の複数のパラレル文書が合計224件含まれている。
この新しいベンチマークでは,各種オープンソースおよびクローズドソースの大規模言語モデルと,さまざまな微調整設定のエンコーダモデルを評価した。
論文 参考訳(メタデータ) (2025-12-08T13:17:27Z) - HUME: Measuring the Human-Model Performance Gap in Text Embedding Tasks [13.836108236883002]
HUME:Human Evaluation Framework for Text Embeddingsを紹介する。
我々は、再分類、分類、クラスタリング、意味的テキスト類似性にまたがる16のMTEBデータセットにおける人的パフォーマンスを測定した。
人間の平均的な性能は77.6%であり、最高の埋め込みモデルでは80.1%である。
論文 参考訳(メタデータ) (2025-10-11T06:56:53Z) - Towards Multi-dimensional Evaluation of LLM Summarization across Domains and Languages [17.028968054304947]
MSumBenchは、英語と中国語の要約の多次元多領域評価である。
8つの現代的な要約モデルを評価することにより、ドメインや言語間で異なるパフォーマンスパターンが見つかる。
論文 参考訳(メタデータ) (2025-05-31T13:12:35Z) - A Dataset and Strong Baselines for Classification of Czech News Texts [0.0]
チェコ最大の分類データセットであるCZE-NEC(CZE-NEC)について述べる。
我々は、ニュースソース、ニュースカテゴリ、推論された著者の性別、週の日という4つの分類タスクを定義した。
本研究では,市販の大規模生成言語モデルにおいて,言語固有の事前学習エンコーダ解析が優れていることを示す。
論文 参考訳(メタデータ) (2023-07-20T07:47:08Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation [20.675242617417677]
言語横断要約(CLCTS)は、文化的アクセシビリティと理解を向上する可能性を持つ、ほとんど探索されていない領域である。
本稿では、データセット作成、モデリング、評価を含むCLCTSタスクを包括的に扱う。
論文 参考訳(メタデータ) (2023-06-22T14:31:18Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。