論文の概要: Creation of the Estonian Subjectivity Dataset: Assessing the Degree of Subjectivity on a Scale
- arxiv url: http://arxiv.org/abs/2512.09634v1
- Date: Wed, 10 Dec 2025 13:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.534596
- Title: Creation of the Estonian Subjectivity Dataset: Assessing the Degree of Subjectivity on a Scale
- Title(参考訳): エストニアの主観性データセットの作成:尺度における主観性度の評価
- Authors: Karl Gustav Gailit, Kadri Muischnek, Kairit Sirts,
- Abstract要約: データセットは、1000のドキュメント-300のジャーナリスト記事と700のランダムに選択されたWebテキストで構成されている。
このデータセットは、アノテーション自動化の実験としてGPT-5によって生成されるスコアを含む。
- 参考スコア(独自算出の注目度): 1.6058099298620423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article presents the creation of an Estonian-language dataset for document-level subjectivity, analyzes the resulting annotations, and reports an initial experiment of automatic subjectivity analysis using a large language model (LLM). The dataset comprises of 1,000 documents-300 journalistic articles and 700 randomly selected web texts-each rated for subjectivity on a continuous scale from 0 (fully objective) to 100 (fully subjective) by four annotators. As the inter-annotator correlations were moderate, with some texts receiving scores at the opposite ends of the scale, a subset of texts with the most divergent scores was re-annotated, with the inter-annotator correlation improving. In addition to human annotations, the dataset includes scores generated by GPT-5 as an experiment on annotation automation. These scores were similar to human annotators, however several differences emerged, suggesting that while LLM based automatic subjectivity scoring is feasible, it is not an interchangeable alternative to human annotation, and its suitability depends on the intended application.
- Abstract(参考訳): 本稿では、文書レベルの主観性を示すエストニア語データセットの作成、アノテーションの分析、および大規模言語モデル(LLM)を用いた自動主観性分析の初期実験について報告する。
このデータセットは、1000の文書−300のジャーナリスト記事と、700のランダムに選択されたウェブテキストからなる。
注釈間の相関は中等度であり、尺度の反対端でスコアを受信するテキストもあるため、最もばらばらなスコアを持つテキストのサブセットが再注釈され、注釈間の相関が改善された。
人間のアノテーションに加えて、このデータセットには、アノテーション自動化の実験として、GPT-5によって生成されたスコアが含まれている。
これらのスコアは人間のアノテーションと似ているが、いくつかの違いが出現し、LSMに基づく自動主観性スコアは実現可能であるが、人間のアノテーションの代替にはならないことが示唆され、その適合性は意図された応用に依存している。
関連論文リスト
- AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - Mitigating Biases to Embrace Diversity: A Comprehensive Annotation Benchmark for Toxic Language [0.0]
本研究では、人文科学研究に基礎を置く規範的ベンチマークを導入し、攻撃的言語の一貫性のないラベル付けを確実にする。
我々は、人間と言語モデル(LLM)アノテーションのアノテーション間のより高いアノテータ合意を達成するために、2つの新しいアノテートデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2024-10-17T08:10:24Z) - Evaluating the IWSLT2023 Speech Translation Tasks: Human Annotations, Automatic Metrics, and Segmentation [50.60733773088296]
音声言語翻訳国際ワークショップ(IWSLT 2023)における共有タスクの結果を総合的に評価する。
本稿では,セグメントコンテキストによる自動回帰と直接評価に基づく効果的な評価戦略を提案する。
分析の結果,1) 提案した評価戦略は頑健であり,他の種類の人的判断とよく相関している,2) 自動測定基準は通常,必ずしも直接評価スコアとよく関連しているわけではない,3) COMET は chrF よりもわずかに強い自動測定基準である,といった結果を得た。
論文 参考訳(メタデータ) (2024-06-06T09:18:42Z) - Short Answer Grading Using One-shot Prompting and Text Similarity
Scoring Model [2.14986347364539]
分析スコアと全体スコアの両方を提供する自動短解階調モデルを開発した。
このモデルの精度と2次重み付きカッパは、ASAGデータセットのサブセットである0.67と0.71であった。
論文 参考訳(メタデータ) (2023-05-29T22:05:29Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - PART: Pre-trained Authorship Representation Transformer [52.623051272843426]
文書を書く著者は、自分のテキストに識別情報を印字する。
以前の作品では、手作りの機能や分類タスクを使って著者モデルを訓練していた。
セマンティクスの代わりにテキストの埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation [86.19634542434711]
Mauveは、弦上の2つの確率分布間の情報理論のばらつきを測定する。
我々は,Mauveが誤った理由で正しいことを示し,新たに提案された分岐はハイパフォーマンスには必要ないことを示した。
テキストの構文的およびコヒーレンスレベルの特徴を符号化することで、表面的な特徴を無視しながら、文字列分布に対するクラスタベースの代替品は、単に最先端の言語ジェネレータを評価するのに良いかもしれない、と結論付けています。
論文 参考訳(メタデータ) (2022-05-31T17:58:49Z) - Does Summary Evaluation Survive Translation to Other Languages? [0.0]
既存の英語要約データセット SummEval を4言語に翻訳する。
本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
論文 参考訳(メタデータ) (2021-09-16T17:35:01Z) - Czech News Dataset for Semantic Textual Similarity [0.0]
本稿では,意味的類似性アノテーションを用いた文からなる新しいデータセットについて述べる。
このデータは、チェコ語におけるジャーナリストの領域に由来する。
データセットには、138,556人のアノテーションが列車とテストセットに分割されている。
論文 参考訳(メタデータ) (2021-08-19T14:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。