論文の概要: Czech Dataset for Complex Aspect-Based Sentiment Analysis Tasks
- arxiv url: http://arxiv.org/abs/2508.08125v1
- Date: Mon, 11 Aug 2025 16:03:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.192842
- Title: Czech Dataset for Complex Aspect-Based Sentiment Analysis Tasks
- Title(参考訳): 複雑な視点に基づく感性分析タスクのためのチェコのデータセット
- Authors: Jakub Šmíd, Pavel Přibáň, Ondřej Pražák, Pavel Král,
- Abstract要約: 本稿ではアスペクトベース感情分析(ABSA)のための新しいデータセットを提案する。
レストランドメインからの注釈付きレビューが手作業で3.1Kである。
教師なし学習に適したアノテーションを使わずに2400万のレビューを提供する。
- 参考スコア(独自算出の注目度): 0.7874708385247352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a novel Czech dataset for aspect-based sentiment analysis (ABSA), which consists of 3.1K manually annotated reviews from the restaurant domain. The dataset is built upon the older Czech dataset, which contained only separate labels for the basic ABSA tasks such as aspect term extraction or aspect polarity detection. Unlike its predecessor, our new dataset is specifically designed for more complex tasks, e.g. target-aspect-category detection. These advanced tasks require a unified annotation format, seamlessly linking sentiment elements (labels) together. Our dataset follows the format of the well-known SemEval-2016 datasets. This design choice allows effortless application and evaluation in cross-lingual scenarios, ultimately fostering cross-language comparisons with equivalent counterpart datasets in other languages. The annotation process engaged two trained annotators, yielding an impressive inter-annotator agreement rate of approximately 90%. Additionally, we provide 24M reviews without annotations suitable for unsupervised learning. We present robust monolingual baseline results achieved with various Transformer-based models and insightful error analysis to supplement our contributions. Our code and dataset are freely available for non-commercial research purposes.
- Abstract(参考訳): 本稿では,アスペクトベース感情分析(ABSA)のための新しいチェコのデータセットについて紹介する。
データセットは古いチェコのデータセットに基づいて構築され、アスペクト項抽出やアスペクト極性検出といった基本的なABSAタスクのラベルのみを含む。
前者とは異なり、我々の新しいデータセットは、例えばターゲット・アスペクト・カテゴリ検出など、より複雑なタスクのために特別に設計されている。
これらの高度なタスクは統一的なアノテーションフォーマットを必要とし、感情要素(ラベル)をシームレスにリンクする。
私たちのデータセットは、よく知られたSemEval-2016データセットのフォーマットに従っています。
この設計選択は、言語横断のシナリオにおける努力的なアプリケーションと評価を可能にし、最終的には他の言語で同等のデータセットとの言語間比較を促進する。
アノテーションプロセスでは2つのトレーニングされたアノテーションが動作し、約90%のアノテータ間の合意率が得られた。
さらに、教師なし学習に適したアノテーションを使わずに、2400万のレビューを提供する。
様々なトランスフォーマーモデルと洞察に富んだ誤り解析を用いて, 頑健なモノリンガルベースライン結果を示し, コントリビューションを補完する。
私たちのコードとデータセットは、非商業的な研究目的で自由に利用できます。
関連論文リスト
- Logos as a Well-Tempered Pre-train for Sign Language Recognition [75.42794328290088]
本稿では,ロシア語 Sign Language (RSL) データセットであるLogosについて述べる。
Logosデータセットに事前トレーニングされたモデルが,他の言語SLRタスクのユニバーサルエンコーダとして使用できることを示す。
視覚的に類似した標識を明示的にラベル付けすることで、下流タスクのためのビジュアルエンコーダとして訓練されたモデル品質が向上することを示す。
論文 参考訳(メタデータ) (2025-05-15T16:31:49Z) - An Aspect Extraction Framework using Different Embedding Types, Learning Models, and Dependency Structure [0.0657714808721181]
アスペクトベースの感情分析の重要な構成要素はアスペクト抽出である。
本稿では,単語と音声のパート・オブ・音声タグに異なる種類の埋め込みを用いたアスペクト抽出モデルを提案する。
また、文のアスペクト位置をよりよく捉えるために、依存性解析出力に基づく木の位置符号化を提案する。
論文 参考訳(メタデータ) (2025-03-05T13:57:48Z) - KPC-cF: Aspect-Based Sentiment Analysis via Implicit-Feature Alignment with Corpus Filtering [0.0]
本研究は,韓国語などの低リソース言語におけるABSAの直感的で効果的な枠組みを提案する。
翻訳されたベンチマークと未ラベルの韓国データを統合することで、予測ラベルを最適化する。
英語のABSAと比較すると,F1スコアと精度に約3%の差が認められた。
論文 参考訳(メタデータ) (2024-06-29T07:01:51Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - CL-XABSA: Contrastive Learning for Cross-lingual Aspect-based Sentiment
Analysis [4.60495447017298]
本稿では,言語横断的アスペクトベース知覚分析のためのコントラスト学習フレームワークCL-XABSAを提案する。
具体的には、トークン埋め込み(TL-CTE)のトークンレベルのコントラスト学習とトークン埋め込み(SL-CTE)の感情レベルのコントラスト学習という2つのコントラスト戦略を設計する。
我々のフレームワークは訓練中に複数の言語でデータセットを受信できるので、XABSAタスクだけでなく、マルチリンガルなアスペクトベースの感情分析(MABSA)にも適用できます。
論文 参考訳(メタデータ) (2022-04-02T07:40:03Z) - YASO: A New Benchmark for Targeted Sentiment Analysis [12.60266470026856]
YASO - クラウドソースによる新たなTSA評価データセット。
データセットには、映画、ビジネス、製品レビューからの2,215の英語文と、7,415の単語とそれらの感情が含まれている。
分析はアノテーションの信頼性を検証し,収集したデータの特徴について検討する。
論文 参考訳(メタデータ) (2020-12-29T00:25:15Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。