論文の概要: Extending Czech Aspect-Based Sentiment Analysis with Opinion Terms: Dataset and LLM Benchmarks
- arxiv url: http://arxiv.org/abs/2602.22730v1
- Date: Thu, 26 Feb 2026 08:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.58968
- Title: Extending Czech Aspect-Based Sentiment Analysis with Opinion Terms: Dataset and LLM Benchmarks
- Title(参考訳): Opinion Terms: Dataset と LLM ベンチマークによるチェコのアスペクトに基づく知覚分析の拡張
- Authors: Jakub Šmíd, Pavel Přibáň, Pavel Král,
- Abstract要約: 本稿では、アスペクトベース感情分析(ABSA)のためのレストラン領域における新しいチェコのデータセットを紹介する。
我々は、モノリンガル、クロスリンガル、マルチリンガル設定における大規模言語モデル(LLM)を含む、現代のトランスフォーマーモデルを用いた広範な実験を行う。
詳細なエラー分析では、微妙な意見用語の検出やニュアンスされた感情表現など、重要な課題が明らかにされている。
- 参考スコア(独自算出の注目度): 1.9779500088459443
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces a novel Czech dataset in the restaurant domain for aspect-based sentiment analysis (ABSA), enriched with annotations of opinion terms. The dataset supports three distinct ABSA tasks involving opinion terms, accommodating varying levels of complexity. Leveraging this dataset, we conduct extensive experiments using modern Transformer-based models, including large language models (LLMs), in monolingual, cross-lingual, and multilingual settings. To address cross-lingual challenges, we propose a translation and label alignment methodology leveraging LLMs, which yields consistent improvements. Our results highlight the strengths and limitations of state-of-the-art models, especially when handling the linguistic intricacies of low-resource languages like Czech. A detailed error analysis reveals key challenges, including the detection of subtle opinion terms and nuanced sentiment expressions. The dataset establishes a new benchmark for Czech ABSA, and our proposed translation-alignment approach offers a scalable solution for adapting ABSA resources to other low-resource languages.
- Abstract(参考訳): 本稿では、アスペクトベースの感情分析(ABSA)のためのレストラン領域における新しいチェコのデータセットについて紹介する。
このデータセットは、意見用語を含む3つの異なるABSAタスクをサポートし、様々なレベルの複雑さを調節する。
このデータセットを活用することで、モノリンガル、クロスリンガル、マルチリンガル設定において、大規模言語モデル(LLM)を含む、最新のTransformerベースのモデルを使用して広範な実験を行う。
言語間の課題に対処するため,LLMを利用した翻訳・ラベルアライメント手法を提案する。
我々の結果は、特にチェコ語のような低リソース言語における言語的複雑さを扱う際に、最先端モデルの長所と短所を強調した。
詳細なエラー分析では、微妙な意見用語の検出やニュアンスされた感情表現など、重要な課題が明らかにされている。
このデータセットはチェコ語ABSAの新しいベンチマークを確立し、提案した翻訳アライメントアプローチは、ABSAリソースを他の低リソース言語に適応するためのスケーラブルなソリューションを提供する。
関連論文リスト
- BETA-Labeling for Multilingual Dataset Construction in Low-Resource IR [0.06363400715351396]
この研究は、BETA-labelingフレームワークを用いて構築されたBangla IRデータセットを示す。
我々は、他の低リソース言語からのIRデータセットがワンホップ機械翻訳によって効果的に再利用できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-16T06:04:04Z) - Limited Linguistic Diversity in Embodied AI Datasets [6.956496363213419]
本稿では,広く使用されているVLA(Vision-Language-Action)データセットの体系的データセット監査について述べる。
我々は,語彙的多様性,重複と重複,意味的類似性,構文的複雑性などを含む相補的な次元に沿って命令言語を定量化する。
論文 参考訳(メタデータ) (2026-01-06T16:06:47Z) - LACA: Improving Cross-lingual Aspect-Based Sentiment Analysis with LLM Data Augmentation [0.8602553195689511]
言語横断的側面に基づく感情分析は、対象言語における詳細な感情分析を含む。
既存のほとんどのメソッドは言語ギャップを埋めるために、信頼できない翻訳ツールに大きく依存している。
対象言語における高品質な擬似ラベル付きデータを生成するために,大規模言語モデルを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-08-13T05:55:48Z) - Czech Dataset for Complex Aspect-Based Sentiment Analysis Tasks [0.7874708385247352]
本稿ではアスペクトベース感情分析(ABSA)のための新しいデータセットを提案する。
レストランドメインからの注釈付きレビューが手作業で3.1Kである。
教師なし学習に適したアノテーションを使わずに2400万のレビューを提供する。
論文 参考訳(メタデータ) (2025-08-11T16:03:28Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。