論文の概要: Polish-ASTE: Aspect-Sentiment Triplet Extraction Datasets for Polish
- arxiv url: http://arxiv.org/abs/2502.20046v1
- Date: Thu, 27 Feb 2025 12:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:13.084870
- Title: Polish-ASTE: Aspect-Sentiment Triplet Extraction Datasets for Polish
- Title(参考訳): Polish-ASTE:Aspect-Sentiment Triplet extract datasets for Polish
- Authors: Marta Lango, Borys Naglik, Mateusz Lango, Iwo Naglik,
- Abstract要約: ポーランド語で表現されたホテルと購入品に関する顧客の意見を含むASTEのための2つの新しいデータセットを提示する。
また,2つのASTE手法と2つの大きな言語モデルを組み合わせた実験を行い,その性能と組立データセットの難しさについて検討した。
新しいデータセットはパーミッシブライセンスの下で利用可能で、英語のデータセットと同じファイルフォーマットで、将来の研究での使用が促進される。
- 参考スコア(独自算出の注目度): 1.6874375111244329
- License:
- Abstract: Aspect-Sentiment Triplet Extraction (ASTE) is one of the most challenging and complex tasks in sentiment analysis. It concerns the construction of triplets that contain an aspect, its associated sentiment polarity, and an opinion phrase that serves as a rationale for the assigned polarity. Despite the growing popularity of the task and the many machine learning methods being proposed to address it, the number of datasets for ASTE is very limited. In particular, no dataset is available for any of the Slavic languages. In this paper, we present two new datasets for ASTE containing customer opinions about hotels and purchased products expressed in Polish. We also perform experiments with two ASTE techniques combined with two large language models for Polish to investigate their performance and the difficulty of the assembled datasets. The new datasets are available under a permissive licence and have the same file format as the English datasets, facilitating their use in future research.
- Abstract(参考訳): Aspect-Sentiment Triplet extract (ASTE) は感情分析において最も困難で複雑なタスクの一つである。
それは、側面、その関連する感情極性、および割り当てられた極性に対する合理性として機能する意見句を含む三重項の構築に関するものである。
タスクの人気が高まり、それに対応するために多くの機械学習メソッドが提案されているにもかかわらず、ASTEのデータセットの数は極めて限られている。
特に、スラヴ語のどの言語でもデータセットは利用できない。
本稿では,ホテルに関する顧客意見とポーランド語で表現された購入商品を含むASTEの新しい2つのデータセットを提案する。
また,2つのASTE手法と2つの大きな言語モデルを組み合わせた実験を行い,その性能と組立データセットの難しさについて検討した。
新しいデータセットはパーミッシブライセンスの下で利用可能で、英語のデータセットと同じファイルフォーマットで、将来の研究での使用が促進される。
関連論文リスト
- PSCon: Toward Conversational Product Search [55.94925947614474]
我々は、新しいCPSデータ収集プロトコルと、人間のような会話による製品検索を支援するために設計された新しいCPSデータセットPSConを紹介する。
このデータセットは、人間間データ収集プロトコルを使用して構築され、2つの言語と2つの市場をサポートする。
論文 参考訳(メタデータ) (2025-02-19T17:05:42Z) - Automated Question Generation on Tabular Data for Conversational Data Exploration [1.2574534342156884]
本稿では,会話環境におけるデータセットの関連するスライスに基づいて,自然言語で興味深い質問を推薦するシステムを提案する。
我々は、訓練済みの言語モデル(T5)の微調整のバリエーションを使って、特定の方法で自然言語の質問を生成する。
論文 参考訳(メタデータ) (2024-07-10T08:07:05Z) - 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - OPSD: an Offensive Persian Social media Dataset and its baseline evaluations [2.356562319390226]
本稿ではペルシャ語に対する2つの攻撃的データセットを紹介する。
第1のデータセットはドメインの専門家によって提供されるアノテーションで構成されており、第2のデータセットはWebクローリングによって得られたラベルなしデータの大規模なコレクションで構成されている。
得られたデータセットの3クラスと2クラスのF1スコアはそれぞれ76.9%、XLM-RoBERTaは89.9%であった。
論文 参考訳(メタデータ) (2024-04-08T14:08:56Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Multilingual Transformers for Product Matching -- Experiments and a New
Benchmark in Polish [0.0]
本論文は, 事前学習された多言語トランスフォーマーモデルが, 微調整後の製品マッチング問題の解決に適していることを示す。
Web Data Commons を用いた多言語 mBERT と XLM-RoBERTa モデルを英語で検証した。
事前学習したモデルの有効性を比較できる新しいデータセットをポーランド語で作成しました。
論文 参考訳(メタデータ) (2022-05-31T12:00:05Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z) - XED: A Multilingual Dataset for Sentiment Analysis and Emotion Detection [0.42056926734482064]
データセットは、人間の注釈付きフィンランド語(25k)と英語(30k)からなる
我々は、Plutchikのコア感情を使って、中立性を加えたデータセットに注釈を付け、マルチラベルのマルチクラスデータセットを作成します。
データセットは言語固有のBERTモデルとSVMを使用して慎重に評価され、XEDが他の類似したデータセットと同等に動作することを示す。
論文 参考訳(メタデータ) (2020-11-03T10:43:22Z) - Cross-Lingual Low-Resource Set-to-Description Retrieval for Global
E-Commerce [83.72476966339103]
言語間情報検索は、国境を越えたeコマースにおける新しい課題である。
文脈依存型言語間マッピングの強化を図った新しい言語間マッチングネットワーク(CLMN)を提案する。
実験結果から,提案したCLMNは課題に対して印象的な結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-05-17T08:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。