論文の概要: A Scalable Unsupervised Framework for multi-aspect labeling of Multilingual and Multi-Domain Review Data
- arxiv url: http://arxiv.org/abs/2505.09286v1
- Date: Wed, 14 May 2025 11:11:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.428878
- Title: A Scalable Unsupervised Framework for multi-aspect labeling of Multilingual and Multi-Domain Review Data
- Title(参考訳): マルチ言語およびマルチドメインレビューデータのマルチアスペクトラベリングのためのスケーラブルな教師なしフレームワーク
- Authors: Jiin Park, Misuk Kim,
- Abstract要約: クロスドメインなアスペクト検出のための多言語でスケーラブルで教師なしのフレームワークを提案する。
このフレームワークは多言語および多ドメインレビューデータのマルチアスペクトラベリングのために設計されている。
人による評価により、自動ラベルの品質は手作業で作成したものと同等であることが確認される。
- 参考スコア(独自算出の注目度): 11.92436948211501
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Effectively analyzing online review data is essential across industries. However, many existing studies are limited to specific domains and languages or depend on supervised learning approaches that require large-scale labeled datasets. To address these limitations, we propose a multilingual, scalable, and unsupervised framework for cross-domain aspect detection. This framework is designed for multi-aspect labeling of multilingual and multi-domain review data. In this study, we apply automatic labeling to Korean and English review datasets spanning various domains and assess the quality of the generated labels through extensive experiments. Aspect category candidates are first extracted through clustering, and each review is then represented as an aspect-aware embedding vector using negative sampling. To evaluate the framework, we conduct multi-aspect labeling and fine-tune several pretrained language models to measure the effectiveness of the automatically generated labels. Results show that these models achieve high performance, demonstrating that the labels are suitable for training. Furthermore, comparisons with publicly available large language models highlight the framework's superior consistency and scalability when processing large-scale data. A human evaluation also confirms that the quality of the automatic labels is comparable to those created manually. This study demonstrates the potential of a robust multi-aspect labeling approach that overcomes limitations of supervised methods and is adaptable to multilingual, multi-domain environments. Future research will explore automatic review summarization and the integration of artificial intelligence agents to further improve the efficiency and depth of review analysis.
- Abstract(参考訳): オンラインレビューデータを効果的に分析することは産業において不可欠である。
しかし、既存の研究の多くは特定のドメインや言語に限られるか、大規模ラベル付きデータセットを必要とする教師付き学習アプローチに依存している。
これらの制約に対処するため、クロスドメインアスペクト検出のための多言語、スケーラブル、教師なしのフレームワークを提案する。
このフレームワークは多言語および多ドメインレビューデータのマルチアスペクトラベリングのために設計されている。
本研究では,韓国語と英語のレビューデータセットに自動ラベリングを適用し,広範囲な実験によって生成されたラベルの品質を評価する。
アスペクトカテゴリ候補は、まずクラスタリングを通して抽出され、各レビューは、負のサンプリングを用いてアスペクト対応の埋め込みベクトルとして表現される。
このフレームワークを評価するために、自動生成されたラベルの有効性を測定するために、複数の事前訓練された言語モデルにマルチアスペクトラベリングと微調整を行う。
その結果、これらのモデルは高い性能を達成し、ラベルがトレーニングに適していることが示される。
さらに、一般公開されている大規模言語モデルとの比較では、大規模なデータを処理する際のフレームワークの優れた一貫性とスケーラビリティを強調している。
人による評価では、自動ラベルの品質が手作業で作成したものと同等であることも確認されている。
本研究では,教師付き手法の限界を克服し,多言語・マルチドメイン環境に適用可能なロバストなマルチアスペクトラベリング手法の可能性を示す。
今後の研究は、自動レビュー要約と人工知能エージェントの統合について検討し、レビュー分析の効率性と深度をさらに向上させる。
関連論文リスト
- Universal Cross-Lingual Text Classification [0.3958317527488535]
本研究は,言語横断テキスト分類における新たな視点を提案する。
我々のアプローチは、訓練中に異なる言語からの教師付きデータをブレンドして普遍的なモデルを作成することである。
主な目標は、ラベルと言語カバレッジを強化することであり、様々な言語のラベルの結合を表すラベルセットを目指している。
論文 参考訳(メタデータ) (2024-06-16T17:58:29Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Harnessing the Power of Beta Scoring in Deep Active Learning for
Multi-Label Text Classification [6.662167018900634]
本研究は,期待損失削減フレームワーク内の適切なスコアリングルールのベータファミリを活かした,新たなアクティブな学習戦略を提案する。
これはBeta Scoring Rulesを使って期待されるスコアの増加を計算し、次にサンプルベクトル表現に変換する。
合成データセットと実データセットの総合的な評価により,複数ラベルのテキスト分類において,確立された取得技術を上回る性能が得られた。
論文 参考訳(メタデータ) (2024-01-15T00:06:24Z) - Multi-label and Multi-target Sampling of Machine Annotation for
Computational Stance Detection [44.90471123149513]
アノテーションの品質を最適化するために,マルチラベルおよびマルチターゲットサンプリング戦略を導入する。
ベンチマークスタンス検出コーパスの実験結果から,本手法は性能と学習効率を大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-11-08T06:54:34Z) - Reliable Representation Learning for Incomplete Multi-View Missing Multi-Label Classification [78.15629210659516]
本稿ではRANKと呼ばれる不完全なマルチビュー欠落型マルチラベル分類ネットワークを提案する。
既存の手法に固有のビューレベルの重みを分解し、各サンプルのビューに品質スコアを動的に割り当てる品質対応サブネットワークを提案する。
私たちのモデルは、完全なマルチビューマルチラベルデータを扱うだけでなく、欠落したインスタンスやラベルを持つデータセットでも処理できます。
論文 参考訳(メタデータ) (2023-03-30T03:09:25Z) - AX-MABSA: A Framework for Extremely Weakly Supervised Multi-label Aspect
Based Sentiment Analysis [8.067010122141985]
極めて弱い教師付き多言語Aspect Category Sentiment Analysis フレームワークを提案する。
最初の指示情報として、クラスごとに1つの単語しか依存していません。
本稿では、これらのシードカテゴリと感情語を選択するための自動単語選択手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T19:44:42Z) - Improving Classification through Weak Supervision in Context-specific
Conversational Agent Development for Teacher Education [1.215785021723604]
教育シナリオ固有の会話エージェントを開発するのに必要な労力は、時間を要する。
アノテーションをモデリングするための従来のアプローチは、何千もの例をラベル付けし、アノテーション間の合意と多数決を計算することに依存してきた。
本稿では,これらの問題に対処するために,多タスク弱監視手法とアクティブラーニングを組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T23:39:40Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。