論文の概要: KPC-cF: Aspect-Based Sentiment Analysis via Implicit-Feature Alignment with Corpus Filtering
- arxiv url: http://arxiv.org/abs/2407.00342v4
- Date: Fri, 15 Nov 2024 17:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:36:36.851949
- Title: KPC-cF: Aspect-Based Sentiment Analysis via Implicit-Feature Alignment with Corpus Filtering
- Title(参考訳): KPC-cF: コーパスフィルタを用いた入出力アライメントによるアスペクトベース感度解析
- Authors: Kibeom Nam,
- Abstract要約: 本研究は,韓国語などの低リソース言語におけるABSAの直感的で効果的な枠組みを提案する。
翻訳されたベンチマークと未ラベルの韓国データを統合することで、予測ラベルを最適化する。
英語のABSAと比較すると,F1スコアと精度に約3%の差が認められた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Investigations into Aspect-Based Sentiment Analysis (ABSA) for Korean industrial reviews are notably lacking in the existing literature. Our research proposes an intuitive and effective framework for ABSA in low-resource languages such as Korean. It optimizes prediction labels by integrating translated benchmark and unlabeled Korean data. Using a model fine-tuned on translated data, we pseudo-labeled the actual Korean NLI set. Subsequently, we applied LaBSE and \MSP{}-based filtering to this pseudo-NLI set as implicit feature, enhancing Aspect Category Detection and Polarity determination through additional training. Incorporating dual filtering, this model bridged dataset gaps, achieving positive results in Korean ABSA with minimal resources. Through additional data injection pipelines, our approach aims to utilize high-resource data and construct effective models within communities, whether corporate or individual, in low-resource language countries. Compared to English ABSA, our framework showed an approximately 3\% difference in F1 scores and accuracy. We release the dataset and our code for Korean ABSA, at this link.
- Abstract(参考訳): 韓国の産業評価のためのアスペクトベース感性分析(ABSA)に関する調査は,既存の文献に特に欠落している。
本研究は,韓国語などの低リソース言語におけるABSAの直感的で効果的な枠組みを提案する。
翻訳されたベンチマークと未ラベルの韓国データを統合することで、予測ラベルを最適化する。
翻訳データに基づいて微調整されたモデルを用いて,実際の韓国のNLI集合を擬似ラベルした。
その後、この擬似NLI集合にLaBSEおよびMSP{}に基づくフィルタリングを適用し、追加訓練によりアスペクトカテゴリー検出と極性判定を強化した。
二重フィルタリングを取り入れたこのモデルはデータセットギャップを橋渡しし、最小限のリソースを持つ韓国のABSAで肯定的な結果を得た。
新たなデータ注入パイプラインを通じて,低リソースの言語国において,高リソースのデータを活用し,企業や個人を問わず,コミュニティ内で効果的なモデルを構築することを目的としている。
英語のABSAと比較すると,F1スコアと精度に約3倍の差が認められた。
このリンクで、韓国のABSAのためのデータセットとコードをリリースします。
関連論文リスト
- Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - NAIST-SIC-Aligned: an Aligned English-Japanese Simultaneous Interpretation Corpus [23.49376007047965]
同時解釈(SI)データが同時機械翻訳(SiMT)に与える影響は依然として疑問である。
自動整列した英語と日本語のSIデータセットであるNAIST-SIC-Alignedを導入する。
その結果,SIデータでトレーニングしたモデルでは,ベースラインよりも翻訳品質とレイテンシが大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-04-23T23:03:58Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - CL-XABSA: Contrastive Learning for Cross-lingual Aspect-based Sentiment
Analysis [4.60495447017298]
本稿では,言語横断的アスペクトベース知覚分析のためのコントラスト学習フレームワークCL-XABSAを提案する。
具体的には、トークン埋め込み(TL-CTE)のトークンレベルのコントラスト学習とトークン埋め込み(SL-CTE)の感情レベルのコントラスト学習という2つのコントラスト戦略を設計する。
我々のフレームワークは訓練中に複数の言語でデータセットを受信できるので、XABSAタスクだけでなく、マルチリンガルなアスペクトベースの感情分析(MABSA)にも適用できます。
論文 参考訳(メタデータ) (2022-04-02T07:40:03Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Systematic Investigation of Strategies Tailored for Low-Resource
Settings for Sanskrit Dependency Parsing [14.416855042499945]
Sanskrit Dependency Parsing (SDP) の既存の手法は、本質的にハイブリッドである。
純粋にデータ駆動アプローチは、ラベル付きデータ間隔によるハイブリッドアプローチのパフォーマンスにマッチしない。
我々は、データ強化、シーケンシャルトランスファーラーニング、クロスランガル/モノランガル事前学習、マルチタスク学習、自己学習の5つの戦略を実験した。
提案するアンサンブルシステムは, 純粋にデータ駆動状態よりも2.8/3.9ポイント(Unlabelled Attachment Score (UAS)/Labelled Attachment Score (LAS))の絶対ゲインに優れる。
論文 参考訳(メタデータ) (2022-01-27T08:24:53Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文 参考訳(メタデータ) (2021-05-20T11:40:30Z) - Arabic aspect based sentiment analysis using bidirectional GRU based
models [0.0]
アスペクトベースの知覚分析(ABSA)は、与えられた文書や文の側面を定義するきめ細かい分析を行う。
ABSAのGRU(Gated Recurrent Units)ニューラルネットワークに基づく2つのモデルを提案する。
ベンチマークしたアラビア語ホテルレビューデータセットを用いてモデルを評価する。
論文 参考訳(メタデータ) (2021-01-23T02:54:30Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。