論文の概要: Towards Semantic Noise Cleansing of Categorical Data based on Semantic
Infusion
- arxiv url: http://arxiv.org/abs/2002.02238v1
- Date: Thu, 6 Feb 2020 13:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 09:44:08.719337
- Title: Towards Semantic Noise Cleansing of Categorical Data based on Semantic
Infusion
- Title(参考訳): セマンティック注入に基づくカテゴリーデータのセマンティックノイズ浄化に向けて
- Authors: Rishabh Gupta and Rajesh N Rao
- Abstract要約: 文の物語に寄与しない用語の列として意味的雑音を定式化する。
本稿では,メタデータと分類コーパステキストを関連付けるセマンティック・インフュージョン手法を提案する。
本稿では,文脈を用いて意味雑音をフィルタリングするための教師なしテキスト前処理フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.825584239754082
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Semantic Noise affects text analytics activities for the domain-specific
industries significantly. It impedes the text understanding which holds prime
importance in the critical decision making tasks. In this work, we formalize
semantic noise as a sequence of terms that do not contribute to the narrative
of the text. We look beyond the notion of standard statistically-based stop
words and consider the semantics of terms to exclude the semantic noise. We
present a novel Semantic Infusion technique to associate meta-data with the
categorical corpus text and demonstrate its near-lossless nature. Based on this
technique, we propose an unsupervised text-preprocessing framework to filter
the semantic noise using the context of the terms. Later we present the
evaluation results of the proposed framework using a web forum dataset from the
automobile-domain.
- Abstract(参考訳): セマンティックノイズはドメイン固有の産業のテキスト分析活動に大きな影響を及ぼす。
批判的な意思決定タスクにおいて重要な意味を持つテキスト理解を妨げる。
本研究では,テキストの物語に寄与しない単語の列として意味的ノイズを定式化する。
我々は,標準統計に基づく停止語の概念を超越し,意味的ノイズを排除した用語の意味論を考察する。
本稿では,メタデータとカテゴリコーパステキストを関連付ける新しい意味的インフュージョン手法を提案する。
本手法に基づき,用語の文脈を用いて意味雑音をフィルタリングする教師なしテキスト前処理フレームワークを提案する。
その後,自動車ドメインのwebフォーラムデータセットを用いて,提案フレームワークの評価結果を示す。
関連論文リスト
- Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [73.39366775301382]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Semantic Text Compression for Classification [17.259824817932294]
本研究では,テキストに含まれる意味をソースデコーダに伝達するテキストのセマンティック圧縮について検討する。
そこで,文の埋め込みと意味的歪み量を用いて意味を保存したテキストに対する意味量化と圧縮手法を提案する。
論文 参考訳(メタデータ) (2023-09-19T17:50:57Z) - Adverbs, Surprisingly [1.9075820340282936]
計算言語学では副詞が無視されていることを示す。
単語の意味を特徴付けるために Frame Semantics を用いることで,アドバーブ解析に有望なアプローチが提案される。
論文 参考訳(メタデータ) (2023-05-31T08:30:08Z) - Context-Aware Semantic Similarity Measurement for Unsupervised Word
Sense Disambiguation [0.0]
本研究では,教師なし単語感覚の曖昧さに対する文脈認識アプローチを提案する。
これは、コンテキスト情報を類似度測定プロセスに組み込む柔軟なメカニズムを提供する。
本研究は,意味的類似度測定における文脈情報の統合の重要性を明らかにするものである。
論文 参考訳(メタデータ) (2023-05-05T13:50:04Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Robust Semantic Communications with Masked VQ-VAE Enabled Codebook [56.63571713657059]
本稿では,ロバストなエンドツーエンドのセマンティック通信システムにおいて,セマンティックノイズに対処するためのフレームワークを提案する。
セマンティックノイズに対処するため、重み付き対向トレーニングを開発し、トレーニングデータセットにセマンティックノイズを組み込む。
ノイズやタスク非関連の特徴を抑える機能重要モジュール (FIM) を開発した。
論文 参考訳(メタデータ) (2022-06-08T16:58:47Z) - Learning Interpretable and Discrete Representations with Adversarial
Training for Unsupervised Text Classification [87.28408260725138]
TIGANは、テキストを離散コードと連続ノイズを含む2つの非絡み合った表現にエンコードすることを学ぶ。
抽出したトピックの単語は,TIGANが一貫性と高度に解釈可能なトピックを学習していることを示している。
論文 参考訳(メタデータ) (2020-04-28T02:53:59Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。