論文の概要: On-Device Sentence Similarity for SMS Dataset
- arxiv url: http://arxiv.org/abs/2012.02819v1
- Date: Fri, 4 Dec 2020 19:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 20:43:32.879530
- Title: On-Device Sentence Similarity for SMS Dataset
- Title(参考訳): SMSデータセットのオンデバイス文類似性
- Authors: Arun D Prabhu, Nikhil Arora, Shubham Vatsal, Gopi Ramena, Sukumar
Moharana, Naresh Purre
- Abstract要約: 検索やナビゲーションの強化など,さまざまなアプリケーションにおいて,SMSデータの類似性を評価する必要がある。
SMSテキスト間のテキスト類似性を評価するためのユニークなパイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Determining the sentence similarity between Short Message Service (SMS)
texts/sentences plays a significant role in mobile device industry. Gauging the
similarity between SMS data is thus necessary for various applications like
enhanced searching and navigation, clubbing together SMS of similar type when
given a custom label or tag is provided by user irrespective of their sender
etc. The problem faced with SMS data is its incomplete structure and
grammatical inconsistencies. In this paper, we propose a unique pipeline for
evaluating the text similarity between SMS texts. We use Part of Speech (POS)
model for keyword extraction by taking advantage of the partial structure
embedded in SMS texts and similarity comparisons are carried out using
statistical methods. The proposed pipeline deals with major semantic variations
across SMS data as well as makes it effective for its application on-device
(mobile phone). To showcase the capabilities of our work, our pipeline has been
designed with an inclination towards one of the possible applications of SMS
text similarity discussed in one of the following sections but nonetheless
guarantees scalability for other applications as well.
- Abstract(参考訳): 短いメッセージサービス(SMS)テキスト/文間の文の類似性を決定することは、モバイルデバイス産業において重要な役割を果たす。
したがって、SMSデータの類似性を評価するためには、検索やナビゲーションの強化、カスタムラベルやタグが送信者に関係なく提供される場合に、同様のタイプのSMSをまとめることなど、さまざまなアプリケーションで必要となる。
SMSデータで直面する問題は、その不完全構造と文法上の矛盾である。
本稿では,SMSテキスト間のテキスト類似性を評価するためのユニークなパイプラインを提案する。
SMSテキストに埋め込まれた部分構造を利用してキーワード抽出に音声の一部(POS)モデルを用い,統計的手法を用いて類似度の比較を行った。
提案したパイプラインは、SMSデータ間のセマンティックな大きなバリエーションを扱い、デバイス上でのアプリケーション(携帯電話)に有効である。
我々の作業の能力を示すため、我々のパイプラインは、以下のセクションの1つで議論されているSMSテキスト類似性の可能性の1つに傾倒して設計されていますが、それでも他のアプリケーションにもスケーラビリティが保証されています。
関連論文リスト
- Out of Length Text Recognition with Sub-String Matching [54.63761108308825]
本稿では,このタスクをOOL(Out of Length)テキスト認識と呼ぶ。
サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用する。
論文 参考訳(メタデータ) (2024-07-17T05:02:17Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Identifying Banking Transaction Descriptions via Support Vector Machine Short-Text Classification Based on a Specialized Labelled Corpus [7.046417074932257]
本稿では,自然言語処理技術と機械学習アルゴリズムを組み合わせて,銀行取引記述を分類する新しいシステムについて述べる。
また,スパム検出における既存のソリューションに触発されて,ジャカード距離に基づくトレーニングセットサイズの削減を目的とした,短いテキスト類似度検出手法を提案する。
Google PlayとApp Storeで利用可能なパーソナルファイナンスアプリケーションCoinScrapのユースケースを提示する。
論文 参考訳(メタデータ) (2024-03-29T13:15:46Z) - Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval [31.79030663958162]
本稿では,テキスト埋め込みを柔軟で回復力のあるセマンティックレンジで強化するテキストモデリング手法T-MASSを提案する。
具体的には,テキスト・ビデオ・ペアにテキスト・マスのスケールを適応させるために,類似性を考慮した半径モジュールを導入する。
T-MASSは5つのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - On-Device Information Extraction from SMS using Hybrid Hierarchical
Classification [0.0]
SMSから適切な情報を整理して抽出し,さらに直感的なテンプレートで表示する,ユニークなアーキテクチャを提案する。
提案アーキテクチャでは,Hybrid Hierarchical Long Short Term Memory (LSTM) Neural Network (CNN) を用いて,SMS を複数のクラスに分類し,関連する情報を抽出するエンティティのセットを用いる。
プリプロセッシング技術を用いたアーキテクチャは、SMSデータに見られる膨大な変動を考慮しつつ、推論タイミングとサイズの観点からデバイス上の機能(携帯電話)を効率化する。
論文 参考訳(メタデータ) (2020-02-03T09:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。