論文の概要: Probabilistic Random Indexing for Continuous Event Detection
- arxiv url: http://arxiv.org/abs/2008.12552v3
- Date: Thu, 9 Dec 2021 06:48:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 01:19:42.791774
- Title: Probabilistic Random Indexing for Continuous Event Detection
- Title(参考訳): 連続事象検出のための確率的ランダムインデックス化
- Authors: Yashank Singh, Niladri Chatterjee
- Abstract要約: 本稿では,連続的なイベントが進行する動的シナリオにおいて,言語データのエンコードを行うための,Random Indexing (RI) ベースの表現の新たな変種について検討する。
本稿では,質問語と他の単語間の意味的関係を追跡するために,語彙の大きさの対数線形なアルゴリズムを提案し,その単語に関連する事象を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The present paper explores a novel variant of Random Indexing (RI) based
representations for encoding language data with a view to using them in a
dynamic scenario where events are happening in a continuous fashion. As the
size of the representations in the general method of onehot encoding grows
linearly with the size of the vocabulary, they become non-scalable for online
purposes with high volumes of dynamic data. On the other hand, existing
pre-trained embedding models are not suitable for detecting happenings of new
events due to the dynamic nature of the text data. The present work addresses
this issue by using a novel RI representation by imposing a probability
distribution on the number of randomized entries which leads to a class of RI
representations. It also provides a rigorous analysis of the goodness of the
representation methods to encode semantic information in terms of the
probability of orthogonality. Building on these ideas we propose an algorithm
that is log-linear with the size of vocabulary to track the semantic
relationship of a query word to other words for suggesting the events that are
relevant to the word in question. We ran simulations using the proposed
algorithm for tweet data specific to three different events and present our
findings. The proposed probabilistic RI representations are found to be much
faster and scalable than Bag of Words (BoW) embeddings while maintaining
accuracy in depicting semantic relationships.
- Abstract(参考訳): 本稿では,連続的なイベントが進行する動的シナリオにおいて,言語データのエンコードを行うためのRandom Indexing(RI)に基づく表現の新たな変種について検討する。
ワンホット符号化の一般的な方法における表現のサイズが語彙のサイズとともに線形に大きくなるにつれて、高ボリュームの動的データを持つオンライン目的にはスケールできない。
一方,既存の事前学習型埋め込みモデルは,テキストデータの動的性質から新たな事象の発生を検出するには適していない。
本研究は, RI表現のクラスにつながるランダム化エントリ数に確率分布を付与することにより, 新規なRI表現を用いてこの問題に対処する。
また、直交性の確率の観点から意味情報をエンコードする表現法の良さの厳密な分析も提供する。
これらのアイデアに基づいて,質問語と他の単語の意味的関係を追跡するために,語彙の大きさの対数線形なアルゴリズムを提案し,その単語に関連する事象を提案する。
3つのイベントに特有のツイートデータに対して提案アルゴリズムを用いてシミュレーションを行い,その結果を報告する。
提案した確率的 RI 表現は、意味的関係を描写する精度を維持しながら、Bag of Words (BoW) の埋め込みよりもはるかに高速でスケーラブルである。
関連論文リスト
- pEBR: A Probabilistic Approach to Embedding Based Retrieval [4.8338111302871525]
埋め込み検索は、クエリとアイテムの両方の共有セマンティック表現空間を学習することを目的としている。
現在の産業実践では、検索システムは典型的には、異なるクエリに対して一定数のアイテムを検索する。
論文 参考訳(メタデータ) (2024-10-25T07:14:12Z) - Lightweight Conceptual Dictionary Learning for Text Classification Using Information Compression [15.460141768587663]
データ圧縮と表現に基づくテキスト分類のための軽量な教師付き辞書学習フレームワークを提案する。
我々は,情報ボトルネックの原理を用いて情報理論性能を評価し,情報理論性能を定量化するための新しい指標として情報平面面積ランク(IPAR)を導入する。
論文 参考訳(メタデータ) (2024-04-28T10:11:52Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Keyword Spotting Simplified: A Segmentation-Free Approach using
Character Counting and CTC re-scoring [8.6134769826665]
セグメンテーションフリーなキーワードスポッティングの最近の進歩は、この問題をオブジェクト検出パラダイムとして扱う。
本稿では,クエリ情報を含む長方形領域を見つけるために,文書画像を効率的にスキャンするセグメンテーションフリーシステムを提案する。
論文 参考訳(メタデータ) (2023-08-07T12:11:04Z) - MomentDiff: Generative Video Moment Retrieval from Random to Real [71.40038773943638]
私たちは、MomentDiffという拡散に基づく生成フレームワークを提供しています。
MomentDiffは、ランダムなブラウジングから段階的なローカライゼーションまで、典型的な人間の検索プロセスをシミュレートする。
MomentDiffは3つの公開ベンチマークで最先端の手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-06T09:12:13Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Predictive Querying for Autoregressive Neural Sequence Models [23.85426261235507]
本稿では,ニューラル自己回帰シーケンスモデルにおける予測クエリの汎用型について紹介する。
このようなクエリは,基本構造ブロックの集合によって体系的に表現可能であることを示す。
我々はこの型を利用して新しいクエリ推定手法を開発した。
論文 参考訳(メタデータ) (2022-10-12T17:59:36Z) - An Intelligent CNN-VAE Text Representation Technology Based on Text
Semantics for Comprehensive Big Data [15.680918844684454]
畳み込みニューラルネットワーク(CNN)と可変オートエンコーダ(VAE)に基づくテキスト特徴表現モデルを提案する。
提案手法は,k-nearest neighbor (KNN), random forest (RF) および Support vector machine (SVM) 分類アルゴリズムにおいて優れる。
論文 参考訳(メタデータ) (2020-08-28T07:39:45Z) - Predicting What You Already Know Helps: Provable Self-Supervised
Learning [60.27658820909876]
自己教師付き表現学習は、ラベル付きデータを必要としない補助的な予測タスク(プリテキストタスクと呼ばれる)を解決する。
本研究では,特定のエミュレーションに基づくプレテキストタスク間の統計的関係を利用して,優れた表現を学習することを保証する機構を示す。
複素基底真理関数クラスにおいても線形層は近似誤差が小さいことを証明した。
論文 参考訳(メタデータ) (2020-08-03T17:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。