論文の概要: Representation Learning of Tangled Key-Value Sequence Data for Early Classification
- arxiv url: http://arxiv.org/abs/2404.07454v1
- Date: Thu, 11 Apr 2024 03:23:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 15:08:41.561930
- Title: Representation Learning of Tangled Key-Value Sequence Data for Early Classification
- Title(参考訳): 初期分類のためのタングル付きキーバリューシーケンスデータの表現学習
- Authors: Tao Duan, Junzhou Zhao, Shuo Zhang, Jing Tao, Pinghui Wang,
- Abstract要約: キーバリューシーケンスデータはユビキタスになり、様々な現実世界のアプリケーションに自然に現れる。
これらのキーバリューシーケンスの分類は、ユーザプロファイリングや悪意のあるアプリケーション識別など、多くのシナリオにおいて重要である。
多くの時間に敏感なシナリオでは、キー値シーケンスを正確に分類することに加えて、キー値シーケンスを早期に分類することが望まれる。
- 参考スコア(独自算出の注目度): 19.943311002522154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key-value sequence data has become ubiquitous and naturally appears in a variety of real-world applications, ranging from the user-product purchasing sequences in e-commerce, to network packet sequences forwarded by routers in networking. Classifying these key-value sequences is important in many scenarios such as user profiling and malicious applications identification. In many time-sensitive scenarios, besides the requirement of classifying a key-value sequence accurately, it is also desired to classify a key-value sequence early, in order to respond fast. However, these two goals are conflicting in nature, and it is challenging to achieve them simultaneously. In this work, we formulate a novel tangled key-value sequence early classification problem, where a tangled key-value sequence is a mixture of several concurrent key-value sequences with different keys. The goal is to classify each individual key-value sequence sharing a same key both accurately and early. To address this problem, we propose a novel method, i.e., Key-Value sequence Early Co-classification (KVEC), which leverages both inner- and inter-correlations of items in a tangled key-value sequence through key correlation and value correlation to learn a better sequence representation. Meanwhile, a time-aware halting policy decides when to stop the ongoing key-value sequence and classify it based on current sequence representation. Experiments on both real-world and synthetic datasets demonstrate that our method outperforms the state-of-the-art baselines significantly. KVEC improves the prediction accuracy by up to $4.7 - 17.5\%$ under the same prediction earliness condition, and improves the harmonic mean of accuracy and earliness by up to $3.7 - 14.0\%$.
- Abstract(参考訳): キーバリューシーケンスデータはユビキタス化され、eコマースにおけるユーザ製品購入シーケンスからネットワークルータによって転送されるネットワークパケットシーケンスまで、さまざまな現実世界のアプリケーションに自然に現れる。
これらのキーバリューシーケンスの分類は、ユーザプロファイリングや悪意のあるアプリケーション識別など、多くのシナリオにおいて重要である。
多くの時間に敏感なシナリオでは、キー値シーケンスを正確に分類することに加えて、素早く応答するためにキー値シーケンスを早期に分類することが望まれる。
しかし、この2つのゴールは本質的に矛盾しており、同時に達成することは困難である。
本研究では,異なるキーを持つ複数の同時キー-値列の混合である,新しいtangled key-value sequence早期分類問題を定式化する。
ゴールは、各キー値シーケンスを正確にかつ早期に同じキーを共有するように分類することである。
この問題に対処するために,キー相関と値相関を用いて,絡み合ったキー-値列内の項目の内・間相関を利用したキー-値列早期共分類法(KVEC)を提案する。
一方、時間認識停止ポリシーは、進行中のキー値シーケンスをいつ停止するかを決定し、それを現在のシーケンス表現に基づいて分類する。
実世界のデータセットと合成データセットの両方の実験により、我々の手法は最先端のベースラインを大きく上回ることを示した。
KVECは予測精度を4.7 - 17.5 %$に改善し、精度とイヤーラインの調和平均を最大3.7 - 14.0 %$に改善する。
関連論文リスト
- Multi-granularity Interest Retrieval and Refinement Network for Long-Term User Behavior Modeling in CTR Prediction [68.90783662117936]
クリックスルーレート(CTR)の予測は、オンラインパーソナライズプラットフォームにとって不可欠である。
近年の進歩は、リッチなユーザの振る舞いをモデル化することで、CTR予測の性能を大幅に改善できることを示している。
マルチグラニュラリティ興味検索ネットワーク(MIRRN)を提案する。
論文 参考訳(メタデータ) (2024-11-22T15:29:05Z) - Ego-Network Transformer for Subsequence Classification in Time Series
Data [36.591480151951515]
実世界の時系列データは、しばしば背景のサブシーケンスと連動する前景のサブシーケンスを含む。
本稿では,各サブシーケンスをエゴネットワークとして表現する新しいサブシーケンス分類法を提案する。
提案手法は158個のデータセットのうち104個のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-11-05T04:21:42Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - A Question-Answering Approach to Key Value Pair Extraction from
Form-like Document Images [8.73248722579337]
質問応答(QA)に基づくキー-値ペア抽出手法KVPFormerを提案する。
本稿では,より高精度な解答予測を実現するために,粗大な解答予測手法を提案する。
提案したOursは,FUNSDおよびXFUNDデータセットの最先端結果を実現し,F1スコアのそれぞれ7.2%,13.2%を達成している。
論文 参考訳(メタデータ) (2023-04-17T02:55:31Z) - Semi-Structured Object Sequence Encoders [9.257633944317735]
本稿では,半構造化オブジェクト列に対する構造認識型入力表現の開発に焦点をあてる。
このタイプのデータは、時間とともにキーと値のペアの一連の配列として表されることが多い。
本稿では,まず各キーを独立に考慮し,時間とともに値の表現を符号化する2部手法を提案する。
論文 参考訳(メタデータ) (2023-01-03T09:19:41Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - Learning Temporal Point Processes for Efficient Retrieval of Continuous
Time Event Sequences [24.963828650935913]
NEUROSEQRETは,あるクエリシーケンスに対して,関連する連続時間イベントシーケンスの検索とランク付けを学習する。
精度と効率のトレードオフを提供する関係モデルの2つの変種を開発する。
いくつかのデータセットを用いて行った実験では、NEUROSEQRETの精度がいくつかのベースラインを超えていることが示されている。
論文 参考訳(メタデータ) (2022-02-17T11:16:31Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - MatchVIE: Exploiting Match Relevancy between Entities for Visual
Information Extraction [48.55908127994688]
我々は、VIE(MatchVIE)のためのグラフニューラルネットワークに基づく新しいキー値マッチングモデルを提案する。
関連性評価に基づくキー値マッチングにより、提案したMatchVIEは、認識を様々な意味論にバイパスすることができる。
我々は、エンコードされた値の不安定性に対処するために、単純だが効果的な操作であるNum2Vecを導入する。
論文 参考訳(メタデータ) (2021-06-24T12:06:29Z) - One2Set: Generating Diverse Keyphrases as a Set [12.670421834049668]
キーフレーズの順序を事前に定義することなく,新たなトレーニングパラダイムであるOne2Setを提案する。
そこで本研究では,両部マッチングによる目標割当機構を提案する。これにより,多様性が大きく向上し,生成したキーフレーズの重複率を低減できる。
論文 参考訳(メタデータ) (2021-05-24T07:29:47Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。