論文の概要: Word-level Human Interpretable Scoring Mechanism for Novel Text
Detection Using Tsetlin Machines
- arxiv url: http://arxiv.org/abs/2105.04708v1
- Date: Mon, 10 May 2021 23:41:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 14:11:19.765711
- Title: Word-level Human Interpretable Scoring Mechanism for Novel Text
Detection Using Tsetlin Machines
- Title(参考訳): Tsetlin マシンを用いた新しいテキスト検出のための単語レベルの人間解釈型スコーリング機構
- Authors: Bimal Bhattarai, Ole-Christoffer Granmo, Lei Jiao
- Abstract要約: 新規性への貢献度に応じて個々の単語を評価するためのTsetlin マシンアーキテクチャを提案する。
本手法はtm節で捉えた言語パターンを用いて,新しい文書の記述を符号化する。
次に、この記述を採用し、単語がドキュメントの新規作成にどれだけ貢献しているかを測定します。
- 参考スコア(独自算出の注目度): 16.457778420360537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research in novelty detection focuses mainly on document-level
classification, employing deep neural networks (DNN). However, the black-box
nature of DNNs makes it difficult to extract an exact explanation of why a
document is considered novel. In addition, dealing with novelty at the
word-level is crucial to provide a more fine-grained analysis than what is
available at the document level. In this work, we propose a Tsetlin machine
(TM)-based architecture for scoring individual words according to their
contribution to novelty. Our approach encodes a description of the novel
documents using the linguistic patterns captured by TM clauses. We then adopt
this description to measure how much a word contributes to making documents
novel. Our experimental results demonstrate how our approach breaks down
novelty into interpretable phrases, successfully measuring novelty.
- Abstract(参考訳): 近年の新規性検出の研究は、ディープニューラルネットワーク(DNN)を用いた文書レベルの分類に重点を置いている。
しかし、DNNのブラックボックスの性質は、文書がなぜ新しいものと考えられるのかを正確に説明することは困難である。
さらに、単語レベルでの新規性を扱うことは、ドキュメントレベルで利用可能なものよりもきめ細かい分析を提供するのに不可欠である。
本研究では,新奇性への貢献度に応じて個々の単語を評価できるTsetlin Machine (TM) アーキテクチャを提案する。
本手法はtm節で捉えた言語パターンを用いて,新しい文書の記述を符号化する。
次に、この記述を採用し、ある単語が文書のノベル化にどの程度貢献しているかを測定する。
実験の結果,新奇性を解釈可能な句に分解し,新奇性を測定することに成功した。
関連論文リスト
- Improving Word Sense Disambiguation in Neural Machine Translation with
Salient Document Context [30.461643690171258]
語彙的曖昧さは機械翻訳(mt)における困難かつ普及的な問題である
ニューラルmtに少量の外部コンテキストを組み込むことで、翻訳のあいまいさを解決するためのシンプルでスケーラブルなアプローチを導入する。
本手法は,強文レベルのベースラインと同等の文書レベルのベースラインよりも曖昧なソース語を翻訳する。
論文 参考訳(メタデータ) (2023-11-27T03:05:48Z) - Integrating Bidirectional Long Short-Term Memory with Subword Embedding
for Authorship Attribution [2.3429306644730854]
マニフォールド語に基づくスタイリスティックマーカーは、著者帰属の本質的な問題に対処するために、ディープラーニング手法でうまく使われてきた。
提案手法は,CCAT50,IMDb62,Blog50,Twitter50の公営企業における最先端手法に対して実験的に評価された。
論文 参考訳(メタデータ) (2023-06-26T11:35:47Z) - Improving Long Context Document-Level Machine Translation [51.359400776242786]
翻訳の一貫性と凝集性を改善するために、ニューラルネットワーク翻訳(NMT)のための文書レベルのコンテキストが不可欠である。
文書レベルのNMTに関する多くの著作が出版されているが、ほとんどの作品では局所的な文脈に制限されている。
本稿では、メモリ消費を同時に低減しつつ、シーケンスの最も関連性の高い部分に注意を集中させる制約付注意変種を提案する。
論文 参考訳(メタデータ) (2023-06-08T13:28:48Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - Measuring the Novelty of Natural Language Text Using the Conjunctive
Clauses of a Tsetlin Machine Text Classifier [12.087658145293522]
ほとんどの教師付きテキスト分類手法は、訓練時にデータに存在するすべてのクラスを数えて、クローズドワールドを前提としている。
この仮定は、前例のない新しいクラスが現れても、操作中に予測不可能な振る舞いを引き起こす可能性がある。
我々は最近導入されたTsetlin Machine (TM) を新しいスコアリング機構で拡張する。
論文 参考訳(メタデータ) (2020-11-17T16:35:21Z) - Legal Document Classification: An Application to Law Area Prediction of
Petitions to Public Prosecution Service [6.696983725360808]
本稿では,NLPを用いたテキスト分類手法を提案する。
我々の主な目標は、各分野の法律に請願書を割り当てるプロセスを自動化することです。
最高の結果は、ドメイン固有のコーパスとリカレントニューラルネットワークアーキテクチャに基づいてトレーニングされたWord2Vecの組み合わせで得られる。
論文 参考訳(メタデータ) (2020-10-13T18:05:37Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。