論文の概要: Phrase Mining
- arxiv url: http://arxiv.org/abs/2206.13748v1
- Date: Tue, 28 Jun 2022 04:11:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 13:32:03.599985
- Title: Phrase Mining
- Title(参考訳): フレーズマイニング
- Authors: Ellie Small, Javier Cabrera
- Abstract要約: 高品質なフレーズのリストを識別することなく、二重カウントを除去する手法を提案する。
テキストの集合の文脈では、主句を句読点を交差しない句として定義する。
phmと呼ばれるRパッケージが開発され、このメソッドを実装している。
- 参考スコア(独自算出の注目度): 0.8223798883838329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting frequent words from a collection of texts is performed on a great
scale in many subjects. Extracting phrases, on the other hand, is not commonly
done due to inherent complications when extracting phrases, the most
significant complication being that of double-counting, where words or phrases
are counted when they appear inside longer phrases that themselves are also
counted. Several papers have been written on phrase mining that describe
solutions to this issue; however, they either require a list of so-called
quality phrases to be available to the extracting process, or they require
human interaction to identify those quality phrases during the process. We
present a method that eliminates double-counting without the need to identify
lists of quality phrases. In the context of a set of texts, we define a
principal phrase as a phrase that does not cross punctuation marks, does not
start with a stop word, with the exception of the stop words "not" and "no",
does not end with a stop word, is frequent within those texts without being
double counted, and is meaningful to the user. Our method can identify such
principal phrases independently without human input, and enables their
extraction from any texts. An R package called phm has been developed that
implements this method.
- Abstract(参考訳): テキストの集合から頻繁に単語を抽出することは、多くの主題において大きなスケールで行われる。
一方、句の抽出は、句の抽出に固有の複雑さがあるため、一般的には行われないが、最も大きな複雑さは、単語や句がそれ自身も数えられる長い句の中に現れるときに数えられる二重カウントである。
この問題に対する解決策を説明するフレーズマイニングに関する論文がいくつかあるが、抽出プロセスで利用可能ないわゆる品質フレーズのリストを必要とするか、そのプロセス中に品質フレーズを特定するためにヒューマンインタラクションを必要とする。
高品質なフレーズのリストを識別することなく、二重カウントを除去する手法を提案する。
一組のテキストの文脈では、主句は句読点を越えず、ストップワードで始まるのではなく、ストップワードで終わる「not」と「no」を除いて、ストップワードで終わるのではなく、ダブルカウントされずにそれらのテキスト内で頻繁であり、ユーザにとって意味のあるフレーズであると定義する。
提案手法は,人間の入力を使わずにその主語句を識別し,テキストから抽出することができる。
phmと呼ばれるRパッケージが開発され、このメソッドを実装している。
関連論文リスト
- N-gram Boosting: Improving Contextual Biasing with Normalized N-gram
Targets [1.9908600514057855]
単一トークンではなく、正規化されたユニグラムとn-グラムで動作する2段階のキーワードブースティング機構を提案する。
これにより、独自のドメイン内データセットに対して26%、LibriSpeechでは2%のキーワード認識率が改善されます。
論文 参考訳(メタデータ) (2023-08-04T00:23:14Z) - Unsupervised extraction of local and global keywords from a single text [0.0]
テキストからキーワードを抽出する非教師付きコーパス非依存手法を提案する。
それは、単語の空間分布と、単語のランダムな置換に対するこの分布の応答に基づいている。
論文 参考訳(メタデータ) (2023-07-26T07:36:25Z) - Conjunct Resolution in the Face of Verbal Omissions [51.220650412095665]
本稿では,テキスト上で直接動作する接続分解タスクを提案し,コーディネーション構造に欠けている要素を復元するために,分割・言い換えパラダイムを利用する。
クラウドソースアノテーションによる自然に発生する動詞の省略例を10万件以上を含む,大規模なデータセットをキュレートする。
我々は、このタスクのために様々な神経ベースラインをトレーニングし、最良の手法が適切なパフォーマンスを得る一方で、改善のための十分なスペースを残していることを示す。
論文 参考訳(メタデータ) (2023-05-26T08:44:02Z) - Sentence Identification with BOS and EOS Label Combinations [7.053475270377054]
文識別の新たなタスクを定式化し、あるテキストでNSUを除外しながらSUを識別する。
文の始まり(BOS)とEOSラベルを組み合わせて、最も確率の高いSUとNSUを決定する、単純で効果的な方法を提案する。
文識別タスクの実験により,提案手法はEOSラベルのみを利用する文分割ベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-01-31T01:03:07Z) - Applying Transformer-based Text Summarization for Keyphrase Generation [2.28438857884398]
キーフレーズは学術文書の検索と体系化に不可欠である。
本稿では,抽象的なテキスト要約のためのトランスフォーマーモデルについて実験する。
要約モデルはフルマッチのF1スコアとBERTスコアでキーフレーズを生成するのに非常に効果的であることを示す。
また,キーフレーズをターゲットとした順序付け戦略についても検討する。
論文 参考訳(メタデータ) (2022-09-08T13:01:52Z) - Hierarchical Context Tagging for Utterance Rewriting [51.251400047377324]
配列を線形に生成するのではなくタグ付けする方法は、ドメイン内および外部の書き直し設定においてより強力であることが証明されている。
本稿では,スロット付きルールを予測してこの問題を緩和する階層型コンテキストタグを提案する。
いくつかのベンチマーク実験により、HCTは2つのBLEUポイントで最先端の書き換えシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-22T17:09:34Z) - Phrase Retrieval Learns Passage Retrieval, Too [77.57208968326422]
文節検索が,文節や文書を含む粗いレベルの検索の基盤となるかを検討する。
句検索システムでは,句検索の精度が向上し,句検索の精度が向上していることを示す。
また,句のフィルタリングやベクトル量子化により,インデックスのサイズを4~10倍に削減できることを示す。
論文 参考訳(メタデータ) (2021-09-16T17:42:45Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - Generating Adversarial Examples in Chinese Texts Using Sentence-Pieces [60.58900627906269]
文片を用いた代用ジェネレータとして,中国語の逆例を作成できる事前学習型言語モデルを提案する。
生成した敵の例の置換は文字や単語ではなく「テキスト」であり、中国の読者にとって自然である。
論文 参考訳(メタデータ) (2020-12-29T14:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。