論文の概要: An efficient domain-independent approach for supervised keyphrase extraction and ranking
- arxiv url: http://arxiv.org/abs/2404.07954v1
- Date: Sun, 24 Mar 2024 08:33:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-14 13:03:36.094127
- Title: An efficient domain-independent approach for supervised keyphrase extraction and ranking
- Title(参考訳): 教師付きキーフレーズ抽出とランク付けのための効率的なドメイン非依存的アプローチ
- Authors: Sriraghavendra Ramaswamy,
- Abstract要約: 単一文書からキーフレーズを自動抽出するための教師付き学習手法を提案する。
我々の解は、候補句の統計的特徴と位置的特徴を簡易に計算する。
評価の結果,提案手法はいくつかの最先端ベースラインモデルよりも精度が高いことがわかった。
- 参考スコア(独自算出の注目度): 0.03626013617212666
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a supervised learning approach for automatic extraction of keyphrases from single documents. Our solution uses simple to compute statistical and positional features of candidate phrases and does not rely on any external knowledge base or on pre-trained language models or word embeddings. The ranking component of our proposed solution is a fairly lightweight ensemble model. Evaluation on benchmark datasets shows that our approach achieves significantly higher accuracy than several state-of-the-art baseline models, including all deep learning-based unsupervised models compared with, and is competitive with some supervised deep learning-based models too. Despite the supervised nature of our solution, the fact that does not rely on any corpus of "golden" keywords or any external knowledge corpus means that our solution bears the advantages of unsupervised solutions to a fair extent.
- Abstract(参考訳): 単一文書からキーフレーズを自動抽出するための教師付き学習手法を提案する。
提案手法は,候補句の統計的・位置的特徴を簡易に計算し,外部知識ベースや事前学習された言語モデルや単語埋め込みに依存しない。
提案ソリューションのランキングコンポーネントは,比較的軽量なアンサンブルモデルである。
ベンチマークデータセットの評価から,本手法は,ディープラーニングに基づく教師なしモデルを含む,最先端のベースラインモデルよりも大幅に精度が向上し,教師付きディープラーニングベースモデルと競合することを示す。
私たちのソリューションの教師なしの性質にもかかわらず、"黄金"キーワードのコーパスや外部知識コーパスに依存しないという事実は、我々のソリューションが教師なしソリューションの利点をある程度備えていることを意味する。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - The Battleship Approach to the Low Resource Entity Matching Problem [0.0]
本稿では,エンティティマッチング問題に対する新しいアクティブな学習手法を提案する。
我々は、エンティティマッチングのユニークな特性を利用する選択メカニズムに焦点を当てる。
実験により,提案アルゴリズムは,最先端のアクティブ・ラーニング・ソリューションより低リソース・エンティティ・マッチングに優れることを示した。
論文 参考訳(メタデータ) (2023-11-27T10:18:17Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Language Models in the Loop: Incorporating Prompting into Weak
Supervision [11.10422546502386]
本稿では,ラベル付きトレーニングデータに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。
典型的にゼロショットや少数ショットの方法でモデルを適用する代わりに、弱い監督フレームワークにおける関数のラベル付けの基盤としてモデルを扱います。
論文 参考訳(メタデータ) (2022-05-04T20:42:40Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - A comprehensive solution to retrieval-based chatbot construction [4.807955518532493]
我々は、未ラベルのチャットログからデプロイされたチャットボットへ読者を連れて行くための、エンドツーエンドのソリューションセットを提示する。
このソリューションセットには、セルフ教師付きデータセットと、チャットログから弱いラベル付きデータセットを作成すること、および、缶詰されたレスポンスの固定リストを選択するための体系的なアプローチが含まれる。
自己教師付きコントラスト学習モデルを使用することで、弱いラベル付きデータセット上でのバイナリクラスとマルチクラス分類モデルのトレーニングに優れることがわかった。
論文 参考訳(メタデータ) (2021-06-11T02:54:33Z) - Unsupervised Learning for Robust Fitting:A Reinforcement Learning
Approach [25.851792661168698]
堅牢なモデルフィッティングを解決するための新しいフレームワークを紹介します。
他の方法とは異なり、私たちの仕事は基本的な入力機能に無知です。
実験により,本手法が既存の学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-03-05T07:14:00Z) - Syntactic and Semantic-driven Learning for Open Information Extraction [42.65591370263333]
正確で高カバレッジのニューラルオープンIEシステムを構築する上で最大のボトルネックの1つは、大きなラベル付きコーパスの必要性である。
そこで本研究では,人間に反するデータを使わずにオープンなIEモデルを学習するシンタクティクスとセマンティック駆動型学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T02:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。