論文の概要: Domain Representative Keywords Selection: A Probabilistic Approach
- arxiv url: http://arxiv.org/abs/2203.10365v1
- Date: Sat, 19 Mar 2022 18:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 17:20:34.274944
- Title: Domain Representative Keywords Selection: A Probabilistic Approach
- Title(参考訳): ドメイン代表キーワードの選択:確率的アプローチ
- Authors: Pritom Saha Akash, Jie Huang, Kevin Chen-Chuan Chang, Yunyao Li,
Lucian Popa, ChengXiang Zhai
- Abstract要約: 本稿では,テキストターゲットドメイン代表キーワードのサブセットを候補集合から選択する確率論的手法を提案する。
生成した候補分布からサブセットを選択するためのテキスト最適化アルゴリズムを提案する。
複数の領域の実験は、キーワード要約生成やトレンドキーワード選択のタスクにおいて、他のベースラインよりもアプローチの方が優れていることを示す。
- 参考スコア(独自算出の注目度): 39.24258854355122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a probabilistic approach to select a subset of a \textit{target
domain representative keywords} from a candidate set, contrasting with a
context domain. Such a task is crucial for many downstream tasks in natural
language processing. To contrast the target domain and the context domain, we
adapt the \textit{two-component mixture model} concept to generate a
distribution of candidate keywords. It provides more importance to the
\textit{distinctive} keywords of the target domain than common keywords
contrasting with the context domain. To support the \textit{representativeness}
of the selected keywords towards the target domain, we introduce an
\textit{optimization algorithm} for selecting the subset from the generated
candidate distribution. We have shown that the optimization algorithm can be
efficiently implemented with a near-optimal approximation guarantee. Finally,
extensive experiments on multiple domains demonstrate the superiority of our
approach over other baselines for the tasks of keyword summary generation and
trending keywords selection.
- Abstract(参考訳): 本稿では,コンテキスト領域と対比して,候補集合から \textit{target domain representative keywords} の部分集合を選択する確率的アプローチを提案する。
このようなタスクは、自然言語処理において多くの下流タスクに不可欠である。
対象ドメインとコンテキストドメインとを対比するため,<textit{two-component mix model} の概念を適用し,候補キーワードの分布を生成する。
コンテキストドメインとは対照的な一般的なキーワードよりも、ターゲットドメインの \textit{distinctive}キーワードをより重要視しています。
対象領域に対して選択されたキーワードの \textit{representativeness} をサポートするために,生成した候補分布からサブセットを選択する \textit{optimization algorithm} を導入する。
我々は,最適化アルゴリズムを近似近似により効率的に実装できることを実証した。
最後に,複数のドメインを対象とした広範な実験により,キーワード要約生成やトレンドキーワード選択のタスクにおいて,他のベースラインよりも優れたアプローチが得られた。
関連論文リスト
- Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - Keyword Targeting Optimization in Sponsored Search Advertising:
Combining Selection and Matching [0.0]
最適なキーワードターゲティング戦略は、適切な人口に効果的に到達することを保証する。
本稿では,過去の広告パフォーマンス指標の不完全性から,キーワードターゲティングの問題に対処することを目的とする。
実験の結果, (a) BB-KSMは利益率において7つの基準線を上回り, (b) BB-KSMは予算の増加とともにその優位性を示した。
論文 参考訳(メタデータ) (2022-10-19T03:37:32Z) - Searching for Optimal Subword Tokenization in Cross-domain NER [19.921518007163]
本研究では,NERにおける単語レベルの分散シフトを入力として,サブワードレベルのソリューションであるX-Pieceを導入する。
具体的には、ソースドメインの入力語を再学習し、ターゲットサブワード分布にアプローチし、最適な輸送問題として定式化して解決する。
4つのベンチマークNERデータセットに対して,BERT-taggerに基づく提案手法の有効性を示す実験結果を得た。
論文 参考訳(メタデータ) (2022-06-07T14:39:31Z) - CA-UDA: Class-Aware Unsupervised Domain Adaptation with Optimal
Assignment and Pseudo-Label Refinement [84.10513481953583]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ターゲットデータに欠けているラベルのサロゲートとして、優れた擬似ラベルの選択に焦点を当てる。
ソースとターゲットドメインの共有ネットワークが通常、擬似ラベルの選択に使用されるため、擬似ラベルを劣化させるソースドメインバイアスは依然として存在する。
本稿では, 擬似ラベルの品質向上のためのCA-UDAを提案し, 最適課題, 擬似ラベル改善戦略, クラス対応ドメインアライメントを提案する。
論文 参考訳(メタデータ) (2022-05-26T18:45:04Z) - A Structured Span Selector [100.0808682810258]
本稿では,新しい文法に基づく構造化スパン選択モデルを提案する。
我々は、コア参照解決とセマンティックロールラベリングという2つの一般的なスパン予測タスクでモデルを評価した。
論文 参考訳(メタデータ) (2022-05-08T23:58:40Z) - Using Optimal Transport as Alignment Objective for fine-tuning
Multilingual Contextualized Embeddings [7.026476782041066]
我々は,マルチリンガルな文脈化表現を改善するために,微調整時のアライメント目的として最適輸送(OT)を提案する。
このアプローチでは、微調整の前に単語アライメントペアを必要とせず、教師なしの方法で文脈内の単語アライメントを学習する。
論文 参考訳(メタデータ) (2021-10-06T16:13:45Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Affinity Space Adaptation for Semantic Segmentation Across Domains [57.31113934195595]
本稿では,意味的セグメンテーションにおける教師なしドメイン適応(UDA)の問題に対処する。
ソースドメインとターゲットドメインが不変なセマンティック構造を持つという事実に触発され、ドメイン間におけるそのような不変性を活用することを提案する。
親和性空間適応戦略として,親和性空間の洗浄と親和性空間アライメントという2つの方法を開発した。
論文 参考訳(メタデータ) (2020-09-26T10:28:11Z) - Keywords lie far from the mean of all words in local vector space [5.040463208115642]
本研究では,文書の単語の主分布を局所的な単語ベクトル表現を用いてモデル化することにより,テキスト文書からキーワードを検出する異なる経路に従う。
我々は,強いベースラインと最先端の教師なしキーワード抽出手法と比較して,提案手法の高性能性を確認した。
論文 参考訳(メタデータ) (2020-08-21T14:42:33Z) - Keyword-Attentive Deep Semantic Matching [1.8416014644193064]
本稿では,深いセマンティックマッチングを改善するためのキーワード付きアプローチを提案する。
まず、大きなコーパスからのドメインタグを利用して、ドメインを拡張したキーワード辞書を生成する。
モデル学習中,入力ペア間のキーワードカバレッジに基づく新しいネガティブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-03-11T10:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。