論文の概要: Bundle Fragments into a Whole: Mining More Complete Clusters via Submodular Selection of Interesting webpages for Web Topic Detection
- arxiv url: http://arxiv.org/abs/2409.12380v1
- Date: Thu, 19 Sep 2024 00:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 15:14:47.102593
- Title: Bundle Fragments into a Whole: Mining More Complete Clusters via Submodular Selection of Interesting webpages for Web Topic Detection
- Title(参考訳): バンドルフラグメントを全体へ: Web トピック検出のための Web ページのサブモジュール選択によるより完全なクラスタのマイニング
- Authors: Junbiao Pang, Anjing Hu, Qingming Huang,
- Abstract要約: 最先端のソリューションは、まず、Webページを多数の粒度トピック候補にまとめることである。
ホットトピックは、その面白さを推定することによってさらに特定される。
本稿では,フラグメントからより完全なホットトピックを抽出するためのバンドル・リフィニング手法を提案する。
- 参考スコア(独自算出の注目度): 49.8035161337388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Organizing interesting webpages into hot topics is one of key steps to understand the trends of multimodal web data. A state-of-the-art solution is firstly to organize webpages into a large volume of multi-granularity topic candidates; hot topics are further identified by estimating their interestingness. However, these topic candidates contain a large number of fragments of hot topics due to both the inefficient feature representations and the unsupervised topic generation. This paper proposes a bundling-refining approach to mine more complete hot topics from fragments. Concretely, the bundling step organizes the fragment topics into coarse topics; next, the refining step proposes a submodular-based method to refine coarse topics in a scalable approach. The propose unconventional method is simple, yet powerful by leveraging submodular optimization, our approach outperforms the traditional ranking methods which involve the careful design and complex steps. Extensive experiments demonstrate that the proposed approach surpasses the state-of-the-art method (i.e., latent Poisson deconvolution Pang et al. (2016)) 20% accuracy and 10% one on two public data sets, respectively.
- Abstract(参考訳): 興味深いWebページをホットトピックに整理することは、マルチモーダルなWebデータのトレンドを理解するための重要なステップの1つです。
最先端のソリューションは、まず、Webページを多数の多粒度トピック候補にまとめることであり、ホットトピックは、その面白さを見積もることによってさらに特定される。
しかし、これらのトピック候補には、非効率な特徴表現と教師なしのトピック生成の両方のため、ホットトピックの断片が多数含まれている。
本稿では,フラグメントからより完全なホットトピックを抽出するためのバンドル・リフィニング手法を提案する。
具体的には、バンドルステップはフラグメントトピックを粗いトピックに整理し、次に、拡張性のあるアプローチで粗いトピックを洗練するためのサブモジュールベースの方法を提案する。
提案手法は, 設計や複雑なステップを含む従来のランク付け手法よりも優れているが, 提案手法は単純かつ強力である。
大規模な実験により、提案手法は最先端の手法(すなわち、潜伏したPoisson deconvolution Pang et al (2016)) を20%の精度で上回り、2つの公開データセット上で10%の精度で上回っていることが示された。
関連論文リスト
- Towards Scalable Topic Detection on Web via Simulating Levy Walks Nature of Topics in Similarity Space [55.97416108140739]
類似性空間におけるLevi Walk自然をシミュレートすることで,グループトピックに対する新しい,しかし非常に強力なExplore-Exploit(EE)アプローチを提案する。
2つの公開データセットの実験により、我々の手法は、有効性の観点からは最先端の手法に匹敵するだけでなく、効率面では最先端の手法よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2024-07-26T07:19:46Z) - Reranking Passages with Coarse-to-Fine Neural Retriever Enhanced by List-Context Information [0.9463895540925061]
本稿では、他の候補からリストコンテキスト情報を取り入れることで、文節表現を増強するリストコンテキストアテンション機構を提案する。
The proposed coarse-to-fine neural retriever address the out-of-Memory limitation of the passage attention mechanism。
粗いランク付けと細かなランク付けを共同最適化プロセスに統合することで、2つのレイヤ間のフィードバックを同時に更新することが可能になる。
論文 参考訳(メタデータ) (2023-08-23T09:29:29Z) - Sequential Topic Selection Model with Latent Variable for Topic-Grounded
Dialogue [21.1427816176227]
我々は,すべての会話における話題遷移を活用するために,SGTA(Sequential Global Topic Attention)という新しいアプローチを提案する。
我々のモデルは予測および生成タスクの競争ベースラインを上回っている。
論文 参考訳(メタデータ) (2022-10-17T07:34:14Z) - Semantics-Consistent Cross-domain Summarization via Optimal Transport
Alignment [80.18786847090522]
本稿では,視覚とテキストのセグメンテーションによる最適なトランスポートアライメントに基づくセマンティックス・コンスタントなクロスドメイン要約モデルを提案する。
提案手法を最近の3つのマルチモーダルデータセット上で評価し,高品質なマルチモーダル要約を作成する上での有効性を実証した。
論文 参考訳(メタデータ) (2022-10-10T14:27:10Z) - Recurrent Coupled Topic Modeling over Sequential Documents [33.35324412209806]
現在のトピックは、結合重みが対応するすべてのトピックから進化し、マルチトピック・スレッドの進化を形成することを示す。
進化するトピック間のマルチカップリングを解消する,新しいデータ拡張手法を用いた新しいソリューションを提案する。
後方フィルタアルゴリズムを備えた新しいギブスサンプリング器は、閉形式の潜時時間パラメータを効率的に学習する。
論文 参考訳(メタデータ) (2021-06-23T08:58:13Z) - Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and
Context-Aware Auto-Encoders [59.038157066874255]
本稿では,手動ラベル付きデータを用いずにチャット要約を行うrankaeという新しいフレームワークを提案する。
RankAEは、中心性と多様性に応じてトピックの発話を同時に選択するトピック指向のランキング戦略で構成されています。
消音自動エンコーダは、選択された発話に基づいて簡潔でコンテキスト情報に基づいた要約を生成するように設計されています。
論文 参考訳(メタデータ) (2020-12-14T07:31:17Z) - Response Selection for Multi-Party Conversations with Dynamic Topic
Tracking [63.15158355071206]
我々は、応答と関連する会話コンテキストの間のトピックを一致させるために、動的トピック追跡タスクとして応答選択をフレーム化する。
本研究では,大規模な事前学習モデルによる効率的な符号化を支援する新しいマルチタスク学習フレームワークを提案する。
DSTC-8 Ubuntu IRCデータセットの実験結果は、応答選択とトピックのアンタングル化タスクにおける最先端の結果を示している。
論文 参考訳(メタデータ) (2020-10-15T14:21:38Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z) - Unsupervised Domain Adaptation in Semantic Segmentation: a Review [22.366638308792734]
本研究の目的は, セマンティックセグメンテーションのための深層ネットワークのUnsupervised Domain Adaptation (UDA) の最近の進歩について概説することである。
論文 参考訳(メタデータ) (2020-05-21T20:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。