論文の概要: Bag of biterms modeling for short texts
- arxiv url: http://arxiv.org/abs/2003.11948v1
- Date: Thu, 26 Mar 2020 14:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 21:15:37.827941
- Title: Bag of biterms modeling for short texts
- Title(参考訳): 短文の2項モデリングの袋
- Authors: Anh Phan Tuan, Bach Tran, Thien Nguyen Huu, Linh Ngo Van, Khoat Than
- Abstract要約: 本稿では,Bag of Biterms Modeling(BBM)という,大規模・動的・短いテキストコレクションをモデル化するための新しいフレームワークを提案する。
BBMは,(1)文書を表すBag of Biterms(BoB)の概念と,(2)統計モデルにBoBを組み込む簡単な方法である。
- 参考スコア(独自算出の注目度): 1.5749416770494706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analyzing texts from social media encounters many challenges due to their
unique characteristics of shortness, massiveness, and dynamic. Short texts do
not provide enough context information, causing the failure of the traditional
statistical models. Furthermore, many applications often face with massive and
dynamic short texts, causing various computational challenges to the current
batch learning algorithms. This paper presents a novel framework, namely Bag of
Biterms Modeling (BBM), for modeling massive, dynamic, and short text
collections. BBM comprises of two main ingredients: (1) the concept of Bag of
Biterms (BoB) for representing documents, and (2) a simple way to help
statistical models to include BoB. Our framework can be easily deployed for a
large class of probabilistic models, and we demonstrate its usefulness with two
well-known models: Latent Dirichlet Allocation (LDA) and Hierarchical Dirichlet
Process (HDP). By exploiting both terms (words) and biterms (pairs of words),
the major advantages of BBM are: (1) it enhances the length of the documents
and makes the context more coherent by emphasizing the word connotation and
co-occurrence via Bag of Biterms, (2) it inherits inference and learning
algorithms from the primitive to make it straightforward to design online and
streaming algorithms for short texts. Extensive experiments suggest that BBM
outperforms several state-of-the-art models. We also point out that the BoB
representation performs better than the traditional representations (e.g, Bag
of Words, tf-idf) even for normal texts.
- Abstract(参考訳): ソーシャルメディアからテキストを分析すると、短さ、重大さ、動的さという独特の特徴から、多くの課題に直面する。
短いテキストは十分な文脈情報を提供しておらず、従来の統計モデルの失敗を引き起こしている。
さらに、多くのアプリケーションは大規模で動的に短いテキストに直面することが多く、現在のバッチ学習アルゴリズムに様々な計算上の問題を引き起こす。
本稿では,大規模,動的,短文のコレクションをモデリングするための新しいフレームワークであるbag of biterms modeling (bbm)を提案する。
bbmは、(1)文書を表す二項袋(bob)の概念、(2)統計モデルがbobを含むのを助ける簡単な方法の2つの主成分から構成されている。
我々のフレームワークは,多種多様な確率モデルに対して容易に展開でき,その有用性はLDA(Latent Dirichlet Allocation)とHDP(Hierarchical Dirichlet Process)の2つのよく知られたモデルで実証できる。
用語(単語)と二項(単語のペア)の両方を利用することで、(1)文書の長さを増加させ、二項の袋を通して単語の含意と共起を強調することで文脈をより一貫性を持たせ、(2)テキストのオンラインおよびストリーミングアルゴリズムの設計を容易にするために、プリミティブから推論と学習のアルゴリズムを継承する。
広範な実験は、bbmがいくつかの最先端モデルを上回ることを示唆している。
また、通常のテキストであっても、BoB表現は従来の表現(例えば、Bag of Words, tf-idf)よりも優れています。
関連論文リスト
- Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning [68.43706033424378]
本研究では,大規模言語モデル(MLLM)において,テキスト中のテキスト長を効率的に向上する革新的な手法を提案する。
視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。
この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-04T17:59:25Z) - Multilingual transformer and BERTopic for short text topic modeling: The
case of Serbian [0.0]
本稿では,最新のトピックモデリング技術であるBERTopicをモルフォロギ・カリーリッチ言語で書かれた短いテキストに適用した。
2段階のテキスト前処理(部分と完全)に3つの多言語埋め込みモデルを用いたBERTopicを適用し,その性能をセルビア語で部分的に前処理した短文で評価した。
論文 参考訳(メタデータ) (2024-02-05T14:59:29Z) - Visual Explanations of Image-Text Representations via Multi-Modal Information Bottleneck Attribution [49.762034744605955]
視覚言語モデルの解釈性を改善するために,マルチモーダル情報ボトルネック手法を提案する。
視覚言語事前学習モデルの帰属分析にM2IBを適用する方法を示す。
論文 参考訳(メタデータ) (2023-12-28T18:02:22Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - Attend, Memorize and Generate: Towards Faithful Table-to-Text Generation
in Few Shots [58.404516361586325]
Few-shot table-to-text generation は、限られたデータを用いてテーブル内容を伝えるために、流動的で忠実な文を構成するタスクである。
本稿では,人間のテキスト生成プロセスに触発された新しい手法,覚醒と生成(AMG)を提案する。
論文 参考訳(メタデータ) (2022-03-01T20:37:20Z) - BASS: Boosting Abstractive Summarization with Unified Semantic Graph [49.48925904426591]
BASSは、統合されたセマンティックグラフに基づく抽象的な要約を促進するためのフレームワークである。
文書表現と要約生成の両方を改善するために,グラフベースのエンコーダデコーダモデルを提案する。
実験結果から,提案アーキテクチャは長期文書および複数文書要約タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-05-25T16:20:48Z) - Graph-based Multi-hop Reasoning for Long Text Generation [66.64743847850666]
MRGはグラフベースのマルチホップ推論モジュールとパス認識文実現モジュールの2部で構成されている。
従来のブラックボックスモデルとは異なり、MRGはスケルトンパスを明示的に推論し、提案されたモデルがどのように機能するかを説明する説明的なビューを提供する。
論文 参考訳(メタデータ) (2020-09-28T12:47:59Z) - A Multi-cascaded Model with Data Augmentation for Enhanced Paraphrase
Detection in Short Texts [1.6758573326215689]
短文のパラフレーズ検出を改善するために,データ拡張戦略とマルチカスケードモデルを提案する。
私たちのモデルは広くて深く、クリーンでノイズの多い短いテキストにまたがってより堅牢性を提供します。
論文 参考訳(メタデータ) (2019-12-27T12:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。