Fugu-MT 論文翻訳(概要): Bag of biterms modeling for short texts

論文の概要: Bag of biterms modeling for short texts

arxiv url: http://arxiv.org/abs/2003.11948v1
Date: Thu, 26 Mar 2020 14:47:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-19 21:15:37.827941
Title: Bag of biterms modeling for short texts
Title（参考訳）: 短文の2項モデリングの袋
Authors: Anh Phan Tuan, Bach Tran, Thien Nguyen Huu, Linh Ngo Van, Khoat Than
Abstract要約: 本稿では,Bag of Biterms Modeling(BBM)という,大規模・動的・短いテキストコレクションをモデル化するための新しいフレームワークを提案する。 BBMは,(1)文書を表すBag of Biterms(BoB)の概念と,(2)統計モデルにBoBを組み込む簡単な方法である。
参考スコア（独自算出の注目度）: 1.5749416770494706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Analyzing texts from social media encounters many challenges due to their unique characteristics of shortness, massiveness, and dynamic. Short texts do not provide enough context information, causing the failure of the traditional statistical models. Furthermore, many applications often face with massive and dynamic short texts, causing various computational challenges to the current batch learning algorithms. This paper presents a novel framework, namely Bag of Biterms Modeling (BBM), for modeling massive, dynamic, and short text collections. BBM comprises of two main ingredients: (1) the concept of Bag of Biterms (BoB) for representing documents, and (2) a simple way to help statistical models to include BoB. Our framework can be easily deployed for a large class of probabilistic models, and we demonstrate its usefulness with two well-known models: Latent Dirichlet Allocation (LDA) and Hierarchical Dirichlet Process (HDP). By exploiting both terms (words) and biterms (pairs of words), the major advantages of BBM are: (1) it enhances the length of the documents and makes the context more coherent by emphasizing the word connotation and co-occurrence via Bag of Biterms, (2) it inherits inference and learning algorithms from the primitive to make it straightforward to design online and streaming algorithms for short texts. Extensive experiments suggest that BBM outperforms several state-of-the-art models. We also point out that the BoB representation performs better than the traditional representations (e.g, Bag of Words, tf-idf) even for normal texts.
Abstract（参考訳）: ソーシャルメディアからテキストを分析すると、短さ、重大さ、動的さという独特の特徴から、多くの課題に直面する。短いテキストは十分な文脈情報を提供しておらず、従来の統計モデルの失敗を引き起こしている。さらに、多くのアプリケーションは大規模で動的に短いテキストに直面することが多く、現在のバッチ学習アルゴリズムに様々な計算上の問題を引き起こす。本稿では,大規模,動的,短文のコレクションをモデリングするための新しいフレームワークであるbag of biterms modeling (bbm)を提案する。 bbmは、(1)文書を表す二項袋(bob)の概念、(2)統計モデルがbobを含むのを助ける簡単な方法の2つの主成分から構成されている。我々のフレームワークは,多種多様な確率モデルに対して容易に展開でき,その有用性はLDA(Latent Dirichlet Allocation)とHDP(Hierarchical Dirichlet Process)の2つのよく知られたモデルで実証できる。用語(単語)と二項(単語のペア)の両方を利用することで、(1)文書の長さを増加させ、二項の袋を通して単語の含意と共起を強調することで文脈をより一貫性を持たせ、(2)テキストのオンラインおよびストリーミングアルゴリズムの設計を容易にするために、プリミティブから推論と学習のアルゴリズムを継承する。広範な実験は、bbmがいくつかの最先端モデルを上回ることを示唆している。また、通常のテキストであっても、BoB表現は従来の表現(例えば、Bag of Words, tf-idf)よりも優れています。

関連論文リスト

EMK-KEN: A High-Performance Approach for Assessing Knowledge Value in Citation Network [0.0]
EMK-KENと呼ばれる新しい知識評価手法を提案する。モデルは2つのモジュールから構成される。具体的には、まずMetaFPとMambaを使用して、ノードメタデータとテキスト埋め込みのセマンティックな特徴をキャプチャする。第2のモジュールはkanを利用して、異なる分野のネットワークの違いを学習するために、引用ネットワークの構造情報をさらにキャプチャする。
論文参考訳（メタデータ） (2025-01-19T06:27:46Z)
Boosting Short Text Classification with Multi-Source Information Exploration and Dual-Level Contrastive Learning [12.377363857246602]
短文分類のためのMI-DELIGHTという新しいモデルを提案する。まず、スパーシリティの問題を軽減するために、マルチソース情報探索を行う。次に,短いテキストの表現を学習するために,グラフ学習アプローチを採用する。
論文参考訳（メタデータ） (2025-01-16T00:26:15Z)
BERTopic for Topic Modeling of Hindi Short Texts: A Comparative Study [1.1650821883155187]
本研究では,ヒンディー語短文のモデル化におけるBERTopicの性能について検討する。コンテキスト埋め込みを使用することで、BERTopicはデータのセマンティックな関係をキャプチャし、従来のモデルよりも効果的になる可能性がある。
論文参考訳（メタデータ） (2025-01-07T14:53:35Z)
Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文参考訳（メタデータ） (2024-12-11T23:36:20Z)
Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning [68.43706033424378]
本研究では,大規模言語モデル(MLLM)において,テキスト中のテキスト長を効率的に向上する革新的な手法を提案する。視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
論文参考訳（メタデータ） (2024-06-04T17:59:25Z)
Multilingual transformer and BERTopic for short text topic modeling: The case of Serbian [0.0]
本稿では,最新のトピックモデリング技術であるBERTopicをモルフォロギ・カリーリッチ言語で書かれた短いテキストに適用した。 2段階のテキスト前処理(部分と完全)に3つの多言語埋め込みモデルを用いたBERTopicを適用し,その性能をセルビア語で部分的に前処理した短文で評価した。
論文参考訳（メタデータ） (2024-02-05T14:59:29Z)
Visual Explanations of Image-Text Representations via Multi-Modal Information Bottleneck Attribution [49.762034744605955]
視覚言語モデルの解釈性を改善するために,マルチモーダル情報ボトルネック手法を提案する。視覚言語事前学習モデルの帰属分析にM2IBを適用する方法を示す。
論文参考訳（メタデータ） (2023-12-28T18:02:22Z)
Let the Pretrained Language Models "Imagine" for Short Texts Topic Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文参考訳（メタデータ） (2023-10-24T00:23:30Z)
MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。 WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文参考訳（メタデータ） (2022-12-16T17:36:23Z)
Attend, Memorize and Generate: Towards Faithful Table-to-Text Generation in Few Shots [58.404516361586325]
Few-shot table-to-text generation は、限られたデータを用いてテーブル内容を伝えるために、流動的で忠実な文を構成するタスクである。本稿では,人間のテキスト生成プロセスに触発された新しい手法,覚醒と生成(AMG)を提案する。
論文参考訳（メタデータ） (2022-03-01T20:37:20Z)
BASS: Boosting Abstractive Summarization with Unified Semantic Graph [49.48925904426591]
BASSは、統合されたセマンティックグラフに基づく抽象的な要約を促進するためのフレームワークである。文書表現と要約生成の両方を改善するために,グラフベースのエンコーダデコーダモデルを提案する。実験結果から,提案アーキテクチャは長期文書および複数文書要約タスクに大幅な改善をもたらすことが示された。
論文参考訳（メタデータ） (2021-05-25T16:20:48Z)
Graph-based Multi-hop Reasoning for Long Text Generation [66.64743847850666]
MRGはグラフベースのマルチホップ推論モジュールとパス認識文実現モジュールの2部で構成されている。従来のブラックボックスモデルとは異なり、MRGはスケルトンパスを明示的に推論し、提案されたモデルがどのように機能するかを説明する説明的なビューを提供する。
論文参考訳（メタデータ） (2020-09-28T12:47:59Z)
A Multi-cascaded Model with Data Augmentation for Enhanced Paraphrase Detection in Short Texts [1.6758573326215689]
短文のパラフレーズ検出を改善するために,データ拡張戦略とマルチカスケードモデルを提案する。私たちのモデルは広くて深く、クリーンでノイズの多い短いテキストにまたがってより堅牢性を提供します。
論文参考訳（メタデータ） (2019-12-27T12:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。