Fugu-MT 論文翻訳(概要): Enhancing BERTopic with Intermediate Layer Representations

論文の概要: Enhancing BERTopic with Intermediate Layer Representations

arxiv url: http://arxiv.org/abs/2505.06696v1
Date: Sat, 10 May 2025 16:47:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:48.996149
Title: Enhancing BERTopic with Intermediate Layer Representations
Title（参考訳）: 中間層表現によるBERTopicの強化
Authors: Dominik Koterwa, Maciej Świtała,
Abstract要約: BERTopicは、トランスフォーマーベースの埋め込みを利用して高密度クラスタを生成するトピックモデリングアルゴリズムである。 3つの異なるデータセットを用いて18種類の埋め込み表現と実験結果について検討した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: BERTopic is a topic modeling algorithm that leverages transformer-based embeddings to create dense clusters, enabling the estimation of topic structures and the extraction of valuable insights from a corpus of documents. This approach allows users to efficiently process large-scale text data and gain meaningful insights into its structure. While BERTopic is a powerful tool, embedding preparation can vary, including extracting representations from intermediate model layers and applying transformations to these embeddings. In this study, we evaluate 18 different embedding representations and present findings based on experiments conducted on three diverse datasets. To assess the algorithm's performance, we report topic coherence and topic diversity metrics across all experiments. Our results demonstrate that, for each dataset, it is possible to find an embedding configuration that performs better than the default setting of BERTopic. Additionally, we investigate the influence of stop words on different embedding configurations.
Abstract（参考訳）: BERTopicは、変換器ベースの埋め込みを利用して高密度クラスタを生成し、トピック構造の推定とドキュメントのコーパスからの貴重な洞察の抽出を可能にするトピックモデリングアルゴリズムである。このアプローチにより、ユーザは大規模テキストデータを効率的に処理し、その構造について有意義な洞察を得ることができる。 BERTopicは強力なツールであるが、中間モデル層から表現を抽出したり、これらの埋め込みに変換を適用するなど、埋め込みの準備は様々である。本研究では,3つの異なるデータセットを用いて18種類の埋め込み表現と実験結果について検討した。アルゴリズムの性能を評価するため,全実験におけるトピックコヒーレンスとトピックの多様性指標について報告する。我々の結果は,各データセットに対して,BERTopicのデフォルト設定よりも優れた組込み構成を見つけることができることを示した。さらに,異なる埋め込み構成に対する停止語の影響についても検討する。

関連論文リスト

Factor Analysis with Correlated Topic Model for Multi-Modal Data [0.0]
マルチモーダル因子分析(FA)は、単純なデータモダリティに基づく変動の共有軸を明らかにする。 FAは、テキストや単一セルシークエンシングデータのような構造化データモダリティには適していない。本稿では,FAと相関するトピックモデリングを組み合わせた新しい多視点・多構造ベイズモデルであるFACTMを紹介し,変分推論を用いて最適化する。
論文参考訳（メタデータ） (2025-04-26T13:02:53Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。 HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文参考訳（メタデータ） (2024-12-07T15:47:49Z)
R-Cut: Enhancing Explainability in Vision Transformers with Relationship Weighted Out and Cut [14.382326829600283]
リレーションウェイトアウト」と「カット」の2つのモジュールを紹介します。 Cut"モジュールは、位置、テクスチャ、色などの要素を考慮して、きめ細かい特徴分解を行う。我々は,ImageNetデータセット上で定性的かつ定量的な実験を行い,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-07-18T08:03:51Z)
Visual Information Extraction in the Wild: Practical Dataset and End-to-end Solution [48.693941280097974]
視覚情報抽出(VIE)のためのカメラ画像からなる大規模データセットを提案する。我々は,OCRの段階と情報抽出をエンド・ツー・エンドの学習方式で組み合わせた,エンド・ツー・エンドVIEのための新しいフレームワークを提案する。提案したデータセット上で既存のVIEのエンド・ツー・エンド手法を評価し,これらの手法の性能がSROIEから提案したデータセットに相違があることを観察した。
論文参考訳（メタデータ） (2023-05-12T14:11:47Z)
Influence of various text embeddings on clustering performance in NLP [0.0]
クラスタリングアプローチは、テキストレビューを個々のグループにグループ化することで、正しい星の評価を緩和するために使用することができる。本稿では,これらのレビューを表現するために,異なるテキスト埋め込みを選択するタスクについて検討するとともに,組込み選択がクラスタリングアルゴリズムの様々なクラスの性能に与える影響について検討する。
論文参考訳（メタデータ） (2023-05-04T20:53:19Z)
An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文参考訳（メタデータ） (2022-05-21T19:49:04Z)
CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文参考訳（メタデータ） (2020-10-11T02:19:15Z)
Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文参考訳（メタデータ） (2020-10-10T14:03:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。