論文の概要: Topic Modeling on User Stories using Word Mover's Distance
- arxiv url: http://arxiv.org/abs/2007.05302v2
- Date: Mon, 13 Jul 2020 09:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 22:16:21.917830
- Title: Topic Modeling on User Stories using Word Mover's Distance
- Title(参考訳): Word Mover 距離を用いたユーザストーリーのトピックモデリング
- Authors: Kim Julian G\"ulle, Nicholas Ford, Patrick Ebel, Florian Brokhausen,
Andreas Vogelsang
- Abstract要約: 本稿では,クラウド生成ユーザストーリーの集合内のトピックを識別する手段として,トピックモデリングに焦点を当てる。
群衆労働者による2,966件のユーザストーリーを公開して評価した。
- 参考スコア(独自算出の注目度): 4.378337862197529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Requirements elicitation has recently been complemented with crowd-based
techniques, which continuously involve large, heterogeneous groups of users who
express their feedback through a variety of media. Crowd-based elicitation has
great potential for engaging with (potential) users early on but also results
in large sets of raw and unstructured feedback. Consolidating and analyzing
this feedback is a key challenge for turning it into sensible user
requirements. In this paper, we focus on topic modeling as a means to identify
topics within a large set of crowd-generated user stories and compare three
approaches: (1) a traditional approach based on Latent Dirichlet Allocation,
(2) a combination of word embeddings and principal component analysis, and (3)
a combination of word embeddings and Word Mover's Distance. We evaluate the
approaches on a publicly available set of 2,966 user stories written and
categorized by crowd workers. We found that a combination of word embeddings
and Word Mover's Distance is most promising. Depending on the word embeddings
we use in our approaches, we manage to cluster the user stories in two ways:
one that is closer to the original categorization and another that allows new
insights into the dataset, e.g. to find potentially new categories.
Unfortunately, no measure exists to rate the quality of our results
objectively. Still, our findings provide a basis for future work towards
analyzing crowd-sourced user stories.
- Abstract(参考訳): 近年,さまざまなメディアを通じてフィードバックを表現している,大規模で異質なユーザグループを継続的に巻き込む,クラウドベースの手法が要求を補完している。
クラウドベースの勧誘は、早期に(潜在的に)ユーザと関わり合う大きな可能性を秘めているが、結果として生のフィードバックと非構造化のフィードバックが大量に得られる。
このフィードバックの統合と分析は、ユーザ要求を適切なものにするための重要な課題です。
本稿では,多くのユーザストーリーの中からトピックを識別する手段としてトピックモデリングに注目し,(1)潜在ディリクレ割り当てに基づく従来のアプローチ,(2)単語埋め込みと主成分分析の組み合わせ,(3)単語埋め込みと単語移動者の距離の組み合わせ,の3つのアプローチを比較した。
群衆労働者による2,966件のユーザストーリーを公開して評価した。
単語埋め込みとWord MoverのDistanceの組み合わせが最も有望であることが分かりました。
私たちのアプローチで使用する単語埋め込みによっては、ユーザストーリを2つの方法でクラスタ化することが可能になります。
残念ながら、結果の質を客観的に評価する手段は存在しない。
しかし,この調査結果は,クラウドソーシングによるユーザストーリーの分析に向けた今後の取り組みの基盤となる。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Annotator in the Loop: A Case Study of In-Depth Rater Engagement to Create a Bridging Benchmark Dataset [1.825224193230824]
本稿では,アノテーションのための新規かつ協調的かつ反復的なアノテーション手法について述べる。
以上の結果から,アノテータとの連携によりアノテーションの手法が強化されることが示唆された。
論文 参考訳(メタデータ) (2024-08-01T19:11:08Z) - Personalized Topic Selection Model for Topic-Grounded Dialogue [24.74527189182273]
現在のモデルは、ユーザに興味がなく、文脈的に無関係なトピックを予測する傾向があります。
我々はtextbfTopic-grounded textbfDialogue のための textbfPersonalized topic stextbfElection model を提案する。
提案手法は,多種多様な応答を生成でき,最先端のベースラインを達成できる。
論文 参考訳(メタデータ) (2024-06-04T06:09:49Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - User Factor Adaptation for User Embedding via Multitask Learning [45.56193775870044]
ユーザ関心をドメインとして扱い、ユーザ言語がどのように異なるかを経験的に検証する。
マルチタスク学習フレームワークを用いて,ユーザの関心の言語変動を考慮したユーザ埋め込みモデルを提案する。
モデルは人間の監督なしにユーザ言語とそのバリエーションを学習する。
論文 参考訳(メタデータ) (2021-02-22T15:21:01Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。