論文の概要: Topic Modeling on User Stories using Word Mover's Distance
- arxiv url: http://arxiv.org/abs/2007.05302v2
- Date: Mon, 13 Jul 2020 09:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 22:16:21.917830
- Title: Topic Modeling on User Stories using Word Mover's Distance
- Title(参考訳): Word Mover 距離を用いたユーザストーリーのトピックモデリング
- Authors: Kim Julian G\"ulle, Nicholas Ford, Patrick Ebel, Florian Brokhausen,
Andreas Vogelsang
- Abstract要約: 本稿では,クラウド生成ユーザストーリーの集合内のトピックを識別する手段として,トピックモデリングに焦点を当てる。
群衆労働者による2,966件のユーザストーリーを公開して評価した。
- 参考スコア(独自算出の注目度): 4.378337862197529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Requirements elicitation has recently been complemented with crowd-based
techniques, which continuously involve large, heterogeneous groups of users who
express their feedback through a variety of media. Crowd-based elicitation has
great potential for engaging with (potential) users early on but also results
in large sets of raw and unstructured feedback. Consolidating and analyzing
this feedback is a key challenge for turning it into sensible user
requirements. In this paper, we focus on topic modeling as a means to identify
topics within a large set of crowd-generated user stories and compare three
approaches: (1) a traditional approach based on Latent Dirichlet Allocation,
(2) a combination of word embeddings and principal component analysis, and (3)
a combination of word embeddings and Word Mover's Distance. We evaluate the
approaches on a publicly available set of 2,966 user stories written and
categorized by crowd workers. We found that a combination of word embeddings
and Word Mover's Distance is most promising. Depending on the word embeddings
we use in our approaches, we manage to cluster the user stories in two ways:
one that is closer to the original categorization and another that allows new
insights into the dataset, e.g. to find potentially new categories.
Unfortunately, no measure exists to rate the quality of our results
objectively. Still, our findings provide a basis for future work towards
analyzing crowd-sourced user stories.
- Abstract(参考訳): 近年,さまざまなメディアを通じてフィードバックを表現している,大規模で異質なユーザグループを継続的に巻き込む,クラウドベースの手法が要求を補完している。
クラウドベースの勧誘は、早期に(潜在的に)ユーザと関わり合う大きな可能性を秘めているが、結果として生のフィードバックと非構造化のフィードバックが大量に得られる。
このフィードバックの統合と分析は、ユーザ要求を適切なものにするための重要な課題です。
本稿では,多くのユーザストーリーの中からトピックを識別する手段としてトピックモデリングに注目し,(1)潜在ディリクレ割り当てに基づく従来のアプローチ,(2)単語埋め込みと主成分分析の組み合わせ,(3)単語埋め込みと単語移動者の距離の組み合わせ,の3つのアプローチを比較した。
群衆労働者による2,966件のユーザストーリーを公開して評価した。
単語埋め込みとWord MoverのDistanceの組み合わせが最も有望であることが分かりました。
私たちのアプローチで使用する単語埋め込みによっては、ユーザストーリを2つの方法でクラスタ化することが可能になります。
残念ながら、結果の質を客観的に評価する手段は存在しない。
しかし,この調査結果は,クラウドソーシングによるユーザストーリーの分析に向けた今後の取り組みの基盤となる。
関連論文リスト
- Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Audience-Centric Natural Language Generation via Style Infusion [5.6732899077715375]
本稿では,事前学習された言語生成モデルにおける聴衆のスタイル的嗜好に影響を及ぼす,新しいスタイル注入の課題を提案する。
限定的な人間の判断を利用して、スタイル分析モデルをブートストラップし、シードセットの判断を強化する。
我々の注入アプローチは、ジェネリックテキストプロンプトを用いた魅力的なスタイル化された例を生成することができる。
論文 参考訳(メタデータ) (2023-01-24T19:57:50Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - User Factor Adaptation for User Embedding via Multitask Learning [45.56193775870044]
ユーザ関心をドメインとして扱い、ユーザ言語がどのように異なるかを経験的に検証する。
マルチタスク学習フレームワークを用いて,ユーザの関心の言語変動を考慮したユーザ埋め込みモデルを提案する。
モデルは人間の監督なしにユーザ言語とそのバリエーションを学習する。
論文 参考訳(メタデータ) (2021-02-22T15:21:01Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z) - Large-scale Hybrid Approach for Predicting User Satisfaction with
Conversational Agents [28.668681892786264]
ユーザの満足度を測定することは難しい課題であり、大規模な会話エージェントシステムの開発において重要な要素である。
人間のアノテーションに基づくアプローチは簡単に制御できるが、スケールするのは難しい。
新たなアプローチとして,会話エージェントシステムに埋め込まれたフィードバック誘導システムを通じて,ユーザの直接的なフィードバックを収集する手法がある。
論文 参考訳(メタデータ) (2020-05-29T16:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。