論文の概要: Providing Insights for Open-Response Surveys via End-to-End
Context-Aware Clustering
- arxiv url: http://arxiv.org/abs/2203.01294v1
- Date: Wed, 2 Mar 2022 18:24:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 13:31:21.867560
- Title: Providing Insights for Open-Response Surveys via End-to-End
Context-Aware Clustering
- Title(参考訳): エンド・ツー・エンドのコンテキスト対応クラスタリングによるオープン・レスポンス・サーベイのための洞察の提供
- Authors: Soheil Esmaeilzadeh, Brian Williams, Davood Shamsi, Onar Vikingstad
- Abstract要約: 本研究では,オープンレスポンスサーベイデータ中の組込み意味パターンを抽出し,集約し,省略する,エンド・ツー・エンドのコンテキスト認識フレームワークを提案する。
我々のフレームワークは、テキストデータを意味ベクトルにエンコードするために、事前訓練された自然言語モデルに依存している。
本フレームワークは,調査データから最も洞察に富んだ情報を抽出するプロセスを自動化することで,大規模化のコストを削減する。
- 参考スコア(独自算出の注目度): 2.6094411360258185
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Teachers often conduct surveys in order to collect data from a predefined
group of students to gain insights into topics of interest. When analyzing
surveys with open-ended textual responses, it is extremely time-consuming,
labor-intensive, and difficult to manually process all the responses into an
insightful and comprehensive report. In the analysis step, traditionally, the
teacher has to read each of the responses and decide on how to group them in
order to extract insightful information. Even though it is possible to group
the responses only using certain keywords, such an approach would be limited
since it not only fails to account for embedded contexts but also cannot detect
polysemous words or phrases and semantics that are not expressible in single
words. In this work, we present a novel end-to-end context-aware framework that
extracts, aggregates, and abbreviates embedded semantic patterns in
open-response survey data. Our framework relies on a pre-trained natural
language model in order to encode the textual data into semantic vectors. The
encoded vectors then get clustered either into an optimally tuned number of
groups or into a set of groups with pre-specified titles. In the former case,
the clusters are then further analyzed to extract a representative set of
keywords or summary sentences that serve as the labels of the clusters. In our
framework, for the designated clusters, we finally provide context-aware
wordclouds that demonstrate the semantically prominent keywords within each
group. Honoring user privacy, we have successfully built the on-device
implementation of our framework suitable for real-time analysis on mobile
devices and have tested it on a synthetic dataset. Our framework reduces the
costs at-scale by automating the process of extracting the most insightful
information pieces from survey data.
- Abstract(参考訳): 教師はしばしば、予め定義された学生のグループからデータを収集し、興味のあるトピックに関する洞察を得るために調査を行う。
オープンエンドのテキスト応答を用いて調査を分析する場合、非常に時間がかかり、労働集約的であり、すべての回答を手作業で洞察に富んだ総合的なレポートに処理することは困難である。
分析ステップでは、伝統的に、教師は各回答を読み取って、洞察力のある情報を抽出するためにグループ化する方法を決定する必要がある。
特定のキーワードのみを使用して応答をグループ化することは可能であるが、そのようなアプローチは組み込みコンテキストを考慮せず、単一の単語で表現できない多文語、フレーズ、意味を検出できないため、制限される。
本研究では,オープンレスポンスサーベイデータ中の組込み意味パターンを抽出し,集約し,省略する,エンド・ツー・エンドのコンテキスト認識フレームワークを提案する。
我々のフレームワークは、テキストデータを意味ベクトルにエンコードするために、事前訓練された自然言語モデルに依存している。
符号化されたベクターは最適に調整された数の群に、または事前に指定されたタイトルを持つ群に分類される。
前者の場合、クラスタはさらに分析され、クラスタのラベルとして機能するキーワードや要約文の代表的なセットを抽出する。
このフレームワークでは、指定されたクラスタに対して、各グループ内のセマンティックに顕著なキーワードを示すコンテキスト対応のワードクラウドを提供する。
ユーザのプライバシに敬意を表して,モバイルデバイス上でのリアルタイム解析に適したフレームワークのオンデバイス実装を成功させ,合成データセット上でテストしました。
調査データから最も洞察に富んだ情報を抽出するプロセスを自動化し,大規模コストを削減する。
関連論文リスト
- Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Goal-Driven Explainable Clustering via Language Descriptions [50.980832345025334]
我々は新しいタスク定式化"Goal-Driven Clustering with Explanations"(GoalEx)を提案する。
GoalExは、ゴールと説明の両方を自由形式の言語記述として表現している。
提案手法は,従来の手法よりも精度が高く,目標に関連のある説明を導出する。
論文 参考訳(メタデータ) (2023-05-23T07:05:50Z) - A combined approach to the analysis of speech conversations in a contact
center domain [2.575030923243061]
本稿では, インバウンドフローやアウトバウンドフローから抽出した通話記録を扱う, イタリアのコンタクトセンターにおける音声分析プロセスの実験について述べる。
まず,Kaldi フレームワークをベースとした社内音声合成ソリューションの開発について詳述する。
そこで我々は,コールトランスクリプトのセマンティックタグ付けに対する異なるアプローチの評価と比較を行った。
最後に、タグ付け問題にJ48Sと呼ばれる決定木インデューサを適用する。
論文 参考訳(メタデータ) (2022-03-12T10:03:20Z) - Aspect-Oriented Summarization through Query-Focused Extraction [23.62412515574206]
実際のユーザのニーズは、特定のクエリではなく、ユーザが興味を持っているデータセットの幅広いトピックという側面に、より深く浸透することが多い。
抽出クエリに焦点を絞った学習手法をベンチマークし、モデルを訓練するための対照的な拡張手法を提案する。
我々は2つのアスペクト指向データセットを評価し、この手法が一般的な要約システムよりも焦点を絞った要約を得られることを発見した。
論文 参考訳(メタデータ) (2021-10-15T18:06:21Z) - Classification of Consumer Belief Statements From Social Media [0.0]
複雑な専門家アノテーションがいかにして分類に有効に活用できるかを考察する。
自動クラス抽象化アプローチは、テキスト分類タスクのドメインエキスパートベースラインに対して極めてよく機能することがわかった。
論文 参考訳(メタデータ) (2021-06-29T15:25:33Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Word Embedding-based Text Processing for Comprehensive Summarization and
Distinct Information Extraction [1.552282932199974]
オンラインレビューの分析に特化して設計された2つの自動テキスト処理フレームワークを提案する。
最初のフレームワークは、本質的な文章を抽出してレビューデータセットを要約することである。
第2のフレームワークは、複数の異なる質問に対する回答を抽出するように訓練された質問回答ニューラルネットワークモデルに基づいている。
論文 参考訳(メタデータ) (2020-04-21T02:43:31Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。