論文の概要: Predicting User Engagement Status for Online Evaluation of Intelligent
Assistants
- arxiv url: http://arxiv.org/abs/2010.00656v2
- Date: Mon, 31 May 2021 22:34:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 08:29:00.701946
- Title: Predicting User Engagement Status for Online Evaluation of Intelligent
Assistants
- Title(参考訳): インテリジェントアシスタントのオンライン評価におけるユーザエンゲージメント状況の予測
- Authors: Rui Meng, Zhen Yue, Alyssa Glass
- Abstract要約: 我々は、ユーザエンゲージメントのステータスを予測することが、インテリジェントアシスタントのオンライン評価における第1かつ重要なステップであると考えている。
ユーザエンゲージメントのステータスを,達成,継続,改革,放棄という4つのカテゴリに分類する新しい枠組みを提案する。
また,機械学習によるユーザエンゲージメント予測の自動化も目指している。
- 参考スコア(独自算出の注目度): 4.3302189100045965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation of intelligent assistants in large-scale and online settings
remains an open challenge. User behavior-based online evaluation metrics have
demonstrated great effectiveness for monitoring large-scale web search and
recommender systems. Therefore, we consider predicting user engagement status
as the very first and critical step to online evaluation for intelligent
assistants. In this work, we first proposed a novel framework for classifying
user engagement status into four categories -- fulfillment, continuation,
reformulation and abandonment. We then demonstrated how to design simple but
indicative metrics based on the framework to quantify user engagement levels.
We also aim for automating user engagement prediction with machine learning
methods. We compare various models and features for predicting engagement
status using four real-world datasets. We conducted detailed analyses on
features and failure cases to discuss the performance of current models as well
as challenges.
- Abstract(参考訳): 大規模およびオンライン環境でのインテリジェントアシスタントの評価は、依然としてオープンな課題である。
ユーザの行動に基づくオンライン評価指標は,大規模web検索とレコメンデーションシステムの監視に優れた効果を示している。
そこで我々は,ユーザエンゲージメント状況の予測を,インテリジェントアシスタントのオンライン評価における第1かつ重要なステップとみなす。
本研究では,ユーザエンゲージメントのステータスを,達成,継続,改革,放棄という4つのカテゴリに分類する新しいフレームワークを提案する。
次に、ユーザエンゲージメントレベルを定量化するためのフレームワークに基づいて、シンプルだが示唆的なメトリクスを設計する方法を示しました。
また,機械学習によるユーザエンゲージメント予測の自動化も目指している。
4つの実世界のデータセットを用いて、エンゲージメント状態を予測するための様々なモデルと特徴を比較する。
現状のモデルの性能と課題について議論するため,機能や障害事例について詳細な分析を行った。
関連論文リスト
- TI-PREGO: Chain of Thought and In-Context Learning for Online Mistake Detection in PRocedural EGOcentric Videos [48.126793563151715]
オンラインのオープンセットの手続きミスを効果的に検出する技術はない。
1つのブランチは、入力されたエゴセントリックビデオからステップ認識を連続的に行う。
もう1つは、認識モジュールの出力に基づいて将来のステップを予測します。
論文 参考訳(メタデータ) (2024-11-04T20:03:06Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Formal Logic Enabled Personalized Federated Learning Through Property
Inference [5.873100924187382]
本研究では,時間的論理的推論を利用してこの問題に対処する新たなトレーニングパラダイムを提案する。
本手法では,各FLクライアントに対して機械的に生成された論理式を組み込むことで,学習プロセスの強化を図る。
提案手法は,15州からのセンサデータからなる実世界の交通量予測タスクと,合成データを用いたスマートシティマルチタスク予測という2つのタスクで評価する。
論文 参考訳(メタデータ) (2024-01-15T03:25:37Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Context-Aware Prediction of User Engagement on Online Social Platforms [15.847199578750924]
我々は、コンテキスト対応モデリングアプローチが、オンラインソーシャルプラットフォーム上でのユーザエンゲージメントの全体的かつ軽量な表現を提供する可能性を示唆するデータを提示する。
約8万人から1億以上のSnapchatセッションを分析しています。
スマートフォンの接続状況,位置,時間的コンテキスト,天候に関連する特徴は,ユーザエンゲージメントの非冗長なばらつきを捉えている。
論文 参考訳(メタデータ) (2023-10-23T03:36:35Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - On Variational Inference for User Modeling in Attribute-Driven
Collaborative Filtering [10.64460581091531]
本稿では,因果推論を用いて時間的文脈からユーザの属性親和性を学習する手法を提案する。
この目的を確率論的機械学習問題として定式化し、モデルパラメータを推定するために変分推論に基づく手法を適用する。
論文 参考訳(メタデータ) (2020-12-02T22:39:58Z) - Unsatisfied Today, Satisfied Tomorrow: a simulation framework for
performance evaluation of crowdsourcing-based network monitoring [68.8204255655161]
本稿では, 性能の低い細胞の検出品質を評価するための実験フレームワークを提案する。
このフレームワークは、満足度調査のプロセスとユーザの満足度予測の両方をシミュレートする。
シミュレーションフレームワークを用いて、一般的なシナリオにおいて、性能の低いサイト検出の性能を実証的にテストする。
論文 参考訳(メタデータ) (2020-10-30T10:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。