論文の概要: Predicting User Engagement Status for Online Evaluation of Intelligent
Assistants
- arxiv url: http://arxiv.org/abs/2010.00656v2
- Date: Mon, 31 May 2021 22:34:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 08:29:00.701946
- Title: Predicting User Engagement Status for Online Evaluation of Intelligent
Assistants
- Title(参考訳): インテリジェントアシスタントのオンライン評価におけるユーザエンゲージメント状況の予測
- Authors: Rui Meng, Zhen Yue, Alyssa Glass
- Abstract要約: 我々は、ユーザエンゲージメントのステータスを予測することが、インテリジェントアシスタントのオンライン評価における第1かつ重要なステップであると考えている。
ユーザエンゲージメントのステータスを,達成,継続,改革,放棄という4つのカテゴリに分類する新しい枠組みを提案する。
また,機械学習によるユーザエンゲージメント予測の自動化も目指している。
- 参考スコア(独自算出の注目度): 4.3302189100045965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation of intelligent assistants in large-scale and online settings
remains an open challenge. User behavior-based online evaluation metrics have
demonstrated great effectiveness for monitoring large-scale web search and
recommender systems. Therefore, we consider predicting user engagement status
as the very first and critical step to online evaluation for intelligent
assistants. In this work, we first proposed a novel framework for classifying
user engagement status into four categories -- fulfillment, continuation,
reformulation and abandonment. We then demonstrated how to design simple but
indicative metrics based on the framework to quantify user engagement levels.
We also aim for automating user engagement prediction with machine learning
methods. We compare various models and features for predicting engagement
status using four real-world datasets. We conducted detailed analyses on
features and failure cases to discuss the performance of current models as well
as challenges.
- Abstract(参考訳): 大規模およびオンライン環境でのインテリジェントアシスタントの評価は、依然としてオープンな課題である。
ユーザの行動に基づくオンライン評価指標は,大規模web検索とレコメンデーションシステムの監視に優れた効果を示している。
そこで我々は,ユーザエンゲージメント状況の予測を,インテリジェントアシスタントのオンライン評価における第1かつ重要なステップとみなす。
本研究では,ユーザエンゲージメントのステータスを,達成,継続,改革,放棄という4つのカテゴリに分類する新しいフレームワークを提案する。
次に、ユーザエンゲージメントレベルを定量化するためのフレームワークに基づいて、シンプルだが示唆的なメトリクスを設計する方法を示しました。
また,機械学習によるユーザエンゲージメント予測の自動化も目指している。
4つの実世界のデータセットを用いて、エンゲージメント状態を予測するための様々なモデルと特徴を比較する。
現状のモデルの性能と課題について議論するため,機能や障害事例について詳細な分析を行った。
関連論文リスト
- Formal Logic Enabled Personalized Federated Learning Through Property
Inference [5.873100924187382]
本研究では,時間的論理的推論を利用してこの問題に対処する新たなトレーニングパラダイムを提案する。
本手法では,各FLクライアントに対して機械的に生成された論理式を組み込むことで,学習プロセスの強化を図る。
提案手法は,15州からのセンサデータからなる実世界の交通量予測タスクと,合成データを用いたスマートシティマルチタスク予測という2つのタスクで評価する。
論文 参考訳(メタデータ) (2024-01-15T03:25:37Z) - QualEval: Qualitative Evaluation for Model Improvement [86.29905469151566]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Context-Aware Prediction of User Engagement on Online Social Platforms [16.476938924862147]
我々は、コンテキスト対応モデリングアプローチが、オンラインソーシャルプラットフォーム上でのユーザエンゲージメントの全体的かつ軽量な表現を提供する可能性を示唆するデータを提示する。
約8万人から1億以上のSnapchatセッションを分析しています。
本研究は,アクティベートおよびパッシブ使用の文脈一致型,習慣駆動型パターンの概念と一致している。
論文 参考訳(メタデータ) (2023-10-23T03:36:35Z) - MMBench: Is Your Multi-modal Model an All-around Player? [117.53230227207521]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。
従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。
近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。
MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic
Approach [59.77710485234197]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - On Variational Inference for User Modeling in Attribute-Driven
Collaborative Filtering [10.64460581091531]
本稿では,因果推論を用いて時間的文脈からユーザの属性親和性を学習する手法を提案する。
この目的を確率論的機械学習問題として定式化し、モデルパラメータを推定するために変分推論に基づく手法を適用する。
論文 参考訳(メタデータ) (2020-12-02T22:39:58Z) - Unsatisfied Today, Satisfied Tomorrow: a simulation framework for
performance evaluation of crowdsourcing-based network monitoring [68.8204255655161]
本稿では, 性能の低い細胞の検出品質を評価するための実験フレームワークを提案する。
このフレームワークは、満足度調査のプロセスとユーザの満足度予測の両方をシミュレートする。
シミュレーションフレームワークを用いて、一般的なシナリオにおいて、性能の低いサイト検出の性能を実証的にテストする。
論文 参考訳(メタデータ) (2020-10-30T10:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。