Fugu-MT 論文翻訳(概要): Predicting User Engagement Status for Online Evaluation of Intelligent Assistants

論文の概要: Predicting User Engagement Status for Online Evaluation of Intelligent Assistants

arxiv url: http://arxiv.org/abs/2010.00656v2
Date: Mon, 31 May 2021 22:34:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 08:29:00.701946
Title: Predicting User Engagement Status for Online Evaluation of Intelligent Assistants
Title（参考訳）: インテリジェントアシスタントのオンライン評価におけるユーザエンゲージメント状況の予測
Authors: Rui Meng, Zhen Yue, Alyssa Glass
Abstract要約: 我々は、ユーザエンゲージメントのステータスを予測することが、インテリジェントアシスタントのオンライン評価における第1かつ重要なステップであると考えている。ユーザエンゲージメントのステータスを,達成,継続,改革,放棄という4つのカテゴリに分類する新しい枠組みを提案する。また,機械学習によるユーザエンゲージメント予測の自動化も目指している。
参考スコア（独自算出の注目度）: 4.3302189100045965
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluation of intelligent assistants in large-scale and online settings remains an open challenge. User behavior-based online evaluation metrics have demonstrated great effectiveness for monitoring large-scale web search and recommender systems. Therefore, we consider predicting user engagement status as the very first and critical step to online evaluation for intelligent assistants. In this work, we first proposed a novel framework for classifying user engagement status into four categories -- fulfillment, continuation, reformulation and abandonment. We then demonstrated how to design simple but indicative metrics based on the framework to quantify user engagement levels. We also aim for automating user engagement prediction with machine learning methods. We compare various models and features for predicting engagement status using four real-world datasets. We conducted detailed analyses on features and failure cases to discuss the performance of current models as well as challenges.
Abstract（参考訳）: 大規模およびオンライン環境でのインテリジェントアシスタントの評価は、依然としてオープンな課題である。ユーザの行動に基づくオンライン評価指標は,大規模web検索とレコメンデーションシステムの監視に優れた効果を示している。そこで我々は,ユーザエンゲージメント状況の予測を,インテリジェントアシスタントのオンライン評価における第1かつ重要なステップとみなす。本研究では,ユーザエンゲージメントのステータスを,達成,継続,改革,放棄という4つのカテゴリに分類する新しいフレームワークを提案する。次に、ユーザエンゲージメントレベルを定量化するためのフレームワークに基づいて、シンプルだが示唆的なメトリクスを設計する方法を示しました。また,機械学習によるユーザエンゲージメント予測の自動化も目指している。 4つの実世界のデータセットを用いて、エンゲージメント状態を予測するための様々なモデルと特徴を比較する。現状のモデルの性能と課題について議論するため,機能や障害事例について詳細な分析を行った。

関連論文リスト

General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文参考訳（メタデータ） (2025-03-09T01:13:56Z)
TI-PREGO: Chain of Thought and In-Context Learning for Online Mistake Detection in PRocedural EGOcentric Videos [48.126793563151715]
オンラインのオープンセットの手続きミスを効果的に検出する技術はない。 1つのブランチは、入力されたエゴセントリックビデオからステップ認識を連続的に行う。もう1つは、認識モジュールの出力に基づいて将来のステップを予測します。
論文参考訳（メタデータ） (2024-11-04T20:03:06Z)
Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。 ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文参考訳（メタデータ） (2024-06-26T05:30:21Z)
Formal Logic Enabled Personalized Federated Learning Through Property Inference [5.873100924187382]
本研究では,時間的論理的推論を利用してこの問題に対処する新たなトレーニングパラダイムを提案する。本手法では,各FLクライアントに対して機械的に生成された論理式を組み込むことで,学習プロセスの強化を図る。提案手法は,15州からのセンサデータからなる実世界の交通量予測タスクと,合成データを用いたスマートシティマルチタスク予測という2つのタスクで評価する。
論文参考訳（メタデータ） (2024-01-15T03:25:37Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Context-Aware Prediction of User Engagement on Online Social Platforms [15.847199578750924]
我々は、コンテキスト対応モデリングアプローチが、オンラインソーシャルプラットフォーム上でのユーザエンゲージメントの全体的かつ軽量な表現を提供する可能性を示唆するデータを提示する。約8万人から1億以上のSnapchatセッションを分析しています。スマートフォンの接続状況,位置,時間的コンテキスト,天候に関連する特徴は,ユーザエンゲージメントの非冗長なばらつきを捉えている。
論文参考訳（メタデータ） (2023-10-23T03:36:35Z)
A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文参考訳（メタデータ） (2023-04-26T17:59:45Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)
Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文参考訳（メタデータ） (2022-09-07T10:09:12Z)
On Variational Inference for User Modeling in Attribute-Driven Collaborative Filtering [10.64460581091531]
本稿では,因果推論を用いて時間的文脈からユーザの属性親和性を学習する手法を提案する。この目的を確率論的機械学習問題として定式化し、モデルパラメータを推定するために変分推論に基づく手法を適用する。
論文参考訳（メタデータ） (2020-12-02T22:39:58Z)
Unsatisfied Today, Satisfied Tomorrow: a simulation framework for performance evaluation of crowdsourcing-based network monitoring [68.8204255655161]
本稿では, 性能の低い細胞の検出品質を評価するための実験フレームワークを提案する。このフレームワークは、満足度調査のプロセスとユーザの満足度予測の両方をシミュレートする。シミュレーションフレームワークを用いて、一般的なシナリオにおいて、性能の低いサイト検出の性能を実証的にテストする。
論文参考訳（メタデータ） (2020-10-30T10:03:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。