論文の概要: EdgeWisePersona: A Dataset for On-Device User Profiling from Natural Language Interactions
- arxiv url: http://arxiv.org/abs/2505.11417v1
- Date: Fri, 16 May 2025 16:29:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.583843
- Title: EdgeWisePersona: A Dataset for On-Device User Profiling from Natural Language Interactions
- Title(参考訳): EdgeWisePersona: 自然言語インタラクションによるデバイス上でのユーザプロファイリングのためのデータセット
- Authors: Patryk Bartkowiak, Michal Podstawski,
- Abstract要約: 本稿では,エッジデバイス上に展開可能な小型言語モデルの評価と改善を目的とした,新しいデータセットを提案する。
データセットの中核は構造化されたユーザプロファイルであり、それぞれがルーチンのセットによって定義される。
大規模言語モデル(LLM)は、現実的で多様性があり、コンテキスト対応の対話をシミュレートする、対応する対話セッションを生成する。
- 参考スコア(独自算出の注目度): 0.6650227510403052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a novel dataset and evaluation benchmark designed to assess and improve small language models deployable on edge devices, with a focus on user profiling from multi-session natural language interactions in smart home environments. At the core of the dataset are structured user profiles, each defined by a set of routines - context-triggered, repeatable patterns of behavior that govern how users interact with their home systems. Using these profiles as input, a large language model (LLM) generates corresponding interaction sessions that simulate realistic, diverse, and context-aware dialogues between users and their devices. The primary task supported by this dataset is profile reconstruction: inferring user routines and preferences solely from interactions history. To assess how well current models can perform this task under realistic conditions, we benchmarked several state-of-the-art compact language models and compared their performance against large foundation models. Our results show that while small models demonstrate some capability in reconstructing profiles, they still fall significantly short of large models in accurately capturing user behavior. This performance gap poses a major challenge - particularly because on-device processing offers critical advantages, such as preserving user privacy, minimizing latency, and enabling personalized experiences without reliance on the cloud. By providing a realistic, structured testbed for developing and evaluating behavioral modeling under these constraints, our dataset represents a key step toward enabling intelligent, privacy-respecting AI systems that learn and adapt directly on user-owned devices.
- Abstract(参考訳): 本稿では,スマートホーム環境におけるマルチセッション自然言語インタラクションによるユーザプロファイリングに着目し,エッジデバイスにデプロイ可能な小型言語モデルの評価と改善を目的とした,新しいデータセットと評価ベンチマークを提案する。
データセットの中核は構造化されたユーザプロファイルであり、それぞれが一連のルーチンによって定義されている。
これらのプロファイルを入力として使用すると、大きな言語モデル(LLM)は、ユーザとデバイス間の現実的で多様なコンテキスト対応の対話をシミュレートする、対応する対話セッションを生成する。
このデータセットがサポートする主なタスクはプロファイルの再構築である。
現状のモデルがこのタスクを現実的な条件下でどれだけうまく実行できるかを評価するため,いくつかの最先端のコンパクト言語モデルをベンチマークし,その性能を大規模基盤モデルと比較した。
以上の結果から,小さなモデルではプロファイルを再構築する能力があるが,ユーザ動作を正確に把握する上では,大きなモデルでは著しく不足していることが明らかとなった。
特にオンデバイス処理は、ユーザのプライバシの保護、レイテンシの最小化、クラウドに依存しないパーソナライズされたエクスペリエンスの実現など、重要なアドバンテージを提供します。
これらの制約下での行動モデリングの開発と評価のための現実的な構造化テストベッドを提供することで、私たちのデータセットは、ユーザが所有するデバイスを直接学習し、適応するインテリジェントでプライバシーを尊重するAIシステムを実現するための重要なステップとなります。
関連論文リスト
- Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles [37.43150003866563]
ユーザシミュレータは、対話システムとの人間のインタラクションを複製するのに不可欠である。
本研究では,人間と機械の会話から暗黙のユーザプロファイルを推論するフレームワークである暗黙のプロファイル(USP)を用いたユーザシミュレータを提案する。
USPは、一貫性において同等のパフォーマンスを達成しつつ、信頼性と多様性の観点から、強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-02-26T09:26:54Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Federated Privacy-preserving Collaborative Filtering for On-Device Next
App Prediction [52.16923290335873]
本稿では,モバイルデバイス使用時の次のアプリの起動を予測するための新しいSeqMFモデルを提案する。
古典行列分解モデルの構造を修正し、学習手順を逐次学習に更新する。
提案手法のもうひとつの要素は,ユーザからリモートサーバへの送信データの保護を保証する,新たなプライバシメカニズムである。
論文 参考訳(メタデータ) (2023-02-05T10:29:57Z) - On-device modeling of user's social context and familiar places from
smartphone-embedded sensor data [7.310043452300736]
ユーザの社会的文脈とその位置をモデル化するための,新しい,教師なし,軽量なアプローチを提案する。
ユーザとそのデバイス間の物理的およびサイバー的ソーシャルインタラクションに関連するデータを活用する。
日常の状況を認識するための3つの機械学習アルゴリズムの性能を示す。
論文 参考訳(メタデータ) (2022-05-18T08:32:26Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。