論文の概要: Exploring the Potential of LLMs as Personalized Assistants: Dataset, Evaluation, and Analysis
- arxiv url: http://arxiv.org/abs/2506.01262v1
- Date: Mon, 02 Jun 2025 02:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.716273
- Title: Exploring the Potential of LLMs as Personalized Assistants: Dataset, Evaluation, and Analysis
- Title(参考訳): パーソナライズされたアシスタントとしてのLCMの可能性を探る:データセット、評価、分析
- Authors: Jisoo Mok, Ik-hwan Kim, Sangkwon Park, Sungroh Yoon,
- Abstract要約: HiCUPIDは、パーソナライズされたレスポンスを提供するためのLarge Language Models(LLM)の可能性を調査し、解き放つための新しいベンチマークである。
会話データセットに加えて、HiCUPIDはLlama-3.2ベースの自動評価モデルを提供する。
- 参考スコア(独自算出の注目度): 35.18369708380039
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Personalized AI assistants, a hallmark of the human-like capabilities of Large Language Models (LLMs), are a challenging application that intertwines multiple problems in LLM research. Despite the growing interest in the development of personalized assistants, the lack of an open-source conversational dataset tailored for personalization remains a significant obstacle for researchers in the field. To address this research gap, we introduce HiCUPID, a new benchmark to probe and unleash the potential of LLMs to deliver personalized responses. Alongside a conversational dataset, HiCUPID provides a Llama-3.2-based automated evaluation model whose assessment closely mirrors human preferences. We release our dataset, evaluation model, and code at https://github.com/12kimih/HiCUPID.
- Abstract(参考訳): 大規模言語モデル(LLM)の人間的な機能を示すパーソナライズされたAIアシスタントは、LLM研究で複数の問題に干渉する難しいアプリケーションである。
パーソナライズされたアシスタントの開発への関心が高まっているにもかかわらず、パーソナライズに適したオープンソースの会話データセットが欠如していることは、この分野の研究者にとって大きな障害となっている。
この研究ギャップに対処するために、パーソナライズされた応答を提供するLLMの可能性を調査し、解き放つ新しいベンチマークであるHiCUPIDを導入する。
会話データセットに加えて、HiCUPIDはLlama-3.2ベースの自動評価モデルを提供する。
データセット、評価モデル、コードをhttps://github.com/12kimih/HiCUPIDでリリースします。
関連論文リスト
- SubData: Bridging Heterogeneous Datasets to Enable Theory-Driven Evaluation of Political and Demographic Perspectives in LLMs [4.04666623219944]
SubDataは、異種データセットを標準化し、パースペクティブアライメントを評価するために設計されたオープンソースのPythonライブラリである。
本稿では,SubDataを利用した理論駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-21T21:40:31Z) - Synthetic Data Generation with Large Language Models for Personalized Community Question Answering [47.300506002171275]
既存のデータセットであるSE-PQAに基づいてSy-SE-PQAを構築します。
以上の結果から,LCMはユーザのニーズに合わせてデータを生成する可能性が高いことが示唆された。
合成データは、たとえ生成されたデータが誤った情報を含むとしても、人書きのトレーニングデータを置き換えることができる。
論文 参考訳(メタデータ) (2024-10-29T16:19:08Z) - PersoBench: Benchmarking Personalized Response Generation in Large Language Models [6.8046587254152735]
我々はペルソベンチ(PersoBench)という,ペルソベンチ(PersoBench)という,個人認識対話生成における大規模言語モデル(LLM)のパーソナライズ能力を評価するベンチマークを提案する。
本分析は, 3つの人格認識データセットを用いて, 流布度, 多様性, 一貫性, パーソナライゼーションなど, 応答品質の多次元性を評価する。
論文 参考訳(メタデータ) (2024-10-04T07:29:41Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
不完全なドキュメンテーション、不正確なラベル、倫理的懸念、時代遅れの情報といったデータ品質問題は、広く使われているデータセットで共通している。
大きな言語モデル(LLM)の急増する能力により、LLMエージェントによる隠れデータセット問題の発見の合理化が約束されている。
本研究では,この課題に対処するLLMエージェントの能力を評価するためのベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - HAGRID: A Human-LLM Collaborative Dataset for Generative
Information-Seeking with Attribution [46.41448772928026]
本稿では,Human-in-the-loop Attributable Generative Retrieval for Information-seeking dataset(Human-in-the-loop Attributable Generative Retrieval for Information-seeking dataset)を提案する。
ブラックボックスプロプライエタリな検索エンジンに焦点を当てた最近の取り組みとは異なり、私たちはMIRACLの英語サブセットの上にデータセットを構築しました。
論文 参考訳(メタデータ) (2023-07-31T17:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。