論文の概要: Evaluating Personalized Tool-Augmented LLMs from the Perspectives of Personalization and Proactivity
- arxiv url: http://arxiv.org/abs/2503.00771v1
- Date: Sun, 02 Mar 2025 07:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:32.821220
- Title: Evaluating Personalized Tool-Augmented LLMs from the Perspectives of Personalization and Proactivity
- Title(参考訳): パーソナライズとプロアクティビティの観点からのパーソナライズツール強化LDMの評価
- Authors: Yupu Hao, Pengfei Cao, Zhuoran Jin, Huanxuan Liao, Yubo Chen, Kang Liu, Jun Zhao,
- Abstract要約: 我々は、パーソナライズされたツール呼び出しを評価するための新しいベンチマークETAPPを紹介する。
評価精度を向上させるために,キーポイントに基づく評価手法を提案する。
好み設定とキーポイントに基づく評価手法の有効性も検証した。
- 参考スコア(独自算出の注目度): 17.723293304671877
- License:
- Abstract: Personalized tool utilization is essential for aligning large language models (LLMs) with user preference in interaction scenarios with various tools. However, most of the current benchmarks primarily focus on either personalization of text generation or direct tool-utilizing, without considering both. In this work, we introduce a novel benchmark ETAPP for evaluating personalized tool invocation, establishing a sandbox environment, and a comprehensive dataset of 800 testing cases covering diverse user profiles. To improve the accuracy of our evaluation, we propose a key-point-based LLM evaluation method, mitigating biases in the LLM-as-a-judge system by manually annotating key points for each test case and providing them to LLM as the reference. Additionally, we evaluate the excellent LLMs and provide an in-depth analysis. Furthermore, we investigate the impact of different tool-invoking strategies on LLMs' personalization performance and the effects of fine-tuning in our task. The effectiveness of our preference-setting and key-point-based evaluation method is also validated. Our findings offer insights into improving personalized LLM agents. Our Code is available at https://github.com/hypasd-art/ETAPP.
- Abstract(参考訳): パーソナライズされたツール利用は、さまざまなツールとのインタラクションシナリオにおいて、大きな言語モデル(LLM)とユーザの好みを整合させる上で不可欠である。
しかし、現在のベンチマークのほとんどは、テキスト生成のパーソナライズか、直接ツールの利用に重点を置いており、両方を考慮していない。
本研究では,パーソナライズされたツールの実行を評価し,サンドボックス環境を確立するための新しいベンチマークETAPPと,多様なユーザプロファイルをカバーする800のテストケースの包括的なデータセットを紹介する。
評価精度を向上させるために,各テストケースのキーポイントを手動でアノテートし,基準としてLLMに付与することにより,LLMシステムのバイアスを軽減するキーポイントに基づくLCM評価手法を提案する。
さらに,優れたLCMを評価し,詳細な解析を行った。
さらに,LLMのパーソナライズ性能とタスクにおける微調整の効果について検討した。
好み設定とキーポイントに基づく評価手法の有効性も検証した。
我々の研究は、パーソナライズされたLSMエージェントの改善に関する洞察を提供する。
私たちのコードはhttps://github.com/hypasd-art/ETAPP.comで利用可能です。
関連論文リスト
- Re-evaluating Automatic LLM System Ranking for Alignment with Human Preference [63.03859517284341]
自動評価フレームワークは、人間の嗜好との整合性に基づいてLLMをランク付けすることを目的としている。
自動LLMベンチラは、入力セット、評価モデル、評価タイプ、集約方法の4つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-12-31T17:46:51Z) - AI PERSONA: Towards Life-long Personalization of LLMs [28.21436822048565]
本稿では,大規模言語モデルの生涯的パーソナライズという課題を紹介する。
寿命のパーソナライズされたLLMシステムの構築とベンチマークのために、すべてのコードとデータを公開します。
論文 参考訳(メタデータ) (2024-12-17T17:17:03Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Exploring Safety-Utility Trade-Offs in Personalized Language Models [26.792174008353008]
大規模言語モデル(LLM)はパーソナライズバイアスに悩まされており、ユーザのアイデンティティにパーソナライズされた場合のパフォーマンスに影響を及ぼす。
安全性と実用性という2つの軸に沿ってLLMの性能を評価することにより、パーソナライズバイアスを定量化する。
我々は、嗜好調整とプロンプトベースディフェンスを用いたパーソナライズバイアスを軽減するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2024-06-17T00:17:11Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - T-Eval: Evaluating the Tool Utilization Capability of Large Language
Models Step by Step [69.64348626180623]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。
LLMのツール活用能力の評価と分析方法はまだ未検討である。
ツール利用能力を段階的に評価するためにT-Evalを導入する。
論文 参考訳(メタデータ) (2023-12-21T17:02:06Z) - Do LLMs Understand User Preferences? Evaluating LLMs On User Rating
Prediction [15.793007223588672]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法で新しいタスクに一般化する際、例外的な機能を示した。
我々は,2億5000万から540Bのパラメータを多種多様なサイズで検討し,その性能をゼロショット,少数ショット,微調整のシナリオで評価した。
論文 参考訳(メタデータ) (2023-05-10T21:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。