論文の概要: Scoring with Large Language Models: A Study on Measuring Empathy of Responses in Dialogues
- arxiv url: http://arxiv.org/abs/2412.20264v1
- Date: Sat, 28 Dec 2024 20:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:01:19.368877
- Title: Scoring with Large Language Models: A Study on Measuring Empathy of Responses in Dialogues
- Title(参考訳): 大規模言語モデルを用いたスコーリング:対話における応答の共感の測定に関する研究
- Authors: Henry J. Xie, Jinghan Zhang, Xinhao Zhang, Kunpeng Liu,
- Abstract要約: 本研究では,対話における応答の共感を測り,評価する上で,大規模言語モデルがいかに効果的かを調べるための枠組みを開発する。
我々の戦略は、最新かつ微調整されたLLMの性能を明示的で説明可能な特徴で近似することである。
以上の結果から,組込みのみを用いる場合,ジェネリックLLMに近い性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 3.2162648244439684
- License:
- Abstract: In recent years, Large Language Models (LLMs) have become increasingly more powerful in their ability to complete complex tasks. One such task in which LLMs are often employed is scoring, i.e., assigning a numerical value from a certain scale to a subject. In this paper, we strive to understand how LLMs score, specifically in the context of empathy scoring. We develop a novel and comprehensive framework for investigating how effective LLMs are at measuring and scoring empathy of responses in dialogues, and what methods can be employed to deepen our understanding of LLM scoring. Our strategy is to approximate the performance of state-of-the-art and fine-tuned LLMs with explicit and explainable features. We train classifiers using various features of dialogues including embeddings, the Motivational Interviewing Treatment Integrity (MITI) Code, a set of explicit subfactors of empathy as proposed by LLMs, and a combination of the MITI Code and the explicit subfactors. Our results show that when only using embeddings, it is possible to achieve performance close to that of generic LLMs, and when utilizing the MITI Code and explicit subfactors scored by an LLM, the trained classifiers can closely match the performance of fine-tuned LLMs. We employ feature selection methods to derive the most crucial features in the process of empathy scoring. Our work provides a new perspective toward understanding LLM empathy scoring and helps the LLM community explore the potential of LLM scoring in social science studies.
- Abstract(参考訳): 近年、LLM(Large Language Models)は、複雑なタスクを完了させる能力において、ますます強力になっている。
LLMを頻繁に使用するタスクの1つはスコア、すなわち特定のスケールから対象に数値を割り当てることである。
本稿では,LLMがどう得点するかを,特に共感スコアの文脈で理解しようと試みる。
我々は,LLMが対話における応答の共感を計測し,評価する上でいかに効果的か,LLMスコアの理解を深めるためにどのような方法が利用できるのかを,より包括的かつ包括的に研究する枠組みを開発する。
我々の戦略は、最新かつ微調整されたLLMの性能を明示的で説明可能な特徴で近似することである。
我々は、埋め込み、モチベーション・インタビュー処理統合(MITI)コード、LLMによって提案された共感の明示的なサブファクタセット、MITIコードと明示的なサブファクタの組み合わせなど、様々な対話の特徴を用いた分類器を訓練する。
以上の結果から, 組込みのみを用いた場合, ジェネリックLLMに近い性能が達成でき, また, MITIコードとLLMがスコア付けした明示的なサブファクタを利用する場合, 訓練された分類器は, 微調整LLMの性能と密に一致できることが示唆された。
我々は共感スコアリングのプロセスにおいて最も重要な特徴を導き出すために特徴選択法を採用している。
我々の研究は、LLM共感スコアリングの理解に向けての新しい視点を提供し、LLMコミュニティが社会科学研究におけるLLMスコアリングの可能性を探究するのに役立つ。
関連論文リスト
- LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods [21.601196380989542]
「LLMs-as-judges」は自然言語応答に基づく評価器である。
本稿では,5つの重要な視点から'LLMs-as-judges'パラダイムを包括的に調査する。
我々は,研究と実践の両方において,'LLMs-as-judges'の開発と適用に関する洞察を提供することを目的としている。
論文 参考訳(メタデータ) (2024-12-07T08:07:24Z) - RuAG: Learned-rule-augmented Generation for Large Language Models [62.64389390179651]
本稿では,大量のオフラインデータを解釈可能な一階述語論理規則に自動抽出する新しいフレームワーク,RuAGを提案する。
我々は,自然言語処理,時系列,意思決定,産業タスクなど,公共および民間の産業タスクに関する枠組みを評価する。
論文 参考訳(メタデータ) (2024-11-04T00:01:34Z) - A Survey of Useful LLM Evaluation [20.048914787813263]
2段階フレームワーク:コア能力からエージェントへ」
コア能力」の段階では, LLMの推論能力, 社会的影響, ドメイン知識について議論した。
エージェントの段階では, LLMエージェントアプリケーションの動作, 計画, ツール学習の具体化を実演した。
論文 参考訳(メタデータ) (2024-06-03T02:20:03Z) - Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。
数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。
困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文 参考訳(メタデータ) (2024-05-04T20:34:06Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。