Fugu-MT 論文翻訳(概要): Evaluation of Synthetic Datasets for Conversational Recommender Systems

論文の概要: Evaluation of Synthetic Datasets for Conversational Recommender Systems

arxiv url: http://arxiv.org/abs/2212.08167v1
Date: Mon, 12 Dec 2022 18:53:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-25 02:45:48.029887
Title: Evaluation of Synthetic Datasets for Conversational Recommender Systems
Title（参考訳）: 会話レコメンダシステムのための合成データセットの評価
Authors: Harsh Lara, Manoj Tiwari
Abstract要約: 堅牢な評価フレームワークがないことは長年の問題だった。ダウンストリームアプリケーションでは,トレーニングデータの質が重要なので,その質を評価する指標を開発することが重要である。本稿では,生成モデルが生成したデータセットを評価するために,多面的アプローチを採用するフレームワークを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: For researchers leveraging Large-Language Models (LLMs) in the generation of training datasets, especially for conversational recommender systems - the absence of robust evaluation frameworks has been a long-standing problem. The efficiency brought about by LLMs in the data generation phase is impeded during the process of evaluation of the generated data, since it generally requires human-raters to ensure that the data generated is of high quality and has sufficient diversity. Since the quality of training data is critical for downstream applications, it is important to develop metrics that evaluate the quality holistically and identify biases. In this paper, we present a framework that takes a multi-faceted approach towards evaluating datasets produced by generative models and discuss the advantages and limitations of various evaluation methods.
Abstract（参考訳）: 大規模言語モデル(llms)をトレーニングデータセット、特に会話型レコメンデーションシステムの生成に活用する研究者にとって、堅牢な評価フレームワークの欠如は長年の問題だった。データ生成段階でllmsによってもたらされる効率は、一般的には、生成されたデータが高品質で十分な多様性を有することを保証するために、人手が要求されるため、生成データの評価の過程で阻害される。ダウンストリームアプリケーションでは,トレーニングデータの質が重要となるため,品質を水平的に評価し,バイアスを識別する指標を開発することが重要である。本稿では,生成モデルによって生成されたデータセットを評価するための多面的アプローチを用いて,様々な評価手法の利点と限界について議論する。

関連論文リスト

Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability [41.23032741638842]
本稿では,データセットレビュープロセスに,体系的な記述型評価指標を組み込むことを提唱する。我々は、人間とモデル生成データセットの品質を評価するための構造化フレームワークであるDataRubricsを紹介する。
論文参考訳（メタデータ） (2025-06-02T15:31:52Z)
Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets [0.0]
近年,RAG(Retrieval-Augmented Generation)が著しく進歩している。 RAGの複雑さは、体系的な評価と品質向上に重大な課題をもたらす。本研究は,63の学術論文を体系的にレビューし,最新のRAG評価手法を概観する。
論文参考訳（メタデータ） (2025-04-28T08:22:19Z)
Enhancing Machine Learning Performance through Intelligent Data Quality Assessment: An Unsupervised Data-centric Framework [0.0]
不適切なデータ品質は機械学習(ML)の有利なパワーを制限する本稿では,高品質なデータを特定し,MLシステムの性能を向上させるインテリジェントなデータ中心評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-18T18:01:36Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Unveiling Context-Aware Criteria in Self-Assessing LLMs [28.156979106994537]
本研究では, 文脈認識基準(SALC)を各評価インスタンスに適した動的知識と統合した, 自己評価 LLM フレームワークを提案する。経験的評価は,本手法が既存のベースライン評価フレームワークを著しく上回っていることを示す。また,AlpacaEval2リーダボードにおけるLCWin-Rateの改善を,選好データ生成に使用する場合の12%まで改善した。
論文参考訳（メタデータ） (2024-10-28T21:18:49Z)
Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs [11.24476329991465]
外部ツール使用のための大規模言語モデル(LLM)のトレーニングは、急速に拡大する分野である。体系的なデータ品質チェックの欠如は、モデルを適切にトレーニングし、テストするための複雑さを引き起こす。外部ツールを用いたLCMのトレーニングにおいて,データの信頼性を評価するための2つの手法を提案する。
論文参考訳（メタデータ） (2024-09-24T17:20:02Z)
Progressively Label Enhancement for Large Language Model Alignment [42.01694160556464]
大きな言語モデル(LLM)のアライメントは、モデルが人間の期待に反するコンテンツを生成するのを防ぐことを目的としている。生成したデータの進化的品質に基づいてモデルのトレーニングプロセスを動的に調整するフレームワークであるPLEを提案する。
論文参考訳（メタデータ） (2024-08-05T16:21:17Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
Artificial Inductive Bias for Synthetic Tabular Data Generation in Data-Scarce Scenarios [8.062368743143388]
人工的帰納バイアスを生成プロセスに統合し,データ品質を向上させる手法を提案する。我々は、事前学習、モデル平均化、モデル非依存メタラーニング(MAML)、ドメイン探索(DRS)の4つのアプローチを評価し、生成したテキストの品質への影響を分析する。実験結果から,帰納的バイアスを取り入れることで,メタラーニングよりも優れた伝達学習法が実現された。
論文参考訳（メタデータ） (2024-07-03T12:53:42Z)
Dataset Regeneration for Sequential Recommendation [69.93516846106701]
DR4SRと呼ばれるモデルに依存しないデータセット再生フレームワークを用いて、理想的なトレーニングデータセットを開発するためのデータ中心のパラダイムを提案する。データ中心のパラダイムの有効性を示すために、我々はフレームワークを様々なモデル中心の手法と統合し、4つの広く採用されているデータセット間で大きなパフォーマンス改善を観察する。
論文参考訳（メタデータ） (2024-05-28T03:45:34Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。 SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文参考訳（メタデータ） (2023-08-08T16:41:16Z)
AUGUST: an Automatic Generation Understudy for Synthesizing Conversational Recommendation Datasets [56.052803235932686]
本稿では,大規模かつ高品質なレコメンデーションダイアログを生成する新しい自動データセット合成手法を提案する。 i)従来のレコメンデーションデータセットからの豊富なパーソナライズされたユーザプロファイル、(ii)知識グラフからの豊富な外部知識、(iii)人間対人間会話レコメンデーションデータセットに含まれる会話能力。
論文参考訳（メタデータ） (2023-06-16T05:27:14Z)
GMValuator: Similarity-based Data Valuation for Generative Models [41.76259565672285]
生成モデル評価器(GMValuator, Generative Model Valuator, GMValuator, GMValuator)を導入した。 GMValuatorは、その有効性を示すために、様々なデータセットや生成アーキテクチャで広く評価されている。
論文参考訳（メタデータ） (2023-04-21T02:02:02Z)
Exploring the Efficacy of Automatically Generated Counterfactuals for Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文参考訳（メタデータ） (2021-06-29T10:27:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。