Fugu-MT 論文翻訳(概要): Learning Personalized Alignment for Evaluating Open-ended Text Generation

論文の概要: Learning Personalized Alignment for Evaluating Open-ended Text Generation

arxiv url: http://arxiv.org/abs/2310.03304v5
Date: Fri, 04 Oct 2024 03:58:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 07:57:27.779144
Title: Learning Personalized Alignment for Evaluating Open-ended Text Generation
Title（参考訳）: オープンエンドテキスト生成評価のためのパーソナライズされたアライメントの学習
Authors: Danqing Wang, Kevin Yang, Hanlin Zhu, Xiaomeng Yang, Andrew Cohen, Lei Li, Yuandong Tian,
Abstract要約: PerSEは、特定の人間の好みに合わせてアライメントを評価するために設計された解釈可能な評価フレームワークである。テキスト内個人プロファイルから特定の好みを推測し、生成されたコンテンツと個人の好みとの整合性を評価するように調整される。当社の13B LLaMA-2ベースのPerSEは、ケダル相関が15.8%増加し、ゼロショットレビュアーによる13.7%の精度向上を示している。
参考スコア（独自算出の注目度）: 44.565686959174585
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent research has increasingly focused on evaluating large language models' (LLMs) alignment with diverse human values and preferences, particularly for open-ended tasks like story generation. Traditional evaluation metrics rely heavily on lexical similarity with human-written references, often showing poor correlation with human judgments and failing to account for alignment with the diversity of human preferences. To address these challenges, we introduce PerSE, an interpretable evaluation framework designed to assess alignment with specific human preferences. It is tuned to infer specific preferences from an in-context personal profile and evaluate the alignment between the generated content and personal preferences. PerSE enhances interpretability by providing detailed comments and fine-grained scoring, facilitating more personalized content generation. Our 13B LLaMA-2-based PerSE shows a 15.8% increase in Kendall correlation and a 13.7% rise in accuracy with zero-shot reviewers compared to GPT-4. It also outperforms GPT-4 by 46.01% in Kendall correlation on new domains, indicating its transferability.
Abstract（参考訳）: 最近の研究は、大きな言語モデル(LLM)とさまざまな人間の価値観や好みとの整合性、特にストーリー生成のようなオープンなタスクの評価に重点を置いている。従来の評価指標は、人間の記述した基準と語彙的類似性に大きく依存しており、しばしば人間の判断と相関が低く、人間の嗜好の多様性と一致しない。これらの課題に対処するために、我々は、特定の人間の嗜好に合わせてアライメントを評価するために設計された解釈可能な評価フレームワークPerSEを紹介した。テキスト内個人プロファイルから特定の好みを推測し、生成されたコンテンツと個人の好みとの整合性を評価するように調整される。 PerSEは詳細なコメントと詳細なスコアリングを提供することで解釈可能性を高め、よりパーソナライズされたコンテンツ生成を容易にする。我々の13B LLaMA-2ベースのPerSEは、GPT-4と比較してケンドール相関が15.8%増加し、ゼロショットレビュアーの精度が13.7%上昇している。また、新しいドメインでのケンドール相関ではGPT-4を46.01%上回り、転送可能性を示している。

関連論文リスト

When Personalization Meets Reality: A Multi-Faceted Analysis of Personalized Preference Learning [23.557084253364174]
ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、一般的に、多様な人間の価値観や少数派視点を見越して、ユーザ間で均質な好みを仮定する。本稿では,多面的評価フレームワークを提案する。このフレームワークは,性能だけでなく,不公平性,意図しない効果,適応性など,様々なレベルの嗜好のばらつきを計測する。これらの知見は、より効果的で包括的な選好学習システムの開発を進めるための全体論的評価アプローチの批判的必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-02-26T14:14:58Z)
SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。 SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文参考訳（メタデータ） (2025-01-26T16:45:09Z)
CRoP: Context-wise Robust Static Human-Sensing Personalization [7.303478793193849]
この研究は、新しい静的パーソナライズアプローチであるCRoPを導入している。 CRoPは、最小限のサブネットワーク上で適応的なプルーニングを行い、残りのパラメータの一般的な知識を保持しながら、ユーザ固有の特性をキャプチャする。現実世界の健康ドメインの2つを含む4つの人間センシングデータセットに対して、パーソナライズの有効性とユーザ内ロバスト性を向上する。
論文参考訳（メタデータ） (2024-09-26T16:06:38Z)
Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文参考訳（メタデータ） (2024-07-05T09:26:40Z)
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.66784679667441]
プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。 4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
論文参考訳（メタデータ） (2024-05-02T17:59:35Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
Automated Evaluation of Personalized Text Generation using Large Language Models [38.2211640679274]
生成したテキストの3つの主要な意味的側面(パーソナライズ、品質、関連性)を抽出し、これらの側面を自動的に測定する新しい評価手法であるAuPELを提案する。既存の評価指標と比較して、AuPELはパーソナライズ能力に基づいてモデルの識別とランク付けを行うだけでなく、このタスクに対する信頼できる一貫性と効率を示す。
論文参考訳（メタデータ） (2023-10-17T21:35:06Z)
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。 Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文参考訳（メタデータ） (2023-10-12T16:50:08Z)
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文参考訳（メタデータ） (2023-07-20T14:56:35Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文参考訳（メタデータ） (2021-06-02T19:58:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。