Fugu-MT 論文翻訳(概要): Generative Judge for Evaluating Alignment

論文の概要: Generative Judge for Evaluating Alignment

arxiv url: http://arxiv.org/abs/2310.05470v2
Date: Thu, 7 Dec 2023 08:48:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 18:25:57.713393
Title: Generative Judge for Evaluating Alignment
Title（参考訳）: アライメントを評価するための生成的裁判官
Authors: Junlong Li, Shichao Sun, Weizhe Yuan, Run-Ze Fan, Hai Zhao, Pengfei Liu
Abstract要約: 本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
参考スコア（独自算出の注目度）: 84.09815387884753
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The rapid development of Large Language Models (LLMs) has substantially expanded the range of tasks they can address. In the field of Natural Language Processing (NLP), researchers have shifted their focus from conventional NLP tasks (e.g., sequence tagging and parsing) towards tasks that revolve around aligning with human needs (e.g., brainstorming and email writing). This shift in task distribution imposes new requirements on evaluating these aligned models regarding generality (i.e., assessing performance across diverse scenarios), flexibility (i.e., examining under different protocols), and interpretability (i.e., scrutinizing models with explanations). In this paper, we propose a generative judge with 13B parameters, Auto-J, designed to address these challenges. Our model is trained on user queries and LLM-generated responses under massive real-world scenarios and accommodates diverse evaluation protocols (e.g., pairwise response comparison and single-response evaluation) with well-structured natural language critiques. To demonstrate the efficacy of our approach, we construct a new testbed covering 58 different scenarios. Experimentally, Auto-J outperforms a series of strong competitors, including both open-source and closed-source models, by a large margin. We also provide detailed analysis and case studies to further reveal the potential of our method and make a variety of resources public at https://github.com/GAIR-NLP/auto-j.
Abstract（参考訳）: 大規模言語モデル(llms)の急速な開発は、彼らが対処できるタスクの範囲を大きく広げた。自然言語処理(NLP)の分野では、研究者は従来のNLPタスク(例えば、シーケンスタグ付けや解析)から、人間の要求に沿ったタスク(例えば、ブレインストーミングや電子メールの書き込み)へと焦点を移した。このタスク分散の変化は、汎用性(さまざまなシナリオにおけるパフォーマンス評価)、柔軟性(異なるプロトコル下での検証)、解釈可能性(説明付きモデルの精査)に関するこれらの整合モデルを評価する上で、新たな要件を課す。本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。本モデルは,大規模な実世界シナリオ下でユーザクエリとllm生成応答を訓練し,構造化された自然言語批判に対して,多様な評価プロトコル(ペアワイズ応答比較や単一応答評価など)を適応させる。提案手法の有効性を示すため,58のシナリオをカバーする新しいテストベッドを構築した。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力な競争相手をはるかに上回っている。また,本手法の可能性を明らかにするための詳細な分析とケーススタディをhttps://github.com/GAIR-NLP/auto-j.で公開しています。

関連論文リスト

Evaluating Generalization and Representation Stability in Small LMs via Prompting, Fine-Tuning and Out-of-Distribution Prompts [2.377892000761193]
本稿では,小型言語モデルの2つの適応パラダイムに基づく一般化能力について検討する。本研究は,小モデルが適応戦略の異なる知識を内在化し,一般化する過程において,重要な違いを呈するものである。
論文参考訳（メタデータ） (2025-06-16T01:44:26Z)
Eye of Judgement: Dissecting the Evaluation of Russian-speaking LLMs with POLLUX [1.3269144777389015]
POLLUXは、ロシア語で大規模言語モデル(LLM)の生成能力を評価するために設計されたベンチマークである。各タスクタイプについて、一連の詳細な基準を定義し、スコアリングプロトコルを開発する。これにより、従来のリソース消費による人的比較を超えて、透過的で基準駆動的な評価が可能になる。
論文参考訳（メタデータ） (2025-05-30T14:08:17Z)
Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
OLMES: A Standard for Language Model Evaluations [64.85905119836818]
OLMESは、再現可能な言語モデル評価のための文書化された、実用的な、オープンな標準である。これは、複数の質問の非自然的な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。 OLMESには、既存の文献の結果によってガイドされた、よく考えられたドキュメント化されたレコメンデーションと、オープンな質問を解決する新しい実験が含まれている。
論文参考訳（メタデータ） (2024-06-12T17:37:09Z)
Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation [9.390902237835457]
検索型大規模言語モデル(RAG)のタスク固有精度を計測する新しい手法を提案する。複数の選択質問からなる自動生成合成試験において、RAGをスコアリングして評価を行う。
論文参考訳（メタデータ） (2024-05-22T13:14:11Z)
Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging [25.078498180620425]
我々は, bntextbfChing および bridging を用いて, textbfFine の粒度のtextbfEvaluatiotextbfN textbfExtended を実現するためのステップバイステップ評価フレームワーク textbfFennec を提案する。評価モデルにより誘導される微粒化補正機能を用いて、複数のモデル応答を洗練し、MT-Bench上の1-2点の改善をもたらす。
論文参考訳（メタデータ） (2024-05-20T16:47:22Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。 LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文参考訳（メタデータ） (2023-06-07T06:29:58Z)
SimOAP: Improve Coherence and Consistency in Persona-based Dialogue Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文参考訳（メタデータ） (2023-05-18T17:23:00Z)
Large Language Models are Diverse Role-Players for Summarization Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-27T10:40:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。