論文の概要: Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging
- arxiv url: http://arxiv.org/abs/2405.12163v1
- Date: Mon, 20 May 2024 16:47:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 12:45:20.546372
- Title: Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging
- Title(参考訳): Fennec: ブランチとブリッジによって拡張されたきめ細かい言語モデルの評価と補正
- Authors: Xiaobo Liang, Haoke Zhang, Helan hu, Juntao Li, Jun Xu, Min Zhang,
- Abstract要約: 我々は, bntextbfChing および bridging を用いて, textbfFine の粒度のtextbfEvaluatiotextbfN textbfExtended を実現するためのステップバイステップ評価フレームワーク textbfFennec を提案する。
評価モデルにより誘導される微粒化補正機能を用いて、複数のモデル応答を洗練し、MT-Bench上の1-2点の改善をもたらす。
- 参考スコア(独自算出の注目度): 25.078498180620425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large language models has given rise to a plethora of applications across a myriad of real-world tasks, mainly centered on aligning with human intent. However, the complexities inherent in human intent necessitate a dependence on labor-intensive and time-consuming human evaluation. To alleviate this constraint, we delve into the paradigm of employing open-source large language models as evaluators, aligning with the prevailing trend of utilizing GPT-4. Particularly, we present a step-by-step evaluation framework: \textbf{Fennec}, capable of \textbf{F}ine-grained \textbf{E}valuatio\textbf{N} and correctio\textbf{N} \textbf{E}xtended through bran\textbf{C}hing and bridging. Specifically, the branching operation dissects the evaluation task into various dimensions and granularities, thereby alleviating the challenges associated with evaluation. Concurrently, the bridging operation amalgamates diverse training datasets, augmenting the variety of evaluation tasks. In experimental trials, our 7B model consistently outperforms open-source larger-scale evaluation models across various widely adopted benchmarks in terms of both \textit{Agreement} and \textit{Consistency}, closely approaching the capabilities of GPT-4. We employ the fine-grained correction capabilities induced by the evaluation model to refine multiple model responses, and the results show that the refinement elevates the quality of responses, leading to an improvement of 1-2 points on the MT-Bench. Our code is available at Github\footnote{\url{https://github.com/dropreg/Fennec}}.
- Abstract(参考訳): 大規模言語モデルの急速な進歩は、主に人間の意図に合わせることに焦点を当てた、無数の現実世界のタスクにまたがる多くの応用をもたらした。
しかし、人間の意図に固有の複雑さは、労働集約的かつ時間を要する人間の評価に依存する必要がある。
この制約を緩和するため,オープンソースの大規模言語モデルを評価対象として活用するパラダイムを探求し,GPT-4の利用傾向と整合する。
特に、ステップバイステップ評価フレームワークを提案する: \textbf{F}ine-fine \textbf{E}valuatio\textbf{N} と correctio\textbf{N} \textbf{E}xtended through bran\textbf{C}hing and bridging。
具体的には, 分岐操作により, 評価タスクを様々な次元と粒度に分割し, 評価に伴う課題を軽減する。
同時に、ブリッジング操作は多様なトレーニングデータセットに適合し、さまざまな評価タスクを増強する。
実験では,GPT-4の能力に近づき,さまざまな広く採用されているベンチマークにおいて,我々の7Bモデルは,オープンソースの大規模評価モデルよりも常に優れています。
評価モデルにより誘導される微粒化補正機能を用いて複数のモデル応答を洗練し, 改良により応答の質が向上し, MT-Benchでは1-2点の改善が得られた。
私たちのコードはGithub\footnote{\url{https://github.com/dropreg/Fennec}}で公開されています。
関連論文リスト
- Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction [10.428174043080622]
大規模言語モデルは現実世界のアプリケーションで顕著に使われ、しばしば大量の文書を推論する。
本稿では,標準テストの限界に対処する評価フレームワークであるSWiMを提案する。
また,この効果を緩和する,単純かつ効果的なトレーニングフリーアプローチであるメドイド投票を提案する。
論文 参考訳(メタデータ) (2024-07-04T05:46:20Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。