論文の概要: Wider and Deeper LLM Networks are Fairer LLM Evaluators
- arxiv url: http://arxiv.org/abs/2308.01862v1
- Date: Thu, 3 Aug 2023 16:38:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 13:17:54.213902
- Title: Wider and Deeper LLM Networks are Fairer LLM Evaluators
- Title(参考訳): より広いLLMネットワークはより公平なLLM評価器である
- Authors: Xinghua Zhang, Bowen Yu, Haiyang Yu, Yangyu Lv, Tingwen Liu, Fei
Huang, Hongbo Xu, Yongbin Li
- Abstract要約: 新たなアプローチでは、LCM自体を使用して、複数の独立した評価を通じて結果を評価し、安定化する。
より広いネットワーク(多くのレビュアーを巻き込む)と2つのレイヤ(議論の1ラウンド)が最善であることを示す。
また、WideDeepを利用して中国のLCMの評価を支援し、評価時間を4.6倍に短縮し、60%のコスト削減を実現した。
- 参考スコア(独自算出の注目度): 40.92085123281095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring the quality of responses generated by LLMs is a challenging task,
particularly when it comes to evaluating whether the response is aligned with
human preference. A novel approach involves using the LLM itself to make
evaluation and stabilizing the results through multiple independent
evaluations, similar to a single-layer narrow LLM network. This network
consists of a fixed number of neurons, with each neuron being the same LLM. In
this paper, we draw upon the extensive research on deep neural networks to
explore whether deeper and wider networks can lead to fairer evaluations.
Specifically, inspired by the observation that different neurons in a neural
network are responsible for detecting different concepts, we first adaptively
generate as many neuron roles as possible for each evaluation sample. Each
perspective corresponds to the role of a specific LLM neuron in the first
layer. In subsequent layers, we follow the idea that higher layers in deep
networks are responsible for more comprehensive features, each layer receives
representations from all neurons in the previous layer, integrating the locally
learned evaluation information to obtain a more comprehensive evaluation
result. Interestingly, this network design resembles the process of academic
paper reviewing. To validate the effectiveness of our method, we construct the
largest and most diverse English evaluation benchmark LLMEval$^2$ for LLM
evaluators, comprising 15 tasks, 8 abilities, and 2,553 samples. Experimental
results demonstrate that a wider network (involving many reviewers) with 2
layers (one round of discussion) performs the best, improving kappa correlation
coefficient from 0.28 to 0.34. We also leverage WideDeep to aid in the
assessment of Chinese LLMs, which has accelerated the evaluation time by 4.6
times, resulting in a 60% cost saving. WideDeep achieves a remarkable 93%
agreement level among humans.
- Abstract(参考訳): LLMが生成する応答の質を測定することは、特に反応が人間の好みと一致しているかどうかを評価する場合、難しい課題である。
新たなアプローチでは、LLM自体を使用して、単一層狭LLMネットワークと同様に、複数の独立した評価によって結果を評価、安定化する。
このネットワークは一定数のニューロンで構成され、各ニューロンは同じLSMである。
本稿では、深層ニューラルネットワークに関する広範囲な研究から、より深いネットワークがより公平な評価に繋がるかどうかを考察する。
具体的には、ニューラルネットワーク内の異なるニューロンが異なる概念を検出する役割を担っているという観察から着想を得て、評価サンプル毎に可能な限り多くのニューロンの役割を適応的に生成する。
各視点は、第1層における特定のLDMニューロンの役割に対応する。
その後の層では、ディープネットワークの上位層がより包括的な特徴を担っているという考えに従い、各層は前層のニューロンから表現を受け取り、局所的に学習した評価情報を統合してより包括的な評価結果を得る。
興味深いことに、このネットワーク設計は学術論文レビューのプロセスに似ている。
提案手法の有効性を検証するため,15タスク,8能力,2,553サンプルからなるLLMEval$^2$ for LLM評価器について,最大かつ多種多様な評価ベンチマークLLMEval$^2$を構築した。
実験の結果,2層(1ラウンドの議論)の広いネットワーク(多くのレビュアーを含む)が最適であり,カッパ相関係数が0.28から0.34に向上した。
また、WideDeepを利用して中国のLCMの評価を支援し、評価時間を4.6倍に短縮し、60%のコスト削減を実現した。
WideDeepは、人間の93%の合意を達成している。
関連論文リスト
- The Fellowship of the LLMs: Multi-Agent Workflows for Synthetic Preference Optimization Dataset Generation [4.524402497958597]
本稿では,マルチエージェントを用いた合成優先度最適化(PO)データセットの生成手法を提案する。
データセット生成プロセスの自動化と向上において,これらの有効性と可能性を評価する。
論文 参考訳(メタデータ) (2024-08-16T12:01:55Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [19.130941716491716]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - Deep Learning with a Classifier System: Initial Results [0.0]
本稿では,ディープニューラルネットワークを用いた適応計算が可能な学習分類器システムを用いた最初の結果を示す。
最大予測誤差を達成した後、性能を維持しつつ、重みとユニットの数を自動で削減する。
論文 参考訳(メタデータ) (2021-03-01T16:40:12Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。