Fugu-MT 論文翻訳(概要): Finetuning LLMs for Comparative Assessment Tasks

論文の概要: Finetuning LLMs for Comparative Assessment Tasks

arxiv url: http://arxiv.org/abs/2409.15979v1
Date: Tue, 24 Sep 2024 11:21:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 07:42:12.628664
Title: Finetuning LLMs for Comparative Assessment Tasks
Title（参考訳）: 比較評価課題のための微視的LLM
Authors: Vatsal Raina, Adian Liusie, Mark Gales,
Abstract要約: 比較評価のための大規模言語モデルを微調整するためのフレームワークを提案する。ソフト確率のトレーニングにより,本手法は最先端の性能を向上させる。
参考スコア（独自算出の注目度）: 9.05771474043499
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated assessment in natural language generation is a challenging task. Instruction-tuned large language models (LLMs) have shown promise in reference-free evaluation, particularly through comparative assessment. However, the quadratic computational complexity of pairwise comparisons limits its scalability. To address this, efficient comparative assessment has been explored by applying comparative strategies on zero-shot LLM probabilities. We propose a framework for finetuning LLMs for comparative assessment to align the model's output with the target distribution of comparative probabilities. By training on soft probabilities, our approach improves state-of-the-art performance while maintaining high performance with an efficient subset of comparisons.
Abstract（参考訳）: 自然言語生成における自動評価は難しい課題である。命令調整型大規模言語モデル(LLM)は、特に比較評価を通じて、参照なし評価において有望であることを示す。しかし、ペア比較の二次計算複雑性はスケーラビリティを制限している。これを解決するため、ゼロショットLLM確率に対する比較戦略を適用して効率的な比較評価を行った。モデル出力と相対確率の目標分布を一致させるために, 比較評価のためのLCMを微調整するフレームワークを提案する。ソフト確率のトレーニングにより,提案手法は高い性能を維持しつつ,比較の効率的なサブセットで最先端性能を向上する。

関連論文リスト

Generalised Probabilistic Modelling and Improved Uncertainty Estimation in Comparative LLM-as-a-judge [37.84914870036184]
既存のProduct-of-Expertsメソッドはより広範なフレームワークの特定のケースであり、多様なモデリングオプションを可能にします。個人比較に対する不確実性評価の改善を提案し、より効率的な選択を可能にし、より少ない評価で強靭な性能を達成する。
論文参考訳（メタデータ） (2025-05-21T08:16:18Z)
LCES: Zero-shot Automated Essay Scoring via Pairwise Comparisons Using Large Language Models [0.46040036610482665]
本稿では,AESをペア比較タスクとして定式化する方法であるLCES(Comparent Essay Scoring)を提案する。具体的には、2つのエッセイのどちらが優れているかを判断し、そのような比較を多く集め、それらを連続的なスコアに変換するようにLCMに指示する。 AESベンチマークデータセットを用いた実験により、LCESは計算効率を保ちながら従来のゼロショット法よりも精度が高いことが示された。
論文参考訳（メタデータ） (2025-05-13T12:26:16Z)
Using tournaments to calculate AUROC for zero-shot classification with LLMs [4.270472870948892]
大規模な言語モデルは、多くのゼロショット分類タスクで驚くほどよく機能する。本稿では,バイナリ分類タスクをペアワイズ比較タスクに変換する手法を提案し,評価する。繰り返しペアワイズ比較は、Eloレーティングシステムを使用してインスタンスのスコア付けに使用することができる。
論文参考訳（メタデータ） (2025-02-20T20:13:20Z)
A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文参考訳（メタデータ） (2024-12-24T12:54:19Z)
Varco Arena: A Tournament Approach to Reference-Free Benchmarking Large Language Models [0.29687381456164]
VARCO Arenaは、大規模言語モデルのための新しく、費用対効果が高く、堅牢なベンチマーク手法である。 VARCO Arenaは信頼性の高いLCMランキングを生成するだけでなく、質的評価のためのスケーラブルで適応可能なソリューションを提供する。
論文参考訳（メタデータ） (2024-11-02T15:23:28Z)
Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。 GEDは,モデルランキング,応答選択,モデルアライメントタスクにおいて,ベースライン手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-14T01:57:25Z)
Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。 1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文参考訳（メタデータ） (2024-09-19T01:58:19Z)
A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文参考訳（メタデータ） (2024-06-21T15:11:33Z)
The Comparative Trap: Pairwise Comparisons Amplifies Biased Preferences of LLM Evaluators [31.520403357740317]
大規模言語モデル (LLM) は、自然言語生成タスクの評価器としてますます使われている。 LLMは、冗長性や権威的なトーンを好むなど、バイアスのある好みを示す。ペアワイズフレームワークにポイントワイズ推論を統合するPRePairを導入する。
論文参考訳（メタデータ） (2024-06-18T06:43:04Z)
Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare [99.57567498494448]
我々はLMMに基づくノン参照IQAモデルであるCompare2Scoreを紹介する。トレーニング中、同じIQAデータセットの画像を比較することで、スケールアップ比較命令を生成する。 9つのIQAデータセットの実験により、Compare2Scoreは、トレーニング中にテキスト定義の比較レベルを効果的にブリッジすることを確認した。
論文参考訳（メタデータ） (2024-05-29T17:26:09Z)
Efficient LLM Comparative Assessment: a Product of Experts Framework for Pairwise Comparisons [10.94304714004328]
本稿では,効率的な比較評価のためのPoE(Product of Expert)フレームワークを紹介する。個人比較は、ペアのスコア差に関する情報を提供する専門家と見なされる。 PoEフレームワークは、これらの専門家からの情報を組み合わせて、基礎となる候補セットに関して最大化できる表現を生成する。
論文参考訳（メタデータ） (2024-05-09T16:45:27Z)
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。 LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。 Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文参考訳（メタデータ） (2024-03-25T17:11:28Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。 FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文参考訳（メタデータ） (2023-07-15T22:02:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。