Fugu-MT 論文翻訳(概要): SkillAggregation: Reference-free LLM-Dependent Aggregation

論文の概要: SkillAggregation: Reference-free LLM-Dependent Aggregation

arxiv url: http://arxiv.org/abs/2410.10215v1
Date: Mon, 14 Oct 2024 07:13:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 02:24:44.254691
Title: SkillAggregation: Reference-free LLM-Dependent Aggregation
Title（参考訳）: Skill Aggregation: 参照不要 LLM-Dependent Aggregation
Authors: Guangzhi Sun, Anmol Kagrecha, Potsawee Manakul, Phil Woodland, Mark Gales,
Abstract要約: 大規模言語モデル(LLM)は、NLPタスクの評価にますます使用される。最近の研究は、審査員が性能を向上させるために複数のLLMを使うことを示唆している。この研究は、参照ラベルが使用できない複数のシステムからの予測を集約することに焦点を当てている。
参考スコア（独自算出の注目度）: 14.46141987797362
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are increasingly used to assess NLP tasks due to their ability to generate human-like judgments. Single LLMs were used initially, however, recent work suggests using multiple LLMs as judges yields improved performance. An important step in exploiting multiple judgements is the combination stage, aggregation. Existing methods in NLP either assign equal weight to all LLM judgments or are designed for specific tasks such as hallucination detection. This work focuses on aggregating predictions from multiple systems where no reference labels are available. A new method called SkillAggregation is proposed, which learns to combine estimates from LLM judges without needing additional data or ground truth. It extends the Crowdlayer aggregation method, developed for image classification, to exploit the judge estimates during inference. The approach is compared to a range of standard aggregation methods on HaluEval-Dialogue, TruthfulQA and Chatbot Arena tasks. SkillAggregation outperforms Crowdlayer on all tasks, and yields the best performance over all approaches on the majority of tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、人間のような判断を生成する能力のため、NLPタスクの評価にますます使用される。最初は単一LSMが用いられたが、近年の研究では、審査員が性能を向上させるために複数のLSMを使用することが提案されている。複数の判断を活用するための重要なステップは、組み合わせステージ、集約である。 NLPの既存の方法は全てのLLM判定に等しい重量を割り当てるか、幻覚検出のような特定のタスクのために設計されている。この研究は、参照ラベルが使用できない複数のシステムからの予測を集約することに焦点を当てている。 SkillAggregationと呼ばれる新しい手法が提案され、LLMの審査員による推定を、追加のデータや地上の真実を必要とせずに組み合わせることを学ぶ。これは、画像分類のために開発された群衆層集約法を拡張し、推論中の判定推定値を活用する。このアプローチは、HaluEval-Dialogue、TruthfulQA、Chatbot Arenaタスクの一連の標準集約手法と比較される。 SkillAggregationは、すべてのタスクでCrowdlayerを上回り、ほとんどのタスクにおいて、すべてのアプローチで最高のパフォーマンスを得る。

関連論文リスト

Bootstrapping MLLM for Weakly-Supervised Class-Agnostic Object Counting [59.37613121962146]
本稿では,クラスに依存しないオブジェクトカウントのためのMLLM駆動型弱教師付きフレームワークWS-COCを提案する。 WS-COCは、多くの最先端の完全に管理されたメソッドと一致し、また、アノテーションのコストを大幅に削減します。
論文参考訳（メタデータ） (2026-02-13T09:58:35Z)
Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文参考訳（メタデータ） (2026-02-07T19:39:28Z)
JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation [13.831735556002426]
小型言語モデル(SLM)は様々な推論タスクを約束している。解答の正しさを判断する能力は、大言語モデル(LLM)と比較しても明らかでない。
論文参考訳（メタデータ） (2025-11-20T01:14:39Z)
Can We Hide Machines in the Crowd? Quantifying Equivalence in LLM-in-the-loop Annotation Tasks [8.246529401043128]
我々は、人間とLLMの両方によるラベル付け決定が、個人間で統計的に評価される方法について検討することを目指している。 Krippendorffの$alpha$, paired bootstrapping, and the Two One-Sided t-Tests (TOST) equivalence test procedureに基づく統計的評価法を開発した。このアプローチをMovieLens 100K と PolitiFact という2つのデータセットに適用すると、LCM が前者の人間のアノテーションと統計的に区別できないことが分かる。
論文参考訳（メタデータ） (2025-10-08T05:17:33Z)
On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
Leveraging LLMs as Meta-Judges: A Multi-Agent Framework for Evaluating LLM Judgments [6.270885758858811]
大規模言語モデル(LLM)は様々な分野に広く適用されているが、タスクが複雑化するにつれて、その応答を評価することはますます困難になっている。提案する3段階のメタジャッジ選択パイプラインは,1) GPT-4とヒトの専門家による包括的ルーリックの開発,2) 3つの高度なLCMエージェントによる判定,3)低スコア判定の除去のためのしきい値の適用,である。ジャッジベンチデータセットの実験結果は、生判定と比較して約15.55%改善し、単エージェントベースラインよりも約8.37%改善したことを示している。
論文参考訳（メタデータ） (2025-04-23T20:32:12Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
100 instances is all you need: predicting the success of a new LLM on unseen data by testing on a few instances [11.783547185760007]
従来試験されていたLCMの評価結果を用いて,新たなLCMの性能予測に必要な評価回数を削減する。既存の推論データセットの集合であるHELM-LiteとKidsOfReasoningについて実証的研究を行った。
論文参考訳（メタデータ） (2024-09-05T14:19:45Z)
LAMPO: Large Language Models as Preference Machines for Few-shot Ordinal Classification [34.9210323553677]
LAMPOは,Large Language Models (LLMs) を多クラス順序分類タスクに応用した新しいパラダイムである。 7つの公開データセットに関する大規模な実験は、多様なアプリケーションにわたるLAMPOの極めて競争力のあるパフォーマンスを示している。
論文参考訳（メタデータ） (2024-08-06T15:55:05Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。本稿では,MLLMの検索とランク付けのための拡張手法を提案する。提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文参考訳（メタデータ） (2024-03-20T17:59:55Z)
Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文参考訳（メタデータ） (2024-03-04T16:23:58Z)
PiCO: Peer Review in LLMs based on the Consistency Optimization [19.130941716491716]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文参考訳（メタデータ） (2024-02-02T18:49:26Z)
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文参考訳（メタデータ） (2023-11-20T07:06:31Z)
Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文参考訳（メタデータ） (2023-11-15T04:40:43Z)
Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction [15.793007223588672]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法で新しいタスクに一般化する際、例外的な機能を示した。我々は,2億5000万から540Bのパラメータを多種多様なサイズで検討し,その性能をゼロショット,少数ショット,微調整のシナリオで評価した。
論文参考訳（メタデータ） (2023-05-10T21:43:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。