Fugu-MT 論文翻訳(概要): LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion

論文の概要: LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion

arxiv url: http://arxiv.org/abs/2306.02561v1
Date: Mon, 5 Jun 2023 03:32:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-06 17:10:17.324489
Title: LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion
Title（参考訳）: LLM-Blender: Pairwise RankingとGenerative Fusionを備えた大規模言語モデルの構築
Authors: Dongfu Jiang, Xiang Ren, Bill Yuchen Lin
Abstract要約: 私たちのフレームワークはPairRankerとGenFuserの2つのモジュールで構成されています。 PairRankerは、候補出力間の微妙な違いを区別するために、特殊なペアワイズ比較手法を使用している。 GenFuserは、上位候補をマージし、改善されたアウトプットを生成することを目的としている。
参考スコア（独自算出の注目度）: 33.73671362609599
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present LLM-Blender, an ensembling framework designed to attain consistently superior performance by leveraging the diverse strengths of multiple open-source large language models (LLMs). Our framework consists of two modules: PairRanker and GenFuser, addressing the observation that optimal LLMs for different examples can significantly vary. PairRanker employs a specialized pairwise comparison method to distinguish subtle differences between candidate outputs. It jointly encodes the input text and a pair of candidates, using cross-attention encoders to determine the superior one. Our results demonstrate that PairRanker exhibits the highest correlation with ChatGPT-based ranking. Then, GenFuser aims to merge the top-ranked candidates, generating an improved output by capitalizing on their strengths and mitigating their weaknesses. To facilitate large-scale evaluation, we introduce a benchmark dataset, MixInstruct, which is a mixture of multiple instruction datasets featuring oracle pairwise comparisons. Our LLM-Blender significantly outperform individual LLMs and baseline methods across various metrics, establishing a substantial performance gap.
Abstract（参考訳）: llm-blenderは,複数のオープンソース大規模言語モデル(llm)の多様な強みを活用して,一貫して優れたパフォーマンスを実現するためのフレームワークである。 pairranker と genfuser という2つのモジュールで構成されており、異なる例に対する最適な llm の観測に対処しています。 PairRankerは、候補出力間の微妙な違いを区別するために、特殊なペアワイズ比較手法を使用している。入力テキストと候補のペアを共同でエンコードし、クロスアテンションエンコーダを使用して上位のテキストを決定する。以上の結果から,PairRankerはChatGPTによるランキングよりも高い相関を示した。そしてGenFuserは、上位候補をマージし、その強みを活かして弱点を緩和することで、改善されたアウトプットを生成する。大規模評価を容易にするために,オラクル対比較を特徴とする複数の命令データセットを混合したベンチマークデータセットMixInstructを導入する。我々のLLM-Blenderは、様々な指標で個々のLLMとベースラインメソッドを著しく上回り、大きなパフォーマンスギャップを確立しました。

関連論文リスト

OrdMoE: Preference Alignment via Hierarchical Expert Group Ranking in Multimodal Mixture-of-Experts LLMs [22.92427011496289]
我々は、外部の人間の嗜好への依存を回避できる新しい嗜好アライメントフレームワークOrdMoEを提案する。 OrdMoEは、専門家をランク付けした階層に分類することで、内部の選好階層を構築する。これにより、生成した応答に対してゼロコストで自己監督された優先順序が得られる。
論文参考訳（メタデータ） (2025-11-24T11:59:31Z)
UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning [101.62386137855704]
本稿では,Universal Multimodal Embedding (UniME-V2)モデルを提案する。提案手法はまず,グローバル検索による潜在的な負のセットを構築する。次に、MLLMを用いてクエリ候補対のセマンティックアライメントを評価するMLLM-as-a-Judge機構を提案する。これらのスコアは、ハード・ネガティブ・マイニングの基礎となり、偽陰性の影響を緩和し、多様な高品質なハード・ネガティブの識別を可能にする。
論文参考訳（メタデータ） (2025-10-15T13:07:00Z)
A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis [43.746749403268275]
大規模言語モデル(LLM)は、計算コスト、環境不効率、モノリシックアーキテクチャから受け継いだ潜在的なバイアスに悩まされる。我々は、高品質で多様な信頼性のあるデータを生成するために、小さなLLMにまたがる特殊な役割を集約する協調的なフレームワークGRAを提案する。本研究は,データ合成におけるモノリシックな大規模モデルの必要性に挑戦し,より小さなエージェントの戦略的コーディネーションを提唱する。
論文参考訳（メタデータ） (2025-04-11T06:13:43Z)
ConSCompF: Consistency-focused Similarity Comparison Framework for Generative Large Language Models [19.479612569318412]
生成型大規模言語モデルのための一貫性に着目した類似性比較フレームワーク(ConSCompF)を提案する。 2つのLCMによって生成されたテキストを比較し、類似度スコアを生成し、それらのレスポンス間の全体的な類似度を示す。
論文参考訳（メタデータ） (2025-03-18T05:38:04Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。我々の研究は、既存のLCMスケーリングテクニック、特に選択的マージと混合のバリエーションのベンチマークから始まります。我々の手法は、マージ可能なモデルのクラスタリングと最適なマージ戦略選択、モデルミックスによるクラスタの統合を含む。
論文参考訳（メタデータ） (2024-10-07T15:55:55Z)
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文参考訳（メタデータ） (2024-09-27T08:20:59Z)
PEDAL: Enhancing Greedy Decoding with Large Language Models using Diverse Exemplars [1.450405446885067]
多様な推論経路を持つ自己認識技術は、大言語モデル(LLM)を用いたテキスト生成において顕著な性能向上を示した。 PEDALは,多種多様な模範的プロンプトの強みとLLMに基づくアグリゲーションを組み合わせて,総合的な性能向上を実現するハイブリッドな自己組織化手法である。
論文参考訳（メタデータ） (2024-08-16T17:54:09Z)
SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なタスクで顕著な成功を収めたため、人気が高まっている。しかしながら、個々のLLMは、トレーニングバイアス、モデルサイズ、使用されるデータセットなどの要因のために、複雑なタスクに適用する場合に制限がある。本稿では,入力クエリを大規模プールからLLMの最も適切なサブセットに誘導する新しいアルゴリズムであるSelectLLMを紹介する。
論文参考訳（メタデータ） (2024-08-16T06:11:21Z)
Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
Match, Compare, or Select? An Investigation of Large Language Models for Entity Matching [47.01589023992927]
我々は、複数の戦略と大規模言語モデル(LLM)の構成を利用する複合エンティティマッチングフレームワーク(ComEM)を設計する。 ComEMは、異なる側面の利点から恩恵を受け、効率性と効率性の両方の改善を実現します。 8つのERデータセットと9つのLLMによる実験結果は、選択戦略によりレコード相互作用を組み込むことの優位性を検証した。
論文参考訳（メタデータ） (2024-05-27T07:05:27Z)
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文参考訳（メタデータ） (2024-05-18T12:16:01Z)
Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文参考訳（メタデータ） (2024-04-23T08:24:43Z)
Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文参考訳（メタデータ） (2023-11-15T04:40:43Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。