論文の概要: Dipper: Diversity in Prompts for Producing Large Language Model Ensembles in Reasoning tasks
- arxiv url: http://arxiv.org/abs/2412.15238v2
- Date: Fri, 24 Oct 2025 18:28:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.347076
- Title: Dipper: Diversity in Prompts for Producing Large Language Model Ensembles in Reasoning tasks
- Title(参考訳): Dipper: 推論タスクにおける大規模言語モデルアンサンブルのためのプロンプトの多様性
- Authors: Gregory Kang Ruey Lau, Wenyang Hu, Diwen Liu, Jizhuo Chen, See-Kiong Ng, Bryan Kian Hsiang Low,
- Abstract要約: DIPPERは、単一の大規模言語モデル(LLM)を効果的な推論時間アンサンブルに変換する、トレーニング不要のフレームワークである。
モデルに最適化された多様なプロンプトのセットを並列に供給することで、DIPPERは様々な推論パスを持ち込み、パフォーマンスの向上につながった。
我々は,3つのQwen2-MATH-1.5BインスタンスのDIPPERアンサンブルがより大きな7Bモデルより優れているMATHなどの推論ベンチマークにおいて,顕著な改善を実証的に示す。
- 参考スコア(独自算出の注目度): 77.40114523163892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), particularly smaller variants, still struggle with complex reasoning tasks. While inference-time prompting can guide reasoning, existing methods often rely on sequential queries. Ensemble approaches offer a promising path to performance gains, especially given recent batch inference speed-ups. This work introduces DIPPER, a novel, training-free framework that transforms a single LLM into an effective inference-time ensemble. By feeding the model an optimized and diverse set of prompts in parallel, DIPPER elicits varied reasoning paths, leading to performance gains. We empirically demonstrate significant improvements on reasoning benchmarks, such as MATH, where a DIPPER ensemble of three Qwen2-MATH-1.5B instances (via parallel prompting of a single model) outperforms a larger 7B model.
- Abstract(参考訳): 大規模言語モデル(LLM)、特に小さな変種は、複雑な推論タスクに苦戦している。
推論時間プロンプトは推論を導くことができるが、既存のメソッドはシーケンシャルなクエリに依存することが多い。
Ensembleアプローチは、特に最近のバッチ推論のスピードアップを考えると、パフォーマンス向上への有望な道を提供する。
DIPPERは、単一のLLMを効果的な推論時間アンサンブルに変換する、新しい、トレーニング不要のフレームワークである。
モデルに最適化された多様なプロンプトのセットを並列に供給することで、DIPPERは様々な推論パスを持ち込み、パフォーマンスの向上につながった。
例えばMATHでは,3つのQwen2-MATH-1.5BインスタンスのDIPPERアンサンブル(単一モデルの並列プロンプトによる)が,より大きな7Bモデルを上回っている。
関連論文リスト
- Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques [14.892995952768352]
言語モデル(LM)は、テキスト生成、要約、質問応答といったタスクに優れています。
彼らの推論は計算コストが高く、ハードウェア、電力、帯域幅に制限のある設定でエネルギーを集中的に消費する。
近年のアプローチでは、クエリの複雑さに基づいて、動的に計算資源を割り当てる複数のLLMインテリジェントモデル選択戦略が導入されている。
論文 参考訳(メタデータ) (2025-06-06T23:13:08Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。
特定の論理的および数学的推論タスクに焦点を当てている。
このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-10-24T16:27:35Z) - EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。
提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文 参考訳(メタデータ) (2024-06-17T10:12:45Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Towards Unified Task Embeddings Across Multiple Models: Bridging the Gap for Prompt-Based Large Language Models and Beyond [16.913115978881866]
本稿では,単一ベクトル空間内において,より小さな言語モデルや多様なプロンプトを持つ大規模言語モデルを含む,様々なモデルからのタスク埋め込みである統合タスク埋め込み(FUTE)フレームワークを提案する。
このような一様性は、異なるモデル間の類似性の比較と分析を可能にし、マルチモデルシナリオにおける既存のタスク埋め込みメソッドの範囲と有用性を広げる。
論文 参考訳(メタデータ) (2024-02-22T13:13:31Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。