Fugu-MT 論文翻訳(概要): One Prompt is not Enough: Automated Construction of a Mixture-of-Expert Prompts

論文の概要: One Prompt is not Enough: Automated Construction of a Mixture-of-Expert Prompts

arxiv url: http://arxiv.org/abs/2407.00256v1
Date: Fri, 28 Jun 2024 23:05:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 05:50:47.919881
Title: One Prompt is not Enough: Automated Construction of a Mixture-of-Expert Prompts
Title（参考訳）: 1つのプロンプトは十分ではない:混合型プロンプットの自動構築
Authors: Ruochen Wang, Sohyun An, Minhao Cheng, Tianyi Zhou, Sung Ju Hwang, Cho-Jui Hsieh,
Abstract要約: 大規模言語モデル(LLM)は、言語命令やコンテキスト内デモによって、強力な一般化能力を示す。命令設計を自動化するために様々な手法が検討されてきたが、探索されたプロンプトを1つの命令に制限した。我々はMixture-of-Expertパラダイムを採用し、問題空間を一連のサブリージョンに分割する。地域ごとに専門的な専門家を構築するための2段階のプロセスが開発されている。専門家1人当たりの命令の地域ベースの共同探索は、それに割り当てられたデモを補完し、相乗効果をもたらす。
参考スコア（独自算出の注目度）: 110.94724216491753
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) exhibit strong generalization capabilities to novel tasks when prompted with language instructions and in-context demos. Since this ability sensitively depends on the quality of prompts, various methods have been explored to automate the instruction design. While these methods demonstrated promising results, they also restricted the searched prompt to one instruction. Such simplification significantly limits their capacity, as a single demo-free instruction might not be able to cover the entire complex problem space of the targeted task. To alleviate this issue, we adopt the Mixture-of-Expert paradigm and divide the problem space into a set of sub-regions; Each sub-region is governed by a specialized expert, equipped with both an instruction and a set of demos. A two-phase process is developed to construct the specialized expert for each region: (1) demo assignment: Inspired by the theoretical connection between in-context learning and kernel regression, we group demos into experts based on their semantic similarity; (2) instruction assignment: A region-based joint search of an instruction per expert complements the demos assigned to it, yielding a synergistic effect. The resulting method, codenamed Mixture-of-Prompts (MoP), achieves an average win rate of 81% against prior arts across several major benchmarks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、言語命令やコンテキスト内デモによって、新しいタスクへの強力な一般化能力を示す。この能力はプロンプトの品質に敏感に依存するため、命令設計を自動化するために様々な手法が検討されている。これらの手法は有望な結果を示したが、探索されたプロンプトを1つの命令に制限した。このような単純化は、目的とするタスクの複雑な問題空間全体をカバーすることができない1つのデモフリーな命令のため、その能力を大幅に制限する。この問題を緩和するために、我々はMixture-of-Expertパラダイムを採用し、問題空間を一連のサブリージョンに分割する。 1)デモ課題:文脈内学習とカーネルレグレッションの理論的関係から着想を得た2段階のプロセスを構築し,その意味的類似性に基づいて専門家にデモをグループ化し,(2)命令課題:専門家が割り当てられたデモを補完する命令の地域ベースの共同探索を行い,相乗効果をもたらす。コード名はMixture-of-Prompts (MoP)で、いくつかの主要なベンチマークで先行技術に対して平均81%の勝利率を得る。

関連論文リスト

THOR-MoE: Hierarchical Task-Guided and Context-Responsive Routing for Neural Machine Translation [80.25152370613186]
階層型タスク誘導型およびコンテキスト応答型ルーティングポリシでMoEを武装するTHOR-MoEを提案する。 THOR-MoEは、既存のTop-$citeshazeer 2017やTop-$$citehuang-etal-2024-harderルーティングスキームと互換性のあるプラグインモジュールとして動作する。例えば、バニラTop-$$citehuang-etal-2024-harderルーティングと比較して、コンテキスト認識の方法は22%未満の活性パラメータで平均0.75 BLEUの改善を達成することができる。
論文参考訳（メタデータ） (2025-05-20T10:27:19Z)
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。我々は,Sybolic-MoEのインスタンスレベルのエキスパート選択により,大きなマージンで性能が向上することを示した。
論文参考訳（メタデータ） (2025-03-07T18:03:13Z)
Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文参考訳（メタデータ） (2024-11-27T15:58:07Z)
Task Facet Learning: A Structured Approach to Prompt Optimization [14.223730629357178]
本稿では,タスクの複数の面をトレーニング例から学習するアルゴリズムを提案する。結果のアルゴリズムであるUniPromptは、各プロンプトセクションの初期候補を生成する生成モデルで構成されている。複数のデータセットと実世界のタスクに対する経験的評価は、UniPromptを使って生成されたプロンプトが、人間のチューニングしたプロンプトよりも高い精度が得られることを示している。
論文参考訳（メタデータ） (2024-06-15T04:54:26Z)
Mixture-of-Instructions: Aligning Large Language Models via Mixture Prompting [7.103987978402038]
我々はMixture-of-Instructions (MoI)と呼ばれる新しいテクニックを紹介する。 MoIは命令パッキングと多様なシステムプロンプトを組み合わせて言語モデルのアライメント効率を高める戦略を採用している。提案手法はオープンソースQwen-7B-chatモデルに適用され,Qwen-SFT-MoIの開発が完了した。
論文参考訳（メタデータ） (2024-04-29T03:58:12Z)
TEGEE: Task dEfinition Guided Expert Ensembling for Generalizable and Few-shot Learning [37.09785060896196]
タスク定義を明示的に抽出する textbfTEGEE (Task Definition Guided Expert Ensembling) を提案する。私たちのフレームワークは2つの3Bモデルアプローチを採用しています。実験により, TEGEEはより大きなLLaMA2-13Bモデルと相容れない性能を示した。
論文参考訳（メタデータ） (2024-03-07T05:26:41Z)
Ada-Instruct: Adapting Instruction Generators for Complex Reasoning [14.456571495691561]
微調整により開発した適応型命令生成器であるAda-Instructを紹介する。 Ada-Instructの有効性をさまざまなアプリケーションで実証的に検証した。
論文参考訳（メタデータ） (2023-10-06T13:28:04Z)
Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task Adaptation [45.90925587972781]
大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクを解く能力を持つ。計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。 MoPはマルチタスク、マルチソースシナリオにおいて、プロンプトトレーニングの"干渉"を同時に緩和することができる。
論文参考訳（メタデータ） (2023-10-04T14:11:12Z)
Skill Disentanglement for Imitation Learning from Suboptimal Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文参考訳（メタデータ） (2023-06-13T17:24:37Z)
A Unified Framework for Multi-intent Spoken Language Understanding with prompting [14.17726194025463]
Prompt-based Spoken Language Understanding (PromptSLU) フレームワークについて述べる。詳細は、音声をタスク固有のプロンプトテンプレートに入力として簡潔に充填し、キー-値ペアシーケンスの出力形式を共有することにより、IDとSFが完成する。実験の結果,我々のフレームワークは2つの公開データセット上で,最先端のベースラインよりも優れていた。
論文参考訳（メタデータ） (2022-10-07T05:58:05Z)
Decomposed Prompting: A Modular Approach for Solving Complex Tasks [55.42850359286304]
本稿では,より単純なサブタスクに分解することで,複雑なタスクを解くための分解プロンプトを提案する。このモジュール構造は、各プロンプトを特定のサブタスクに最適化することを可能にする。 Decomposed Promptingの柔軟性とモジュラリティは、数発のプロンプトで先行作業より優れていることを示す。
論文参考訳（メタデータ） (2022-10-05T17:28:20Z)
Fast Inference and Transfer of Compositional Task Structures for Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文参考訳（メタデータ） (2022-05-25T10:44:25Z)
Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文参考訳（メタデータ） (2022-02-28T16:07:19Z)
Instance-aware Prompt Learning for Language Understanding and Generation [49.22899822734549]
本稿では,インスタンス毎に異なるプロンプトを学習するインスタンス対応プロンプト学習手法を提案する。提案手法は,SuperGLUE数ショット学習ベンチマークの最先端性を実現する。
論文参考訳（メタデータ） (2022-01-18T17:03:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。