Fugu-MT 論文翻訳(概要): MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization

論文の概要: MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization

arxiv url: http://arxiv.org/abs/2503.16874v1
Date: Fri, 21 Mar 2025 06:19:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-24 15:40:10.312243
Title: MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization
Title（参考訳）: MARS: 自動プロンプト最適化のためのソクラテスガイダンスを組み込んだマルチエージェントフレームワーク
Authors: Jian Zhang, Zhangqi Wang, Haiping Zhu, Jun Liu, Qika Lin, Erik Cambria,
Abstract要約: ソクラティックガイダンス(MARS)を取り入れたマルチエージェントフレームワークを提案する。 MARSは7つのエージェントから構成され、それぞれ異なる機能を持ち、Plannerを自律的に使用して最適化パスを設計する。提案手法の有効性を検証するため,様々なデータセットについて広範な実験を行った。
参考スコア（独自算出の注目度）: 30.748085697067154
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The basic question-answering format of large language models involves inputting a prompt and receiving a response, and the quality of the prompt directly impacts the effectiveness of the response. Automated Prompt Optimization (APO) aims to break free from the cognitive biases of manually designed prompts and explores a broader design space for prompts. However, existing APO methods suffer from limited flexibility of fixed templates and inefficient search in prompt spaces as key issues. To this end, we propose a Multi-Agent framework Incorporating Socratic guidance (MARS), which utilizes multi-agent fusion technology for automatic planning, with gradual continuous optimization and evaluation. Specifically, MARS comprises seven agents, each with distinct functionalities, which autonomously use the Planner to devise an optimization path that ensures flexibility. Additionally, it employs a Teacher-Critic-Student Socratic dialogue pattern to iteratively optimize the prompts while conducting effective search. We conduct extensive experiments on various datasets to validate the effectiveness of our method, and perform additional analytical experiments to assess the model's advancement as well as the interpretability.
Abstract（参考訳）: 大規模言語モデルの基本的問合せ形式は、プロンプトを入力して応答を受信することであり、プロンプトの品質は応答の有効性に直接影響する。自動プロンプト最適化(APO)は、手動で設計されたプロンプトの認知バイアスから解放され、プロンプトのためのより広いデザイン空間を探索することを目的としている。しかし、既存のAPO手法では、固定テンプレートの柔軟性が制限され、プロンプト空間における非効率な探索が重要な問題となっている。そこで本稿では, 段階的連続最適化と評価により, 自動計画にマルチエージェント融合技術を利用するマルチエージェント・フレームワーク(MARS)を提案する。具体的には、MARSは7つのエージェントで構成され、それぞれ異なる機能を持ち、Plannerを自律的に使用して柔軟性を保証する最適化パスを設計する。さらに,教師-批判的ソクラティック対話パターンを用いて,効果的な探索を行いながらプロンプトを反復的に最適化する。提案手法の有効性を検証するため,各種データセットの広範な実験を行い,モデルの発展と解釈可能性を評価するための分析実験を行った。

関連論文リスト

Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective [65.12150411762273]
ランダムなデモを不整合な "gibberish" にプルーニングすることで,多様なタスクにおけるパフォーマンスが著しく向上することを示す。本稿では,低データレジームのみを用いてプルーニング戦略を自動的に検索する自己発見プロンプト最適化フレームワークPromptQuineを提案する。
論文参考訳（メタデータ） (2025-06-22T07:53:07Z)
ORPP: Self-Optimizing Role-playing Prompts to Enhance Language Model Capabilities [64.24517317344959]
複雑なタスクにおいて、大きな言語モデルから優れたパフォーマンスを引き出すためには、高品質なプロンプトが不可欠である。本稿では,ロールプレイングプロンプトの最適化と生成によりモデル性能を向上させるフレームワークORPPを提案する。 ORPPは一致しただけでなく、ほとんどの場合、性能の点で既存の主流のプロンプト最適化手法を上回ります。
論文参考訳（メタデータ） (2025-06-03T05:51:35Z)
Tournament of Prompts: Evolving LLM Instructions Through Structured Debates and Elo Ratings [0.9437165725355702]
我々は,エロの選考による議論駆動評価を通じて,進化を促す新しいフレームワークであるDEEVOを紹介する。 Eloの格付けをフィットネスプロキシとして利用することで、DEEVOは同時に改善を推進し、迅速な人口の貴重な多様性を保ちます。
論文参考訳（メタデータ） (2025-05-30T19:33:41Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
A Sequential Optimal Learning Approach to Automated Prompt Engineering in Large Language Models [14.483240353801074]
本稿では,自動プロンプトエンジニアリングのための最適学習フレームワークを提案する。限られた評価予算を効率的に割り当てつつ、効果的なプロンプト機能を逐次識別するように設計されている。私たちのフレームワークは、より広い範囲のアプリケーションに自動プロンプトエンジニアリングをデプロイするためのソリューションを提供します。
論文参考訳（メタデータ） (2025-01-07T03:51:10Z)
AMPO: Automatic Multi-Branched Prompt Optimization [43.586044739174646]
本稿では,障害事例をフィードバックとして多分岐プロンプトを反復的に開発する自動プロンプト最適化手法AMPOを提案する。 5つのタスクにわたる実験では、AMPOが常に最良の結果を達成する。
論文参考訳（メタデータ） (2024-10-11T10:34:28Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文参考訳（メタデータ） (2024-09-24T01:40:24Z)
Enhancing LLM-Based Text Classification in Political Science: Automatic Prompt Optimization and Dynamic Exemplar Selection for Few-Shot Learning [1.6967824074619953]
大型言語モデル (LLMs) は、政治学におけるテキスト分類をかなり約束する。本フレームワークは,自動プロンプト最適化,動的指数選択,コンセンサス機構を通じてLLM性能を向上させる。オープンソースのPythonパッケージ(PoliPrompt)がGitHubで公開されている。
論文参考訳（メタデータ） (2024-09-02T21:05:31Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
Efficient Prompting Methods for Large Language Models: A Survey [50.82812214830023]
効率的なプロンプティング手法は幅広い注目を集めている。本稿では,異なるプロンプト成分に対する自動プロンプトエンジニアリングと連続空間および離散空間におけるプロンプト圧縮について論じる。
論文参考訳（メタデータ） (2024-04-01T12:19:08Z)
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。このような最適化では、以前見過ごされたクエリ依存の目的を特定します。本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文参考訳（メタデータ） (2023-09-13T01:12:52Z)
TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文参考訳（メタデータ） (2022-11-21T22:38:20Z)
RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。 RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-05-25T07:50:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。