論文の概要: A Reproducible Optimisation Protocol for Calibrating Prompt-Based Large Language Model Workflows in Evidence Synthesis
- arxiv url: http://arxiv.org/abs/2605.06937v1
- Date: Thu, 07 May 2026 20:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.618891
- Title: A Reproducible Optimisation Protocol for Calibrating Prompt-Based Large Language Model Workflows in Evidence Synthesis
- Title(参考訳): 証明合成におけるプロンプトに基づく大規模言語モデルワークフローの校正のための再現可能な最適化プロトコル
- Authors: Teo Susnjak,
- Abstract要約: 本稿では、構造化エビデンス合成タスクにおけるプロンプトベース大規模言語モデル(LLM)の再現可能な校正ワークフローについて述べる。
この方法は、科学的タスクを定義するルールを、フレームをフレーム化し適用する変更可能なプロンプトハーネスから分離する。
ラベル付けされた例や参照された例、明示的なタスクメトリックに対する利用を最適化し、検査可能な成果物としてキャリブレーションされたワークフローを保存する。
- 参考スコア(独自算出の注目度): 1.624454100511275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This methods article presents a reproducible calibration workflow for prompt-based large language models (LLMs) in structured evidence-synthesis tasks. The method separates the rules that define the scientific task from the mutable prompt harness that frames and applies them. It optimises that harness against labelled or reference examples and an explicit task metric, then preserves the calibrated workflow as an inspectable artefact with its specification, metric, settings, and evaluation traces. The example code instantiates the protocol with DSPy and GEPA tools, but the underlying logic can transfer to other prompt-optimisation frameworks that support structured task definitions, metric-guided search, and artefact reuse. Title and abstract screening is the worked validation case because it provides labelled benchmark data and clear evaluation metrics. The demonstrated workflow uses a smaller student LLM for performing the scientific task execution and a larger reflection LLM to steer the prompt optimisation process during calibration. This work shows compilation, artefact round-tripping, and how optimisation budget affects a smaller student model.
- Abstract(参考訳): 本稿では、構造化エビデンス合成タスクにおけるプロンプトベース大規模言語モデル(LLM)の再現可能な校正ワークフローについて述べる。
この方法は、科学的タスクを定義するルールを、フレームをフレーム化し適用する変更可能なプロンプトハーネスから分離する。
ラベル付けされた例や参照された例、明示的なタスクメトリックに対する利用を最適化し、その仕様、メトリック、設定、評価トレースで検査可能なアーティファクトとしてキャリブレーションされたワークフローを保存する。
サンプルコードは、プロトコルをDSPyとGEPAツールでインスタンス化するが、基盤となるロジックは、構造化されたタスク定義、メトリック誘導検索、アーティファクトの再利用をサポートする他のプロンプト最適化フレームワークに転送できる。
ラベル付きベンチマークデータと明確な評価指標を提供するため、タイトルと抽象的なスクリーニングが有効な検証ケースである。
実証されたワークフローは、科学的なタスク実行を実行するための小さな学生LLMと、キャリブレーション中の迅速な最適化プロセスを操るためにより大きなリフレクションLLMを使用する。
この研究は、コンパイル、アーティファクトのラウンドトリップ、最適化予算がより小さな学生モデルにどのように影響するかを示している。
関連論文リスト
- Prompt-Driven Code Summarization: A Systematic Literature Review [4.238464304669881]
大きな言語モデル(LLM)は、ソースコードから自然言語記述を自動的に生成することで、有望なソリューションを提供する。
この体系的なレビュー文献は、既存の証拠を集約し、パラダイムを推進し、その効果を検証し、将来の研究と実践的採用のガイドとなるギャップを特定する。
論文 参考訳(メタデータ) (2026-04-16T03:25:28Z) - Optimizing LLM Prompt Engineering with DSPy Based Declarative Learning [0.0]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて、高いパフォーマンスを示している。
それらの効果は、素早い設計、構造、組込み推論に大きく依存している。
本稿では,DSPyに基づく宣言型学習の体系的研究を行い,迅速な最適化を提案する。
論文 参考訳(メタデータ) (2026-04-06T17:17:57Z) - From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents [39.457720579458]
大規模言語モデル(LLM)ベースのシステムは、タスクの解決に人気が高まっている。
本稿では,そのような計算を設計・最適化するための最近の手法について概観する。
論文 参考訳(メタデータ) (2026-03-23T17:42:59Z) - Compiling Prompts, Not Crafting Them: A Reproducible Workflow for AI-Assisted Evidence Synthesis [1.624454100511275]
大規模言語モデル(LLM)は、体系的な文献レビューを加速する大きな可能性を秘めている。
現在のアプローチは、しばしば信頼性と厳密さを損なう、不安定で手作業によるプロンプトに依存している。
本研究では、タスク宣言、テストスイート、自動プロンプトチューニングを再現可能なSLRに組み込む、構造化されたドメイン固有フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-22T21:37:49Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。