Fugu-MT 論文翻訳(概要): Compiling Prompts, Not Crafting Them: A Reproducible Workflow for AI-Assisted Evidence Synthesis

論文の概要: Compiling Prompts, Not Crafting Them: A Reproducible Workflow for AI-Assisted Evidence Synthesis

arxiv url: http://arxiv.org/abs/2509.00038v1
Date: Fri, 22 Aug 2025 21:37:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-07 09:10:15.265409
Title: Compiling Prompts, Not Crafting Them: A Reproducible Workflow for AI-Assisted Evidence Synthesis
Title（参考訳）: AI支援エビデンス合成のための再現可能なワークフロー
Authors: Teo Susnjak,
Abstract要約: 大規模言語モデル(LLM)は、体系的な文献レビューを加速する大きな可能性を秘めている。現在のアプローチは、しばしば信頼性と厳密さを損なう、不安定で手作業によるプロンプトに依存している。本研究では、タスク宣言、テストスイート、自動プロンプトチューニングを再現可能なSLRに組み込む、構造化されたドメイン固有フレームワークを提案する。
参考スコア（独自算出の注目度）: 1.624454100511275
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs) offer significant potential to accelerate systematic literature reviews (SLRs), yet current approaches often rely on brittle, manually crafted prompts that compromise reliability and reproducibility. This fragility undermines scientific confidence in LLM-assisted evidence synthesis. In response, this work adapts recent advances in declarative prompt optimisation, developed for general-purpose LLM applications, and demonstrates their applicability to the domain of SLR automation. This research proposes a structured, domain-specific framework that embeds task declarations, test suites, and automated prompt tuning into a reproducible SLR workflow. These emerging methods are translated into a concrete blueprint with working code examples, enabling researchers to construct verifiable LLM pipelines that align with established principles of transparency and rigour in evidence synthesis. This is a novel application of such approaches to SLR pipelines.
Abstract（参考訳）: 大規模言語モデル(LLM)は、体系的な文献レビュー(SLR)を加速する大きな可能性を秘めている。この脆弱さは、LCMが補助する証拠合成の科学的信頼性を損なう。これに対し、本研究は、汎用LLMアプリケーション向けに開発された宣言的迅速な最適化の最近の進歩に適応し、SLR自動化の領域への適用性を実証する。本研究では、タスク宣言、テストスイート、自動プロンプトチューニングを再現可能なSLRワークフローに組み込む、構造化されたドメイン固有フレームワークを提案する。これらの新しい手法は、動作するコード例で具体的な青写真に変換され、研究者は証拠合成における透明さと厳密さの確立された原則に沿った検証可能なLLMパイプラインを構築することができる。これは、SLRパイプラインに対するそのようなアプローチの新たな応用である。

関連論文リスト

RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis [78.32151470154422]
テスト担当者が自律的に設計し、典型的な合成操作を実行できるようにするためのエージェントフレームワークであるRAVELを紹介する。 C3EBenchは、プロの人間の文章から1,258個のサンプルを抽出したベンチマークである。 SOTA LLMを演算子としてRAVELを増強することにより、そのようなエージェントテキスト合成はLLMの推論能力に支配されていることがわかった。
論文参考訳（メタデータ） (2026-02-28T14:47:34Z)
Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文参考訳（メタデータ） (2025-08-28T13:00:28Z)
AI-Driven Scholarly Peer Review via Persistent Workflow Prompting, Meta-Prompting, and Meta-Reasoning [0.0]
本稿では,PWP(Persistent Prompting)について紹介する。本稿では,実験化学原稿の批判的分析のための概念実証PWPプロンプトを提案する。我々は,このPWPプロンプトを,専門家レビューの体系化を目的としたメタプロンプト技術とメタ推論の反復的適用により開発する。
論文参考訳（メタデータ） (2025-05-06T09:06:18Z)
APE-Bench I: Towards File-level Automated Proof Engineering of Formal Math Libraries [5.227446378450704]
APE-Bench Iは、Mathlib4の実際のコミット履歴から構築された最初の現実的なベンチマークである。 Eleansticはスケーラブルな並列検証インフラストラクチャで、Mathlibの複数バージョンにわたる検証に最適化されている。
論文参考訳（メタデータ） (2025-04-27T05:04:02Z)
LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。 LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2025-01-28T03:18:48Z)
Unleashing the Power of Large Language Models in Zero-shot Relation Extraction via Self-Prompting [21.04933334040135]
本稿では,大規模言語モデルに組み込まれたRE知識を十分に活用する新しい手法であるSelf-Promptingフレームワークを紹介する。我々のフレームワークは3段階の多様性アプローチを用いてLSMを誘導し、スクラッチから特定の関係をカプセル化する複数の合成サンプルを生成する。ベンチマークデータセットを用いた実験により,既存のLCMベースのゼロショットRE法よりも優れた性能を示した。
論文参考訳（メタデータ） (2024-10-02T01:12:54Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Automating Research Synthesis with Domain-Specific Large Language Model Fine-Tuning [0.9110413356918055]
本研究は,SLR(Systematic Literature Reviews)の自動化にLLM(Funture-Tuned Large Language Models)を用いた先駆的研究である。本研究は,オープンソースLLMとともに最新の微調整手法を採用し,SLRプロセスの最終実行段階を自動化するための実用的で効率的な手法を実証した。その結果, LLM応答の精度は高く, 既存のPRISMAコンフォーミングSLRの複製により検証された。
論文参考訳（メタデータ） (2024-04-08T00:08:29Z)
Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal [49.24054920683246]
大規模言語モデル(LLM)は、連続学習中に破滅的な忘れ込みに悩まされる。自己合成リハーサル(Self-Synthesized Rehearsal, SSR)と呼ばれるフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-02T16:11:23Z)
Effective Large Language Model Adaptation for Improved Grounding and Citation Generation [48.07830615309543]
本稿では,検索した文の応答を基底にして,引用を提供することにより,大規模言語モデル(LLM)の改善に焦点を当てる。我々は、全体論的観点から基盤を改善する新しいフレームワーク AGREE を提案する。我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。
論文参考訳（メタデータ） (2023-11-16T03:22:25Z)
LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文参考訳（メタデータ） (2023-11-13T15:08:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。