論文の概要: AI-Driven Scholarly Peer Review via Persistent Workflow Prompting, Meta-Prompting, and Meta-Reasoning
- arxiv url: http://arxiv.org/abs/2505.03332v3
- Date: Sun, 18 May 2025 06:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 17:08:52.855903
- Title: AI-Driven Scholarly Peer Review via Persistent Workflow Prompting, Meta-Prompting, and Meta-Reasoning
- Title(参考訳): AI駆動のScholarly Peerレビュー:永続的なワークフロープロンプト、メタプロンプト、メタ推論
- Authors: Evgeny Markhasin,
- Abstract要約: 本稿では,PWP(Persistent Prompting)について紹介する。
本稿では,実験化学原稿の批判的分析のための概念実証PWPプロンプトを提案する。
我々は,このPWPプロンプトを,専門家レビューの体系化を目的としたメタプロンプト技術とメタ推論の反復的適用により開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Critical peer review of scientific manuscripts presents a significant challenge for Large Language Models (LLMs), partly due to data limitations and the complexity of expert reasoning. This report introduces Persistent Workflow Prompting (PWP), a potentially broadly applicable prompt engineering methodology designed to bridge this gap using standard LLM chat interfaces (zero-code, no APIs). We present a proof-of-concept PWP prompt for the critical analysis of experimental chemistry manuscripts, featuring a hierarchical, modular architecture (structured via Markdown) that defines detailed analysis workflows. We develop this PWP prompt through iterative application of meta-prompting techniques and meta-reasoning aimed at systematically codifying expert review workflows, including tacit knowledge. Submitted once at the start of a session, this PWP prompt equips the LLM with persistent workflows triggered by subsequent queries, guiding modern reasoning LLMs through systematic, multimodal evaluations. Demonstrations show the PWP-guided LLM identifying major methodological flaws in a test case while mitigating LLM input bias and performing complex tasks, including distinguishing claims from evidence, integrating text/photo/figure analysis to infer parameters, executing quantitative feasibility checks, comparing estimates against claims, and assessing a priori plausibility. To ensure transparency and facilitate replication, we provide full prompts, detailed demonstration analyses, and logs of interactive chats as supplementary resources. Beyond the specific application, this work offers insights into the meta-development process itself, highlighting the potential of PWP, informed by detailed workflow formalization, to enable sophisticated analysis using readily available LLMs for complex scientific tasks.
- Abstract(参考訳): 学術写本の批判的ピアレビューは、データ制限と専門家による推論の複雑さのために、Large Language Models (LLMs) にとって重要な課題となっている。
このレポートでは、標準的なLLMチャットインターフェース(ゼロコード、APIなし)を使用して、このギャップを埋めるように設計された、潜在的に広く適用可能なプロンプトエンジニアリング方法論であるPersistent Workflow Prompting(PWP)を紹介します。
本稿では, 詳細な解析ワークフローを定義する階層型モジュラーアーキテクチャ(Markdownによる構造)を特徴とする, 実験化学写本の批判的解析のための概念実証PWPプロンプトを提案する。
このPWPプロンプトは,暗黙的知識を含む専門家レビューワークフローを体系的に体系化することを目的とした,メタプロンプト技術とメタ推論の反復的適用を通じて開発される。
セッションの開始時に一度送信されると、このPWPは後続のクエリによって引き起こされる永続的なワークフローをLLMに装備し、体系的でマルチモーダルな評価を通じて現代の推論LPMを導く。
デモでは、LLM入力バイアスを緩和し、エビデンスからのクレームの識別、テキスト/フォト/フィギュア分析の統合によるパラメータの推測、定量的フィジビリティチェックの実行、クレームに対する評価、プリオリの妥当性の評価などを含む複雑なタスクを行うとともに、テストケースにおける主要な方法論上の欠陥を識別するPWP誘導LSMが示している。
透明性を確保し、レプリケーションを容易にするため、補助的なリソースとして完全なプロンプト、詳細な実演分析、対話型チャットのログを提供する。
特定の応用の他に、この研究はメタ開発プロセス自体に関する洞察を提供し、複雑なワークフローの形式化によって伝達されるPWPの可能性を強調し、複雑な科学的なタスクに簡単に利用できるLLMを用いた洗練された分析を可能にする。
関連論文リスト
- Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [65.48902212293903]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。
EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。
また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-10T02:39:55Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - LLM Context Conditioning and PWP Prompting for Multimodal Validation of Chemical Formulas [0.0]
本研究では,PWP(Persistent Prompting, Persistent Prompting, パーシステント・プロンプト・プリンティング)の原理によって誘導される構造的文脈条件付けについて, 推論時にその振る舞いを調節するための方法論的戦略として検討する。
このアプローチは、正確な検証タスクのために、容易に利用できる汎用の大規模言語モデル(LLM)の信頼性を高めるように設計されている。
基本的なプロンプトは信頼できないが、PLMの分析的考え方を厳格に条件付けるためにPWP構造を適用するアプローチは、両方のモデルでテキストエラーの識別を改善するように見えた。
論文 参考訳(メタデータ) (2025-05-18T06:33:08Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - From Prompts to Templates: A Systematic Prompt Template Analysis for Real-world LLMapps [20.549178260624043]
大規模言語モデル(LLM)は、自然言語のプロンプトを通じて直感的なタスク実行を可能にすることで、人間とAIのインタラクションに革命をもたらした。
構造や単語の小さなバリエーションは、出力に大きな違いをもたらす可能性がある。
本稿では,実用LLMappにおけるプロンプトテンプレートの包括的解析について述べる。
論文 参考訳(メタデータ) (2025-04-02T18:20:06Z) - Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing [43.75154489681047]
MDS(Multi-Document Summarization)のためのテスト時間スケーリングを利用した新しいフレームワークを提案する。
提案手法では,様々なプロンプトを用いて複数の候補サマリーを生成し,アグリゲータと組み合わせて洗練されたサマリーを生成する。
また,本手法を効果的に評価するために,LCM-ACU(Consistency-Aware Preference)スコアとLLM-Content-Unit(LLM-ACU)スコアという2つの新しいLCMベースの指標を導入する。
論文 参考訳(メタデータ) (2025-02-27T23:34:47Z) - From Human Annotation to LLMs: SILICON Annotation Workflow for Management Research [13.818244562506138]
LLM(Large Language Models)は、人間のアノテーションに対する費用対効果と効率的な代替手段を提供する。
本稿では、SILICON (Systematic Inference with LLMs for Information Classification and Notation) ワークフローを紹介する。
このワークフローは、人間のアノテーションの確立した原則と、体系的な迅速な最適化とモデル選択を統合している。
論文 参考訳(メタデータ) (2024-12-19T02:21:41Z) - Towards Boosting LLMs-driven Relevance Modeling with Progressive Retrieved Behavior-augmented Prompting [23.61061000692023]
本研究では,検索ログに記録されたユーザインタラクションを活用して,ユーザの暗黙の検索意図に対する洞察を得ることを提案する。
ProRBPは,探索シナリオ指向の知識を大規模言語モデルと統合するための,プログレッシブ検索行動拡張型プロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-08-18T11:07:38Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - The Shifted and The Overlooked: A Task-oriented Investigation of
User-GPT Interactions [114.67699010359637]
実際のユーザクエリの大規模なコレクションをGPTに解析する。
ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
論文 参考訳(メタデータ) (2023-10-19T02:12:17Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。
また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。