論文の概要: SpecMind: Cognitively Inspired, Interactive Multi-Turn Framework for Postcondition Inference
- arxiv url: http://arxiv.org/abs/2602.20610v2
- Date: Wed, 25 Feb 2026 06:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 13:37:25.502213
- Title: SpecMind: Cognitively Inspired, Interactive Multi-Turn Framework for Postcondition Inference
- Title(参考訳): SpecMind: 認知にインスパイアされた、ポストコンディション推論のための対話型マルチTurnフレームワーク
- Authors: Cuong Chi Le, Minh V. T Pham, Tung Vu Duy, Cuong Duc Van, Huy N. Phan, Hoang N. Phan, Tien N. Nguyen,
- Abstract要約: SpecMindは、LEMをインタラクティブで探索的な推論として扱う、ポストコンディション生成のための新しいフレームワークである。
我々の経験的評価は、SpecMindが生成後条件の正確性と完全性の両方において最先端のアプローチを著しく上回っていることを示している。
- 参考スコア(独自算出の注目度): 7.324314351910779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Specifications are vital for ensuring program correctness, yet writing them manually remains challenging and time-intensive. Recent large language model (LLM)-based methods have shown successes in generating specifications such as postconditions, but existing single-pass prompting often yields inaccurate results. In this paper, we present SpecMind, a novel framework for postcondition generation that treats LLMs as interactive and exploratory reasoners rather than one-shot generators. SpecMind employs feedback-driven multi-turn prompting approaches, enabling the model to iteratively refine candidate postconditions by incorporating implicit and explicit correctness feedback, while autonomously deciding when to stop. This process fosters deeper code comprehension and improves alignment with true program behavior via exploratory attempts. Our empirical evaluation shows that SpecMind significantly outperforms state-of-the-art approaches in both accuracy and completeness of generated postconditions.
- Abstract(参考訳): プログラムの正確性を保証するために仕様は不可欠だが、手作業で記述することは困難であり、時間を要する。
近年の大規模言語モデル(LLM)に基づく手法は,ポストコンディションなどの仕様生成に成功しているが,既存のシングルパスプロンプトは不正確な結果をもたらすことが多い。
本稿では,LLMをワンショットジェネレータではなく,インタラクティブで探索的な推論器として扱う,ポストコンディション生成のための新しいフレームワークであるSpecMindを提案する。
SpecMindはフィードバック駆動のマルチターンプロンプトアプローチを採用しており、暗黙的かつ明示的な正当性フィードバックを取り入れ、いつ停止するかを自律的に決定することで、モデルが候補の条件を反復的に洗練することができる。
このプロセスは、より深いコード理解を促進し、探索的な試みを通じて真のプログラム動作との整合性を改善する。
我々の経験的評価は、SpecMindが生成後条件の正確性と完全性の両方において最先端のアプローチを著しく上回っていることを示している。
関連論文リスト
- Look before Transcription: End-to-End SlideASR with Visually-Anchored Policy Optimization [28.984638316524464]
モデル推論過程を制御するために,ビジュアルアンコールポリシー最適化(VAPO)を提案する。
VAPO は think>answer> フォーマットを使用して構造化された "Look before Transcription" プロシージャを強制する。
この推論プロセスは、フォーマットコンプライアンス、OCR精度、ASR品質、視覚的アンカー一貫性を目標とした4つの異なる報酬を含む強化学習によって最適化される。
論文 参考訳(メタデータ) (2025-10-08T08:18:47Z) - Test-Time Scaling Strategies for Generative Retrieval in Multimodal Conversational Recommendations [70.94563079082751]
電子商取引は、複雑なマルチターンユーザーインタラクションを管理する上で、伝統的な製品検索システムの限界を明らかにしている。
本稿では,対話型マルチモーダル製品検索にテスト時間スケーリングを導入する新しいフレームワークを提案する。
提案手法は生成型レトリバー上に構築され,さらに検索精度の向上と,対話を通してユーザ意図の進化と結果の整合性を向上するテストタイムリグレード機構が組み込まれている。
論文 参考訳(メタデータ) (2025-08-25T15:38:56Z) - GenerationPrograms: Fine-grained Attribution with Executable Programs [72.23792263905372]
コードエージェント」アーキテクチャの最近の進歩に触発されたモジュラー生成フレームワークであるGenerationProgramsを導入する。
GenerationProgramsは、プロセスを2つの異なるステージに分解する: まず、クエリに明示的に調整されたモジュール形式のテキスト操作からなる実行可能なプログラムプランを作成し、次に、プログラムの指定した命令に従ってこれらの操作を実行し、最終的な応答を生成する。
経験的評価は、生成プログラムは文書レベルと文レベルの両方の属性品質を著しく改善することを示している。
論文 参考訳(メタデータ) (2025-06-17T14:37:09Z) - HoarePrompt: Structural Reasoning About Program Correctness in Natural Language [3.245761278653869]
HoarePromptは、プログラム検証から自然言語アーティファクトへの基本的なアイデアを適応する、新しいアプローチである。
ループを管理するために,モデル検査に広く用いられているk-induction法の適応として,数発のk-inductionを提案する。
実験の結果,HoarePromptはZero-shot-CoTプロンプトを正当性分類に用いた場合と比較して,MCCを61%改善することがわかった。
論文 参考訳(メタデータ) (2025-03-25T12:30:30Z) - Auto-Prompt Generation is Not Robust: Prompt Optimization Driven by Pseudo Gradient [50.15090865963094]
PertBenchは、幅広い入力摂動を含む包括的なベンチマークデータセットである。
我々の分析は、既存の即時生成戦略における重大な脆弱性を明らかにしている。
PGOは、摂動型を擬似次数次信号として活用する、勾配のないプロンプト生成フレームワークである。
論文 参考訳(メタデータ) (2024-12-24T06:05:08Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Understanding prompt engineering may not require rethinking
generalization [56.38207873589642]
言語モデルによって与えられるPAC-Bayesと組み合わさったプロンプトの離散的性質は、文献の標準によって非常に厳密な一般化境界をもたらすことを示す。
この研究は、プロンプトエンジニアリングの広範な実践を正当化する可能性がある。
論文 参考訳(メタデータ) (2023-10-06T00:52:48Z) - SAGA: Summarization-Guided Assert Statement Generation [34.51502565985728]
本稿では,アサート文の自動生成のための新しい要約誘導手法を提案する。
我々は、事前訓練された言語モデルを参照アーキテクチャとして利用し、アサート文生成のタスクでそれを微調整する。
論文 参考訳(メタデータ) (2023-05-24T07:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。