論文の概要: Quality-Driven Agentic Reasoning for LLM-Assisted Software Design: Questions-of-Thoughts (QoT) as a Time-Series Self-QA Chain
- arxiv url: http://arxiv.org/abs/2603.11082v1
- Date: Tue, 10 Mar 2026 23:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.503933
- Title: Quality-Driven Agentic Reasoning for LLM-Assisted Software Design: Questions-of-Thoughts (QoT) as a Time-Series Self-QA Chain
- Title(参考訳): LLM支援ソフトウェア設計のための品質駆動型エージェント推論: 時系列自己QAチェインとしてのQoT
- Authors: Yen-Ku Liu, Yun-Cheng Tsai,
- Abstract要約: 品質駆動型推論時間スキャフォールドであるQoTを導入し,ユーザ目標をエンジニアリングステップの順序付きシーケンスに変換する。
QoTは、API設計、データ通信、ファイルシステムの3つの代表的なバックエンドエンジニアリング領域にまたがって評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have accelerated AI-assisted software development, yet practical deployment remains constrained by incomplete implementations, weak modularization, and inconsistent security practices. We introduce Questions-of-Thoughts (QoT), a quality-driven inference-time scaffold that turns a user goal into (i) an ordered sequence of engineering steps and (ii) stepwise self-questioning to verify constraints and reduce omission errors, while maintaining a lightweight reasoning record that stabilizes subsequent design decisions. We evaluate QoT across three representative backend engineering domains: API Design, Data Communication, and File Systems. Each task requires multi-module decomposition and exposes standard failure modes in LLM-generated systems. To enable data-driven comparison, we score generated artifacts using an ISO/IEC-inspired quality rubric that measures Scalability, Completeness, Modularity, and Security. We report domain-wise gains as the change in total quality score, defined as the QoT score minus the NoQoT score. Results show capacity-dependent improvements: QoT yields consistent quality improvements for larger models and more complex domains, while smaller models may exhibit trade-offs under tight context and planning budgets. We release an open artifact with prompts, scoring guidelines, raw generations, and scripts that reproduce the reported tables and figures to support applied AI and data analytics research.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、AI支援ソフトウェア開発を加速しているが、実際的なデプロイメントは、不完全な実装、モジュール化の弱い、一貫性のないセキュリティプラクティスによって制限されている。
私たちはQoT(QoT)を紹介します。QoTは品質駆動型推論タイムの足場で、ユーザ目標をユーザ目標に転換します。
一 工学の段階の順序及び順序
二 制約の検証及び省略誤差の低減を図るとともに、その後の設計決定を安定化させる軽量な推論記録を維持すること。
QoTは、API設計、データ通信、ファイルシステムの3つの代表的なバックエンドエンジニアリング領域にまたがって評価する。
各タスクはマルチモジュール分解を必要とし、LLM生成システムで標準的な障害モードを公開する。
データ駆動比較を可能にするため、ISO/IECにインスパイアされた品質ルーブリックを使用して生成されたアーティファクトをスコアし、スケーラビリティ、完全性、モジュール性、セキュリティを測定しました。
我々は,QoTスコアがNoQoTスコアを除いた総品質スコアの変化として,ドメインワイドゲインを報告した。
QoTはより大きなモデルとより複雑なドメインに対して一貫した品質改善をもたらします。
我々は、AIとデータ分析の研究をサポートするために、報告された表や数字を再現するプロンプト、スコアリングガイドライン、生世代、スクリプトを備えたオープンアーティファクトをリリースする。
関連論文リスト
- LLMs in Code Vulnerability Analysis: A Proof of Concept [0.3441021278275805]
従来のソフトウェアセキュリティ分析手法は、現代人の規模や複雑さに合わせたペースを維持するのに苦労している。
本稿では,重要なソフトウェアセキュリティタスクを自動化するために,コード固有および汎用大規模言語モデルの導入について検討する。
論文 参考訳(メタデータ) (2026-01-13T16:16:11Z) - AgenticIQA: An Agentic Framework for Adaptive and Interpretable Image Quality Assessment [69.06977852423564]
画像品質評価(IQA)は、人間の視覚系に根ざした知覚品質の定量化と解釈の両方を反映している。
AgenticIQAは、IQAを歪み検出、歪み解析、ツール選択、ツール実行の4つのサブタスクに分解する。
本稿では,IQAエージェントに適した大規模命令データセットであるAgenticIQA-200Kと,VLMベースのIQAエージェントの計画,実行,要約機能を評価するための最初のベンチマークであるAgenticIQA-Evalを紹介する。
論文 参考訳(メタデータ) (2025-09-30T09:37:01Z) - Automated Validation of LLM-based Evaluators for Software Engineering Artifacts [0.7548538278943616]
REFINE(Ranking Evaluators for FIne grained Nuanced Evaluation)は、大規模言語モデル(LLM)をベンチマークする自動化フレームワークである。
REFINEは、徐々に品質が低下したアーティファクトを自動的に合成するために、新しい生成技術を適用している。
それぞれの候補評価器の構成を、そのランクが期待された順序にどの程度近いかを測定することで定量化する。
論文 参考訳(メタデータ) (2025-08-04T18:52:01Z) - CoRe: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks [14.408364047538578]
大規模言語モデル(LLM)は、ソフトウェア工学の様々な領域で広く採用されている。
この研究は、基本的な静的解析タスク上でのLCMを評価するために設計されたベンチマークであるCOREを提示する。
論文 参考訳(メタデータ) (2025-07-03T01:35:58Z) - MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models [93.91086467402323]
Gradient-Regulated Meta-Prompt IQA Framework (GRMP-IQA) は、視覚言語事前学習モデルのCLIPをIQAタスクに効率よく適応させるように設計されている。
GRMP-IQAは、 (i) Meta-Prompt 事前学習モジュールと (ii) Quality-Aware Gradient Regularization の2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。