Fugu-MT 論文翻訳(概要): Talk Less, Verify More: Improving LLM Assistants with Semantic Checks and Execution Feedback

論文の概要: Talk Less, Verify More: Improving LLM Assistants with Semantic Checks and Execution Feedback

arxiv url: http://arxiv.org/abs/2601.00224v2
Date: Wed, 07 Jan 2026 15:49:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-08 18:12:46.005902
Title: Talk Less, Verify More: Improving LLM Assistants with Semantic Checks and Execution Feedback
Title（参考訳）: セマンティックチェックと実行フィードバックによるLLMアシスタントの改善
Authors: Yan Sun, Ming Cai, Stanley Kok,
Abstract要約: 本稿では,コードとユーザ意図の相互変換とセマンティックマッチングを行うQ*と,コード修正のための実行フィードバックを組み込んだFeedback+の2つの補完的検証手法を紹介する。 Spider、Bird、GSM8Kの3つのベンチマークデータセットの評価では、Q*とFeedback+の両方がエラー率とタスク完了時間を削減している。
参考スコア（独自算出の注目度）: 14.593478824805542
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language model (LLM) assistants become increasingly integrated into enterprise workflows, their ability to generate accurate, semantically aligned, and executable outputs is critical. However, current conversational business analytics (CBA) systems often lack built-in verification mechanisms, leaving users to manually validate potentially flawed results. This paper introduces two complementary verification techniques: Q*, which performs reverse translation and semantic matching between code and user intent, and Feedback+, which incorporates execution feedback to guide code refinement. Embedded within a generator-discriminator framework, these mechanisms shift validation responsibilities from users to the system. Evaluations on three benchmark datasets, Spider, Bird, and GSM8K, demonstrate that both Q* and Feedback+ reduce error rates and task completion time. The study also identifies reverse translation as a key bottleneck, highlighting opportunities for future improvement. Overall, this work contributes a design-oriented framework for building more reliable, enterprise-grade GenAI systems capable of trustworthy decision support.
Abstract（参考訳）: 大規模言語モデル(LLM)アシスタントがますますエンタープライズワークフローに統合されるにつれて、正確でセマンティックに整合した、実行可能なアウトプットを生成する能力が重要になります。しかし、現在の会話型ビジネス分析(CBA)システムは、しばしば組み込みの検証メカニズムを欠いているため、ユーザは手動で欠陥のある結果を検証しなければならない。本稿では,コードとユーザ意図の相互変換とセマンティックマッチングを行うQ*と,コード修正のための実行フィードバックを組み込んだFeedback+の2つの補完的検証手法を紹介する。ジェネレータ-ディスクリミネータフレームワークに埋め込まれたこれらのメカニズムは、ユーザからシステムへのバリデーション責任をシフトする。 Spider、Bird、GSM8Kの3つのベンチマークデータセットの評価では、Q*とFeedback+の両方がエラー率とタスク完了時間を削減している。また、この研究はリバース翻訳を重要なボトルネックとし、将来の改善の機会を強調している。全体として、この作業は、信頼できる、エンタープライズレベルのGenAIシステムを構築するための設計指向のフレームワークに貢献します。

関連論文リスト

Veri-Sure: A Contract-Aware Multi-Agent Framework with Temporal Tracing and Formal Verification for Correct RTL Code Generation [4.723302382132762]
シリコングレードの正しさは、 (i) シミュレーション中心の評価の限られたカバレッジと信頼性、 (ii) 回帰と修復幻覚、 (iii) エージェントハンドオフ間で意図が再解釈される意味的ドリフトによってボトルネックが残っている。エージェントの意図を整合させる設計契約を確立するマルチエージェントフレームワークであるVeri-Sureを提案する。
論文参考訳（メタデータ） (2026-01-27T16:10:23Z)
Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions [8.97512410819274]
本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。我々は、GitHub Copilotを評価し、ROCODEやLogHub2.0といったベンチマークリポジトリからSE研究成果物を適用する。その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、正しい実装を生成することは滅多にない。
論文参考訳（メタデータ） (2025-11-26T13:26:11Z)
Improving Large Language Models Function Calling and Interpretability via Guided-Structured Templates [56.73907811047611]
大規模言語モデル(LLM)は強力な推論とツール使用能力を示している。 LLMは、誤ったパラメータ化、悪いツールの選択、ユーザーの意図の誤解釈によって、現実世界のツールインタラクションで失敗することが多い。我々は、構造化推論テンプレートを利用して、関数呼び出しを生成するためのより故意なステップバイステップ命令を通してLCMをガイドするカリキュラムに着想を得たフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-22T17:55:14Z)
Illuminating LLM Coding Agents: Visual Analytics for Deeper Understanding and Enhancement [16.472150248814767]
我々は,コーディングエージェントの動作の検査を強化するために,視覚分析システムを導入する。我々のシステムでは,ML科学者がエージェントの動作に関する構造化された理解を得ることが可能である。
論文参考訳（メタデータ） (2025-08-18T01:17:11Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。 4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文参考訳（メタデータ） (2025-08-05T12:52:09Z)
On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
ReAgent: Reversible Multi-Agent Reasoning for Knowledge-Enhanced Multi-Hop QA [29.578079759428014]
ReAgentは、明示的なバックトラッキング機構を備えた可逆的なマルチエージェント協調フレームワークである。提案システムでは,誤り検出と修正が可能で,より堅牢で解釈可能なQA結果が得られる。
論文参考訳（メタデータ） (2025-03-10T05:56:46Z)
Integrating Expert Knowledge into Logical Programs via LLMs [3.637365301757111]
ExKLoPは、大規模言語モデルが専門家の知識を論理的推論システムに統合する方法を評価するために設計されたフレームワークである。この能力は特にエンジニアリングにおいて有用であり、製造業者が推奨する運用範囲などの専門家の知識を、自動化された監視システムに直接組み込むことができる。
論文参考訳（メタデータ） (2025-02-17T19:18:23Z)
An Empirical Study on LLM-based Agents for Automated Bug Fixing [8.660251517380779]
大規模な言語モデル (LLM) と LLM ベースのエージェントが自動的にバグを修正するために適用されている。自動バグ修正のためのSWE-bench Verifiedベンチマークにおいて,6つの修復システムについて検討した。
論文参考訳（メタデータ） (2024-11-15T14:19:15Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Repairs in a Block World: A New Benchmark for Handling User Corrections with Multi-Modal Language Models [48.42142115255159]
命令追従操作タスクにおけるマルチモーダルなTPRシーケンスのデータセットであるBlockWorld-Repairsをリリースする。現状のビジョンと言語モデル(VLM)を複数の設定で評価し,TPRの処理能力と正確な応答性に着目した。以上の結果から,これらのモデルはまだマルチモーダル・コラボレーティブ・セッティングにデプロイする準備が整っていないことが示唆された。
論文参考訳（メタデータ） (2024-09-21T21:06:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。