論文の概要: Bridging Natural Language and Interactive What-If Interfaces via LLM-Generated Declarative Specification
- arxiv url: http://arxiv.org/abs/2604.07652v1
- Date: Wed, 08 Apr 2026 23:35:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.598083
- Title: Bridging Natural Language and Interactive What-If Interfaces via LLM-Generated Declarative Specification
- Title(参考訳): LLM生成宣言仕様による自然言語のブリッジングと対話型What-Ifインタフェース
- Authors: Sneha Gathani, Sirui Zeng, Diya Patel, Ryan Rossi, Dan Marshall, Cagatay Demiralp, Steven Drucker, Zhicheng Liu,
- Abstract要約: 自然言語 (NL) WIA 質問を中間表現を介してインタラクティブな視覚インタフェースに変換する2段階のワークフローを提案する。
このワークフローを、11のWAAタイプ、5つのデータセット、3つの最先端LCMにまたがる405のWAA質問でベンチマークします。
その結果、モデル全体で、仕様の半分(52.42%)が介入なしに正しく生成されることがわかった。
- 参考スコア(独自算出の注目度): 7.203839699772057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What-if analysis (WIA) is an iterative, multi-step process where users explore and compare hypothetical scenarios by adjusting parameters, applying constraints, and scoping data through interactive interfaces. Current tools fall short of supporting effective interactive WIA: spreadsheet and BI tools require time-consuming and laborious setup, while LLM-based chatbot interfaces are semantically fragile, frequently misinterpret intent, and produce inconsistent results as conversations progress. To address these limitations, we present a two-stage workflow that translates natural language (NL) WIA questions into interactive visual interfaces via an intermediate representation, powered by the Praxa Specification Language (PSL): first, LLMs generate PSL specifications from NL questions capturing analytical intent and logic, enabling validation and repair of erroneous specifications; and second, the specifications are compiled into interactive visual interfaces with parameter controls and linked visualizations. We benchmark this workflow with 405 WIA questions spanning 11 WIA types, 5 datasets, and 3 state-of-the-art LLMs. The results show that across models, half of specifications (52.42%) are generated correctly without intervention. We perform an analysis of the failure cases and derive an error taxonomy spanning non-functional errors (specifications fail to compile) and functional errors (specifications compile but misrepresent intent). Based on the taxonomy, we apply targeted repairs on the failure cases using few-shot prompts and improve the success rate to 80.42%. Finally, we show how undetected functional errors propagate through compilation into plausible but misleading interfaces, demonstrating that the intermediate specification is critical for reliably bridging NL and interactive WIA interface in LLM-powered WIA systems.
- Abstract(参考訳): What-if Analysis(WIA)は,パラメータの調整や制約の適用,インタラクティブインターフェースによるデータのスコーピングによって仮説シナリオを探索し,比較する,反復的かつ多段階的なプロセスである。
スプレッドシートとBIツールは時間と手間を要するが、LLMベースのチャットボットインターフェースは意味的に脆弱で、しばしば誤解される意図があり、会話の進行に伴って一貫性のない結果を生み出す。
これらの制約に対処するため,Praxa Specification Language (PSL) を用いて自然言語(NL) WIA質問をインタラクティブなビジュアルインターフェースに変換する2段階のワークフローを提案する。
このワークフローを、11のWAAタイプ、5つのデータセット、3つの最先端LCMにまたがる405のWAA質問でベンチマークします。
その結果、モデル全体で、仕様の半分(52.42%)が介入なしに正しく生成されることがわかった。
障害事例の分析を行い、非機能的エラー(コンパイルに失敗)と機能的エラー(コンパイルに失敗するが、意図を誤って表現する)にまたがるエラー分類を導出する。
分類学に基づいて、数発のプロンプトを用いて故障事例に対する目標修理を行い、成功率を80.42%に改善する。
最後に,LLMを用いたWAAシステムにおけるNLおよび対話型WAAインタフェースを確実にブリッジする上で,中間仕様が重要であることを示す。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Towards Automated Error Discovery: A Study in Conversational AI [48.735443116662026]
本稿では,会話型AIにおけるエラーの検出と定義のためのフレームワークであるAutomated Error Discoveryを紹介する。
また,その実装に対するエンコーダに基づくアプローチとして,SEEED(Soft Clustering Extended-Based Error Detection)を提案する。
論文 参考訳(メタデータ) (2025-09-13T14:53:22Z) - AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification [25.27444694706659]
AskToActは、クエリとツールの実行ソリューションの間の構造的マッピングを利用する。
クエリから重要なパラメータを体系的に取り除き,それらを根拠として保持することにより,高品質なトレーニングデータの自動構築を可能にする。
我々のフレームワークは、異なるモデルアーキテクチャにわたって堅牢なパフォーマンスを示し、追加のトレーニングなしで完全に見えないAPIに一般化することに成功しています。
論文 参考訳(メタデータ) (2025-03-03T12:55:49Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping [57.024913536420264]
MLLM(Multimodal Large Language Models)は、設計からコードへのタスクにおいて顕著な性能を示す。
本稿では,インタラクティブなWebページを生成する上で,MLLMを初めて体系的に研究する。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z) - RETAIN: Interactive Tool for Regression Testing Guided LLM Migration [8.378294455013284]
RETAIN(Regression Testing Guided LLM migrAtIoN)は、LLMマイグレーションにおける回帰テスト用に明示的に設計されたツールである。
自動評価と経験的ユーザスタディにより、RETAINは手動による評価と比較して、参加者が2倍のエラーを識別し、75%以上のプロンプトで実験し、与えられた時間枠で12%高いスコアを得ることができた。
論文 参考訳(メタデータ) (2024-09-05T22:22:57Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models [38.79074982172423]
本稿では,トランスフォーマーを用いた大規模言語モデル (LLM) の内部動作について検討する。
本稿では,制約満足度問題として事実クエリをモデル化することを提案する。
制約トークンに対するLLMの注意と世代毎の事実的正確性との間には,強い正の相関関係が認められた。
論文 参考訳(メタデータ) (2023-09-26T17:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。