論文の概要: Spreadsheet Modeling Experiments Using GPTs on Small Problem Statements and the Wall Task
- arxiv url: http://arxiv.org/abs/2604.25689v1
- Date: Tue, 28 Apr 2026 14:19:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.898906
- Title: Spreadsheet Modeling Experiments Using GPTs on Small Problem Statements and the Wall Task
- Title(参考訳): 小問題事項と壁面課題に対するGPTを用いたスプレッドシートモデリング実験
- Authors: Thomas A. Grossman, Yuan Chen, Sopiko Datuashvili,
- Abstract要約: GPTベースのツールは、再利用可能な分析スプレッドシートモデルの構築を支援することができる。
5つのGPT拡張を評価し、詳細なテストのためにpulsrai.comでExcel AIを選択します。
結果は、Excel AIはよく構造化されたモデルを生成することができるが、一貫性がなく、しばしば再現不可能であることを示している。
- 参考スコア(独自算出の注目度): 3.6086016443500952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates how GPT-based tools can assist in building reusable analytical spreadsheet models. After a screening, we evaluate five GPT extensions and select Excel AI by pulsrai.com for detailed testing. Through structured experiments on simple problem statements, we assess Excel AI's performance against the ERFR criteria (each input in a cell; cell formulas; no hardwired numbers; labels; accurate). Results show that while Excel AI can produce well-structured models, it is inconsistent and often non-reproducible. We identify two central challenges - "the problem of confidence" and "the problem of workflow" - which highlight the need for skilled users to verify and adapt GPT-generated spreadsheets. Though GPTs show promise for generating draft models that may reduce development time or lower skill requirements, current tools remain unreliable for professional use. We conclude with recommendations for future research into prompt engineering, reproducibility, and larger-scale modeling tasks.
- Abstract(参考訳): 本稿では,GPTをベースとしたツールが再利用可能な解析スプレッドシートモデルの構築にどのように役立つかを検討する。
スクリーニング後、5つのGPT拡張を評価し、詳細なテストのためにpulsrai.comでExcel AIを選択します。
簡単な問題文に関する構造化実験を通じて、Excel AIのパフォーマンスをERFR基準(セル内の入力、セル公式、ハードワイヤ数、ラベル、正確性)に対して評価する。
結果は、Excel AIはよく構造化されたモデルを生成することができるが、一貫性がなく、しばしば再現不可能であることを示している。
信頼性の問題”と“ワークフローの問題”という2つの中心的な課題を特定し、GPT生成のスプレッドシートの検証と適用に熟練したユーザの必要性を強調します。
GPTは、開発時間やスキル要件の低減につながるドラフトモデルを生成することを約束しているが、現在のツールは、プロフェッショナルな使用には信頼できないままである。
我々は,今後の工学,再現性,大規模モデリングタスクの研究への提言を締めくくっている。
関連論文リスト
- AIDABench: AI Data Analytics Benchmark [62.45908988324612]
AIDABenchは、複雑なデータ分析タスクのAIシステムをエンドツーエンドで評価するためのベンチマークである。
AIDABenchは、質問応答、データビジュアライゼーション、ファイル生成という3つのコア機能ディメンションにまたがる600以上の多様なドキュメント分析タスクを含んでいる。
AIDABenchの11の最先端モデルを評価し、プロプライエタリ(Claude Sonnet 4.5、Gemini 3 Pro Previewなど)とオープンソース(Qwen3-Max-2026-01-23-Thinkingなど)の両方を対象とする。
論文 参考訳(メタデータ) (2026-02-27T08:58:05Z) - SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks [8.306042091008957]
大規模言語モデル (LLM) は、構造化されたアーティファクトの生成と操作のタスクが増えている。
タスク上でモデルのパフォーマンスを評価するプラットフォームであるSpreadsheetArenaを紹介する。
好みのスプレッドシートのスタイラス的,構造的,機能的特徴はユースケースによって大きく異なる。
論文 参考訳(メタデータ) (2026-02-16T14:24:36Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Benchmark Dataset Generation and Evaluation for Excel Formula Repair with LLMs [3.4697197968922566]
大型言語モデル(LLM)は、公式エラーを説明することで有望な支援を提供する。
本稿では,Excel 公式の補修に特化して設計されたベンチマークデータセットを構築するための新しい手法を提案する。
我々のパイプラインはLLMと数発のプロンプトを統合し、堅牢なtextitLLM-as-a-Judgeバリデーションフレームワークを採用している。
論文 参考訳(メタデータ) (2025-08-14T16:43:35Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - Is Self-Repair a Silver Bullet for Code Generation? [68.02601393906083]
大規模な言語モデルは、コード生成において顕著な適性を示しているが、それでも複雑なタスクを実行するのに苦労している。
自己修復(Self-repair) — モデルが自身のコードをデバッグし、修復する — は、最近、パフォーマンスを向上する一般的な方法になっている。
我々は,Code Llama, GPT-3.5, GPT-4によるHumanEvalとAPPSの自己修復能力について分析した。
論文 参考訳(メタデータ) (2023-06-16T15:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。