Fugu-MT 論文翻訳(概要): Evaluating Prompting Strategies for Chart Question Answering with Large Language Models

論文の概要: Evaluating Prompting Strategies for Chart Question Answering with Large Language Models

arxiv url: http://arxiv.org/abs/2603.22288v1
Date: Tue, 03 Mar 2026 03:28:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 02:36:12.970857
Title: Evaluating Prompting Strategies for Chart Question Answering with Large Language Models
Title（参考訳）: 大規模言語モデルを用いたチャート質問応答のための提案手法の評価
Authors: Ruthuparna Naikar, Ying Zhu,
Abstract要約: 本稿では, GPT-3.5, GPT-4, GPT-4oの4種類のプロンプトパラダイム(ゼロショット, フューショット, ゼロショットチェーン, フューショットチェーン)の体系的評価を行った。本フレームワークは,構造化チャートデータのみを運用し,実験変数としてプロンプト構造を分離し,精度とエクササイズマッチングという2つの指標を用いて性能評価を行う。
参考スコア（独自算出の注目度）: 2.243206998586006
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompting strategies affect LLM reasoning performance, but their role in chart-based QA remains underexplored. We present a systematic evaluation of four widely used prompting paradigms (Zero-Shot, Few-Shot, Zero-Shot Chain-of-Thought, and Few-Shot Chain-of-Thought) across GPT-3.5, GPT-4, and GPT-4o on the ChartQA dataset. Our framework operates exclusively on structured chart data, isolating prompt structure as the only experimental variable, and evaluates performance using two metrics: Accuracy and Exact Match. Results from 1,200 diverse ChartQA samples show that Few-Shot Chain-of-Thought prompting consistently yields the highest accuracy (up to 78.2\%), particularly on reasoning-intensive questions, while Few-Shot prompting improves format adherence. Zero-Shot performs well only with high-capacity models on simpler tasks. These findings provide actionable guidance for selecting prompting strategies in structured data reasoning tasks, with implications for both efficiency and accuracy in real-world applications.
Abstract（参考訳）: プロンプティング戦略はLLM推論性能に影響を与えるが、チャートベースのQAにおけるそれらの役割は未解明のままである。本稿では,GPT-3.5,GPT-4,GPT-4oの4種類のプロンプトパラダイム(Zero-Shot,Few-Shot,Zero-Shot Chain-of-Thought,Few-Shot Chain-of-Thought)をChartQAデータセット上で体系的に評価する。本フレームワークは,構造化チャートデータのみを運用し,実験変数としてプロンプト構造を分離し,精度とエクササイズマッチングという2つの指標を用いて性能評価を行う。 1200種類のChartQAサンプルの結果、Few-Shot Chain-of-Thoughtは、特に推論集約的な質問に対して、Few-Shot Chain-of-Thoughtが常に高い精度(78.2\%まで)を得る一方、Few-Shotはフォーマットの適合性を改善することが示されている。 Zero-Shotは、単純なタスクで高容量モデルでのみうまく機能する。これらの結果は、構造化データ推論タスクにおける戦略選択のための実用的なガイダンスを提供するとともに、実世界のアプリケーションにおける効率性と精度の両方に影響を及ぼす。

関連論文リスト

Evaluating Prompting Strategies and Large Language Models in Systematic Literature Review Screening: Relevance and Task-Stage Classification [1.2234742322758418]
本研究では,大規模言語モデル (LLM) と戦略がどう相互作用するかを定量化し,体系的な文献レビューのスクリーニング段階を自動化する。 GPT-4o, GPT-4o-mini, DeepSeek-Chat-V3, Gemini-2.5-Flash, Claude-3.5-Haiku, Llama-4-Maverickの6種類のLCMを5種類のプロンプト型で評価した。 CoT-Few-shotは、最も信頼性の高い精度とリコールのバランス、ゼロショットは高感度パスのリコールを最大化し、自己反射はモデル全体の過度な傾きと不安定さによって不利益となる。
論文参考訳（メタデータ） (2025-10-17T16:53:09Z)
From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文参考訳（メタデータ） (2025-09-27T08:59:31Z)
Chart Question Answering from Real-World Analytical Narratives [5.051297047598238]
可視化ノートから構築したチャート質問応答(CQA)のための新しいデータセットを提案する。このデータセットは、分析的な物語に基づく自然言語の質問と組み合わせた実世界のマルチビューチャートを特徴としている。
論文参考訳（メタデータ） (2025-07-02T11:58:04Z)
SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。 Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。 ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文参考訳（メタデータ） (2025-06-18T14:37:59Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。 GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文参考訳（メタデータ） (2025-02-18T23:38:21Z)
A Distributed Collaborative Retrieval Framework Excelling in All Queries and Corpora based on Zero-shot Rank-Oriented Automatic Evaluation [46.33857318525812]
分散協調検索フレームワーク(DCRF)を提案する。様々な検索モデルを統合システムに統合し、ユーザのクエリに対して最適な結果を動的に選択する。 RankGPTやListT5のような効果的なリストワイドメソッドに匹敵するパフォーマンスを実現することができる。
論文参考訳（メタデータ） (2024-12-16T14:55:57Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文参考訳（メタデータ） (2023-10-08T04:44:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。