論文の概要: DomainCQA: Crafting Knowledge-Intensive QA from Domain-Specific Charts
- arxiv url: http://arxiv.org/abs/2503.19498v4
- Date: Wed, 10 Sep 2025 02:18:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.043336
- Title: DomainCQA: Crafting Knowledge-Intensive QA from Domain-Specific Charts
- Title(参考訳): DomainCQA: ドメイン特化チャートから知識集約型QAを作る
- Authors: Yujing Lu, Ling Zhong, Jing Yang, Weiming Li, Peng Wei, Yongheng Wang, Manni Duan, Qing Zhang,
- Abstract要約: CQA(Chart Question Answering)は、チャートデータに対する視覚的理解と推論について、MLLM(Multimodal Large Language Models)を評価する。
本稿では,ドメイン固有のCQAベンチマークを構築するためのフレームワークであるDomainCQAを提案する。
- 参考スコア(独自算出の注目度): 24.157256695111872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chart Question Answering (CQA) evaluates Multimodal Large Language Models (MLLMs) on visual understanding and reasoning over chart data. However, existing benchmarks mostly test surface-level parsing, such as reading labels and legends, while overlooking deeper scientific reasoning. We propose DomainCQA, a framework for constructing domain-specific CQA benchmarks that emphasize both visual comprehension and knowledge-intensive reasoning. It integrates complexity-aware chart selection, multitier QA generation, and expert validation. Applied to astronomy, DomainCQA yields AstroChart, a benchmark of 1,690 QA pairs over 482 charts, exposing persistent weaknesses in fine-grained perception, numerical reasoning, and domain knowledge integration across 21 MLLMs. Fine-tuning on AstroChart improves performance across fundamental and advanced tasks. Pilot QA sets in biochemistry, economics, medicine, and social science further demonstrate DomainCQA's generality. Together, our results establish DomainCQA as a unified pipeline for constructing and augmenting domain-specific chart reasoning benchmarks.
- Abstract(参考訳): CQA(Chart Question Answering)は、チャートデータに対する視覚的理解と推論について、MLLM(Multimodal Large Language Models)を評価する。
しかし、既存のベンチマークは、ラベルや伝説を読むなど、表面レベルの解析を主にテストし、より深い科学的推論を見越している。
本稿では,ドメイン固有のCQAベンチマークを構築するためのフレームワークであるDomainCQAを提案する。
複雑性を意識したチャートの選択、多層QA生成、専門家による検証を統合する。
天文学に適用されたDomainCQAは、482のチャートに1,690のQAペアのベンチマークであるAstroChartを出力し、21のMLLMにまたがる微粒な知覚、数値的推論、ドメイン知識の統合において永続的な弱点を露呈する。
AstroChartの微調整は、基本的なタスクと高度なタスクのパフォーマンスを改善する。
生物化学、経済学、医学、社会科学のパイロットQAは、さらにDomainCQAの一般性を実証している。
その結果,ドメイン固有チャート推論ベンチマークの構築と拡張のための統合パイプラインとしてDomainCQAを確立した。
関連論文リスト
- Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking [56.27361644734853]
知識グラフ質問 回答システムは、複雑なマルチホップ推論を評価するために高品質なベンチマークに依存している。
広く使われているにもかかわらず、WebQSPやCWQのような一般的なデータセットは、重要な品質問題に悩まされている。
我々はこれらの落とし穴を体系的に解決するLLM-in-the-loopフレームワークであるKGQAGenを紹介する。
本研究は,KGQA評価を推し進めるスケーラブルなフレームワークとして,より厳密なベンチマーク構築とKGQAGenの位置づけを提唱する。
論文 参考訳(メタデータ) (2025-05-29T14:44:52Z) - ChartMind: A Comprehensive Benchmark for Complex Real-world Multimodal Chart Question Answering [14.468507852394923]
チャート質問応答(CQA)は、視覚言語モデルの推論能力を評価するための重要なマルチモーダルタスクとなっている。
実環境における複雑なCQAタスク用に設計された新しいベンチマークであるChartMindを紹介する。
本稿では,重要な文脈要素の抽出に焦点をあてた文脈対応だがモデルに依存しないフレームワークであるChartLLMを提案する。
論文 参考訳(メタデータ) (2025-05-29T08:46:03Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - MEQA: A Meta-Evaluation Framework for Question & Answer LLM Benchmarks [0.0]
質問と回答(QA)ベンチマークのメタ評価のためのフレームワークであるMEQAを提案する。
我々は,人間とLLM評価器を用いたサイバーセキュリティベンチマークにおいて,この手法を実証する。
私たちは、強力な防御ツールとセキュリティ脅威として、AIモデルの二重性によるテストドメインの選択を動機付けています。
論文 参考訳(メタデータ) (2025-04-18T19:01:53Z) - ExpertGenQA: Open-ended QA generation in Specialized Domains [9.412082058055823]
ExpertGenQAは、いくつかのショット学習と構造化トピックとスタイル分類を組み合わせて、包括的なドメイン固有のQAペアを生成するプロトコルである。
ExpertGenQAは,9,4.4%のトピックカバレッジを維持しつつ,ベースライン数ショットアプローチの効率を2倍に向上することを示す。
論文 参考訳(メタデータ) (2025-03-04T19:09:48Z) - Discerning and Characterising Types of Competency Questions for Ontologies [0.4757470449749875]
コンピテンシー質問(CQ)は、スコーピングや検証の段階を導くことで、オントロジー開発に広く使われている。
CQの定式化や良質なCQの評価には極めて限定的なガイダンスがあり、曖昧さや使用不能な定式化といった問題に繋がる。
本論は, 課題の多様さ, 利用状況, 開発課題の多様さを分析し, 理論的基礎に寄与する。
論文 参考訳(メタデータ) (2024-12-18T10:26:29Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - A Comprehensive Survey of Action Quality Assessment: Method and Benchmark [25.694556140797832]
行動品質評価(AQA)は、人間の行動の質を定量的に評価し、人間の判断におけるバイアスを減らす自動評価を提供する。
近年のAQAの進歩は革新的手法を導入しているが、類似の手法は異なる領域にまたがることが多い。
統一されたベンチマークと限定的な計算比較の欠如は、AQAアプローチの一貫性のある評価と公正な評価を妨げている。
論文 参考訳(メタデータ) (2024-12-15T10:47:26Z) - Grounding-IQA: Multimodal Language Grounding Model for Image Quality Assessment [69.07445098168344]
我々は,新しい画像品質評価(IQA)タスクパラダイム,グラウンドング-IQAを導入する。
Grounding-IQAは2つのサブタスクからなる: Grounding-IQA-description (GIQA-DES) と visual question answering (GIQA-VQA)。
グラウンドディング-IQAを実現するために,提案した自動アノテーションパイプラインを通じて対応するデータセットGIQA-160Kを構築した。
提案したタスクパラダイム,データセット,ベンチマークが,よりきめ細かいIQAアプリケーションを促進することを示す。
論文 参考訳(メタデータ) (2024-11-26T09:03:16Z) - KaPQA: Knowledge-Augmented Product Question-Answering [59.096607961704656]
我々はAdobe AcrobatとPhotoshop製品に焦点を当てた2つのQAデータセットを紹介した。
また、製品QAタスクにおけるモデルの性能を高めるために、新しい知識駆動型RAG-QAフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-22T22:14:56Z) - Can LLMs Evaluate Complex Attribution in QA? Automatic Benchmarking using Knowledge Graphs [33.87001216244801]
Attributed Question Answering (AQA) は注目されているが、その属性を評価するにはいくつかの制限がある。
本稿では,包括的帰属カテゴリを含む大規模ベンチマークであるCAQAを紹介する。
我々はCAQAの有効性を検証するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-01-26T04:11:07Z) - Empower Large Language Model to Perform Better on Industrial
Domain-Specific Question Answering [36.31193273252256]
大規模言語モデル(LLM)は、オープンドメインタスクにおいて大きな成果を上げている。
しかし、実際の産業ドメイン固有のシナリオにおけるパフォーマンスは、特定のドメイン知識が欠如しているため平均的です。
私たちは、Microsoft製品と顧客が遭遇するIT技術的な問題を中心にした、MSQA(QA)データセットのベンチマークを提供します。
論文 参考訳(メタデータ) (2023-05-19T09:23:25Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - RnG-KBQA: Generation Augmented Iterative Ranking for Knowledge Base
Question Answering [57.94658176442027]
KBQAのランク・アンド・ジェネレートアプローチであるRnG-KBQAを提案する。
我々はGrailQA と WebQSP データセット上で,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2021-09-17T17:58:28Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。