論文の概要: DomainCQA: Crafting Expert-Level QA from Domain-Specific Charts
- arxiv url: http://arxiv.org/abs/2503.19498v1
- Date: Tue, 25 Mar 2025 09:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:50:12.589667
- Title: DomainCQA: Crafting Expert-Level QA from Domain-Specific Charts
- Title(参考訳): DomainCQA: 専門的なグラフからエキスパートレベルのQAを作る
- Authors: Ling Zhong, Yujing Lu, Jing Yang, Weiming Li, Peng Wei, Yongheng Wang, Manni Duan, Qing Zhang,
- Abstract要約: ドメイン固有のCQAベンチマークを構築するための体系的な方法論であるDomainCQAを紹介する。
天文学分野におけるCQAベンチマークであるAstroChartを開発した。
- 参考スコア(独自算出の注目度): 15.409781065910328
- License:
- Abstract: Chart Question Answering (CQA) benchmarks are essential for evaluating the capability of Multimodal Large Language Models (MLLMs) to interpret visual data. However, current benchmarks focus primarily on the evaluation of general-purpose CQA but fail to adequately capture domain-specific challenges. We introduce DomainCQA, a systematic methodology for constructing domain-specific CQA benchmarks, and demonstrate its effectiveness by developing AstroChart, a CQA benchmark in the field of astronomy. Our evaluation shows that chart reasoning and combining chart information with domain knowledge for deeper analysis and summarization, rather than domain-specific knowledge, pose the primary challenge for existing MLLMs, highlighting a critical gap in current benchmarks. By providing a scalable and rigorous framework, DomainCQA enables more precise assessment and improvement of MLLMs for domain-specific applications.
- Abstract(参考訳): CQA(Chart Question Answering)ベンチマークは、視覚データを解釈するためのMLLM(Multimodal Large Language Models)の能力を評価するために不可欠である。
しかし、現在のベンチマークは主に汎用CQAの評価に重点を置いているが、ドメイン固有の課題を適切に捉えていない。
本稿では、ドメイン固有のCQAベンチマークを構築するための体系的方法論であるDomainCQAを紹介し、天文学分野におけるCQAベンチマークであるAstroChartを開発することにより、その効果を実証する。
評価の結果,チャート情報とドメイン知識を組み合わせることで,ドメイン固有の知識ではなく,より深い分析と要約を行うことが,既存のMLLMにとって大きな課題であり,現在のベンチマークにおける重要なギャップを浮き彫りにしていることがわかった。
スケーラブルで厳格なフレームワークを提供することで、DomainCQAは、ドメイン固有のアプリケーションに対するより正確なMLLMの評価と改善を可能にします。
関連論文リスト
- Discerning and Characterising Types of Competency Questions for Ontologies [0.4757470449749875]
コンピテンシー質問(CQ)は、スコーピングや検証の段階を導くことで、オントロジー開発に広く使われている。
CQの定式化や良質なCQの評価には極めて限定的なガイダンスがあり、曖昧さや使用不能な定式化といった問題に繋がる。
本論は, 課題の多様さ, 利用状況, 開発課題の多様さを分析し, 理論的基礎に寄与する。
論文 参考訳(メタデータ) (2024-12-18T10:26:29Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - A Comprehensive Survey of Action Quality Assessment: Method and Benchmark [25.694556140797832]
行動品質評価(AQA)は、人間の行動の質を定量的に評価し、人間の判断におけるバイアスを減らす自動評価を提供する。
近年のAQAの進歩は革新的手法を導入しているが、類似の手法は異なる領域にまたがることが多い。
統一されたベンチマークと限定的な計算比較の欠如は、AQAアプローチの一貫性のある評価と公正な評価を妨げている。
論文 参考訳(メタデータ) (2024-12-15T10:47:26Z) - Grounding-IQA: Multimodal Language Grounding Model for Image Quality Assessment [69.07445098168344]
我々は,新しい画像品質評価(IQA)タスクパラダイム,グラウンドング-IQAを導入する。
Grounding-IQAは2つのサブタスクからなる: Grounding-IQA-description (GIQA-DES) と visual question answering (GIQA-VQA)。
グラウンドディング-IQAを実現するために,提案した自動アノテーションパイプラインを通じて対応するデータセットGIQA-160Kを構築した。
提案したタスクパラダイム,データセット,ベンチマークが,よりきめ細かいIQAアプリケーションを促進することを示す。
論文 参考訳(メタデータ) (2024-11-26T09:03:16Z) - KaPQA: Knowledge-Augmented Product Question-Answering [59.096607961704656]
我々はAdobe AcrobatとPhotoshop製品に焦点を当てた2つのQAデータセットを紹介した。
また、製品QAタスクにおけるモデルの性能を高めるために、新しい知識駆動型RAG-QAフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-22T22:14:56Z) - Empower Large Language Model to Perform Better on Industrial
Domain-Specific Question Answering [36.31193273252256]
大規模言語モデル(LLM)は、オープンドメインタスクにおいて大きな成果を上げている。
しかし、実際の産業ドメイン固有のシナリオにおけるパフォーマンスは、特定のドメイン知識が欠如しているため平均的です。
私たちは、Microsoft製品と顧客が遭遇するIT技術的な問題を中心にした、MSQA(QA)データセットのベンチマークを提供します。
論文 参考訳(メタデータ) (2023-05-19T09:23:25Z) - Domain Specific Question Answering Over Knowledge Graphs Using Logical
Programming and Large Language Models [10.258158633354686]
我々のアプローチは古典論理型言語を大規模言語モデル(LLM)に統合する。
実験結果から,アノテートされた少数のデータを用いてトレーニングした場合でも,全ての質問に対して正解の正解を正確に同定できることが示唆された。
論文 参考訳(メタデータ) (2023-03-03T20:35:38Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - RnG-KBQA: Generation Augmented Iterative Ranking for Knowledge Base
Question Answering [57.94658176442027]
KBQAのランク・アンド・ジェネレートアプローチであるRnG-KBQAを提案する。
我々はGrailQA と WebQSP データセット上で,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2021-09-17T17:58:28Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。