論文の概要: SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering
Dataset for Scientific Graphs
- arxiv url: http://arxiv.org/abs/2308.03349v1
- Date: Mon, 7 Aug 2023 07:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 14:53:42.004019
- Title: SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering
Dataset for Scientific Graphs
- Title(参考訳): SciGraphQA: 科学グラフのための大規模多段階質問回答データセット
- Authors: Shengzhi Li, Nima Tajbakhsh
- Abstract要約: SciGraphQA(SciGraphQA)は,学術グラフに関連する多ターン質問応答データセットである。
ChartVQAよりも13倍大きい。
- 参考スコア(独自算出の注目度): 3.393948745711056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present SciGraphQA, a synthetic multi-turn question-answer
dataset related to academic graphs. SciGraphQA is 13 times larger than
ChartVQA, the previously largest chart-visual question-answering dataset. It is
also the largest open-sourced chart VQA dataset with non-synthetic charts. To
build our dataset, we selected 290,000 Computer Science or Machine Learning
ArXiv papers published between 2010 and 2020, and then used Palm-2 to generate
295K samples of open-vocabulary multi-turn question-answering dialogues about
the graphs. As context, we provided the text-only Palm-2 with paper title,
abstract, paragraph mentioning the graph, and rich text contextual data from
the graph itself, obtaining dialogues with an average 2.23 question-answer
turns for each graph. We asked GPT-4 to assess the matching quality of our
question-answer turns given the paper's context, obtaining an average rating of
8.7/10 on our 3K test set. We evaluated the 0-shot capability of the most
popular MLLM models such as LLaVa, mPLUGowl, BLIP-2, and openFlamingo's on our
dataset, finding LLaVA-13B being the most performant with a CIDEr score of
0.08. We further enriched the question prompts for LLAVA by including the
serialized data tables extracted from the graphs using the DePlot model,
boosting LLaVA's 0-shot CIDEr to 0.15. To verify the validity of our dataset,
we also fine-tuned LLaVa using our dataset, reaching a substantially higher
CIDEr score of 0.26. We anticipate further accuracy improvement by including
segmentation mask tokens and leveraging larger LLM backbones coupled with
emergent prompting techniques. Our code and data are open-sourced.
- Abstract(参考訳): 本研究では,学術グラフに関連する多ターン質問応答データセットであるSciGraphQAを提案する。
SciGraphQAは、以前最大のチャート視覚質問回答データセットであるChartVQAの13倍の大きさである。
また、非合成チャートを持つ最大のオープンソースチャートVQAデータセットでもある。
データセットを構築するために、2010年から2020年にかけて発行された290,000のコンピュータサイエンスまたは機械学習ArXiv論文を選択し、Palm-2を使用して、グラフに関するオープン語彙のマルチターン質問回答対話の295万のサンプルを生成しました。
文脈として,テキストのみのPalm-2に紙のタイトル,要約,グラフを参照する段落,グラフ自体からのリッチテキストのコンテキストデータを提供し,各グラフの平均2.23質問回答ターンの対話を得た。
我々はgpt-4に3kテストセットで平均8.7/10の評価を得た。
我々は,LLaVa,mPLUGowl,BLIP-2,openFlamingoなどのMLLMモデルにおいて,CIDErスコアが0.08のLLaVA-13Bが最も高性能であることを示す。
さらに、DePlotモデルを用いてグラフから抽出したシリアライズされたデータテーブルを含め、LLAVAの0ショットCIDErを0.15に向上させることにより、LLAVAの質問プロンプトをさらに強化した。
また,データセットの有効性を検証するために,データセットを用いてLLaVaを微調整し,CIDErスコア0.26に到達した。
我々は,セグメンテーションマスクトークンと,創発的プロンプト技術と組み合わせたより大きなLCMバックボーンを活用することにより,さらなる精度向上を期待する。
私たちのコードとデータはオープンソースです。
関連論文リスト
- Multi-Document Financial Question Answering using LLMs [0.5120567378386615]
複数文書の財務質問応答のための2つの新しい手法を提案する。
まず、セマンティックタグを使用するメソッドで、次にインデックスをクエリしてコンテキストを取得する(RAG_SEM)。
第2に,意味的タグ付けを用いた知識グラフ(KG_RAG)に基づく手法で,グラフデータベースから知識グラフのトリプルをコンテキストとして検索する。
論文 参考訳(メタデータ) (2024-11-08T21:03:54Z) - Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [90.98855064914379]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。
その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。
本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-29T11:38:45Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs [60.71360240206726]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて幻覚に悩まされる。
既存の研究は、外部知識コーパスから取得した個々のテキスト単位でLLMを拡張することを提案する。
本稿では,グラフを反復的に推論することで,LLMをグラフで拡張するためのGraph Chain-of-thinkt (Graph-CoT) というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T15:41:53Z) - Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA [9.659820850719413]
我々は,推論能力の強い大規模言語モデル(LLM)を自動データアノテータとして活用する。
私たちの方法における重要な革新は、Synthesize Step-by-Step戦略にあります。
我々は、チャートVQAモデルを大幅に強化し、ChartQAおよびPlotQAデータセットの最先端の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T03:02:27Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - Question-Answer Sentence Graph for Joint Modeling Answer Selection [122.29142965960138]
我々は,質問文,質問文,回答文のペア間のスコアを計算するための最先端(SOTA)モデルを訓練し,統合する。
オンライン推論は、目に見えないクエリのAS2タスクを解決するために実行される。
論文 参考訳(メタデータ) (2022-02-16T05:59:53Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。