論文の概要: SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering
Dataset for Scientific Graphs
- arxiv url: http://arxiv.org/abs/2308.03349v1
- Date: Mon, 7 Aug 2023 07:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 14:53:42.004019
- Title: SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering
Dataset for Scientific Graphs
- Title(参考訳): SciGraphQA: 科学グラフのための大規模多段階質問回答データセット
- Authors: Shengzhi Li, Nima Tajbakhsh
- Abstract要約: SciGraphQA(SciGraphQA)は,学術グラフに関連する多ターン質問応答データセットである。
ChartVQAよりも13倍大きい。
- 参考スコア(独自算出の注目度): 3.393948745711056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present SciGraphQA, a synthetic multi-turn question-answer
dataset related to academic graphs. SciGraphQA is 13 times larger than
ChartVQA, the previously largest chart-visual question-answering dataset. It is
also the largest open-sourced chart VQA dataset with non-synthetic charts. To
build our dataset, we selected 290,000 Computer Science or Machine Learning
ArXiv papers published between 2010 and 2020, and then used Palm-2 to generate
295K samples of open-vocabulary multi-turn question-answering dialogues about
the graphs. As context, we provided the text-only Palm-2 with paper title,
abstract, paragraph mentioning the graph, and rich text contextual data from
the graph itself, obtaining dialogues with an average 2.23 question-answer
turns for each graph. We asked GPT-4 to assess the matching quality of our
question-answer turns given the paper's context, obtaining an average rating of
8.7/10 on our 3K test set. We evaluated the 0-shot capability of the most
popular MLLM models such as LLaVa, mPLUGowl, BLIP-2, and openFlamingo's on our
dataset, finding LLaVA-13B being the most performant with a CIDEr score of
0.08. We further enriched the question prompts for LLAVA by including the
serialized data tables extracted from the graphs using the DePlot model,
boosting LLaVA's 0-shot CIDEr to 0.15. To verify the validity of our dataset,
we also fine-tuned LLaVa using our dataset, reaching a substantially higher
CIDEr score of 0.26. We anticipate further accuracy improvement by including
segmentation mask tokens and leveraging larger LLM backbones coupled with
emergent prompting techniques. Our code and data are open-sourced.
- Abstract(参考訳): 本研究では,学術グラフに関連する多ターン質問応答データセットであるSciGraphQAを提案する。
SciGraphQAは、以前最大のチャート視覚質問回答データセットであるChartVQAの13倍の大きさである。
また、非合成チャートを持つ最大のオープンソースチャートVQAデータセットでもある。
データセットを構築するために、2010年から2020年にかけて発行された290,000のコンピュータサイエンスまたは機械学習ArXiv論文を選択し、Palm-2を使用して、グラフに関するオープン語彙のマルチターン質問回答対話の295万のサンプルを生成しました。
文脈として,テキストのみのPalm-2に紙のタイトル,要約,グラフを参照する段落,グラフ自体からのリッチテキストのコンテキストデータを提供し,各グラフの平均2.23質問回答ターンの対話を得た。
我々はgpt-4に3kテストセットで平均8.7/10の評価を得た。
我々は,LLaVa,mPLUGowl,BLIP-2,openFlamingoなどのMLLMモデルにおいて,CIDErスコアが0.08のLLaVA-13Bが最も高性能であることを示す。
さらに、DePlotモデルを用いてグラフから抽出したシリアライズされたデータテーブルを含め、LLAVAの0ショットCIDErを0.15に向上させることにより、LLAVAの質問プロンプトをさらに強化した。
また,データセットの有効性を検証するために,データセットを用いてLLaVaを微調整し,CIDErスコア0.26に到達した。
我々は,セグメンテーションマスクトークンと,創発的プロンプト技術と組み合わせたより大きなLCMバックボーンを活用することにより,さらなる精度向上を期待する。
私たちのコードとデータはオープンソースです。
関連論文リスト
- TextSquare: Scaling up Text-Centric Visual Instruction Tuning [64.55339431760727]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs [56.073652738501394]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて幻覚に悩まされる。
既存の研究は、外部知識コーパスから取得した個々のテキスト単位でLLMを拡張することを提案する。
本稿では,グラフを反復的に推論することで,LLMをグラフで拡張するためのGraph Chain-of-thinkt (Graph-CoT) というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T15:41:53Z) - Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA [9.659820850719413]
我々は,推論能力の強い大規模言語モデル(LLM)を自動データアノテータとして活用する。
私たちの方法における重要な革新は、Synthesize Step-by-Step戦略にあります。
我々は、チャートVQAモデルを大幅に強化し、ChartQAおよびPlotQAデータセットの最先端の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T03:02:27Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
本手法は,テキスト応答とグラフの関連部分をハイライトする。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - Challenging the Myth of Graph Collaborative Filtering: a Reasoned and
Reproducibility-driven Analysis [69.46993865095247]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。
これらのグラフモデルと従来の協調フィルタリングモデルを比較する。
ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文 参考訳(メタデータ) (2023-08-01T09:31:44Z) - Question-Answer Sentence Graph for Joint Modeling Answer Selection [122.29142965960138]
我々は,質問文,質問文,回答文のペア間のスコアを計算するための最先端(SOTA)モデルを訓練し,統合する。
オンライン推論は、目に見えないクエリのAS2タスクを解決するために実行される。
論文 参考訳(メタデータ) (2022-02-16T05:59:53Z) - Classification-Regression for Chart Comprehension [16.311371103939205]
チャート質問応答(CQA)は、チャート理解を評価するために用いられるタスクである。
分類と回帰を共同で学習する新しいモデルを提案する。
私たちのモデルのエッジは、特に語彙外回答の質問に重点を置いています。
論文 参考訳(メタデータ) (2021-11-29T18:46:06Z) - Graph-augmented Learning to Rank for Querying Large-scale Knowledge
Graph [34.774049199809426]
情報検索に基づく知識グラフ質問応答(KGQA)は,大規模知識グラフから回答を取得して回答することを目的としている。
まず,検索したKSGを,新しいサブグラフ分割アルゴリズムを用いて,より小さなKSGに分割する。
次に、ランク付けモデルから上位のKSGを選択するためのグラフ拡張学習を提案する。
論文 参考訳(メタデータ) (2021-11-20T08:27:37Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。