Fugu-MT 論文翻訳(概要): SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering Dataset for Scientific Graphs

論文の概要: SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering Dataset for Scientific Graphs

arxiv url: http://arxiv.org/abs/2308.03349v1
Date: Mon, 7 Aug 2023 07:03:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 14:53:42.004019
Title: SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering Dataset for Scientific Graphs
Title（参考訳）: SciGraphQA: 科学グラフのための大規模多段階質問回答データセット
Authors: Shengzhi Li, Nima Tajbakhsh
Abstract要約: SciGraphQA(SciGraphQA)は,学術グラフに関連する多ターン質問応答データセットである。 ChartVQAよりも13倍大きい。
参考スコア（独自算出の注目度）: 3.393948745711056
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we present SciGraphQA, a synthetic multi-turn question-answer dataset related to academic graphs. SciGraphQA is 13 times larger than ChartVQA, the previously largest chart-visual question-answering dataset. It is also the largest open-sourced chart VQA dataset with non-synthetic charts. To build our dataset, we selected 290,000 Computer Science or Machine Learning ArXiv papers published between 2010 and 2020, and then used Palm-2 to generate 295K samples of open-vocabulary multi-turn question-answering dialogues about the graphs. As context, we provided the text-only Palm-2 with paper title, abstract, paragraph mentioning the graph, and rich text contextual data from the graph itself, obtaining dialogues with an average 2.23 question-answer turns for each graph. We asked GPT-4 to assess the matching quality of our question-answer turns given the paper's context, obtaining an average rating of 8.7/10 on our 3K test set. We evaluated the 0-shot capability of the most popular MLLM models such as LLaVa, mPLUGowl, BLIP-2, and openFlamingo's on our dataset, finding LLaVA-13B being the most performant with a CIDEr score of 0.08. We further enriched the question prompts for LLAVA by including the serialized data tables extracted from the graphs using the DePlot model, boosting LLaVA's 0-shot CIDEr to 0.15. To verify the validity of our dataset, we also fine-tuned LLaVa using our dataset, reaching a substantially higher CIDEr score of 0.26. We anticipate further accuracy improvement by including segmentation mask tokens and leveraging larger LLM backbones coupled with emergent prompting techniques. Our code and data are open-sourced.
Abstract（参考訳）: 本研究では,学術グラフに関連する多ターン質問応答データセットであるSciGraphQAを提案する。 SciGraphQAは、以前最大のチャート視覚質問回答データセットであるChartVQAの13倍の大きさである。また、非合成チャートを持つ最大のオープンソースチャートVQAデータセットでもある。データセットを構築するために、2010年から2020年にかけて発行された290,000のコンピュータサイエンスまたは機械学習ArXiv論文を選択し、Palm-2を使用して、グラフに関するオープン語彙のマルチターン質問回答対話の295万のサンプルを生成しました。文脈として,テキストのみのPalm-2に紙のタイトル,要約,グラフを参照する段落,グラフ自体からのリッチテキストのコンテキストデータを提供し,各グラフの平均2.23質問回答ターンの対話を得た。我々はgpt-4に3kテストセットで平均8.7/10の評価を得た。我々は,LLaVa,mPLUGowl,BLIP-2,openFlamingoなどのMLLMモデルにおいて,CIDErスコアが0.08のLLaVA-13Bが最も高性能であることを示す。さらに、DePlotモデルを用いてグラフから抽出したシリアライズされたデータテーブルを含め、LLAVAの0ショットCIDErを0.15に向上させることにより、LLAVAの質問プロンプトをさらに強化した。また,データセットの有効性を検証するために,データセットを用いてLLaVaを微調整し,CIDErスコア0.26に到達した。我々は,セグメンテーションマスクトークンと,創発的プロンプト技術と組み合わせたより大きなLCMバックボーンを活用することにより,さらなる精度向上を期待する。私たちのコードとデータはオープンソースです。

関連論文リスト

Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text [30.74255946385862]
テキスト・ツー・ビジュアル化モデルを評価するためのベンチマークであるText2Visを紹介する。 1,985のサンプルからなり、それぞれにデータテーブル、自然言語クエリ、短い回答、視覚化コード、注釈付きチャートがある。これは大きなパフォーマンスギャップを明らかにし、重要な課題を強調し、将来の進歩に対する洞察を提供する。
論文参考訳（メタデータ） (2025-07-26T14:59:04Z)
Hybrid Graphs for Table-and-Text based Question Answering using LLMs [2.3759432635713895]
テーブルテキストQAのための新しいハイブリッドグラフベースのアプローチを提案する。我々は,Hybrid-QAデータセットとOTT-QAデータセットに対するアプローチを評価した。本手法は,両方のデータセット上で最高のゼロショット性能を実現する。
論文参考訳（メタデータ） (2025-01-29T16:58:18Z)
An Automatic Graph Construction Framework based on Large Language Models for Recommendation [49.51799417575638]
本稿では,大規模言語モデルに基づく自動グラフ構築フレームワークであるAutoGraphを紹介する。 LLMはユーザ好みとアイテムの知識を推論し、セマンティックベクターとして符号化する。潜在因子は、ユーザ/イテムノードをリンクする余分なノードとして組み込まれ、結果として、深いグローバルビューセマンティクスを持つグラフとなる。
論文参考訳（メタデータ） (2024-12-24T07:51:29Z)
Multi-Document Financial Question Answering using LLMs [0.5120567378386615]
複数文書の財務質問応答のための2つの新しい手法を提案する。まず、セマンティックタグを使用するメソッドで、次にインデックスをクエリしてコンテキストを取得する(RAG_SEM)。第2に,意味的タグ付けを用いた知識グラフ(KG_RAG)に基づく手法で,グラフデータベースから知識グラフのトリプルをコンテキストとして検索する。
論文参考訳（メタデータ） (2024-11-08T21:03:54Z)
Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [90.98855064914379]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文参考訳（メタデータ） (2024-09-29T11:38:45Z)
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文参考訳（メタデータ） (2024-06-26T17:50:11Z)
Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs [60.71360240206726]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて幻覚に悩まされる。既存の研究は、外部知識コーパスから取得した個々のテキスト単位でLLMを拡張することを提案する。本稿では,グラフを反復的に推論することで,LLMをグラフで拡張するためのGraph Chain-of-thinkt (Graph-CoT) というフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-10T15:41:53Z)
Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA [9.659820850719413]
我々は,推論能力の強い大規模言語モデル(LLM)を自動データアノテータとして活用する。私たちの方法における重要な革新は、Synthesize Step-by-Step戦略にあります。我々は、チャートVQAモデルを大幅に強化し、ChartQAおよびPlotQAデータセットの最先端の精度を達成する。
論文参考訳（メタデータ） (2024-03-25T03:02:27Z)
G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。 G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文参考訳（メタデータ） (2024-02-12T13:13:04Z)
Question-Answer Sentence Graph for Joint Modeling Answer Selection [122.29142965960138]
我々は,質問文,質問文,回答文のペア間のスコアを計算するための最先端(SOTA)モデルを訓練し,統合する。オンライン推論は、目に見えないクエリのAS2タスクを解決するために実行される。
論文参考訳（メタデータ） (2022-02-16T05:59:53Z)
Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。 OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文参考訳（メタデータ） (2020-05-02T03:09:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。