論文の概要: Diagram-Driven Course Questions Generation
- arxiv url: http://arxiv.org/abs/2411.17771v4
- Date: Fri, 30 May 2025 05:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:33.450948
- Title: Diagram-Driven Course Questions Generation
- Title(参考訳): ダイアグラム駆動コース質問生成
- Authors: Xinyu Zhang, Lingling Zhang, Yanrui Wu, Muye Huang, Wenjun Wu, Bo Li, Shaowei Wang, Basura Fernando, Jun Liu,
- Abstract要約: 本稿では,DDCQG(Diagram-Driven Course Questions Generation)タスクを提案し,37科目と371科目を対象に,15,720科目と25,798科目からなる包括的データセットを構築した。
本手法では,特定の図形要素に関するコース関連質問を生成するために,コース制約と入力制約を用いる。
DDCQGの3つの課題は、コース全体にわたるドメイン固有の知識要件、コースにおける長期分布、ダイアグラムにおける高情報密度である。
- 参考スコア(独自算出の注目度): 27.549301875569736
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual Question Generation (VQG) research focuses predominantly on natural images while neglecting the diagram, which is a critical component in educational materials. To meet the needs of pedagogical assessment, we propose the Diagram-Driven Course Questions Generation (DDCQG) task and construct DiagramQG, a comprehensive dataset with 15,720 diagrams and 25,798 questions across 37 subjects and 371 courses. Our approach employs course and input text constraints to generate course-relevant questions about specific diagram elements. We reveal three challenges of DDCQG: domain-specific knowledge requirements across courses, long-tail distribution in course coverage, and high information density in diagrams. To address these, we propose the Hierarchical Knowledge Integration framework (HKI-DDCQG), which utilizes trainable CLIP for identifying relevant diagram patches, leverages frozen vision-language models for knowledge extraction, and generates questions with trainable T5. Experiments demonstrate that HKI-DDCQG outperforms existing models on DiagramQG while maintaining strong generalizability across natural image datasets, establishing a strong baseline for DDCQG.
- Abstract(参考訳): 視覚質問生成(VQG)研究は、主に自然画像に焦点を当て、図を無視する。
教育的評価の必要性に応えるため,DDCQGタスクを提案し,37科目と371科目を対象とした15,720図と25,798問の総合データセットであるDiagramQGを構築した。
本手法では,特定の図形要素に関するコース関連質問を生成するために,コース制約と入力制約を用いる。
DDCQGの3つの課題は、コース全体にわたるドメイン固有の知識要件、コースにおける長期分布、ダイアグラムにおける高情報密度である。
このような問題に対処するため,HKI-DDCQG(Hierarchical Knowledge Integration framework)を提案する。このフレームワークは,学習可能なCLIPを用いて関連図のパッチを識別し,凍結した視覚言語モデルを用いて知識抽出を行い,学習可能なT5を用いて質問を生成する。
実験により、HKI-DDCQGはDiagramQGの既存のモデルより優れており、DDCQGの強力なベースラインを確立することができる。
関連論文リスト
- A Survey on Neural Question Generation: Methods, Applications, and Prospects [56.97451350691765]
調査は、NQGの背景の概要から始まり、タスクの問題を定式化している。
その後、NQGアプローチを構造化NQG、非構造化NQG、ハイブリッドNQGの3つの主要なカテゴリに分類する。
この調査は、NQGの軌跡を前方視し、創発的な研究動向と今後の発展の道筋を見極めている。
論文 参考訳(メタデータ) (2024-02-28T11:57:12Z) - ConVQG: Contrastive Visual Question Generation with Multimodal Guidance [20.009626292937995]
本研究では,コントラスト的視覚質問生成(ConVQG)を提案し,画像的,テキスト的,知識に富んだ質問を生成する。
知識認識と標準VQGベンチマークの実験は、ConVQGが最先端の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-02-20T09:20:30Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation [64.64849950642619]
テキスト・ツー・イメージ・モデルを評価するための形式的意味論にインスパイアされた評価フレームワークを開発する。
Davidsonian Scene Graph (DSG) が依存性グラフにまとめられた原子的およびユニークな質問を生成することを示す。
また,1060個のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。
論文 参考訳(メタデータ) (2023-10-27T16:20:10Z) - Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets [5.45761450227064]
本稿では,Few-Shot Visual Question Generation (FS-VQG)タスクを提案する。
FS-VQGタスクのメタラーニングと自己教師型戦略に基づく,既存のVQGアプローチと,一般的な数ショットソリューションの評価を行った。
私たちの実験から重要な発見がいくつか出てきました。これは、数ショットのビジョンと言語生成タスクにおいて、現在のモデルの限界に光を当てたものです。
論文 参考訳(メタデータ) (2022-10-13T15:01:15Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - K-VQG: Knowledge-aware Visual Question Generation for Common-sense
Acquisition [64.55573343404572]
K-VQGと呼ばれる新しい知識対応VQGデータセットを提案する。
これは、画像に関する質問が構造化された知識に結びついている最初の大規模で人間の注釈付きデータセットである。
また,質問対象として知識をエンコードし,使用可能な新しいVQGモデルも開発している。
論文 参考訳(メタデータ) (2022-03-15T13:38:10Z) - QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question
Answering [122.84513233992422]
学習済み言語モデル(LM)と知識グラフ(KG)の知識を用いて質問に答える問題に対処する新しいモデルであるQA-GNNを提案する。
既存のLMとLM+KGモデルに対する改善と、解釈可能で構造化された推論を行う能力を示しています。
論文 参考訳(メタデータ) (2021-04-13T17:32:51Z) - EQG-RACE: Examination-Type Question Generation [21.17100754955864]
本論文では, RACEから抽出したデータセットをもとに, 試験型質問生成手法 (EQG-RACE) を提案する。
EQG-RACEでは、離散的な回答情報を扱うための2つの主要な戦略と、長い文脈における推論が採用されています。
実験結果は、ベースラインよりも優れたEQG-RACEの最先端の性能を示しています。
論文 参考訳(メタデータ) (2020-12-11T03:52:17Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。