論文の概要: Multimodal QUD: Inquisitive Questions from Scientific Figures
- arxiv url: http://arxiv.org/abs/2604.23733v1
- Date: Sun, 26 Apr 2026 14:25:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.527728
- Title: Multimodal QUD: Inquisitive Questions from Scientific Figures
- Title(参考訳): マルチモーダルQUD:科学的考察からの質問
- Authors: Yating Wu, William Rudman, Venkata S Govindarajan, Alexandros G. Dimakis, Junyi Jessy Li,
- Abstract要約: 我々は、科学的論文に携わるときに人間が生み出す疑問の深さに達する質問を生成する。
我々は、QUDの言語理論をテキストのみからマルチモーダルに拡張する。
MQUD上でのVLMの微調整により、一般的な低レベルの視覚的質問からコンテンツ固有のグラウンドへとモデルをシフトすることを示す。
- 参考スコア(独自算出の注目度): 63.41049609329304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Asking inquisitive questions while reading, and looking for their answers, is an important part in human discourse comprehension, curiosity, and creative ideation, and prior work has investigated this in text-only scenarios. However, in scientific or research papers, many of the critical takeaways are conveyed through both figures and the text that analyzes them. While scientific visualizations have been used to evaluate Vision-Language Models (VLMs) capabilities, current benchmarks are limited to questions that focus simply on extracting information from them. Such questions only require lower-level reasoning, do not take into account the context in which a figure appears, and do not reflect the communicative goals the authors wish to achieve. We generate inquisitive questions that reach the depth of questions humans generate when engaging with scientific papers, conditioned on both the figure and the paper's context, and require reasoning across both modalities. To do so, we extend the linguistic theory of Questions Under Discussion (QUD) from being text-only to multimodal, where implicit questions are raised and resolved as discourse progresses. We present MQUD, a dataset of research papers in which such questions are made explicit and annotated by the original authors. We show that fine-tuning a VLM on MQUD shifts the model from generating generic low-level visual questions to content-specific grounding that requires a high-level of multimodal reasoning, yielding higher-quality, more visually grounded multimodal QUD generation.
- Abstract(参考訳): 読みながら質問をし、答えを探し出すことは、人間の言論理解、好奇心、創造的思考において重要な要素であり、先行研究はテキストのみのシナリオでこれを調査してきた。
しかし、科学論文や研究論文では、重要な出発点の多くは、それらを解析する図形とテキストの両方を通して伝達される。
VLM(Vision-Language Models)の能力を評価するために科学的視覚化が使用されているが、現在のベンチマークは、単にそれらから情報を取り出すことに焦点を当てた質問に限られている。
このような質問は下層の推論のみを必要とし、図形が現れる状況を考慮してはならず、著者が達成したいと思うコミュニケーション目標を反映しない。
我々は、科学的論文に携わるときに人間が生み出す質問の深さに到達し、図形と論文の文脈の両方に条件付けし、両方のモダリティをまたいだ推論を必要とする質問を生成する。
そこで本研究では,QUDの言語理論をテキストのみからマルチモーダルに拡張し,言論が進むにつれて暗黙の疑問が提起され解決される。
MQUD は研究論文のデータセットであり、そのような質問は原著者によって明確化され、注釈付けされる。
MQUD 上での VLM の微調整により、汎用的な低レベルな視覚的質問から、高レベルのマルチモーダル推論を必要とするコンテンツ固有のグラウンドにモデルを移行し、より高品質で視覚的なマルチモーダル QUD 生成を実現することを示す。
関連論文リスト
- Can LLMs Ask Good Questions? [45.54763954234726]
大規模言語モデル(LLM)が生成する質問を文脈から評価する。
質問タイプ,質問長,コンテキストカバレッジ,回答可能性,不共通性,必要な回答長の6つの次元にわたる人間による質問と比較した。
論文 参考訳(メタデータ) (2025-01-07T03:21:17Z) - How to Engage Your Readers? Generating Guiding Questions to Promote Active Reading [60.19226384241482]
教科書や科学論文から10Kのインテキスト質問のデータセットであるGuidingQを紹介した。
言語モデルを用いてこのような質問を生成するための様々なアプローチを探索する。
我々は、そのような質問が読解に与える影響を理解するために、人間の研究を行う。
論文 参考訳(メタデータ) (2024-07-19T13:42:56Z) - Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - Keeping the Questions Conversational: Using Structured Representations
to Resolve Dependency in Conversational Question Answering [26.997542897342164]
本稿では,中間表現を会話の手がかりとして捉え,生成するための新しいフレームワークCONVSR(CONVQA using Structured Representations)を提案する。
我々はQuACとCANARDのデータセット上でモデルをテストし、提案するフレームワークが標準的な質問書き直しモデルよりも優れたF1スコアを達成できることを実験結果により示す。
論文 参考訳(メタデータ) (2023-04-14T13:42:32Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - Asking Complex Questions with Multi-hop Answer-focused Reasoning [16.01240703148773]
複雑で意味のある質問を問うマルチホップ質問生成という新しいタスクを提案する。
そこで本研究では,回答中心のエンティティグラフに基づくマルチホップ応答中心の推論を提案する。
論文 参考訳(メタデータ) (2020-09-16T00:30:49Z) - Knowledgeable Dialogue Reading Comprehension on Key Turns [84.1784903043884]
MRC(Multi-choice Machine reading comprehension)は、ある項目と質問に対する候補オプションから正しい回答を選択するモデルである。
本研究は,複数回対話を行う対話型MRCに焦点を当てている。
それは2つの課題に悩まされ、答えの選択決定は、最近役に立つコモンセンスをサポートせずに行われ、マルチターンコンテキストは、かなりの無関係な情報を隠蔽する可能性がある。
論文 参考訳(メタデータ) (2020-04-29T07:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。