論文の概要: Beyond Retrieval: Joint Supervision and Multimodal Document Ranking for Textbook Question Answering
- arxiv url: http://arxiv.org/abs/2505.13520v1
- Date: Sat, 17 May 2025 13:23:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.36006
- Title: Beyond Retrieval: Joint Supervision and Multimodal Document Ranking for Textbook Question Answering
- Title(参考訳): Beyond Retrieval: テキスト質問回答のための共同スーパービジョンとマルチモーダル文書ランキング
- Authors: Hessa Alawwad, Usman Naseem, Areej Alhothali, Ali Alkhathlan, Amani Jamal,
- Abstract要約: 本稿では,意味表現を拡張化するためのメカニズムを導入することで,マルチモーダルな教科書質問応答手法を提案する。
我々のモデルであるJETRTQA(Joint Embedding Training With Ranking Supervision for Textbook Question Answering)は、検索ジェネレータアーキテクチャ上に構築されたマルチモーダル学習フレームワークである。
本手法をCK12-QAデータセット上で評価し,情報化文書と無関係文書の識別を著しく改善することを示す。
- 参考スコア(独自算出の注目度): 3.6799953119508735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Textbook question answering (TQA) is a complex task, requiring the interpretation of complex multimodal context. Although recent advances have improved overall performance, they often encounter difficulties in educational settings where accurate semantic alignment and task-specific document retrieval are essential. In this paper, we propose a novel approach to multimodal textbook question answering by introducing a mechanism for enhancing semantic representations through multi-objective joint training. Our model, Joint Embedding Training With Ranking Supervision for Textbook Question Answering (JETRTQA), is a multimodal learning framework built on a retriever--generator architecture that uses a retrieval-augmented generation setup, in which a multimodal large language model generates answers. JETRTQA is designed to improve the relevance of retrieved documents in complex educational contexts. Unlike traditional direct scoring approaches, JETRTQA learns to refine the semantic representations of questions and documents through a supervised signal that combines pairwise ranking and implicit supervision derived from answers. We evaluate our method on the CK12-QA dataset and demonstrate that it significantly improves the discrimination between informative and irrelevant documents, even when they are long, complex, and multimodal. JETRTQA outperforms the previous state of the art, achieving a 2.4\% gain in accuracy on the validation set and 11.1\% on the test set.
- Abstract(参考訳): テキスト質問応答(TQA)は複雑なタスクであり、複雑なマルチモーダルコンテキストの解釈を必要とする。
近年の進歩により全体的な性能は向上しているが、正確なセマンティックアライメントとタスク固有の文書検索が不可欠である教育環境において、しばしば困難に直面している。
本稿では,多目的共同学習による意味表現の強化機構を導入することで,多目的教科書質問応答の新しい手法を提案する。
我々のモデルであるJoint Embedding Training With Ranking Supervision for Textbook Question Answering (JETRTQA) は、検索拡張生成機構を用いた検索学習アーキテクチャ上に構築されたマルチモーダルな大規模言語モデルで回答を生成するマルチモーダル学習フレームワークである。
JETRTQAは、複雑な教育コンテキストにおける検索された文書の関連性を改善するように設計されている。
従来の直接採点手法とは異なり、JETRTQAは質問や文書のセマンティックな表現を、相互にランク付けと回答からの暗黙的なインスペクションを組み合わせた教師付き信号によって洗練することを学ぶ。
本手法をCK12-QAデータセット上で評価し,長文,複雑文,多文文であっても,情報的文書と無関係文書の識別が著しく向上することを示した。
JETRTQAは以前の最先端よりも優れており、検証セットの精度は2.4\%、テストセットの精度は11.1\%向上している。
関連論文リスト
- VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Enhancing textual textbook question answering with large language models and retrieval augmented generation [3.6799953119508735]
本稿では、検索拡張生成(RAG)技術を組み込んだフレームワーク(PLRTQA)を提案する。
我々のアーキテクチャはベースラインよりも優れており、検証セットが4.12%、テストセットが9.84%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-02-05T11:58:56Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - Retrieval as Attention: End-to-end Learning of Retrieval and Reading
within a Single Transformer [80.50327229467993]
学習した1つのモデルが競合検索とQA性能の両方を達成可能であることを示す。
エンドツーエンド適応は、教師なし設定と教師なし設定の両方において、ドメイン外のデータセットのパフォーマンスを大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-12-05T04:51:21Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Weakly Supervised Pre-Training for Multi-Hop Retriever [23.79574380039197]
本研究では,人的努力を伴わない,弱教師付きマルチホップレトリバーの事前学習手法を提案する。
提案手法は,1)複雑な質問のベクトル表現を生成するための事前学習タスク,2)厳密なエンコーダに基づく事前学習モデル構造として,質問とサブクエストのネスト構造を生成するスケーラブルなデータ生成手法を含む。
論文 参考訳(メタデータ) (2021-06-18T08:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。