論文の概要: A Curriculum Learning Approach to Reinforcement Learning: Leveraging RAG for Multimodal Question Answering
- arxiv url: http://arxiv.org/abs/2508.10337v1
- Date: Thu, 14 Aug 2025 04:37:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.181756
- Title: A Curriculum Learning Approach to Reinforcement Learning: Leveraging RAG for Multimodal Question Answering
- Title(参考訳): 強化学習のためのカリキュラム学習アプローチ:マルチモーダル質問応答のためのRAGの活用
- Authors: Chenliang Zhang, Lin Wang, Yuanyuan Lu, Yusheng Qi, Kexin Wang, Peixu Hou, Wenshi Chen,
- Abstract要約: 本稿では,META CRAG-MMチャレンジに対するDianping-Trust-Safetyチームのソリューションについて述べる。
この課題は、マルチモーダルなマルチターン質問応答が可能な総合的な検索拡張生成システムを構築する必要がある。
- 参考スコア(独自算出の注目度): 9.67216102080208
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper describes the solutions of the Dianping-Trust-Safety team for the META CRAG-MM challenge. The challenge requires building a comprehensive retrieval-augmented generation system capable for multi-modal multi-turn question answering. The competition consists of three tasks: (1) answering questions using structured data retrieved from an image-based mock knowledge graph, (2) synthesizing information from both knowledge graphs and web search results, and (3) handling multi-turn conversations that require context understanding and information aggregation from multiple sources. For Task 1, our solution is based on the vision large language model, enhanced by supervised fine-tuning with knowledge distilled from GPT-4.1. We further applied curriculum learning strategies to guide reinforcement learning, resulting in improved answer accuracy and reduced hallucination. For Task 2 and Task 3, we additionally leveraged web search APIs to incorporate external knowledge, enabling the system to better handle complex queries and multi-turn conversations. Our approach achieved 1st place in Task 1 with a significant lead of 52.38\%, and 3rd place in Task 3, demonstrating the effectiveness of the integration of curriculum learning with reinforcement learning in our training pipeline.
- Abstract(参考訳): 本稿では,META CRAG-MMチャレンジに対するDianping-Trust-Safetyチームのソリューションについて述べる。
この課題は、マルチモーダルなマルチターン質問応答が可能な総合的な検索拡張生成システムを構築する必要がある。
コンペティションは,(1)イメージベースモック知識グラフから抽出した構造化データを用いて質問に回答すること,(2)知識グラフとWeb検索結果の両方から情報を合成すること,(3)コンテキスト理解と複数の情報源からの情報集約を必要とするマルチターン会話を扱うこと,の3つのタスクから構成される。
タスク1では, GPT-4.1から抽出した知識を教師付き微調整することで, 視覚大言語モデルに基づく。
さらに,強化学習の指導にカリキュラム学習戦略を適用し,回答精度の向上と幻覚の低減を実現した。
Task 2 と Task 3 では、Web 検索 API を活用して外部の知識を取り入れ、複雑なクエリやマルチターン会話をよりよく処理できるようにしました。
第1タスク1では52.38\%,第3タスク3では3位となり,カリキュラム学習と強化学習の統合の有効性を実証した。
関連論文リスト
- iQUEST: An Iterative Question-Guided Framework for Knowledge Base Question Answering [6.4524748618007415]
iQUESTは、複雑なクエリを単純なサブクエリに繰り返し分解する質問誘導KBQAフレームワークである。
グラフニューラルネットワーク(GNN)を統合して、各推論ステップに2ホップ隣の情報を組み込む。
論文 参考訳(メタデータ) (2025-06-02T15:30:02Z) - Open-Ended and Knowledge-Intensive Video Question Answering [20.256081440725353]
知識集約型ビデオ質問応答 (KI-VideoQA) を多モード検索拡張世代のレンズを用いて検討する。
本稿では,最先端の検索モデルと視覚言語モデルを用いて,様々な検索拡張手法について検討する。
我々は、KnowIT VQAデータセットにおいて、複数の選択質問に対する精度を17.5%向上させる。
論文 参考訳(メタデータ) (2025-02-17T12:40:35Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Multimodal Dialog Systems with Dual Knowledge-enhanced Generative Pretrained Language Model [63.461030694700014]
マルチモーダルなタスク指向対話システム(DKMD)のための新しい二元的知識強化型事前学習言語モデルを提案する。
提案したDKMDは,2つの知識選択,2つの知識強調型文脈学習,知識強調型応答生成という3つの重要なコンポーネントから構成される。
パブリックデータセットの実験は、最先端の競合相手よりも提案されたDKMDの優位性を検証する。
論文 参考訳(メタデータ) (2022-07-16T13:02:54Z) - Contextualized Knowledge-aware Attentive Neural Network: Enhancing
Answer Selection with Knowledge [77.77684299758494]
ナレッジグラフ(KG)による外部知識による回答選択モデル向上のアプローチを幅広く検討しています。
まず、KGの外部知識とテキスト情報との密接な相互作用を考慮し、QA文表現を学習するコンテキスト知識相互作用学習フレームワークであるナレッジアウェアニューラルネットワーク(KNN)を紹介します。
KG情報の多様性と複雑性に対処するために, カスタマイズされたグラフ畳み込みネットワーク (GCN) を介して構造情報を用いた知識表現学習を改善し, コンテキストベースおよび知識ベースの文表現を総合的に学習する コンテキスト型知識認識型アテンシブニューラルネットワーク (CKANN) を提案する。
論文 参考訳(メタデータ) (2021-04-12T05:52:20Z) - Learning to Retrieve Entity-Aware Knowledge and Generate Responses with
Copy Mechanism for Task-Oriented Dialogue Systems [43.57597820119909]
第9回対話システム技術チャレンジ(DSTC 9)のトラック1として非構造化知識アクセスを用いたタスク指向対話型モデリング
この課題は,(1)知識探索ターン検出,(2)知識選択,(3)知識接地応答生成の3つのサブタスクに分けることができる。
我々は、異なるサブタスクのベースエンコーダとして、事前訓練された言語モデルELECTRAとRoBERTaを使用します。
論文 参考訳(メタデータ) (2020-12-22T11:36:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。