論文の概要: Solution for Meta KDD Cup'25: A Comprehensive Three-Step Framework for Vision Question Answering
- arxiv url: http://arxiv.org/abs/2507.21520v1
- Date: Tue, 29 Jul 2025 06:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.754299
- Title: Solution for Meta KDD Cup'25: A Comprehensive Three-Step Framework for Vision Question Answering
- Title(参考訳): Meta KDD Cup'25: 視覚質問応答のための総合的な3ステップフレームワーク
- Authors: Zijian Zhang, Xiaocheng Zhang, Yang Zhou, Zhimin Lin, Peng Yan,
- Abstract要約: 本稿ではBlackPearlチームによるMeta KDD Cup'25における全タスクの解について述べる。
各タスクに1つのモデルを使用し、データ拡張、RAG、再ランク付け、微調整を含む主要なメソッドを扱います。
提案手法は,3つのタスクにおいて3位,3位,1位の自動評価を達成し,人的評価の後,第3タスクで2位を獲得した。
- 参考スコア(独自算出の注目度): 7.481274094559558
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision Large Language Models (VLLMs) have improved multi-modal understanding and visual question answering (VQA), but still suffer from hallucinated answers. Multi-modal Retrieval-Augmented Generation (RAG) helps address these issues by incorporating external information, yet challenges remain in visual context comprehension, multi-source retrieval, and multi-turn interactions. To address these challenges, Meta constructed the CRAG-MM benchmark and launched the CRAG-MM Challenge at KDD Cup 2025, which consists of three tasks. This paper describes the solutions of all tasks in Meta KDD Cup'25 from BlackPearl team. We use a single model for each task, with key methods including data augmentation, RAG, reranking, and multi-task fine-tuning. Our solution achieve automatic evaluation rankings of 3rd, 3rd, and 1st on the three tasks, and win second place in Task3 after human evaluation.
- Abstract(参考訳): 視覚大言語モデル(VLLM)はマルチモーダル理解と視覚的質問応答(VQA)を改善したが、それでも幻覚的回答に悩まされている。
マルチモーダル検索・拡張生成(RAG)は、外部情報を統合することでこれらの問題に対処するが、視覚的コンテキスト理解、マルチソース検索、マルチターンインタラクションに課題が残る。
これらの課題に対処するため、MetaはCRAG-MMベンチマークを構築し、3つのタスクからなるKDDカップ2025でCRAG-MM Challengeを立ち上げた。
本稿ではBlackPearlチームによるMeta KDD Cup'25における全タスクの解について述べる。
各タスクに1つのモデルを使用し、データ拡張、RAG、再ランク付け、マルチタスクの微調整といったキーとなる手法を定めています。
提案手法は,3つのタスクにおいて3位,3位,1位の自動評価を達成し,人的評価の後,第3タスクで2位を獲得した。
関連論文リスト
- Multi-Stage Verification-Centric Framework for Mitigating Hallucination in Multi-Modal RAG [3.9063541371093184]
本稿では, KDD Cup 2025 Meta Comprehensive RAG Benchmark for Multi-modal, Multi-turn (CRAG-MM) のチーム CRUISE による技術ソリューションを提案する。
この課題は、視覚言語モデル(VLM)の重要な限界、すなわち幻覚への適合性に対処することを目的としている。
本ソリューションでは,効率向上のための軽量なクエリルータ,クエリ対応検索と要約パイプライン,デュアルパス生成,ポストホック検証を統合した。
論文 参考訳(メタデータ) (2025-07-27T05:45:45Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.5712549836791]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models [27.45225442048711]
CCMD-8Mを導入し、視覚中心のタスクと視覚言語タスクを統一する際のデータ障壁を克服する。
また、Griffon-Gは、単一のエンドツーエンドパラダイム内の視覚中心タスクと視覚言語タスクの両方に対処する一般的な大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2024-10-21T16:30:29Z) - Winning Solution For Meta KDD Cup' 24 [6.471894753117029]
本稿では,db3チームによるメタKDDカップ24における全タスクの勝利解について述べる。
課題は、WebソースとナレッジグラフからRAGシステムを構築することだ。
我々のソリューションは3つのタスクで1位を獲得し、それぞれ28.4%、42.7%、47.8%のスコアを得た。
論文 参考訳(メタデータ) (2024-09-13T06:10:42Z) - MARAGS: A Multi-Adapter System for Multi-Task Retrieval Augmented Generation Question Answering [0.43512163406552007]
KDD CUP 2024 のための Meta's Comprehensive RAG (CRAG) コンペティションのためのマルチアダプタ検索拡張システム (MARAGS) を提案する。
タスク1では2位,タスク2では3位となった。
論文 参考訳(メタデータ) (2024-09-05T01:58:29Z) - Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。