論文の概要: VLSP 2025 MLQA-TSR Challenge: Vietnamese Multimodal Legal Question Answering on Traffic Sign Regulation
- arxiv url: http://arxiv.org/abs/2510.20381v1
- Date: Thu, 23 Oct 2025 09:24:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.728753
- Title: VLSP 2025 MLQA-TSR Challenge: Vietnamese Multimodal Legal Question Answering on Traffic Sign Regulation
- Title(参考訳): VLSP 2025 MLQA-TSRチャレンジ:ベトナムの交通信号規制に関するマルチモーダル法的質問
- Authors: Son T. Luu, Trung Vo, Hiep Nguyen, Khanh Quoc Tran, Kiet Van Nguyen, Vu Tran, Ngan Luu-Thuy Nguyen, Le-Minh Nguyen,
- Abstract要約: 目標は、ベトナムのマルチモーダル法定テキスト処理の研究を進め、マルチモーダル法定ドメインにおけるインテリジェントシステムの構築と評価のためのベンチマークデータセットを提供することである。
VLSP 2025 MLQA-TSRの最もよく報告された結果は、マルチモーダルな法的検索のF2スコアが64.55%、マルチモーダルな質問応答の精度が86.30%である。
- 参考スコア(独自算出の注目度): 10.497191423277295
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents the VLSP 2025 MLQA-TSR - the multimodal legal question answering on traffic sign regulation shared task at VLSP 2025. VLSP 2025 MLQA-TSR comprises two subtasks: multimodal legal retrieval and multimodal question answering. The goal is to advance research on Vietnamese multimodal legal text processing and to provide a benchmark dataset for building and evaluating intelligent systems in multimodal legal domains, with a focus on traffic sign regulation in Vietnam. The best-reported results on VLSP 2025 MLQA-TSR are an F2 score of 64.55% for multimodal legal retrieval and an accuracy of 86.30% for multimodal question answering.
- Abstract(参考訳): 本稿では,VLSP 2025 MLQA-TSRについて述べる。
VLSP 2025 MLQA-TSRは2つのサブタスクから構成される。
ベトナムのマルチモーダル法定テキスト処理の研究を進め、ベトナムの交通標識規制に焦点をあてて、マルチモーダル法定ドメインにおけるインテリジェントシステムの構築と評価のためのベンチマークデータセットを提供することが目的である。
VLSP 2025 MLQA-TSRの最もよく報告された結果は、マルチモーダルな法的検索のF2スコアが64.55%、マルチモーダルな質問応答の精度が86.30%である。
関連論文リスト
- ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions? [1.5790747258969664]
視覚言語モデル(VLM)は、英語のマルチモーダルタスクにおいて顕著な能力を示す。
本研究は,VLMが実世界の言語間マルチモーダル推論を扱えるかどうかを考察する。
最先端のVLMは57.74%しか達成していないのに対し、オープンソースモデルは7つの学術領域で平均精度27.70%を達成している。
論文 参考訳(メタデータ) (2025-08-19T09:31:18Z) - RoD-TAL: A Benchmark for Answering Questions in Romanian Driving License Exams [1.7500335853294604]
我々は,ルーマニアの運転法則の理解と推論において,Large Language Models (LLMs) とVision-Language Models (VLMs) の能力を評価することを目的とする。
これを容易にするために,ルーマニアの運転試験質問,テキストベース,画像ベースからなる新しいマルチモーダルデータセットであるRoD-TALを紹介した。
我々は、情報検索(IR)、質問回答(QA)、ビジュアルIR、ビジュアルQAを含むタスクにまたがって、検索拡張生成(RAG)パイプライン、高密度検索、推論最適化モデルを実装し、評価する。
論文 参考訳(メタデータ) (2025-07-25T20:40:39Z) - VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering [8.21219588747224]
本稿では,視覚エンコーダとシーケンス・ツー・シーケンス言語モデルを統合する統一アーキテクチャであるVLMTについて述べる。
VLMTは直接トークンレベルの注入機構を使用して、共有埋め込み空間内で視覚的およびテキスト的入力を融合する。
2つのベンチマークデータセットに関する総合的な実験は、提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-04-11T05:51:44Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI [71.53579367538725]
MMT-Benchは、大規模なマルチモーダルタスクにわたるLVLM(Large Vision-Language Models)を評価するために設計されたベンチマークである。
MMT-Benchは、様々なマルチモーダルシナリオから、巧妙にキュレートされたマルチチョイスの視覚的質問を31,325ドルで提供する。
論文 参考訳(メタデータ) (2024-04-24T17:37:05Z) - NeCo@ALQAC 2023: Legal Domain Knowledge Acquisition for Low-Resource
Languages through Data Enrichment [2.441072488254427]
本稿では,ベトナムのテキスト処理タスクに対するNeCo Teamのソリューションを,ALQAC 2023(Automated Legal Question Answering Competition 2023)で紹介する。
法的な文書検索タスクでは,類似度ランキングと深層学習モデルを組み合わせた手法が採用されているが,第2の課題では,異なる質問タイプを扱うための適応的手法が提案されている。
提案手法は, 競争の両課題において, 法的分野における質問応答システムの潜在的メリットと有効性を示す, 卓越した結果を達成している。
論文 参考訳(メタデータ) (2023-09-11T14:43:45Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。