論文の概要: ViHERMES: A Graph-Grounded Multihop Question Answering Benchmark and System for Vietnamese Healthcare Regulations
- arxiv url: http://arxiv.org/abs/2602.07361v1
- Date: Sat, 07 Feb 2026 04:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.585782
- Title: ViHERMES: A Graph-Grounded Multihop Question Answering Benchmark and System for Vietnamese Healthcare Regulations
- Title(参考訳): ViHERMES: ベトナムの医療規制のベンチマークとシステム
- Authors: Long S. T. Nguyen, Quan M. Bui, Tin T. Ngo, Quynh T. N. Vo, Dung N. H. Le, Tho T. Quan,
- Abstract要約: ViHERMESはベトナムの医療規制文書に対するマルチホップQAのためのベンチマークである。
このデータセットを構築するために,セマンティッククラスタリングとグラフに着想を得たデータマイニングに基づくマルチホップQA生成パイプラインを提案する。
本稿では,法単位レベルでの形式的法的関係をモデル化するグラフ対応検索フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Question Answering (QA) over regulatory documents is inherently challenging due to the need for multihop reasoning across legally interdependent texts, a requirement that is particularly pronounced in the healthcare domain where regulations are hierarchically structured and frequently revised through amendments and cross-references. Despite recent progress in retrieval-augmented and graph-based QA methods, systematic evaluation in this setting remains limited, especially for low-resource languages such as Vietnamese, due to the lack of benchmark datasets that explicitly support multihop reasoning over healthcare regulations. In this work, we introduce the Vietnamese Healthcare Regulations-Multihop Reasoning Dataset (ViHERMES), a benchmark designed for multihop QA over Vietnamese healthcare regulatory documents. ViHERMES consists of high-quality question-answer pairs that require reasoning across multiple regulations and capture diverse dependency patterns, including amendment tracing, cross-document comparison, and procedural synthesis. To construct the dataset, we propose a controlled multihop QA generation pipeline based on semantic clustering and graph-inspired data mining, followed by large language model-based generation with structured evidence and reasoning annotations. We further present a graph-aware retrieval framework that models formal legal relations at the level of legal units and supports principled context expansion for legally valid and coherent answers. Experimental results demonstrate that ViHERMES provides a challenging benchmark for evaluating multihop regulatory QA systems and that the proposed graph-aware approach consistently outperforms strong retrieval-based baselines. The ViHERMES dataset and system implementation are publicly available at https://github.com/ura-hcmut/ViHERMES.
- Abstract(参考訳): 規制文書に対する質問回答(QA: Question Answering)は、法的に相互依存するテキスト間のマルチホップ推論の必要性から、本質的に困難である。
近年の検索強化およびグラフベースのQA手法の進歩にもかかわらず、医療規制よりもマルチホップ推論を明示的にサポートするベンチマークデータセットが欠如していることから、特にベトナムなどの低リソース言語において、この設定の体系的評価は依然として限られている。
本研究では,ベトナムの医療規制文書に対するマルチホップQAのためのベンチマークであるベトナムの医療規制-マルチホップ推論データセット(ViHERMES)を紹介する。
ViHERMESは、複数の規則をまたいだ推論を必要とし、修正トレース、文書間比較、手続き的合成を含む様々な依存関係パターンをキャプチャする高品質な質問応答ペアで構成されている。
データセットを構築するために,セマンティッククラスタリングとグラフに着想を得たデータマイニングに基づくマルチホップQA生成パイプラインを提案する。
さらに、法単位レベルでの形式的法的関係をモデル化し、法的に有効かつ一貫性のある回答に対する原則的文脈拡張をサポートするグラフ対応検索フレームワークを提案する。
実験結果から,ViHERMESはマルチホップ制御型QAシステムの評価に挑戦的なベンチマークを提供し,グラフ認識方式は高い検索ベースラインを一貫して上回ることを示した。
ViHERMESデータセットとシステム実装はhttps://github.com/ura-hcmut/ViHERMESで公開されている。
関連論文リスト
- OIDA-QA: A Multimodal Benchmark for Analyzing the Opioid Industry Documents Archive [50.468138755368805]
オピオイド危機は公衆衛生にとって重要な瞬間である。
UCSF-JHU Opioid Industry Documents Archive(OIDA)に公開されているデータと文書
本稿では,文書属性に応じて元のデータセットを整理することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-11-13T03:27:32Z) - Query Expansion in the Age of Pre-trained and Large Language Models: A Comprehensive Survey [21.764997953030857]
現代の情報検索は、多種多様な動的コーパスであいまいなクエリを調整しなければならない。
インジェクションのポイント、接地と相互作用、学習とアライメント、知識グラフの統合の4つの相補的な側面に沿って、最近の作業を組織化します。
この調査では、Web検索、バイオメディシン、eコマース、オープンドメイン質問応答/RAG、会話とコード検索、言語間設定など、7つの側面にわたる従来のQEと神経質なQEを比較した。
論文 参考訳(メタデータ) (2025-09-09T14:31:11Z) - AdaDocVQA: Adaptive Framework for Long Document Visual Question Answering in Low-Resource Settings [8.22650587342049]
Document Visual Question Answering (Document VQA)は、低リソース環境で長いドキュメントを処理する場合、重大な課題に直面します。
本稿では、3つのコアイノベーションを通じてこれらの課題に対処する統一適応フレームワークであるAdaDocVQAについて述べる。
日本語文書VQAベンチマークの実験では,Yes/No質問に対して83.04%の精度で大幅な改善が示された。
論文 参考訳(メタデータ) (2025-08-19T08:12:45Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - Beyond Retrieval: Joint Supervision and Multimodal Document Ranking for Textbook Question Answering [3.6799953119508735]
本稿では,意味表現を拡張化するためのメカニズムを導入することで,マルチモーダルな教科書質問応答手法を提案する。
我々のモデルであるJETRTQA(Joint Embedding Training With Ranking Supervision for Textbook Question Answering)は、検索ジェネレータアーキテクチャ上に構築されたマルチモーダル学習フレームワークである。
本手法をCK12-QAデータセット上で評価し,情報化文書と無関係文書の識別を著しく改善することを示す。
論文 参考訳(メタデータ) (2025-05-17T13:23:54Z) - LiGT: Layout-infused Generative Transformer for Visual Question Answering on Vietnamese Receipts [0.964547614383472]
本稿ではベトナムにおける大規模な文書VQAデータセットであるReceiptVQA(textbfReceipt textbfVisual textbfQuestion textbfAnswering)について述べる。
データセットには textbf9,000+ のレシートイメージと textbf60,000+ の注釈付き質問応答ペアが含まれている。
論文 参考訳(メタデータ) (2025-02-26T15:09:28Z) - Improving Vietnamese Legal Question--Answering System based on Automatic
Data Enrichment [2.56085064991751]
本稿では,ベトナム語記事レベルの検索に基づく法的QAシステムを実装することで,これらの制限を克服しようとしている。
我々の仮説は、ラベル付きデータが制限された状況では、効率的なデータ豊かさが全体的なパフォーマンス向上に役立つというものである。
論文 参考訳(メタデータ) (2023-06-08T00:24:29Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。