論文の概要: Tourism Question Answer System in Indian Language using Domain-Adapted Foundation Models
- arxiv url: http://arxiv.org/abs/2511.23235v1
- Date: Fri, 28 Nov 2025 14:44:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.937931
- Title: Tourism Question Answer System in Indian Language using Domain-Adapted Foundation Models
- Title(参考訳): ドメイン適応基礎モデルを用いたインド語の観光質問応答システム
- Authors: Praveen Gatla, Anushka, Nikita Kanwar, Gouri Sahoo, Rajesh Kumar Mundotiya,
- Abstract要約: 本稿では,ヒンディー語観光地を対象としたベースライン抽出質問応答システム(QA)の設計に関する総合的研究について述べる。
Ganga Aarti、Cruise、Food Court、Public Toilet、Kund、Museum、General、Ashram、Temple、Travelの10種類の観光中心の変種をターゲットにしている。
パラメータ効率とタスク性能を最適化するために,Supervised Fine-Tuning (SFT) と Low-Rank Adaptation (LoRA) を用いて微調整を行う基盤モデル-BERT と RoBERTa を利用するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.6524460254566904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article presents the first comprehensive study on designing a baseline extractive question-answering (QA) system for the Hindi tourism domain, with a specialized focus on the Varanasi-a cultural and spiritual hub renowned for its Bhakti-Bhaav (devotional ethos). Targeting ten tourism-centric subdomains-Ganga Aarti, Cruise, Food Court, Public Toilet, Kund, Museum, General, Ashram, Temple and Travel, the work addresses the absence of language-specific QA resources in Hindi for culturally nuanced applications. In this paper, a dataset comprising 7,715 Hindi QA pairs pertaining to Varanasi tourism was constructed and subsequently augmented with 27,455 pairs generated via Llama zero-shot prompting. We propose a framework leveraging foundation models-BERT and RoBERTa, fine-tuned using Supervised Fine-Tuning (SFT) and Low-Rank Adaptation (LoRA), to optimize parameter efficiency and task performance. Multiple variants of BERT, including pre-trained languages (e.g., Hindi-BERT), are evaluated to assess their suitability for low-resource domain-specific QA. Evaluation metrics - F1, BLEU, and ROUGE-L - highlight trade-offs between answer precision and linguistic fluency. Experiments demonstrate that LoRA-based fine-tuning achieves competitive performance (85.3\% F1) while reducing trainable parameters by 98\% compared to SFT, striking a balance between efficiency and accuracy. Comparative analysis across models reveals that RoBERTa with SFT outperforms BERT variants in capturing contextual nuances, particularly for culturally embedded terms (e.g., Aarti, Kund). This work establishes a foundational baseline for Hindi tourism QA systems, emphasizing the role of LORA in low-resource settings and underscoring the need for culturally contextualized NLP frameworks in the tourism domain.
- Abstract(参考訳): 本稿では,バクティ・バハーヴ(Bhakti-Bhaav)の文化的・精神的な中心地であるヴァラナシ(Varanasi)に特化して,ヒンディー語観光ドメインのベースライン抽出質問応答システム(QA)を設計する,最初の総合的研究について述べる。
観光中心の10のサブドメイン(Ganga Aarti、Cruise、Food Court、Public Toilet、Kund、Museum、General、Ashram、Temple and Travel)をターゲットとし、ヒンディー語固有のQAリソースの欠如に対処する。
本稿では,バラナシ観光に関連する7,715組のヒンディー語QAペアからなるデータセットを構築し,Llamaゼロショットプロンプトを用いて27,455組のペアを生成した。
パラメータ効率とタスク性能を最適化するために,Supervised Fine-Tuning (SFT) と Low-Rank Adaptation (LoRA) を用いて微調整を行う基盤モデル-BERT と RoBERTa を利用するフレームワークを提案する。
トレーニング済み言語(例えばHindi-BERT)を含むBERTの複数変種を評価し、低リソースドメイン固有のQAに対する適合性を評価する。
評価指標(F1、BLEU、ROUGE-L)は、解答精度と言語流布のトレードオフを強調している。
実験により、LoRAベースの微調整は、SFTと比較してトレーニング可能なパラメータを98\%削減し、効率と精度のバランスを保ちながら、競争性能(85.3\% F1)を達成することが示された。
モデル間の比較分析により、RoBERTaとSFTは、特に文化的に埋め込まれた用語(例えば、Aarti、Kund)の文脈的ニュアンスを捉える際に、BERTの変種よりも優れていることが明らかになった。
本研究は、低リソース環境におけるLORAの役割を強調し、観光領域における文化的文脈化NLPフレームワークの必要性を強調し、ヒンディー語観光QAシステムの基盤となるベースラインを確立する。
関連論文リスト
- Benchmarking BERT-based Models for Sentence-level Topic Classification in Nepali Language [1.6474262142781433]
本研究は、ネパールのトピック分類において、多言語、インド、ヒンディー語、ネパールのBERT変異をベンチマークし、その有効性を評価する。
mBERT、XLM-R、MuRIL、DevBERT、HindiBERT、IndicBERT、NepBERTaを含む10種類の事前訓練モデルが微調整されテストされた。
インデックスモデル、特に MuRIL-large は F1 スコアの90.60% を達成し、多言語モデルやモノリンガルモデルを上回った。
論文 参考訳(メタデータ) (2026-02-27T11:42:38Z) - Aspect-Based Sentiment Analysis for Future Tourism Experiences: A BERT-MoE Framework for Persian User Reviews [0.0]
本研究では,観光地におけるペルシャ語ユーザレビューのためのアスペクトベース感情分析(ABSA)を推進した。
そこで我々は,Top-Kルーティングと補助損失を緩和し,ルーティングの崩壊を緩和し,効率を向上するハイブリッドBERTモデルを提案する。
提案したモデルでは、ABSAでは90.6%の重み付きF1スコア、ベースラインBERT(89.25%)、標準ハイブリッドアプローチ(85.7%)を実現している。
論文 参考訳(メタデータ) (2026-02-13T10:01:33Z) - FastPOS: Language-Agnostic Scalable POS Tagging Framework Low-Resource Use Case [0.0]
このフレームワークは、バングラとヒンディーのPOSカテゴリ全体で96.85パーセントと97%のトークンレベルの精度を実現している。
モジュラーおよびオープンソース設計は、モデル設計とチューニングオーバーヘッドを低減しつつ、言語間の迅速な適応を可能にする。
論文 参考訳(メタデータ) (2025-11-30T05:48:12Z) - SEA-BED: Southeast Asia Embedding Benchmark [43.05386334897603]
約7億人の話者を抱える東南アジア地域では、地域固有の埋め込みベンチマークが欠落している。
SEA-BEDは9つのタスクと10言語にまたがる169のデータセットを備えた最初の大規模埋め込みベンチマークである。
6つの研究にまたがる17の埋め込みモデルの評価,課題および言語課題の分析,ベンチマーク間比較,翻訳トレードオフについて検討した。
論文 参考訳(メタデータ) (2025-08-17T05:10:40Z) - Advancing Dialectal Arabic to Modern Standard Arabic Machine Translation [22.369277951685234]
本稿では,レバンタ語,エジプト語,湾岸方言のDA-MSA翻訳の進展に寄与する2つの中核的貢献について述べる。
ゼロショット,チェーン・オブ・シント,提案手法であるAra-TEaR法を改良した。
微調整 LLM では、量子化された Gemma2-9B モデルが 49.88 の chrF++ スコアを獲得し、ゼロショット GPT-4o (44.58) を上回った。
論文 参考訳(メタデータ) (2025-07-27T14:37:53Z) - PARAM-1 BharatGen 2.9B Model [14.552007884700618]
PARAM-1は2.9Bパラメータデコーダのみのテキストのみの言語モデルである。
25%のコーパス割り当てによるIndic言語の公平な表現、インドの形態的構造に適合したSentencePieceトークン化によるトークン化公正性、IndicQA全体にわたる文化的に整合した評価ベンチマーク、コード混合推論、社会言語的堅牢性タスクである。
論文 参考訳(メタデータ) (2025-07-16T06:14:33Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - A New HOPE: Domain-agnostic Automatic Evaluation of Text Chunking [44.47350338664039]
文書チャンキングは検索強化世代(RAG)に根本的に影響する
現在、さまざまなチャンキングメソッドの影響を分析するためのフレームワークはありません。
本稿では,チャンキングプロセスの本質的特徴を3段階に定義する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-04T16:22:27Z) - ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning [38.44879526364259]
emph ChinaTravelは、中国旅行の真の要件に基づいた初のオープンエンドベンチマークです。
本研究では,拡張性評価,実現可能性,制約満足度,嗜好比較を網羅する,構成的に一般化可能なドメイン固有言語を設計する。
経験的研究により、旅行計画における神経象徴的エージェントの可能性を明らかにし、人間のクエリに対する37.0%の制約満足度を達成する。
論文 参考訳(メタデータ) (2024-12-18T10:10:12Z) - Enhancing Aspect-based Sentiment Analysis in Tourism Using Large Language Models and Positional Information [14.871979025512669]
本稿では,Aspect-Category-Sentiment Quadruple extract (ACOSQE)のためのアスペクトベース感情分析モデルACOS_LLMを提案する。
このモデルは補助知識生成とACOSQEという2つの重要な段階から構成される。
その結果、F1は観光データセットの他のモデルと比較して7.49%改善した。
論文 参考訳(メタデータ) (2024-09-23T13:19:17Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Fine-tuning Pretrained Multilingual BERT Model for Indonesian
Aspect-based Sentiment Analysis [0.0]
CNNとXGBoostを用いて,ホテルドメインにおけるインドネシアのレビューに対するAspect-based Sentiment Analysis (ABSA) に関する研究を行った。
本稿では,インドネシアのレビューデータセットにおいて,最も先進的な言語表現モデルであるBERTをABSAに組み込むことを目的としている。
論文 参考訳(メタデータ) (2021-03-05T15:05:51Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。