論文の概要: Tourism Question Answer System in Indian Language using Domain-Adapted Foundation Models
- arxiv url: http://arxiv.org/abs/2511.23235v1
- Date: Fri, 28 Nov 2025 14:44:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.937931
- Title: Tourism Question Answer System in Indian Language using Domain-Adapted Foundation Models
- Title(参考訳): ドメイン適応基礎モデルを用いたインド語の観光質問応答システム
- Authors: Praveen Gatla, Anushka, Nikita Kanwar, Gouri Sahoo, Rajesh Kumar Mundotiya,
- Abstract要約: 本稿では,ヒンディー語観光地を対象としたベースライン抽出質問応答システム(QA)の設計に関する総合的研究について述べる。
Ganga Aarti、Cruise、Food Court、Public Toilet、Kund、Museum、General、Ashram、Temple、Travelの10種類の観光中心の変種をターゲットにしている。
パラメータ効率とタスク性能を最適化するために,Supervised Fine-Tuning (SFT) と Low-Rank Adaptation (LoRA) を用いて微調整を行う基盤モデル-BERT と RoBERTa を利用するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.6524460254566904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article presents the first comprehensive study on designing a baseline extractive question-answering (QA) system for the Hindi tourism domain, with a specialized focus on the Varanasi-a cultural and spiritual hub renowned for its Bhakti-Bhaav (devotional ethos). Targeting ten tourism-centric subdomains-Ganga Aarti, Cruise, Food Court, Public Toilet, Kund, Museum, General, Ashram, Temple and Travel, the work addresses the absence of language-specific QA resources in Hindi for culturally nuanced applications. In this paper, a dataset comprising 7,715 Hindi QA pairs pertaining to Varanasi tourism was constructed and subsequently augmented with 27,455 pairs generated via Llama zero-shot prompting. We propose a framework leveraging foundation models-BERT and RoBERTa, fine-tuned using Supervised Fine-Tuning (SFT) and Low-Rank Adaptation (LoRA), to optimize parameter efficiency and task performance. Multiple variants of BERT, including pre-trained languages (e.g., Hindi-BERT), are evaluated to assess their suitability for low-resource domain-specific QA. Evaluation metrics - F1, BLEU, and ROUGE-L - highlight trade-offs between answer precision and linguistic fluency. Experiments demonstrate that LoRA-based fine-tuning achieves competitive performance (85.3\% F1) while reducing trainable parameters by 98\% compared to SFT, striking a balance between efficiency and accuracy. Comparative analysis across models reveals that RoBERTa with SFT outperforms BERT variants in capturing contextual nuances, particularly for culturally embedded terms (e.g., Aarti, Kund). This work establishes a foundational baseline for Hindi tourism QA systems, emphasizing the role of LORA in low-resource settings and underscoring the need for culturally contextualized NLP frameworks in the tourism domain.
- Abstract(参考訳): 本稿では,バクティ・バハーヴ(Bhakti-Bhaav)の文化的・精神的な中心地であるヴァラナシ(Varanasi)に特化して,ヒンディー語観光ドメインのベースライン抽出質問応答システム(QA)を設計する,最初の総合的研究について述べる。
観光中心の10のサブドメイン(Ganga Aarti、Cruise、Food Court、Public Toilet、Kund、Museum、General、Ashram、Temple and Travel)をターゲットとし、ヒンディー語固有のQAリソースの欠如に対処する。
本稿では,バラナシ観光に関連する7,715組のヒンディー語QAペアからなるデータセットを構築し,Llamaゼロショットプロンプトを用いて27,455組のペアを生成した。
パラメータ効率とタスク性能を最適化するために,Supervised Fine-Tuning (SFT) と Low-Rank Adaptation (LoRA) を用いて微調整を行う基盤モデル-BERT と RoBERTa を利用するフレームワークを提案する。
トレーニング済み言語(例えばHindi-BERT)を含むBERTの複数変種を評価し、低リソースドメイン固有のQAに対する適合性を評価する。
評価指標(F1、BLEU、ROUGE-L)は、解答精度と言語流布のトレードオフを強調している。
実験により、LoRAベースの微調整は、SFTと比較してトレーニング可能なパラメータを98\%削減し、効率と精度のバランスを保ちながら、競争性能(85.3\% F1)を達成することが示された。
モデル間の比較分析により、RoBERTaとSFTは、特に文化的に埋め込まれた用語(例えば、Aarti、Kund)の文脈的ニュアンスを捉える際に、BERTの変種よりも優れていることが明らかになった。
本研究は、低リソース環境におけるLORAの役割を強調し、観光領域における文化的文脈化NLPフレームワークの必要性を強調し、ヒンディー語観光QAシステムの基盤となるベースラインを確立する。
関連論文リスト
- Advancing Dialectal Arabic to Modern Standard Arabic Machine Translation [22.369277951685234]
本稿では,レバンタ語,エジプト語,湾岸方言のDA-MSA翻訳の進展に寄与する2つの中核的貢献について述べる。
ゼロショット,チェーン・オブ・シント,提案手法であるAra-TEaR法を改良した。
微調整 LLM では、量子化された Gemma2-9B モデルが 49.88 の chrF++ スコアを獲得し、ゼロショット GPT-4o (44.58) を上回った。
論文 参考訳(メタデータ) (2025-07-27T14:37:53Z) - PARAM-1 BharatGen 2.9B Model [14.552007884700618]
PARAM-1は2.9Bパラメータデコーダのみのテキストのみの言語モデルである。
25%のコーパス割り当てによるIndic言語の公平な表現、インドの形態的構造に適合したSentencePieceトークン化によるトークン化公正性、IndicQA全体にわたる文化的に整合した評価ベンチマーク、コード混合推論、社会言語的堅牢性タスクである。
論文 参考訳(メタデータ) (2025-07-16T06:14:33Z) - ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning [38.44879526364259]
emph ChinaTravelは、中国旅行の真の要件に基づいた初のオープンエンドベンチマークです。
本研究では,拡張性評価,実現可能性,制約満足度,嗜好比較を網羅する,構成的に一般化可能なドメイン固有言語を設計する。
経験的研究により、旅行計画における神経象徴的エージェントの可能性を明らかにし、人間のクエリに対する37.0%の制約満足度を達成する。
論文 参考訳(メタデータ) (2024-12-18T10:10:12Z) - Enhancing Aspect-based Sentiment Analysis in Tourism Using Large Language Models and Positional Information [14.871979025512669]
本稿では,Aspect-Category-Sentiment Quadruple extract (ACOSQE)のためのアスペクトベース感情分析モデルACOS_LLMを提案する。
このモデルは補助知識生成とACOSQEという2つの重要な段階から構成される。
その結果、F1は観光データセットの他のモデルと比較して7.49%改善した。
論文 参考訳(メタデータ) (2024-09-23T13:19:17Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Fine-tuning Pretrained Multilingual BERT Model for Indonesian
Aspect-based Sentiment Analysis [0.0]
CNNとXGBoostを用いて,ホテルドメインにおけるインドネシアのレビューに対するAspect-based Sentiment Analysis (ABSA) に関する研究を行った。
本稿では,インドネシアのレビューデータセットにおいて,最も先進的な言語表現モデルであるBERTをABSAに組み込むことを目的としている。
論文 参考訳(メタデータ) (2021-03-05T15:05:51Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。