論文の概要: Understanding QA generation: Extracting Parametric and Contextual Knowledge with CQA for Low Resource Bangla Language
- arxiv url: http://arxiv.org/abs/2602.01451v1
- Date: Sun, 01 Feb 2026 21:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.79247
- Title: Understanding QA generation: Extracting Parametric and Contextual Knowledge with CQA for Low Resource Bangla Language
- Title(参考訳): QA生成を理解する:低資源バングラ語に対するCQAを用いたパラメトリックおよび文脈知識の抽出
- Authors: Umme Abira Azmary, MD Ikramul Kayes, Swakkhar Shatabda, Farig Yousuf Sadeque,
- Abstract要約: ここでは,バングラにおける最初の実測QAデータセットであるBanglaCQAを紹介する。
本稿では,エンコーダ-デコーダ言語固有および多言語ベースラインモデルのための微調整パイプラインを提案する。
提案手法は,反現実シナリオにおけるパラメトリック知識の抽出に一意に有効なメカニズムを提示する。
- 参考スコア(独自算出の注目度): 0.9274656542624661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Question-Answering (QA) models for low-resource languages like Bangla face challenges due to limited annotated data and linguistic complexity. A key issue is determining whether models rely more on pre-encoded (parametric) knowledge or contextual input during answer generation, as existing Bangla QA datasets lack the structure required for such analysis. We introduce BanglaCQA, the first Counterfactual QA dataset in Bangla, by extending a Bangla dataset while integrating counterfactual passages and answerability annotations. In addition, we propose fine-tuned pipelines for encoder-decoder language-specific and multilingual baseline models, and prompting-based pipelines for decoder-only LLMs to disentangle parametric and contextual knowledge in both factual and counterfactual scenarios. Furthermore, we apply LLM-based and human evaluation techniques that measure answer quality based on semantic similarity. We also present a detailed analysis of how models perform across different QA settings in low-resource languages, and show that Chain-of-Thought (CoT) prompting reveals a uniquely effective mechanism for extracting parametric knowledge in counterfactual scenarios, particularly in decoder-only LLMs. Our work not only introduces a novel framework for analyzing knowledge sources in Bangla QA but also uncovers critical findings that open up broader directions for counterfactual reasoning in low-resource language settings.
- Abstract(参考訳): Banglaのような低リソース言語に対するQAモデルは、限られた注釈付きデータと言語的な複雑さのために課題に直面している。
重要な問題は、既存のBangla QAデータセットはそのような分析に必要な構造を欠いているため、モデルが事前に符号化された(パラメトリックな)知識や、回答生成時のコンテキスト入力に依存しているかどうかを決定することである。
バングラデータセットを拡張して,反ファクトパスと応答可能性アノテーションを統合することで,バングラにおける最初の対物的QAデータセットであるBanglaCQAを紹介する。
さらに、エンコーダ-デコーダ言語固有の多言語ベースラインモデルのための微調整パイプラインを提案し、デコーダのみのLLMに対して、現実シナリオと反現実シナリオの両方においてパラメトリック知識と文脈知識をアンタングル化するよう促す。
さらに,意味的類似性に基づいて回答品質を測定するLLMおよび人間評価手法を適用した。
また、低リソース言語における様々なQA設定でモデルがどのように機能するかを詳細に分析し、Chain-of-Thought(CoT)のプロンプトによって、特にデコーダのみのLLMにおいて、反現実的なシナリオにおいてパラメトリック知識を抽出する一意に効果的なメカニズムが明らかになることを示す。
我々の研究は,Bangla QAにおける知識源分析のための新しいフレームワークを導入するだけでなく,低リソース言語設定における対実的推論の幅広い方向を示す重要な知見も明らかにしている。
関連論文リスト
- Prompting is not Enough: Exploring Knowledge Integration and Controllable Generation [89.65955788873532]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:18:33Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - ChatKBQA: A Generate-then-Retrieve Framework for Knowledge Base Question Answering with Fine-tuned Large Language Models [19.85526116658481]
本稿では,新規かつ簡易な生成検索KBQAフレームワークであるChatKBQAを紹介する。
実験の結果,ChatKBQAは標準KBQAデータセット上で新たな最先端性能を実現することがわかった。
この研究は、LLMと知識グラフを組み合わせるための新しいパラダイムとして、解釈可能および知識要求型質問応答のパラダイムと見なすこともできる。
論文 参考訳(メタデータ) (2023-10-13T09:45:14Z) - FlexKBQA: A Flexible LLM-Powered Framework for Few-Shot Knowledge Base
Question Answering [16.88132219032486]
手動のアノテーションに関連する負担を軽減するためにFlexKBQAを導入します。
我々はLarge Language Models (LLM) を,KBQAタスクに固有の課題に対処するためのプログラムトランスレータとして活用する。
具体的には、FlexKBQAは自動化アルゴリズムを利用して、知識ベースからSPARQLクエリなどの多様なプログラムをサンプリングする。
より難易度の高いゼロショットシナリオでさえも、FlexKBQAは、いくつかのアノテーションで印象的な結果を得ることができます。
論文 参考訳(メタデータ) (2023-08-23T11:00:36Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Augmenting Pre-trained Language Models with QA-Memory for Open-Domain
Question Answering [38.071375112873675]
質問応答型エンコーダデコーダモデルの提案と事前学習戦略について述べる。
これにより、シングルホップのQAタスクにおいて、以前のQA検索方法よりも優れたエンドツーエンドシステムが得られる。
論文 参考訳(メタデータ) (2022-04-10T02:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。