論文の概要: LLMs to Support a Domain Specific Knowledge Assistant
- arxiv url: http://arxiv.org/abs/2502.04095v1
- Date: Thu, 06 Feb 2025 14:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:34:08.668165
- Title: LLMs to Support a Domain Specific Knowledge Assistant
- Title(参考訳): ドメイン固有知識アシスタントを支援するLLM
- Authors: Maria-Flavia Lovin,
- Abstract要約: 本研究は、国際金融報告基準(IFRS)を用いたサステナビリティレポートのためのドメイン固有知識アシスタントを開発するためのカスタムアプローチを提案する。
このドメインでは、公開可能なQAデータセットは存在せず、レポートを提供する企業をサポートするための高品質なパイプラインの開発を阻害している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This work presents a custom approach to developing a domain specific knowledge assistant for sustainability reporting using the International Financial Reporting Standards (IFRS). In this domain, there is no publicly available question-answer dataset, which has impeded the development of a high-quality chatbot to support companies with IFRS reporting. The two key contributions of this project therefore are: (1) A high-quality synthetic question-answer (QA) dataset based on IFRS sustainability standards, created using a novel generation and evaluation pipeline leveraging Large Language Models (LLMs). This comprises 1,063 diverse QA pairs that address a wide spectrum of potential user queries in sustainability reporting. Various LLM-based techniques are employed to create the dataset, including chain-of-thought reasoning and few-shot prompting. A custom evaluation framework is developed to assess question and answer quality across multiple dimensions, including faithfulness, relevance, and domain specificity. The dataset averages a score range of 8.16 out of 10 on these metrics. (2) Two architectures for question-answering in the sustainability reporting domain - a RAG pipeline and a fully LLM-based pipeline. The architectures are developed by experimenting, fine-tuning, and training on the QA dataset. The final pipelines feature an LLM fine-tuned on domain specific data and an industry classification component to improve the handling of complex queries. The RAG architecture achieves an accuracy of 85.32% on single-industry and 72.15% on cross-industry multiple-choice questions, outperforming the baseline approach by 4.67 and 19.21 percentage points, respectively. The LLM-based pipeline achieves an accuracy of 93.45% on single-industry and 80.30% on cross-industry multiple-choice questions, an improvement of 12.80 and 27.36 percentage points over the baseline, respectively.
- Abstract(参考訳): 本研究は、国際金融報告基準(IFRS)を用いて、サステナビリティレポートのためのドメイン固有知識アシスタントを開発するためのカスタムアプローチを提案する。
このドメインでは、公開可能な質問応答データセットは存在せず、IFRSレポートを持つ企業を支援する高品質なチャットボットの開発を阻害している。
このプロジェクトの2つの重要な貢献は、(1)大規模言語モデル(LLM)を利用した新しい生成および評価パイプラインを用いて作成されるIFRSサステナビリティ標準に基づく高品質な合成質問応答(QA)データセットである。
これは、サステナビリティレポートにおける潜在的なユーザクエリの幅広い範囲に対処する、1,063の多様なQAペアで構成される。
LLMベースの様々なテクニックがデータセットの作成に使われており、例えばチェーン・オブ・ソート推論や数発のプロンプトがある。
信頼性、妥当性、ドメインの特異性など、複数の次元にわたる質問と回答の品質を評価するために、カスタム評価フレームワークが開発されている。
データセットの平均スコアは10点中8.16点である。
2)サステナビリティレポートドメインにおける質問応答のための2つのアーキテクチャ - RAGパイプラインとLLMベースのパイプライン。
アーキテクチャは、QAデータセットの実験、微調整、トレーニングによって開発されます。
最終パイプラインは、ドメイン固有のデータに基づいて微調整されたLLMと、複雑なクエリの処理を改善するための業界分類コンポーネントを備えている。
RAGアーキテクチャは、シングルインダストリーで85.32%、クロスインダストリーで72.15%の精度を達成し、それぞれ4.67ポイントと19.21ポイントのベースラインアプローチを上回っている。
LLMベースのパイプラインは、シングルインダストリーで93.45%、クロスインダストリーで80.30%、ベースラインで12.80ポイント、27.36ポイントの改善を達成した。
関連論文リスト
- OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - TQA-Bench: Evaluating LLMs for Multi-Table Question Answering with Scalable Context and Symbolic Extension [8.489816179329832]
TQA-Benchは,大規模言語モデル(LLM)の複雑なQAタスクをリレーショナルデータ上で処理する能力を評価するために設計された,新しいマルチテーブルQAベンチマークである。
我々のベンチマークでは、現実世界のパブリックデータセットから得られた多様なリレーショナルデータベースインスタンスを組み込んでいます。
我々は、70億から700億のパラメータにまたがる、オープンソースとクローズドソースの両方のLLMを体系的に評価する。
論文 参考訳(メタデータ) (2024-11-29T06:48:13Z) - AttackQA: Development and Adoption of a Dataset for Assisting Cybersecurity Operations using Fine-tuned and Open-Source LLMs [0.0]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を生成するために微調整される。
本研究では,AttackQAと呼ばれるサイバーセキュリティ質問応答(Q&A)データセットを開発する。
我々は、セキュリティオペレーションセンターのアナリスト向けに設計されたRAGベースのQ&Aシステムを構築するためにそれを利用している。
論文 参考訳(メタデータ) (2024-11-01T23:03:40Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - FinTextQA: A Dataset for Long-form Financial Question Answering [10.1084081290893]
FinTextQAは金融における長文質問応答(LFQA)のための新しいデータセットである。
我々のデータセット上で最も効果的なシステム構成は、組込み器、レトリバー、リランカー、ジェネレータをAda2、Automated Merged Retrieval、Bge-Reranker-Base、Baichuan2-7Bとして設定することであった。
論文 参考訳(メタデータ) (2024-05-16T10:53:31Z) - SnapNTell: Enhancing Entity-Centric Visual Question Answering with
Retrieval Augmented Multimodal LLM [48.15067480282839]
本研究は、エンティティ中心のVQAに特化して開発された、textbfSnapNTellという新しい評価ベンチマークを導入する。
データセットは22の主要なカテゴリに分けられ、合計で7,568のユニークなエンティティが含まれている。
提案手法はSnapNTellデータセットの既存手法を著しく上回り,BELURTスコアの66.5%向上を達成した。
論文 参考訳(メタデータ) (2024-03-07T18:38:17Z) - Self-prompted Chain-of-Thought on Large Language Models for Open-domain
Multi-hop Reasoning [70.74928578278957]
オープンドメイン質問回答(ODQA)では、ほとんどの既存の質問はコモンセンスのシングルホップ推論を必要とする。
大規模言語モデル(LLM)は、外部コーパスなしでODQAを促進するために重要な有用性を見出した。
高品質なCoTを大量生産する自動化フレームワークSP-CoTを提案する。
論文 参考訳(メタデータ) (2023-10-20T14:51:10Z) - ADMUS: A Progressive Question Answering Framework Adaptable to Multiple
Knowledge Sources [9.484792817869671]
ADMUSは,多様なデータセットに対応するために設計された,プログレッシブな知識ベース質問応答フレームワークである。
我々のフレームワークは、最小限の労力で、新しいデータセットのシームレスな統合をサポートします。
論文 参考訳(メタデータ) (2023-08-09T08:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。