論文の概要: Fine-tuning Smaller Language Models for Question Answering over Financial Documents
- arxiv url: http://arxiv.org/abs/2408.12337v1
- Date: Thu, 22 Aug 2024 12:23:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 14:03:43.037211
- Title: Fine-tuning Smaller Language Models for Question Answering over Financial Documents
- Title(参考訳): 財務文書に対する質問応答のための微調整小言語モデル
- Authors: Karmvir Singh Phogat, Sai Akhil Puranam, Sridhar Dasaratha, Chetan Harsha, Shashishekar Ramakrishna,
- Abstract要約: 我々は、財務文書に対するマルチホップ数値推論を必要とする質問に答えることの課題に焦点をあてる。
プログラムを生成するために微調整されたいくつかの小型モデルの性能を評価する。
我々の経験的分析は、微調整が学生モデルに要求される財務概念を表現・適用する能力を洗練させることを示している。
- 参考スコア(独自算出の注目度): 0.1747623282473278
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent research has shown that smaller language models can acquire substantial reasoning abilities when fine-tuned with reasoning exemplars crafted by a significantly larger teacher model. We explore this paradigm for the financial domain, focusing on the challenge of answering questions that require multi-hop numerical reasoning over financial texts. We assess the performance of several smaller models that have been fine-tuned to generate programs that encode the required financial reasoning and calculations. Our findings demonstrate that these fine-tuned smaller models approach the performance of the teacher model. To provide a granular analysis of model performance, we propose an approach to investigate the specific student model capabilities that are enhanced by fine-tuning. Our empirical analysis indicates that fine-tuning refines the student models ability to express and apply the required financial concepts along with adapting the entity extraction for the specific data format. In addition, we hypothesize and demonstrate that comparable financial reasoning capability can be induced using relatively smaller datasets.
- Abstract(参考訳): 近年の研究では、より小規模な言語モデルでは、かなり大きな教師モデルによって構築された推論の卓越した微調整によって、実質的な推論能力を得ることができることが示されている。
我々は、金融分野におけるこのパラダイムを探求し、財務文書に対するマルチホップ数値推論を必要とする疑問に答えることに焦点をあてる。
我々は、必要な金銭的推論と計算を符号化するプログラムを生成するために微調整されたいくつかの小さなモデルの性能を評価する。
その結果,これらの微調整された小型モデルが教師モデルの性能に接近していることが判明した。
モデル性能のきめ細かい解析を行うために,微調整により強化された特定の学生モデル機能について検討する手法を提案する。
我々の経験的分析は、微調整により、特定のデータ形式にエンティティ抽出を適用するとともに、必要な財務概念を表現および適用できる学生モデルが洗練されることを示唆している。
さらに、比較的小さなデータセットを用いて、同等の金銭的推論能力を誘導できることを仮説化し、実証する。
関連論文リスト
- Learning-to-Defer for Extractive Question Answering [3.6787328174619254]
質問応答の文脈で言語モデルを再訓練することなく、人間の専門家や大規模モデルへの選択的推論を可能にすることにより、意思決定を強化する2段階の学習・判断機構を適応的に導入する。
その結果,最小限のクエリを遅延させることで,計算効率を保ちながら,より大規模なクエリに匹敵する性能を実現することができた。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - Large Language Model Adaptation for Financial Sentiment Analysis [2.0499240875882]
一般言語モデルは、金融に特化されたタスクでは不足する傾向にある。
1.5B未満のパラメータを持つ2つの基礎モデルは、幅広い戦略を用いて適応されている。
小型LLMは大規模モデルに匹敵する性能を有しつつ,パラメータやデータの観点からも効率がよいことを示す。
論文 参考訳(メタデータ) (2024-01-26T11:04:01Z) - One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text
Analytics? A Study on Several Typical Tasks [36.84636748560657]
ChatGPTやGPT-4のような大規模言語モデルは、ジェネラリストモデルの例外的な能力を示している。
このようなモデルは金融分野でどの程度有効か?
論文 参考訳(メタデータ) (2023-05-10T03:13:54Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z) - Graph-Regularized Tensor Regression: A Domain-Aware Framework for
Interpretable Multi-Way Financial Modelling [23.030263841031633]
そこで我々は,グラフラプラシアン行列の形で,相互関係に関する知識をモデルに組み込む新しいグラフ正規化回帰(GRTR)フレームワークを開発した。
テンソル代数(英語版)により、提案されたフレームワークは係数と次元の両方で完全に解釈可能であることが示されている。
GRTRモデルは、マルチウェイの財務予測設定で検証され、計算コストの削減による性能向上が示されている。
論文 参考訳(メタデータ) (2022-10-26T13:39:08Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。