論文の概要: Portuguese FAQ for Financial Services
- arxiv url: http://arxiv.org/abs/2311.11331v1
- Date: Sun, 19 Nov 2023 14:07:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 20:57:58.837291
- Title: Portuguese FAQ for Financial Services
- Title(参考訳): 金融サービスにおけるポルトガルのFAQ
- Authors: Paulo Finardi, Wanderley M. Melo, Edgard D. Medeiros Neto, Alex F.
Mansano, Pablo B. Costa, Vinicius F. Carid\'a
- Abstract要約: 本研究は,データ拡張技術を用いて生成した合成データの活用を提唱する。
この調査は、ブラジル中央銀行FAQ(Central Bank of Brazil FAQ)から得られたデータセットの強化に焦点を当てており、意味的類似性が異なる手法を用いている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scarcity of domain-specific data in the Portuguese financial domain has
disfavored the development of Natural Language Processing (NLP) applications.
To address this limitation, the present study advocates for the utilization of
synthetic data generated through data augmentation techniques. The
investigation focuses on the augmentation of a dataset sourced from the Central
Bank of Brazil FAQ, employing techniques that vary in semantic similarity.
Supervised and unsupervised tasks are conducted to evaluate the impact of
augmented data on both low and high semantic similarity scenarios.
Additionally, the resultant dataset will be publicly disseminated on the
Hugging Face Datasets platform, thereby enhancing accessibility and fostering
broader engagement within the NLP research community.
- Abstract(参考訳): ポルトガルの金融分野におけるドメイン固有データの重要性は、自然言語処理(NLP)アプリケーションの開発を嫌っている。
この制限に対処するため,本研究はデータ拡張技術によって生成された合成データの利用を提唱する。
この調査は、ブラジル中央銀行のfaqから引用されたデータセットの強化に焦点を当てており、意味的類似性が異なる技術を使用している。
教師なしタスクは、低・高セマンティック類似性シナリオにおける拡張データの影響を評価するために行われる。
さらに、結果のデータセットはHugging Face Datasetsプラットフォーム上に公開され、アクセシビリティが向上し、NLP研究コミュニティ内での広範なエンゲージメントが促進される。
関連論文リスト
- Enhancing Data Quality through Simple De-duplication: Navigating Responsible Computational Social Science Research [31.993279516471283]
我々は,計算社会科学のNLPで広く使われている20のデータセットについて,詳細な調査を行う。
分析の結果、ソーシャルメディアのデータセットは様々なレベルのデータ重複を示すことが明らかとなった。
以上の結果から,データ重複が現状の最先端性能の主張に影響を及ぼすことが示唆された。
論文 参考訳(メタデータ) (2024-10-04T15:58:15Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - A Survey on Federated Analytics: Taxonomy, Enabling Techniques, Applications and Open Issues [28.096861605150075]
フェデレーション分析(FA)は、生データを集中することなく、多様なデータ所有者間で協調的なデータ分析をサポートする新興技術である。
FAの産業・アカデミックへの応用は広く行われているが、FAにおける既存の研究成果の総合的な調査は特に欠落している。
この調査は、新たなFA技術に関する総合的な理解を提供し、プライバシ保護による分散データ処理の継続的な進化を促進することを目的としている。
論文 参考訳(メタデータ) (2024-04-19T07:06:40Z) - Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges [47.45993726498343]
データ強化(DA)は、データ収集を必要とせずにトレーニング例を多様化することにより、モデルパフォーマンスを向上させる重要な手法として登場した。
本調査では,大規模言語モデル(LLM)がDAに与える影響,特に自然言語処理(NLP)以降の文脈において,それらが持つ固有の課題と機会に対処する。
論文 参考訳(メタデータ) (2024-03-05T14:11:54Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Robust Sentiment Analysis for Low Resource languages Using Data
Augmentation Approaches: A Case Study in Marathi [0.9553673944187253]
感情分析は、テキストデータに表される感情を理解する上で重要な役割を果たす。
低リソース言語における感情分析の研究努力には大きなギャップがある。
本稿では,低リソースのIndic言語であるMarathiに対するデータ拡張アプローチについて概説する。
論文 参考訳(メタデータ) (2023-10-01T17:09:31Z) - Data Distribution Bottlenecks in Grounding Language Models to Knowledge
Bases [9.610231090476857]
言語モデル(LM)は、自然言語と形式言語の両方を理解し、生成する際、すでに顕著な能力を示している。
本論文は,知識ベース質問応答(KBQA)を課題として,LMが直面する課題を明らかにすることを目的とした実験的研究である。
実験の結果,提案手法を応用しても,様々な次元において,先進的な小・大規模言語モデルの性能が低下していることが判明した。
論文 参考訳(メタデータ) (2023-09-15T12:06:45Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP [88.65488361532158]
豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
論文 参考訳(メタデータ) (2021-06-14T15:27:22Z) - Detecting ESG topics using domain-specific language models and data
augmentation approaches [3.3332986505989446]
金融分野における自然言語処理タスクは、適切にラベル付けされたデータのあいまいさのため、依然として困難なままである。
本稿では,これらの問題を緩和するための2つのアプローチについて検討する。
まず、ビジネスおよび財務ニュースから大量のドメイン内データを用いて、さらなる言語モデルの事前学習実験を行う。
次に、モデル微調整のためのデータセットのサイズを増やすために拡張アプローチを適用します。
論文 参考訳(メタデータ) (2020-10-16T11:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。