論文の概要: Expect the Unexpected: FailSafe Long Context QA for Finance
- arxiv url: http://arxiv.org/abs/2502.06329v1
- Date: Mon, 10 Feb 2025 10:29:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:47.307835
- Title: Expect the Unexpected: FailSafe Long Context QA for Finance
- Title(参考訳): 予期せぬこと:ファイナンスにとって安全な長期QA
- Authors: Kiran Kamble, Melisa Russak, Dmytro Mozolevskyi, Muayad Ali, Mateusz Russak, Waseem AlShikh,
- Abstract要約: FailSafeQAは、金融におけるヒューマン・インタフェース・インタラクションの6つのバリエーションに対して、LLMの堅牢性とコンテキスト認識性をテストするように設計されている。
我々は,Qwen2.5-72B-Instruct を用いた LLM-as-a-Judge 手法を採用し,ロバストネス,コンテキストグラウンド,コンプライアンススコアを24個のオフザシェルフモデルで定義・算出するために,きめ細かい評価基準を用いた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We propose a new long-context financial benchmark, FailSafeQA, designed to test the robustness and context-awareness of LLMs against six variations in human-interface interactions in LLM-based query-answer systems within finance. We concentrate on two case studies: Query Failure and Context Failure. In the Query Failure scenario, we perturb the original query to vary in domain expertise, completeness, and linguistic accuracy. In the Context Failure case, we simulate the uploads of degraded, irrelevant, and empty documents. We employ the LLM-as-a-Judge methodology with Qwen2.5-72B-Instruct and use fine-grained rating criteria to define and calculate Robustness, Context Grounding, and Compliance scores for 24 off-the-shelf models. The results suggest that although some models excel at mitigating input perturbations, they must balance robust answering with the ability to refrain from hallucinating. Notably, Palmyra-Fin-128k-Instruct, recognized as the most compliant model, maintained strong baseline performance but encountered challenges in sustaining robust predictions in 17% of test cases. On the other hand, the most robust model, OpenAI o3-mini, fabricated information in 41% of tested cases. The results demonstrate that even high-performing models have significant room for improvement and highlight the role of FailSafeQA as a tool for developing LLMs optimized for dependability in financial applications. The dataset is available at: https://huggingface.co/datasets/Writer/FailSafeQA
- Abstract(参考訳): そこで本研究では,LLM を用いた問合せ応答システムにおいて,LLM の頑健性とコンテキスト認識性を6 種類のヒューマン・インタフェース・インタラクションに対して検証するための,長文財務ベンチマーク FailSafeQA を提案する。
クエリの失敗とコンテキストの失敗という2つのケーススタディに集中しています。
クエリ失敗のシナリオでは、ドメインの専門知識、完全性、言語的正確性などによって、元のクエリを混乱させます。
コンテキスト障害の場合、劣化した、無関係で、空のドキュメントのアップロードをシミュレートします。
我々は,Qwen2.5-72B-Instruct を用いた LLM-as-a-Judge 手法を採用し,ロバストネス,コンテキストグラウンド,コンプライアンススコアを24個のオフザシェルフモデルで定義・算出するために,きめ細かい評価基準を用いた。
その結果、入力摂動の緩和に優れるモデルもあるが、幻覚を抑える能力と頑健な答えのバランスをとる必要があることが示唆された。
特に、Palmyra-Fin-128k-Instructは最も適合したモデルとして認識され、強力なベースライン性能を維持したが、テストケースの17%で堅牢な予測を維持する上での課題に遭遇した。
一方、最も堅牢なモデルであるOpenAI o3-miniは、テストケースの41%で情報を生成した。
その結果,高性能モデルにおいても,金融アプリケーションの信頼性に最適化されたLCMを開発するためのツールとして,FailSafeQAが果たす役割を強調し,改善の余地があることが示唆された。
データセットは以下の通りである。 https://huggingface.co/datasets/Writer/FailSafeQA
関連論文リスト
- FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models [0.0]
FinanceQAは、LLMのパフォーマンスを実世界の投資業務を反映した複雑な数値分析タスクで評価するテストスイートである。
現在のLLMは、金融機関の厳密な精度要件を満たすことができず、モデルは現実的なタスクの約60%を欠いている。
その結果、このようなタスクをサポートするためには高品質なトレーニングデータが必要であることが示され、OpenAIの微調整APIを使って実験した。
論文 参考訳(メタデータ) (2025-01-30T00:06:55Z) - Forecasting S&P 500 Using LSTM Models [0.0]
本報告では,S&P500指数の予測におけるARIMAモデルとLSTMモデルの比較を行った。
平均絶対誤差(MAE)とルート平均正方形誤差(RMSE)を用いてこれらのモデルを評価する。
LSTMモデルはシーケンシャルな処理能力を利用して、369.32のMAE、412.84のRMSE、92.6%の精度でARIMAを上回った。
論文 参考訳(メタデータ) (2025-01-29T01:31:56Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - MM-R$^3$: On (In-)Consistency of Multi-modal Large Language Models (MLLMs) [26.475993408532304]
本研究では,MLLMモデルが意味論的に類似したクエリに対して,意味論的に類似あるいは同一の応答を生成する能力について検討する。
本稿では,SoTA MLLMの一貫性と精度の観点から,MM-R$3$ベンチマークを提案する。
我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
論文 参考訳(メタデータ) (2024-10-07T06:36:55Z) - Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs [10.494477811252034]
微調整された大きな言語モデルは、同じ入力で矛盾する予測を行うような、テクティファインチューニングの多重性につながる可能性がある。
これにより、Tabular LLMの堅牢性と信頼性に関する重要な懸念が持ち上がる。
本研究は,コストのかかるモデル再訓練を伴わずに個々の予測の堅牢性を定量化する新しい指標を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Feature Selection with Annealing for Forecasting Financial Time Series [2.44755919161855]
本研究では,機械学習(ML)モデルを用いた戦術的入力出力特徴マッピング技術に基づいて,財務時系列を総合的に予測する手法を提案する。
実験の結果,FSAアルゴリズムは問題の種類に関わらず,MLモデルの性能を向上することが示された。
論文 参考訳(メタデータ) (2023-03-03T21:33:38Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。