Fugu-MT 論文翻訳(概要): UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models

論文の概要: UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models

arxiv url: http://arxiv.org/abs/2410.14059v1
Date: Thu, 17 Oct 2024 22:03:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.242839
Title: UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models
Title（参考訳）: UCFE: 大規模言語モデルのユーザ中心財務専門家ベンチマーク
Authors: Yuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang,
Abstract要約: UCFEベンチマークは、大規模な言語モデル(LLM)が複雑な現実世界の財務タスクを処理する能力を評価するために設計されている。 804名を対象に,財務課題に対するフィードバックを収集し,ユーザ調査を行った。その結果,Pearson相関係数は0.78。
参考スコア（独自算出の注目度）: 36.70594057256887
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces the UCFE: User-Centric Financial Expertise benchmark, an innovative framework designed to evaluate the ability of large language models (LLMs) to handle complex real-world financial tasks. UCFE benchmark adopts a hybrid approach that combines human expert evaluations with dynamic, task-specific interactions to simulate the complexities of evolving financial scenarios. Firstly, we conducted a user study involving 804 participants, collecting their feedback on financial tasks. Secondly, based on this feedback, we created our dataset that encompasses a wide range of user intents and interactions. This dataset serves as the foundation for benchmarking 12 LLM services using the LLM-as-Judge methodology. Our results show a significant alignment between benchmark scores and human preferences, with a Pearson correlation coefficient of 0.78, confirming the effectiveness of the UCFE dataset and our evaluation approach. UCFE benchmark not only reveals the potential of LLMs in the financial sector but also provides a robust framework for assessing their performance and user satisfaction.The benchmark dataset and evaluation code are available.
Abstract（参考訳）: 本稿では,UCFE: User-Centric Financial Expertiseベンチマークについて紹介する。これは,大規模言語モデル(LLM)による複雑な実世界の金融業務の処理能力を評価するために設計された,革新的なフレームワークである。 UCFEベンチマークは、進化する金融シナリオの複雑さをシミュレートするために、人間の専門家評価と動的でタスク固有の相互作用を組み合わせたハイブリッドアプローチを採用する。まず,804名の参加者を対象に,財務業務に対するフィードバックを収集した。第2に、このフィードバックに基づいて、幅広いユーザ意図とインタラクションを含むデータセットを作成しました。このデータセットは、LLM-as-Judgeメソッドを使用して12のLLMサービスをベンチマークする基盤として機能する。 Pearson相関係数は0.78であり,UCFEデータセットの有効性と評価手法の有効性が確認された。 UCFEベンチマークは、金融セクターにおけるLLMの可能性だけでなく、そのパフォーマンスとユーザ満足度を評価するための堅牢なフレームワークも提供しており、ベンチマークデータセットと評価コードも利用可能である。

関連論文リスト

Exploring the Potential of LLMs for Serendipity Evaluation in Recommender Systems [10.227007419503297]
大規模言語モデル(LLM)は、様々な人間のアノテーションタスクで評価手法に革命をもたらしている。電子商取引および映画分野における実際のユーザ研究から得られた2つのデータセットのメタ評価を行う。以上の結果から,最も単純なゼロショットLLMであっても,従来の測定値と同等あるいは超える性能が得られることが示唆された。
論文参考訳（メタデータ） (2025-07-23T07:51:56Z)
Leveraging LLMs to Evaluate Usefulness of Document [25.976948104719746]
本稿では,ユーザの検索コンテキストと行動データを大規模言語モデルに統合する,新たなユーザ中心評価フレームワークを提案する。本研究は,文脈情報や行動情報に精通したLLMが有用性を正確に評価できることを実証する。また,本手法で作成したラベルをユーザ満足度予測に適用し,実世界の実験により,これらのラベルが満足度予測モデルの性能を大幅に向上することを示した。
論文参考訳（メタデータ） (2025-06-10T09:44:03Z)
FinS-Pilot: A Benchmark for Online Financial System [17.65500174763836]
FinS-Pilotは、オンライン金融アプリケーションで大規模言語モデル(RAG)を評価するための新しいベンチマークである。当社のベンチマークでは,インテント分類フレームワークによって編成されたリアルタイムAPIデータと構造化テキストソースの両方を取り入れている。本研究は,金融NLPシステムの研究を進めるための,実践的評価フレームワークとキュレートデータセットの両方に貢献する。
論文参考訳（メタデータ） (2025-05-31T03:50:19Z)
Alpha Excel Benchmark [0.0]
本研究では,FMWC(Financial Modeling World Cup)Excelコンペティションから得られた課題を用いて,LLM(Large Language Models)を評価するための新しいベンチマークを提案する。本研究は,認識タスクの強みを示すが,複雑な数値推論に苦しむモデルを用いて,様々な課題カテゴリにおける性能の有意な変化を示した。
論文参考訳（メタデータ） (2025-05-07T03:56:26Z)
Revisiting LLM Evaluation through Mechanism Interpretability: a New Metric and Model Utility Law [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。本稿では,従来の性能指標を補完する機構解釈可能性技術を導入し,モデル利用指標(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文参考訳（メタデータ） (2025-02-26T17:08:46Z)
LLM-assisted Explicit and Implicit Multi-interest Learning Framework for Sequential Recommendation [50.98046887582194]
本研究では,ユーザの興味を2つのレベル – 行動と意味論 – でモデル化する,明示的で暗黙的な多目的学習フレームワークを提案する。提案するEIMFフレームワークは,小型モデルとLLMを効果的に組み合わせ,多目的モデリングの精度を向上させる。
論文参考訳（メタデータ） (2024-11-14T13:00:23Z)
A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文参考訳（メタデータ） (2024-11-13T01:12:35Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
CatMemo at the FinLLM Challenge Task: Fine-Tuning Large Language Models using Data Fusion in Financial Applications [10.225210627594894]
IJCAI-2024 FinLLMの課題に対して,金融業務の3つの重要な領域におけるLLMの能力について検討した。金融分類、財務文書要約、単一株式取引について検討する。提案手法は,これらの多様なタスクを包括的かつ総合的に処理することを目的としており,LLMの多様かつ複雑な財務課題への対処能力の向上と意思決定能力の向上を図っている。
論文参考訳（メタデータ） (2024-07-02T05:04:13Z)
Financial Knowledge Large Language Model [4.599537455808687]
大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークであるIDEA-FinBenchを紹介する。金融分野への一般LLMの迅速な適応を容易にするためのフレームワークであるIDEA-FinKERを提案する。最後に LLM を利用した財務質問応答システム IDEA-FinQA を提案する。
論文参考訳（メタデータ） (2024-06-29T08:26:49Z)
SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications [17.34850312139675]
SC-Finは中国原産の金融大規模言語モデル(FLM)に適した先駆的評価フレームワークである 6つの金融アプリケーションドメインと25の専門タスクにわたるFLMを評価する。実生活シナリオを模倣するマルチターンでオープンな会話を用いて、SC-Finは様々な基準に基づいてモデルを測定する。
論文参考訳（メタデータ） (2024-04-29T19:04:35Z)
A User-Centric Benchmark for Evaluating Large Language Models [39.538411572029005]
大きな言語モデル(LLM)は、異なるタスクでユーザと協調するために必要なツールである。実際のユーザによるLLMの利用を意図したベンチマークはほとんどない。ユーザニーズを満たす上での有効性について10のLCMサービスをベンチマークする。
論文参考訳（メタデータ） (2024-04-22T07:32:03Z)
Churn Prediction via Multimodal Fusion Learning:Integrating Customer Financial Literacy, Voice, and Behavioral Data [14.948017876322597]
本稿では,金融サービスプロバイダの顧客リスクレベルを特定するためのマルチモーダル融合学習モデルを提案する。弊社のアプローチは、顧客感情の財務リテラシー(FL)レベルと、財務行動データを統合している。我々の新しいアプローチは、チャーン予測の顕著な改善を示し、テスト精度91.2%、平均精度66、マクロ平均F1スコア54を達成した。
論文参考訳（メタデータ） (2023-12-03T06:28:55Z)
MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文参考訳（メタデータ） (2023-11-23T12:04:25Z)
Mastering the Task of Open Information Extraction with Large Language Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文参考訳（メタデータ） (2023-10-16T17:11:42Z)
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。我々はLLaMAを細調整してFinMAを提案する。我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文参考訳（メタデータ） (2023-06-08T14:20:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。