論文の概要: Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation
- arxiv url: http://arxiv.org/abs/2602.16990v1
- Date: Thu, 19 Feb 2026 01:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.593495
- Title: Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation
- Title(参考訳): Conv-FinRe: 実用性を考慮した金融レコメンデーションのための対話的・縦断的ベンチマーク
- Authors: Yan Wang, Yi Han, Lingfei Qian, Yueru He, Xueqing Peng, Dongji Feng, Zhuohan Xie, Vincent Jim Zhang, Rosie Guo, Fengran Mo, Jimin Huang, Yankai Chen, Xue Liu, Jian-Yun Nie,
- Abstract要約: ストックレコメンデーションのためのベンチマークであるConv-FinReを導入する。
我々は、実際の市場データと人間の意思決定軌跡からベンチマークを構築し、制御されたアドバイザリー会話をインスタンス化し、最先端のLCMのスイートを評価する。
その結果、合理的な意思決定品質と行動整合性の持続的な緊張が明らかとなった。
- 参考スコア(独自算出の注目度): 33.09732020656996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most recommendation benchmarks evaluate how well a model imitates user behavior. In financial advisory, however, observed actions can be noisy or short-sighted under market volatility and may conflict with a user's long-term goals. Treating what users chose as the sole ground truth, therefore, conflates behavioral imitation with decision quality. We introduce Conv-FinRe, a conversational and longitudinal benchmark for stock recommendation that evaluates LLMs beyond behavior matching. Given an onboarding interview, step-wise market context, and advisory dialogues, models must generate rankings over a fixed investment horizon. Crucially, Conv-FinRe provides multi-view references that distinguish descriptive behavior from normative utility grounded in investor-specific risk preferences, enabling diagnosis of whether an LLM follows rational analysis, mimics user noise, or is driven by market momentum. We build the benchmark from real market data and human decision trajectories, instantiate controlled advisory conversations, and evaluate a suite of state-of-the-art LLMs. Results reveal a persistent tension between rational decision quality and behavioral alignment: models that perform well on utility-based ranking often fail to match user choices, whereas behaviorally aligned models can overfit short-term noise. The dataset is publicly released on Hugging Face, and the codebase is available on GitHub.
- Abstract(参考訳): ほとんどのレコメンデーションベンチマークは、モデルがユーザの振舞いをいかにうまく模倣するかを評価する。
しかし、金融アドバイザリでは、観察された行動は市場のボラティリティの下でうるさく、あるいは近視的になり、ユーザーの長期的な目標と矛盾する可能性がある。
したがって、ユーザーが唯一の根拠として選んだものを扱うことは、行動模倣と意思決定の質を混同する。
ストックレコメンデーションのための対話型長手ベンチマークであるConv-FinReを導入する。
インタヴュー、ステップワイズ市場状況、アドバイザリダイアログが与えられた場合、モデルは固定投資の地平線上でランキングを生成する必要がある。
重要な点として、Conv-FinReは、説明的行動と投資家固有のリスク嗜好に基づく規範的効用とを区別するマルチビュー参照を提供し、LCMが合理的な分析に従うか、ユーザノイズを模倣するか、または市場運動量によって駆動されるかの診断を可能にする。
我々は、実際の市場データと人間の意思決定軌跡からベンチマークを構築し、制御されたアドバイザリー会話をインスタンス化し、最先端のLCMのスイートを評価する。
その結果、合理的な意思決定品質と行動整合性の間に永続的な緊張関係が明らかになる。ユーティリティベースのランキングでうまく機能するモデルは、ユーザの選択にマッチしないことが多いが、行動整合性のあるモデルは、短期的なノイズに過度に適合する可能性がある。
データセットはHugging Faceで公開されており、コードベースはGitHubで公開されている。
関連論文リスト
- Toward Scalable Verifiable Reward: Proxy State-Based Evaluation for Multi-turn Tool-Calling LLM Agents [8.760287445955045]
大規模言語モデル (LLM) エージェントは多ターン対話や多段階のツール呼び出しによって運用に利用されつつある。
以前のエージェントベンチマークは、ビルドとイテレーションにコストがかかる、完全に決定論的バックエンドに依存していた。
決定論的データベースを使わずに最終状態ベース評価を保持するLLM駆動型シミュレーションフレームワークであるProxy State-Based Evaluationを提案する。
論文 参考訳(メタデータ) (2026-02-18T07:49:47Z) - ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - LiveTradeBench: Seeking Real-World Alpha with Large Language Models [26.976122048323873]
大規模言語モデル(LLM)は、ベンチマーク全体で強力なパフォーマンスを達成する。
これらのテストは静的な設定で行われ、実際のダイナミクスと不確実性が欠如している。
LLMエージェントを現実的で発展途上国で評価するためのライブトレーディング環境であるLiveTradeBenchを紹介する。
論文 参考訳(メタデータ) (2025-11-05T16:47:26Z) - VAL-Bench: Measuring Value Alignment in Language Models [10.745372809345412]
大きな言語モデル(LLM)は、出力が人間の決定を形作るタスクにますます使われています。
既存のベンチマークは、主に拒否や事前定義された安全違反を追跡するが、モデルが一貫性のある価値システムを保持するかどうかを明らかにしない。
VAL-Bench(Value ALignment Benchmark)を導入し、モデルが公開討論の両面において安定的な価値スタンスを維持しているかどうかを評価する。
論文 参考訳(メタデータ) (2025-10-06T23:55:48Z) - StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets? [44.10622904101254]
大規模言語モデル(LLM)は、最近、自律エージェントとして強力な能力を示した。
実時間複数ヶ月の株式トレーディング環境でLLMエージェントを評価するためのベンチマークであるStockBenchを紹介する。
我々の評価では、ほとんどのLLMエージェントは、単純な買い買い得ベースラインよりも優れているが、いくつかのモデルでは、より高いリターンをもたらし、より効果的にリスクを管理する可能性を実証している。
論文 参考訳(メタデータ) (2025-10-02T16:54:57Z) - Your AI, Not Your View: The Bias of LLMs in Investment Analysis [62.388554963415906]
金融において、Large Language Models (LLMs) は、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違から生じる、頻繁な知識紛争に直面している。
これらの対立は、モデル固有のバイアスが制度的目的と誤認される現実世界の投資サービスにおいて特に問題となる。
本研究では,このような紛争シナリオにおける創発的行動を調べるための実験的枠組みを提案し,投資分析におけるバイアスの定量的分析を行う。
論文 参考訳(メタデータ) (2025-07-28T16:09:38Z) - Deriving Strategic Market Insights with Large Language Models: A Benchmark for Forward Counterfactual Generation [55.2788567621326]
本稿では,FIN-FORCE-FINancial Forward Counterfactual Evaluationを提案する。
FIN-FORCEは金融ニュースの見出しをまとめることで、LLMベースの対実生成を支援する。
これにより、将来の市場展開を探索し、予測するためのスケーラブルで自動化されたソリューションの道を開くことができる。
論文 参考訳(メタデータ) (2025-05-26T02:41:50Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。