論文の概要: FinResearchBench: A Logic Tree based Agent-as-a-Judge Evaluation Framework for Financial Research Agents
- arxiv url: http://arxiv.org/abs/2507.16248v1
- Date: Tue, 22 Jul 2025 05:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.979033
- Title: FinResearchBench: A Logic Tree based Agent-as-a-Judge Evaluation Framework for Financial Research Agents
- Title(参考訳): FinResearchBench:金融調査エージェントのための論理木に基づくエージェント・アズ・ア・ジャッジ評価フレームワーク
- Authors: Run Sun, Zuo Bai, Wentao Zhang, Yuxiang Zhang, Li Zhao, Shan Sun, Zhengwen Qiu,
- Abstract要約: FinResearchBenchはロジックツリーベースのエージェント・アズ・ア・ジャッジであり、金融調査エージェントに特化したターゲットである。
ファイナンシャル・リサーチ・ドメインにおける7つの重要なタスクの総合的かつ自動評価を提供する。
- 参考スコア(独自算出の注目度): 20.38281543410266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, AI agents are rapidly evolving in intelligence and widely used in professional research applications, such as STEM, software development, finance, etc. Among these AI agents, deep research agent is a key category as it can perform long-horizon tasks and solve problems of greater complexity. However, there are few evaluation frameworks and benchmarks that systematically and automatically investigate the capabilities of these research agents. Furthermore, financial research problems have distinct complexity and subtlety. To fill in the gap, we propose FinResearchBench, which is a logic tree based Agent-as-a-Judge and targets specifically for the financial research agents. It provides a comprehensive and automatic assessment of the research agents across 7 key types of tasks in the financial research domain. The contributions of this work are two-folded: (1) the first and innovative Agent-as-a-Judge system that extracts the logic tree of the research outcome and uses it as the intermediate information to present a comprehensive, reliable and robust evaluation; (2) finance oriented that it covers 70 typical financial research questions, spreading across 7 frequently encountered types of tasks in the domain.
- Abstract(参考訳): 近年、AIエージェントはインテリジェンスにおいて急速に進化し、STEM、ソフトウェア開発、財務などの専門的な研究アプリケーションで広く利用されている。
これらのAIエージェントの中で、ディープリサーチエージェントは、長期のタスクを実行し、より大きな複雑さの問題を解決することができるため、重要なカテゴリである。
しかし、これらの研究エージェントの能力を体系的にかつ自動的に調査する評価フレームワークやベンチマークはほとんどない。
さらに、金融研究の問題は、明らかに複雑さと微妙さを持っている。
このギャップを埋めるために,FinResearchBenchを提案する。FinResearchBenchは論理木をベースとしたエージェント・アズ・ア・ジャッジであり,金融調査エージェントに特化したターゲットである。
ファイナンシャル・リサーチ・ドメインにおける7つの重要なタスクの総合的かつ自動評価を提供する。
本研究の貢献は,(1)研究成果の論理木を抽出し,その中間情報として活用し,包括的で信頼性が高く,堅牢な評価を提示するエージェント・アズ・ア・ジャッジシステム,(2)一般的な70の金融研究課題を網羅し,ドメイン内で頻繁に遭遇する7つのタスクにまたがる金融の方向性である。
関連論文リスト
- Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training [67.895981259683]
汎用AIエージェントは、次世代人工知能の基礎となるフレームワークとして、ますます認識されている。
現在のエージェントシステムはクローズドソースか、さまざまな有料APIやプロプライエタリなツールに大きく依存している。
我々は,完全オープンソースかつ(最大限に)フリーなマルチモジュールエージェントフレームワークであるCognitive Kernel-Proを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:11:31Z) - FinGAIA: A Chinese Benchmark for AI Agents in Real-World Financial Domain [17.682962451679312]
FinGAIAは7つの主要な金融サブドメインにまたがる、細心の注意を払って407のタスクで構成されている。
最高成績のエージェントであるChatGPTは48.9%の精度を達成し、非専門職よりも優れているが、財務の専門家を35パーセント以上遅れている。
論文 参考訳(メタデータ) (2025-07-23T04:19:16Z) - AI4Research: A Survey of Artificial Intelligence for Scientific Research [55.5452803680643]
我々はAI for Research(AI4Research)に関する総合的な調査を行う。
まず、AI4Researchの5つの主要なタスクを分類する系統分類を導入する。
主要な研究ギャップを特定し、将来有望な方向性を明らかにする。
論文 参考訳(メタデータ) (2025-07-02T17:19:20Z) - Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge [34.672897171399775]
エージェント検索システムは、ウェブを自律的に閲覧し、情報を合成し、包括的な引用支援の回答を返す。
Mind2Web 2は、1000時間以上の人的労働力で構築された130の現実的で高品質で長期にわたるタスクのベンチマークである。
本手法は,木構造設計に基づくタスク固有の判断エージェントを構築し,回答の正しさとソース属性の両方を自動的に評価する。
論文 参考訳(メタデータ) (2025-06-26T17:32:50Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - Deep Research Agents: A Systematic Examination And Roadmap [79.04813794804377]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [63.55583665003167]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。
FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。
大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文 参考訳(メタデータ) (2025-04-22T11:30:13Z) - FinRobot: AI Agent for Equity Research and Valuation with Large Language Models [6.2474959166074955]
本稿では、エクイティリサーチに特化したAIエージェントフレームワークであるFinRobotについて述べる。
FinRobotはマルチエージェント・チェーン・オブ・シント(CoT)システムを採用し、定量分析と定性的分析を統合し、人間のアナリストの包括的な推論をエミュレートする。
CapitalCubeやWright Reportsのような既存の自動研究ツールとは異なり、FinRobotは大手ブローカー会社や基礎研究ベンダーと同等の洞察を提供する。
論文 参考訳(メタデータ) (2024-11-13T17:38:07Z) - Artificial Intelligence in the Service of Entrepreneurial Finance:
Knowledge Structure and the Foundational Algorithmic Paradigm [0.8287206589886879]
この研究は、起業家ファイナンス文学における人工知能の応用に関する文献的レビューを提供する。
文献分析は、知識分野の概念、知性、社会構造に関する豊富な洞察を与える。
論文 参考訳(メタデータ) (2023-11-22T07:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。