Fugu-MT 論文翻訳(概要): FinResearchBench: A Logic Tree based Agent-as-a-Judge Evaluation Framework for Financial Research Agents

論文の概要: FinResearchBench: A Logic Tree based Agent-as-a-Judge Evaluation Framework for Financial Research Agents

arxiv url: http://arxiv.org/abs/2507.16248v3
Date: Mon, 20 Oct 2025 06:53:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 03:08:08.633662
Title: FinResearchBench: A Logic Tree based Agent-as-a-Judge Evaluation Framework for Financial Research Agents
Title（参考訳）: FinResearchBench:金融調査エージェントのための論理木に基づくエージェント・アズ・ア・ジャッジ評価フレームワーク
Authors: Rui Sun, Zuo Bai, Wentao Zhang, Yuxiang Zhang, Li Zhao, Shan Sun, Zhengwen Qiu,
Abstract要約: FinResearchBenchは論理木ベースのAgent-as-a-Judgeで、特に金融調査エージェントをターゲットにしている。ファイナンシャル・リサーチ・ドメインにおける7つの重要なタスクの総合的かつ自動評価を提供する。
参考スコア（独自算出の注目度）: 15.905856417551737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, AI agents are rapidly evolving in intelligence and widely used in professional research applications, such as STEM, software development, and finance. Among these AI agents, deep research agent is a key category as it can perform long-horizon tasks and solve problems of greater complexity. However, there are few evaluation frameworks and benchmarks that systematically and automatically investigate the capabilities of these research agents. In addition, financial research problems have distinct complexity and subtlety. To fill in the gap, we propose FinResearchBench, which is a logic tree-based Agent-as-a-Judge and targets specifically for the financial research agents. It provides a comprehensive and automatic assessment of the research agents across 7 key types of tasks in the financial research domain. The contributions of this work are two-folded: (1) the first and innovative Agent-as-a-Judge system that extracts the logic tree of the research outcome and uses it as the intermediate information to present a comprehensive, reliable, and robust evaluation; (2) finance-oriented that it covers 70 typical financial research questions, spreading across 7 frequently encountered types of task in the domain.
Abstract（参考訳）: 近年、AIエージェントはインテリジェンスにおいて急速に進化し、STEM、ソフトウェア開発、ファイナンスといった専門的な研究アプリケーションで広く利用されている。これらのAIエージェントの中で、ディープリサーチエージェントは、長期のタスクを実行し、より大きな複雑さの問題を解決することができるため、重要なカテゴリである。しかし、これらの研究エージェントの能力を体系的にかつ自動的に調査する評価フレームワークやベンチマークはほとんどない。加えて、金融研究の問題は、明らかに複雑さと微妙さを持っている。このギャップを埋めるために,FinResearchBenchを提案する。FinResearchBenchは論理木をベースとしたエージェント・アズ・ア・ジャッジであり,金融調査エージェントに特化したターゲットである。ファイナンシャル・リサーチ・ドメインにおける7つの重要なタスクの総合的かつ自動評価を提供する。本研究の貢献は,(1)研究成果の論理木を抽出し,その中間情報として活用し,包括的で信頼性が高く,堅牢な評価を提示する,最初の,革新的なエージェント・アズ・ア・ジャッジシステムである。

関連論文リスト

SmartSearch: Process Reward-Guided Query Refinement for Search Agents [63.46067892354375]
大言語モデル(LLM)に基づく検索エージェントは、知識集約的な問題に対処するために有望であることが証明されている。既存の研究は主に、検索エージェントの推論パラダイムの最適化に重点を置いているが、推論中の中間的な検索クエリの品質は見過ごされ続けている。この問題を緩和する2つの主要なメカニズムの上に構築されたフレームワークであるSmartSearchを紹介します。
論文参考訳（メタデータ） (2026-01-08T12:39:05Z)
AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。 22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文参考訳（メタデータ） (2025-10-24T17:10:26Z)
FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis [110.5695516127813]
HisRubricは階層的な分析構造ときめ細かいグレーディングルーブリックを備えた新しい評価フレームワークである。 FinDeepResearchは、4つの言語にまたがる8つの金融市場から64の上場企業からなるベンチマークである。 6つのDRエージェント、深い推論能力と探索能力を備えた5つのLLM、深い推論能力を持つ5つのLLMを含む16の代表的な手法を用いてFinDeepResearchに関する広範な実験を行った。
論文参考訳（メタデータ） (2025-10-15T17:21:56Z)
Enhancing Financial RAG with Agentic AI and Multi-HyDE: A Novel Approach to Knowledge Retrieval and Hallucination Reduction [0.5814806132299305]
我々は、金融レトリヴァル強化世代(RAG)のための枠組みを導入する。 RAGは、大規模で構造化された財務コーパスからの検索の有効性とカバレッジを高めるために、複数の無意味なクエリを生成する。私たちのパイプラインはトークン効率と多段階の財務推論に最適化されています。
論文参考訳（メタデータ） (2025-09-19T19:24:30Z)
FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning [30.252244345152956]
FinSearchCompは、現実的でオープンドメインの財務検索と推論のための、初めての完全なオープンソースベンチマークである。このベンチマークには、世界および大中国市場にわたる635の質問が含まれている。 Grok 4(Web)は、専門家レベルの精度に近づき、グローバルサブセットのトップである。
論文参考訳（メタデータ） (2025-09-16T15:13:13Z)
FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-08-07T22:15:22Z)
Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training [67.895981259683]
汎用AIエージェントは、次世代人工知能の基礎となるフレームワークとして、ますます認識されている。現在のエージェントシステムはクローズドソースか、さまざまな有料APIやプロプライエタリなツールに大きく依存している。我々は,完全オープンソースかつ(最大限に)フリーなマルチモジュールエージェントフレームワークであるCognitive Kernel-Proを提案する。
論文参考訳（メタデータ） (2025-08-01T08:11:31Z)
FinGAIA: A Chinese Benchmark for AI Agents in Real-World Financial Domain [17.682962451679312]
FinGAIAは7つの主要な金融サブドメインにまたがる、細心の注意を払って407のタスクで構成されている。最高成績のエージェントであるChatGPTは48.9%の精度を達成し、非専門職よりも優れているが、財務の専門家を35パーセント以上遅れている。
論文参考訳（メタデータ） (2025-07-23T04:19:16Z)
AI4Research: A Survey of Artificial Intelligence for Scientific Research [55.5452803680643]
我々はAI for Research(AI4Research)に関する総合的な調査を行う。まず、AI4Researchの5つの主要なタスクを分類する系統分類を導入する。主要な研究ギャップを特定し、将来有望な方向性を明らかにする。
論文参考訳（メタデータ） (2025-07-02T17:19:20Z)
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge [34.672897171399775]
エージェント検索システムは、ウェブを自律的に閲覧し、情報を合成し、包括的な引用支援の回答を返す。 Mind2Web 2は、1000時間以上の人的労働力で構築された130の現実的で高品質で長期にわたるタスクのベンチマークである。本手法は,木構造設計に基づくタスク固有の判断エージェントを構築し,回答の正しさとソース属性の両方を自動的に評価する。
論文参考訳（メタデータ） (2025-06-26T17:32:50Z)
From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文参考訳（メタデータ） (2025-06-23T17:27:19Z)
Deep Research Agents: A Systematic Examination And Roadmap [79.04813794804377]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文参考訳（メタデータ） (2025-06-22T16:52:48Z)
DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文参考訳（メタデータ） (2025-06-13T13:17:32Z)
AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。既存のエージェントサーチ手法には3つの大きな制限がある。これらの課題に対処するための包括的なフレームワークを導入します。
論文参考訳（メタデータ） (2025-06-06T12:07:23Z)
FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [63.55583665003167]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。 FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文参考訳（メタデータ） (2025-04-22T11:30:13Z)
FinRobot: AI Agent for Equity Research and Valuation with Large Language Models [6.2474959166074955]
本稿では、エクイティリサーチに特化したAIエージェントフレームワークであるFinRobotについて述べる。 FinRobotはマルチエージェント・チェーン・オブ・シント(CoT)システムを採用し、定量分析と定性的分析を統合し、人間のアナリストの包括的な推論をエミュレートする。 CapitalCubeやWright Reportsのような既存の自動研究ツールとは異なり、FinRobotは大手ブローカー会社や基礎研究ベンダーと同等の洞察を提供する。
論文参考訳（メタデータ） (2024-11-13T17:38:07Z)
Artificial Intelligence in the Service of Entrepreneurial Finance: Knowledge Structure and the Foundational Algorithmic Paradigm [0.8287206589886879]
この研究は、起業家ファイナンス文学における人工知能の応用に関する文献的レビューを提供する。文献分析は、知識分野の概念、知性、社会構造に関する豊富な洞察を与える。
論文参考訳（メタデータ） (2023-11-22T07:58:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。