論文の概要: Anagent For Enhancing Scientific Table & Figure Analysis
- arxiv url: http://arxiv.org/abs/2602.10081v1
- Date: Tue, 10 Feb 2026 18:46:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.75079
- Title: Anagent For Enhancing Scientific Table & Figure Analysis
- Title(参考訳): 科学表と図形分析の強化のためのアナジェント
- Authors: Xuehang Guo, Zhiyong Lu, Tom Hope, Qingyun Wang,
- Abstract要約: アナジェント(Anagent)は、4つの特殊エージェントを通して科学的テーブルとフィギュア解析を強化するためのフレームワークである。
Anagentはトレーニングフリー設定で最大で$uparrow 13.43%の大幅な改善を実現している。
タスク指向推論と文脈認識問題解決は,高品質な科学表と図形解析に不可欠であることを示す。
- 参考スコア(独自算出の注目度): 13.604302149501557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In scientific research, analysis requires accurately interpreting complex multimodal knowledge, integrating evidence from different sources, and drawing inferences grounded in domain-specific knowledge. However, current artificial intelligence (AI) systems struggle to consistently demonstrate such capabilities. The complexity and variability of scientific tables and figures, combined with heterogeneous structures and long-context requirements, pose fundamental obstacles to scientific table \& figure analysis. To quantify these challenges, we introduce AnaBench, a large-scale benchmark featuring $63,178$ instances from nine scientific domains, systematically categorized along seven complexity dimensions. To tackle these challenges, we propose Anagent, a multi-agent framework for enhanced scientific table \& figure analysis through four specialized agents: Planner decomposes tasks into actionable subtasks, Expert retrieves task-specific information through targeted tool execution, Solver synthesizes information to generate coherent analysis, and Critic performs iterative refinement through five-dimensional quality assessment. We further develop modular training strategies that leverage supervised finetuning and specialized reinforcement learning to optimize individual capabilities while maintaining effective collaboration. Comprehensive evaluation across 170 subdomains demonstrates that Anagent achieves substantial improvements, up to $\uparrow 13.43\%$ in training-free settings and $\uparrow 42.12\%$ with finetuning, while revealing that task-oriented reasoning and context-aware problem-solving are essential for high-quality scientific table \& figure analysis. Our project page: https://xhguo7.github.io/Anagent/.
- Abstract(参考訳): 科学的研究において、分析は複雑なマルチモーダル知識の正確な解釈、異なる情報源からの証拠の統合、ドメイン固有の知識に基づく推論の描画を必要とする。
しかし、現在の人工知能(AI)システムは、そのような能力を一貫して示すのに苦労している。
科学的テーブルとフィギュアの複雑さと変動性は、異質な構造や長いコンテキストの要求と相まって、科学的なテーブル \&フィギュア解析に根本的な障害を生じさせる。
これらの課題を定量化するために、AnaBenchを紹介した。AnaBenchは、9つの科学領域から63,178ドルのインスタンスを特徴付ける大規模なベンチマークで、7つの複雑性次元に沿って体系的に分類する。
これらの課題に対処するために、Anagentは4つの特殊エージェントによる科学テーブルの強化のためのマルチエージェントフレームワークである:プランナーはタスクを実行可能なサブタスクに分解し、エキスパートはターゲットツールの実行を通じてタスク固有の情報を検索し、Solverは情報を合成してコヒーレントな分析を生成し、Criticは5次元品質評価を通じて反復的改善を行う。
さらに、教師付き微調整と特殊強化学習を活用して、効果的なコラボレーションを維持しつつ、個々の能力を最適化するモジュラートレーニング戦略を開発します。
170のサブドメインにわたる総合的な評価では、Anagentはトレーニング不要な設定で$\uparrow 13.43\%$、微調整で$\uparrow 42.12\%$まで大幅に改善されている。
私たちのプロジェクトページは、https://xhguo7.github.io/Anagent/です。
関連論文リスト
- A Cloud-based Multi-Agentic Workflow for Science [0.12314765641075438]
大型言語モデル(LLM)は、様々な科学領域にまたがって広く普及している。
シミュレーションの実行や複雑な決定といった複雑なタスクを実行する能力の欠如は、彼らのユーティリティを制限します。
我々は、完全にクラウド上で実行されている間、科学的アシスタントとして機能するエージェントフレームワークに対して、ドメインに依存しない、モデルに依存しないワークフローを提示します。
論文 参考訳(メタデータ) (2026-01-18T22:37:09Z) - Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey [59.3507264893654]
課題解決は、現実世界の開発に不可欠な複雑なソフトウェアエンジニアリングタスクです。
SWE-benchのようなベンチマークでは、このタスクは大規模言語モデルでは極めて困難であることが判明した。
本稿では,この新興領域を体系的に調査する。
論文 参考訳(メタデータ) (2026-01-15T18:55:03Z) - SIGMA: Search-Augmented On-Demand Knowledge Integration for Agentic Mathematical Reasoning [0.054619385369457214]
SIGMA(Search-Augmented On-Demand Knowledge Integration for AGentic Mathematical reAsoning)は、特殊エージェントを編成する統合フレームワークである。
各エージェントは仮説パスを生成し、分析的な視点で検索を最適化し、知識統合が文脈に敏感で計算効率が良いことを保証する。
その結果,多エージェントのオンデマンド知識統合は推論精度と効率性の両方を著しく向上させ,複雑で知識集約的な問題解決にスケーラブルなアプローチを提供することを示した。
論文 参考訳(メタデータ) (2025-10-31T15:51:00Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - EpidemIQs: Prompt-to-Paper LLM Agents for Epidemic Modeling and Analysis [0.0]
大規模言語モデル(LLM)は、複雑な学際研究を自動化する新しい機会を提供する。
EpidemIQsは、ユーザ入力を統合し、文献のレビュー、分析的導出、ネットワークモデリング、シミュレーションの呼び出し、データの可視化と分析、そして最後に構造化された原稿での発見の文書化を行う、新しいマルチエージェントLCMフレームワークである。
我々は、計算コスト、完成率、AIおよび生成されたレポートの人間専門家レビューを測定する様々なシナリオにおいて、エピデムIQを評価した。
論文 参考訳(メタデータ) (2025-09-24T18:54:56Z) - Deep Research Agents: A Systematic Examination And Roadmap [109.53237992384872]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - A Taxonomy and Archetypes of Business Analytics in Smart Manufacturing [0.0]
ビジネス分析はスマートマニュファクチャリングの重要な要因だ。
しかし、研究者や実践者は、進歩の追跡と分野における新たな知識獲得に苦慮している。
我々は、スマートマニュファクチャリングにおけるビジネス分析の古型を導出するだけでなく、四部分類を開発する。
論文 参考訳(メタデータ) (2021-10-12T16:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。