論文の概要: MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification
- arxiv url: http://arxiv.org/abs/2603.15726v1
- Date: Mon, 16 Mar 2026 17:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.914319
- Title: MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification
- Title(参考訳): MiroThinker-1.7 & H1:検証による重量化研究エージェントを目指して
- Authors: MiroMind Team, S. Bai, L. Bing, L. Lei, R. Li, X. Li, X. Lin, E. Min, L. Su, B. Wang, L. Wang, L. Wang, S. Wang, X. Wang, Y. Zhang, Z. Zhang, G. Chen, L. Chen, Z. Cheng, Y. Deng, Z. Huang, D. Ng, J. Ni, Q. Ren, X. Tang, B. L. Wang, H. Wang, N. Wang, C. Wei, Q. Wu, J. Xia, Y. Xiao, H. Xu, X. Xu, C. Xue, Z. Yang, Z. Yang, F. Ye, H. Ye, J. Yu, C. Zhang, W. Zhang, H. Zhao, P. Zhu,
- Abstract要約: MiroThinker-1.7は複雑な長距離推論タスクのために設計された新しい研究エージェントである。
MiroThinker-H1はエージェントを拡張し、より信頼性の高いマルチステップ問題解決を行う。
- 参考スコア(独自算出の注目度): 1.4350730224868655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MiroThinker-1.7, a new research agent designed for complex long-horizon reasoning tasks. Building on this foundation, we further introduce MiroThinker-H1, which extends the agent with heavy-duty reasoning capabilities for more reliable multi-step problem solving. In particular, MiroThinker-1.7 improves the reliability of each interaction step through an agentic mid-training stage that emphasizes structured planning, contextual reasoning, and tool interaction. This enables more effective multi-step interaction and sustained reasoning across complex tasks. MiroThinker-H1 further incorporates verification directly into the reasoning process at both local and global levels. Intermediate reasoning decisions can be evaluated and refined during inference, while the overall reasoning trajectory is audited to ensure that final answers are supported by coherent chains of evidence. Across benchmarks covering open-web research, scientific reasoning, and financial analysis, MiroThinker-H1 achieves state-of-the-art performance on deep research tasks while maintaining strong results on specialized domains. We also release MiroThinker-1.7 and MiroThinker-1.7-mini as open-source models, providing competitive research-agent capabilities with significantly improved efficiency.
- Abstract(参考訳): 我々は、複雑な長距離推論タスクのために設計された新しい研究エージェントMiroThinker-1.7を紹介する。
この基礎の上に構築されたMiroThinker-H1は、より信頼性の高いマルチステップ問題解決のための重度推論機能を備えたエージェントを拡張したものである。
特に、MiroThinker-1.7は、構造化計画、文脈推論、ツールインタラクションを強調するエージェント訓練段階を通じて、各インタラクションステップの信頼性を向上させる。
これにより、複雑なタスクをまたいだより効果的なマルチステップのインタラクションと持続的な推論が可能になる。
MiroThinker-H1は、ローカルレベルとグローバルレベルの推論プロセスに直接検証を組み込む。
中間的推論決定は推論中に評価および洗練され、全体的推論軌道が監査され、最終的な答えが一貫性のある証拠連鎖によって支えられることが保証される。
MiroThinker-H1は、オープンウェブの研究、科学的推論、財務分析に関するベンチマークを網羅し、専門分野における強力な結果を保ちながら、ディープリサーチタスクにおける最先端のパフォーマンスを達成している。
また、オープンソースモデルとしてMiroThinker-1.7とMiroThinker-1.7-miniをリリースし、効率を大幅に改善した競合研究エージェント機能を提供する。
関連論文リスト
- Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization [64.61432234404276]
emphSearch More, Think Less (SMTL) は、効率性と一般化の両方をターゲットとした長期エージェント検索のためのフレームワークである。
我々は、教師付き微調整と強化学習を用いてエンドツーエンドエージェントを訓練し、ベンチマーク全体にわたって、強固で頻繁なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-26T06:46:41Z) - SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents [58.174206358223415]
自己進化型エボダイドエージェント(SeEA-R1)は、自己進化型エボダイドエージェント用に設計された最初の強化微細調整フレームワークである。
本研究は,SEEA-R1が自律適応と報酬駆動型自己進化をサポートすることを示す。
論文 参考訳(メタデータ) (2025-06-26T18:00:07Z) - MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research [70.72318131988102]
MLR-Benchは、オープンエンド機械学習研究においてAIエージェントを評価するための包括的なベンチマークである。
MLR-Benchは,(1)NeurIPS, ICLR, ICMLのさまざまなMLトピックを対象としたワークショップから得られた201のリサーチタスク,(2)LLMベースのレビュアーと慎重に設計されたレビュールーリックを組み合わせた自動評価フレームワーク,(3)MLR-Agent,研究タスクを4段階(アイデア生成,提案定式化,実験,論文執筆)で完了するモジュールエージェントの足場である。
論文 参考訳(メタデータ) (2025-05-26T13:18:37Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Enhancing LLM Reasoning with Multi-Path Collaborative Reactive and Reflection agents [26.645038049346255]
マルチパス推論(Multi-Path Reasoning:RR-MP)フレームワークを用いたリアクティブおよびリフレクションエージェントを提案する。
提案手法は,マルチパス推論機構を用いて科学的推論精度を向上させる。
道徳的シナリオ,大学レベルの物理,数学に関わる課題について,ゼロショットと少数ショットの評価を行った。
論文 参考訳(メタデータ) (2024-12-31T13:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。