論文の概要: AMAP Agentic Planning Technical Report
- arxiv url: http://arxiv.org/abs/2512.24957v1
- Date: Wed, 31 Dec 2025 16:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.711759
- Title: AMAP Agentic Planning Technical Report
- Title(参考訳): AMAPエージェント計画技術報告
- Authors: Yulan Hu, Xiangwen Zhang, Sheng Ouyang, Hao Yi, Lu Xu, Qinglin Lang, Lide Tan, Xiang Cheng, Tianchen Ye, Zhicong Li, Ge Chen, Wenjin Yang, Zheng Pan, Shaopan Xiong, Siran Yang, Ju Huang, Yan Zhang, Jiamang Wang, Yong Liu, Yinfeng Huang, Tucheng Lin, Xin Li, Ning Guo,
- Abstract要約: 本稿では,制約付き関心点発見や反復計画などの複雑なタスクに適したエージェント型大規模言語モデルであるSTAgentを提案する。
STAgentは、複雑なシナリオ内で10の異なるツールと対話できる特殊なモデルであり、複雑な推論を探索することができる。
- 参考スコア(独自算出の注目度): 26.126607457262192
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present STAgent, an agentic large language model tailored for spatio-temporal understanding, designed to solve complex tasks such as constrained point-of-interest discovery and itinerary planning. STAgent is a specialized model capable of interacting with ten distinct tools within spatio-temporal scenarios, enabling it to explore, verify, and refine intermediate steps during complex reasoning. Notably, STAgent effectively preserves its general capabilities. We empower STAgent with these capabilities through three key contributions: (1) a stable tool environment that supports over ten domain-specific tools, enabling asynchronous rollout and training; (2) a hierarchical data curation framework that identifies high-quality data like a needle in a haystack, curating high-quality queries with a filter ratio of 1:10,000, emphasizing both diversity and difficulty; and (3) a cascaded training recipe that starts with a seed SFT stage acting as a guardian to measure query difficulty, followed by a second SFT stage fine-tuned on queries with high certainty, and an ultimate RL stage that leverages data of low certainty. Initialized with Qwen3-30B-A3B to establish a strong SFT foundation and leverage insights into sample difficulty, STAgent yields promising performance on TravelBench while maintaining its general capabilities across a wide range of general benchmarks, thereby demonstrating the effectiveness of our proposed agentic model.
- Abstract(参考訳): 本稿では,時空間理解に適したエージェント型大規模言語モデルであるSTAgentについて述べる。
STAgentは、時空間シナリオ内で10の異なるツールと対話できる特殊なモデルであり、複雑な推論の間、中間ステップを探索、検証、精査することができる。
特に、STAgentは、その一般的な能力を効果的に保存する。
1) ドメイン固有の10以上のツールをサポートし,非同期ロールアウトとトレーニングを可能にする安定したツール環境,(2) 干し草の針のような高品質なデータを識別する階層的なデータキュレーションフレームワーク,(1) フィルタ比1:10,000で高品質なクエリをキュレートし,多様性と難易度を強調した,(3) クエリの難易度を測定するために,シードSFTステージから始まるカスケードトレーニングレシピ,次いで,クエリの難易度を測定するための第2のSFTステージ,そして,低確実性のデータを活用する究極のRLステージである。
Qwen3-30B-A3Bで初期化され、強力なSFT基盤を確立し、サンプルの難易度に関する洞察を活用するため、STAgentはTravelBench上で有望な性能を示しながら、幅広い一般的なベンチマークでその一般的な性能を維持しながら、提案したエージェントモデルの有効性を実証する。
関連論文リスト
- Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.73992315826035]
ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。
Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
論文 参考訳(メタデータ) (2025-12-31T04:25:11Z) - TableGPT-R1: Advancing Tabular Reasoning Through Reinforcement Learning [28.052232941379884]
TableGPT-R1は、システマティック強化学習フレームワーク上に構築された特殊なモデルである。
本手法は, 教師付きアライメントとRLロールアウトの両方に対して, 難成層化エージェント軌道を合成する。
信頼性ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-23T12:30:37Z) - Workflow is All You Need: Escaping the "Statistical Smoothing Trap" via High-Entropy Information Foraging and Adversarial Pacing [0.284279467589473]
DeepNews Frameworkは、経験豊富な金融ジャーナリストの暗黙の認知プロセスを明示的にモデル化するエージェントワークフローである。
中国の大手テクノロジーメディアが実施した生態学的検証で、DeepNewsシステムは前世代のモデルをベースに構築され、25%の受理率を達成した。
論文 参考訳(メタデータ) (2025-12-10T22:13:55Z) - PRInTS: Reward Modeling for Long-Horizon Information Seeking [74.14496236655911]
PRInTS(PRInTS)は、二重機能で訓練された生成型PRMである。
PRInTSは,オープンソースモデルと特殊エージェントの情報検索能力を向上させる。
論文 参考訳(メタデータ) (2025-11-24T17:09:43Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - Mining the Long Tail: A Comparative Study of Data-Centric Criticality Metrics for Robust Offline Reinforcement Learning in Autonomous Motion Planning [0.0]
我々は、情報豊富なサンプルに学習過程を集中させるためのデータキュレーション戦略について研究する。
我々は、7つの目標条件付き保守的Qラーニング(CQL)エージェントを最先端の注目アーキテクチャで訓練する。
モデル不確実性を信号として用いたデータ駆動型キュレーションは、最も重要な安全性向上を実現する。
論文 参考訳(メタデータ) (2025-08-25T18:37:29Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。