論文の概要: AMAP Agentic Planning Technical Report
- arxiv url: http://arxiv.org/abs/2512.24957v1
- Date: Wed, 31 Dec 2025 16:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.711759
- Title: AMAP Agentic Planning Technical Report
- Title(参考訳): AMAPエージェント計画技術報告
- Authors: Yulan Hu, Xiangwen Zhang, Sheng Ouyang, Hao Yi, Lu Xu, Qinglin Lang, Lide Tan, Xiang Cheng, Tianchen Ye, Zhicong Li, Ge Chen, Wenjin Yang, Zheng Pan, Shaopan Xiong, Siran Yang, Ju Huang, Yan Zhang, Jiamang Wang, Yong Liu, Yinfeng Huang, Tucheng Lin, Xin Li, Ning Guo,
- Abstract要約: 本稿では,制約付き関心点発見や反復計画などの複雑なタスクに適したエージェント型大規模言語モデルであるSTAgentを提案する。
STAgentは、複雑なシナリオ内で10の異なるツールと対話できる特殊なモデルであり、複雑な推論を探索することができる。
- 参考スコア(独自算出の注目度): 26.126607457262192
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present STAgent, an agentic large language model tailored for spatio-temporal understanding, designed to solve complex tasks such as constrained point-of-interest discovery and itinerary planning. STAgent is a specialized model capable of interacting with ten distinct tools within spatio-temporal scenarios, enabling it to explore, verify, and refine intermediate steps during complex reasoning. Notably, STAgent effectively preserves its general capabilities. We empower STAgent with these capabilities through three key contributions: (1) a stable tool environment that supports over ten domain-specific tools, enabling asynchronous rollout and training; (2) a hierarchical data curation framework that identifies high-quality data like a needle in a haystack, curating high-quality queries with a filter ratio of 1:10,000, emphasizing both diversity and difficulty; and (3) a cascaded training recipe that starts with a seed SFT stage acting as a guardian to measure query difficulty, followed by a second SFT stage fine-tuned on queries with high certainty, and an ultimate RL stage that leverages data of low certainty. Initialized with Qwen3-30B-A3B to establish a strong SFT foundation and leverage insights into sample difficulty, STAgent yields promising performance on TravelBench while maintaining its general capabilities across a wide range of general benchmarks, thereby demonstrating the effectiveness of our proposed agentic model.
- Abstract(参考訳): 本稿では,時空間理解に適したエージェント型大規模言語モデルであるSTAgentについて述べる。
STAgentは、時空間シナリオ内で10の異なるツールと対話できる特殊なモデルであり、複雑な推論の間、中間ステップを探索、検証、精査することができる。
特に、STAgentは、その一般的な能力を効果的に保存する。
1) ドメイン固有の10以上のツールをサポートし,非同期ロールアウトとトレーニングを可能にする安定したツール環境,(2) 干し草の針のような高品質なデータを識別する階層的なデータキュレーションフレームワーク,(1) フィルタ比1:10,000で高品質なクエリをキュレートし,多様性と難易度を強調した,(3) クエリの難易度を測定するために,シードSFTステージから始まるカスケードトレーニングレシピ,次いで,クエリの難易度を測定するための第2のSFTステージ,そして,低確実性のデータを活用する究極のRLステージである。
Qwen3-30B-A3Bで初期化され、強力なSFT基盤を確立し、サンプルの難易度に関する洞察を活用するため、STAgentはTravelBench上で有望な性能を示しながら、幅広い一般的なベンチマークでその一般的な性能を維持しながら、提案したエージェントモデルの有効性を実証する。
関連論文リスト
- Agentic Spatio-Temporal Grounding via Collaborative Reasoning [80.83158605034465]
時間的ビデオグラウンド(Temporal Video Grounding)は、テキストクエリが与えられたビデオ内の対象物または人の時間的チューブを検索することを目的としている。
本稿では,STVGの課題に対して,オープンワールドおよびトレーニングフリーシナリオに向けたエージェント時空間グラウンド(ASTG)フレームワークを提案する。
具体的には、現代多言語モデル(MLLM)を活用した2つの特殊エージェントSRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)である。
人気のあるベンチマークの実験は、既存の弱教師付きおよびゼロショットアプローチをマージンで上回る提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2026-02-10T10:16:27Z) - daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently [35.39097522391409]
大規模言語モデル(LLM)は短期的なタスクで優れており、それらを長期のエージェント合成に拡張することは依然として困難である。
本稿では,PRチェーンから構造化監視を体系的にマイニングするdaVinci-Agencyを提案する。
DaVinci-AgencyのPR基底構造は、本質的には、永続的なゴールサイクルの振る舞いを教えるのに不可欠な因果依存性と反復的な洗練を保っている。
論文 参考訳(メタデータ) (2026-02-02T13:23:39Z) - Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.73992315826035]
ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。
Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
論文 参考訳(メタデータ) (2025-12-31T04:25:11Z) - TableGPT-R1: Advancing Tabular Reasoning Through Reinforcement Learning [28.052232941379884]
TableGPT-R1は、システマティック強化学習フレームワーク上に構築された特殊なモデルである。
本手法は, 教師付きアライメントとRLロールアウトの両方に対して, 難成層化エージェント軌道を合成する。
信頼性ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-23T12:30:37Z) - Workflow is All You Need: Escaping the "Statistical Smoothing Trap" via High-Entropy Information Foraging and Adversarial Pacing [0.284279467589473]
DeepNews Frameworkは、経験豊富な金融ジャーナリストの暗黙の認知プロセスを明示的にモデル化するエージェントワークフローである。
中国の大手テクノロジーメディアが実施した生態学的検証で、DeepNewsシステムは前世代のモデルをベースに構築され、25%の受理率を達成した。
論文 参考訳(メタデータ) (2025-12-10T22:13:55Z) - PRInTS: Reward Modeling for Long-Horizon Information Seeking [74.14496236655911]
PRInTS(PRInTS)は、二重機能で訓練された生成型PRMである。
PRInTSは,オープンソースモデルと特殊エージェントの情報検索能力を向上させる。
論文 参考訳(メタデータ) (2025-11-24T17:09:43Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - Mining the Long Tail: A Comparative Study of Data-Centric Criticality Metrics for Robust Offline Reinforcement Learning in Autonomous Motion Planning [0.0]
我々は、情報豊富なサンプルに学習過程を集中させるためのデータキュレーション戦略について研究する。
我々は、7つの目標条件付き保守的Qラーニング(CQL)エージェントを最先端の注目アーキテクチャで訓練する。
モデル不確実性を信号として用いたデータ駆動型キュレーションは、最も重要な安全性向上を実現する。
論文 参考訳(メタデータ) (2025-08-25T18:37:29Z) - SoftPipe: A Soft-Guided Reinforcement Learning Framework for Automated Data Preparation [10.764970149373845]
我々は,厳格な制約をソフトガイダンスのパラダイムに置き換える,新しいRLフレームワークであるSoftPipeを紹介した。
我々は、SoftPipeがパイプラインの品質を最大13.9%改善し、2.8$times$既存の方法よりも高速な収束を実現することを実証した。
論文 参考訳(メタデータ) (2025-07-18T07:43:22Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。