論文の概要: STT-Arena: A More Realistic Environment for Tool-Using with Spatio-Temporal Dynamics
- arxiv url: http://arxiv.org/abs/2605.18548v1
- Date: Mon, 18 May 2026 15:27:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.911264
- Title: STT-Arena: A More Realistic Environment for Tool-Using with Spatio-Temporal Dynamics
- Title(参考訳): STT-Arena:時空間ダイナミクスを用いたより現実的なツール利用環境
- Authors: Tingfeng Hui, Hao Xu, Pengyu Zhu, Hongsheng Xin, Kun Zhan, Sen Su, Chunxiao Liu, Ning Miao,
- Abstract要約: 現実世界のエージェントアプリケーションにおける大規模言語モデル(LLM)は、中間破壊が以前の決定を無効にするときに、再設計と適応を行なわなければならない。
STT-Arenaは、9つの時間的対立タイプと4つの可解性レベルにまたがる高品質な対話型タスクのベンチマークである。
- 参考スコア(独自算出の注目度): 22.402787444770908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) deployed in real-world agentic applications must be capable of replanning and adapting when mid-task disruptions invalidate their prior decisions. Existing dynamic benchmarks primarily measure whether LLMs can detect temporal changes in a timely manner, leaving the complementary challenge of adaptive replanning under spatio-temporal dynamics largely unexplored. We introduce STT-Arena (Spatio-Temporal Tool-Use Arena), a benchmark of 227 high-quality interactive tasks spanning nine spatio-temporal conflict types and four solvability levels. Each task is grounded in a realistic, executable environment equipped with injected spatio-temporal triggers that can abruptly invalidate an ongoing plan, forcing the model to detect the state shift and construct a revised execution strategy. Extensive evaluation of frontier LLMs reveals that even the SOTA proprietary models, including Claude-4.6-Opus, achieves less than 40\% overall accuracies, highlighting the fundamental difficulty of spatio-temporal dynamic reasoning. Systematic analysis of failure trajectories uncovers three recurring error modes of existing models: Stale-State Execution, Misdiagnosis of Dynamic Triggers, and Missing Post-Adaptation Verification. Guided by these findings, we propose an iterative trajectory refinement technique that eliminates these failure patterns from training data, and combine it with online RL to produce STT-Agent-4B which outperforms frontier LLMs on STT-Arena.
- Abstract(参考訳): 現実世界のエージェントアプリケーションにデプロイされる大規模言語モデル(LLM)は、中間タスクのディスラプションが以前の決定を無効にするときに、再設計と適応を行なわなければならない。
既存の動的ベンチマークは、LLMが時間的変化をタイムリーに検出できるかどうかを主に測定し、時空間力学に基づく適応的再計画の相補的な課題は、ほとんど探索されていない。
STT-Arena (Spatio-Temporal Tool-Use Arena) は、9つの時空間競合タイプと4つの可解性レベルにまたがる227の高品質な対話タスクのベンチマークである。
それぞれのタスクは、実行中の計画が突然無効になり、モデルに状態シフトを検出し、修正された実行戦略を構築するような、注入された時空間トリガを備えた現実的な実行環境に基礎を置いている。
フロンティアLSMの大規模評価は、Claude-4.6-Opusを含むSOTAのプロプライエタリモデルでさえ、全体の精度が40%未満であることを示し、時空間動的推論の根本的な困難さを浮き彫りにしている。
故障軌跡の系統的解析により、既存のモデルの3つの繰り返しエラーモードが明らかになった: 定常実行、動的トリガーの誤診、適応後検証の欠如。
これらの結果から,これらの故障パターンをトレーニングデータから排除し,オンラインRLと組み合わせてSTT-Agent-4Bを生成し,STT-Arena上でのフロンティアLLMより優れていることを示す。
関連論文リスト
- LaST-R1: Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning [90.86828952599147]
提案するLaST-R1(LaST-R1)は,「最近の推論・行動」政策を活用するために設計された,新しい強化学習フレームワークである。
LaST-R1 は LIBERO ベンチマークで 99.9% の平均成功率を達成した。
実世界の展開では、LaST-R1はSOTAが監督する微調整アプローチよりも22.5%平均的に改善されている。
論文 参考訳(メタデータ) (2026-04-30T17:59:52Z) - Temporally Decoupled Diffusion Planning for Autonomous Driving [6.701508758642954]
動的都市環境における運動計画には、短期的目標と即時安全のバランスが必要である。
本稿では、ノイズ・アズ・マスクのパラダイムを用いて軌道生成を再構成する時間分解拡散モデル(TDDM)を提案する。
トラジェクトリを独立したノイズレベルを持つセグメントに分割することにより、高雑音を情報空白として、弱い雑音を文脈的手がかりとして暗黙的に扱う。
これにより、より保存状態の良い時間的文脈と内部相関を利用して、破損した短期状態にモデルを補うことができる。
論文 参考訳(メタデータ) (2026-03-26T14:04:15Z) - Agentic Spatio-Temporal Grounding via Collaborative Reasoning [80.83158605034465]
時間的ビデオグラウンド(Temporal Video Grounding)は、テキストクエリが与えられたビデオ内の対象物または人の時間的チューブを検索することを目的としている。
本稿では,STVGの課題に対して,オープンワールドおよびトレーニングフリーシナリオに向けたエージェント時空間グラウンド(ASTG)フレームワークを提案する。
具体的には、現代多言語モデル(MLLM)を活用した2つの特殊エージェントSRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)である。
人気のあるベンチマークの実験は、既存の弱教師付きおよびゼロショットアプローチをマージンで上回る提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2026-02-10T10:16:27Z) - ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation [72.78362530982109]
ARTIS(Agenic Risk-Aware Test-Time Scaling via Iterative Simulation)は、コミットメントから探索を分離するフレームワークである。
LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮していることを示す。
本稿では,障害発生行動の忠実度を強調するリスク認識ツールシミュレータを提案する。
論文 参考訳(メタデータ) (2026-02-02T06:33:22Z) - Modeling Uncertainty Trends for Timely Retrieval in Dynamic RAG [35.96258615258145]
本稿では,トークンレベルの不確実性のダイナミクスをモデル化し,最適検索タイミングを決定するトレーニングフリーな手法であるEntropy-Trend Constraint(ETC)を紹介する。
ETCは、検索周波数を減少させながら、強いベースラインを一貫して上回る。
プラグアンドプレイで、モデルに依存しず、既存のデコードパイプラインに簡単に統合できる。
論文 参考訳(メタデータ) (2025-11-13T05:28:02Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。
本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。
これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文 参考訳(メタデータ) (2024-07-11T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。