論文の概要: Multi-scale Temporal Prediction via Incremental Generation and Multi-agent Collaboration
- arxiv url: http://arxiv.org/abs/2509.17429v1
- Date: Mon, 22 Sep 2025 07:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.262723
- Title: Multi-scale Temporal Prediction via Incremental Generation and Multi-agent Collaboration
- Title(参考訳): インクリメンタル・ジェネレーションとマルチエージェント・コラボレーションによるマルチスケール時間予測
- Authors: Zhitao Zeng, Guojian Yuan, Junyuan Mao, Yuxuan Wang, Xiaoshuang Jia, Yueming Jin,
- Abstract要約: 手術シーンにおけるMSTP(Multi-Scale Temporal Prediction)タスクの形式化について検討した。
我々は、複数の状態スケールと時間スケールにまたがる同期アノテーションを特徴とする最初のMSTPベンチマークを紹介する。
まず,時間スケール拡大時に最新のビジュアルプレビューを連続的に合成するプラグイン・アンド・プレイインクリメンタル・ジェネレーション・モジュールを提案する。
次に,多状態予測のための意思決定型マルチエージェント協調フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.581438325440285
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurate temporal prediction is the bridge between comprehensive scene understanding and embodied artificial intelligence. However, predicting multiple fine-grained states of a scene at multiple temporal scales is difficult for vision-language models. We formalize the Multi-Scale Temporal Prediction (MSTP) task in general and surgical scenes by decomposing multi-scale into two orthogonal dimensions: the temporal scale, forecasting states of humans and surgery at varying look-ahead intervals, and the state scale, modeling a hierarchy of states in general and surgical scenes. For example, in general scenes, states of contact relationships are finer-grained than states of spatial relationships. In surgical scenes, medium-level steps are finer-grained than high-level phases yet remain constrained by their encompassing phase. To support this unified task, we introduce the first MSTP Benchmark, featuring synchronized annotations across multiple state scales and temporal scales. We further propose a method, Incremental Generation and Multi-agent Collaboration (IG-MC), which integrates two key innovations. First, we present a plug-and-play incremental generation module that continuously synthesizes up-to-date visual previews at expanding temporal scales to inform multiple decision-making agents, keeping decisions and generated visuals synchronized and preventing performance degradation as look-ahead intervals lengthen. Second, we present a decision-driven multi-agent collaboration framework for multi-state prediction, comprising generation, initiation, and multi-state assessment agents that dynamically trigger and evaluate prediction cycles to balance global coherence and local fidelity.
- Abstract(参考訳): 正確な時間予測は、総合的なシーン理解と具体的人工知能の間の橋渡しである。
しかし、視覚言語モデルでは、複数の時間スケールでシーンの複数のきめ細かい状態を予測することは困難である。
マルチスケール時間予測(MSTP: Multi-scale Temporal Prediction, MTP)タスクを, 時間的スケール, ルックアヘッド間隔の異なる人や手術の状態の予測, および状態スケールの2つの直交次元に分解し, 全身および手術シーンにおける状態の階層をモデル化することによって, 一般および手術シーンにおける多スケール時間予測(MSTP)タスクを定式化する。
例えば、一般的な場面では、接触関係の状態は空間関係の状態よりもきめ細かいものである。
手術シーンでは、中程度のステップは高レベルのフェーズよりもきめ細かいが、包含するフェーズによって制限される。
この統合タスクをサポートするために、複数の状態スケールと時間スケールにまたがる同期アノテーションを備えた最初のMSTPベンチマークを導入する。
さらに,2つの重要なイノベーションを統合する手法であるインクリメンタルジェネレーションとマルチエージェントコラボレーション(IG-MC)を提案する。
まず、複数の意思決定エージェントに通知し、意思決定と生成した視覚を同期させ、ルックアヘッド間隔が長くなるにつれて性能劣化を防止すべく、時間スケールを拡大して最新のビジュアルプレビューを継続的に合成するプラグイン・アンド・プレイインクリメンタル・ジェネレーション・モジュールを提案する。
第2に、グローバルコヒーレンスと局所忠実性のバランスをとるために、予測サイクルを動的にトリガーし評価する、多状態予測の生成、開始、多状態評価エージェントを含む、多状態予測のための意思決定駆動型マルチエージェント協調フレームワークを提案する。
関連論文リスト
- ProgD: Progressive Multi-scale Decoding with Dynamic Graphs for Joint Multi-agent Motion Forecasting [19.47641314660009]
周囲のエージェントの正確な動作予測は、自動運転車の安全な計画に不可欠である。
最近の進歩は、個々のエージェントから相互作用する複数のエージェントのジョイント予測まで、予測技術を拡張している。
本稿では、動的不均一グラフに基づくシナリオモデリングの助けを借りて、ProgDと呼ばれるプログレッシブなマルチスケールデコード戦略を提案する。
論文 参考訳(メタデータ) (2025-09-11T07:36:54Z) - Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - DisMS-TS: Eliminating Redundant Multi-Scale Features for Time Series Classification [14.947369878718822]
時系列分類のための新しいエンドツーエンドのDistangled Multi-Scaleフレームワーク(DisMS-TS)を提案する。
DisMS-TSは、マルチスケール時系列における冗長な共有機能を排除し、予測性能を向上させるように設計されている。
複数のデータセットで実施された実験は、DisMS-TSの競争基準よりも優れており、精度は9.71%まで向上した。
論文 参考訳(メタデータ) (2025-07-07T01:35:55Z) - Tri-modal Confluence with Temporal Dynamics for Scene Graph Generation in Operating Rooms [47.31847567531981]
本稿では、TriTemp-ORと呼ばれる時間動的フレームワークとTri-modal(画像、点雲、言語)の結合を提案する。
我々のモデルは2次元フレームと3次元点雲間の時間的相互作用を行い、スケール適応型多視点時間的相互作用(ViewTemp)と幾何時間的点集合(PointTemp)を含む。
提案したTriTemp-ORは,関係認識統合による三モーダル特徴の集約を可能にし,シーングラフを生成するために関係を予測する。
論文 参考訳(メタデータ) (2024-04-14T12:19:16Z) - Multi-agent Long-term 3D Human Pose Forecasting via Interaction-aware Trajectory Conditioning [41.09061877498741]
本稿では,対話型トラジェクトリ条件付き長期マルチエージェントヒューマンポーズ予測モデルを提案する。
本モデルは,人間の動作の多モード性と長期多エージェント相互作用の複雑さを効果的に扱う。
論文 参考訳(メタデータ) (2024-04-08T06:15:13Z) - Generative Hierarchical Temporal Transformer for Hand Pose and Action Modeling [67.94143911629143]
ハンドポーズとアクションをモデル化するための生成型Transformer VAEアーキテクチャを提案する。
手ポーズとアクションのセマンティックな依存性と時間的粒度を忠実にモデル化するために、我々はこのフレームワークを2つのケース化されたVAEブロックに分解する。
その結果,独立解よりも認識と予測の連成モデリングが向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-29T05:28:39Z) - Continuous-Time and Multi-Level Graph Representation Learning for
Origin-Destination Demand Prediction [52.0977259978343]
本稿では,原位置需要予測(CMOD)のための連続時間および多段階動的グラフ表現学習法を提案する。
状態ベクトルは、過去のトランザクション情報を保持し、最近発生したトランザクションに従って継続的に更新される。
北京地下鉄とニューヨークタクシーの2つの実世界のデータセットを用いて実験を行い、そのモデルが最先端のアプローチに対して優れていることを実証した。
論文 参考訳(メタデータ) (2022-06-30T03:37:50Z) - MUSE-VAE: Multi-Scale VAE for Environment-Aware Long Term Trajectory
Prediction [28.438787700968703]
条件付きMUSEは、現在の最先端技術と比較して、多様かつ同時に正確な予測を提供する。
我々は、新しい合成データセットであるPFSDと同様に、nuScenesとSDDベンチマークに関する包括的な実験を通してこれらのアサーションを実証する。
論文 参考訳(メタデータ) (2022-01-18T18:40:03Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。