論文の概要: Action Agent: Agentic Video Generation Meets Flow-Constrained Diffusion
- arxiv url: http://arxiv.org/abs/2605.01477v1
- Date: Sat, 02 May 2026 14:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.792484
- Title: Action Agent: Agentic Video Generation Meets Flow-Constrained Diffusion
- Title(参考訳): アクションエージェント:フロー制約拡散を伴うエージェントビデオ生成
- Authors: Jeffrin Sam, Nguyen Khang, Yara Mahmoud, Miguel Altamirano Cabrera, Dzmitry Tsetserukou,
- Abstract要約: Action Agentは、ロボットナビゲーションのためのフロー制約付き拡散制御を備えたエージェントナビゲーションビデオ生成を統一するフレームワークである。
ステージIでは、大規模な言語モデル(LLM)が、ビデオ拡散モデルを選択し、反復的検証を通じてプロンプトを洗練し、クロスタスクメモリを蓄積するオーケストレーションモジュールとして機能する。
ステージIIでは、最適化されたゴールビデオと言語命令を連続的な速度コマンドに変換するFlow-Constrained Diffusion TransformerであるFlowDiTを導入する。
- 参考スコア(独自算出の注目度): 2.2935396753701065
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Action Agent, a two-stage framework that unifies agentic navigation video generation with flow-constrained diffusion control for multi-embodiment robot navigation. In Stage I, a large language model (LLM) acts as an orchestration module that selects video diffusion models, refines prompts through iterative validation, and accumulates cross-task memory to synthesize physically plausible first-person navigation videos from language and image inputs. This increases video generation success from 35% (single-shot) to 86% across 50 navigation tasks. In Stage II, we introduce FlowDiT, a Flow-Constrained Diffusion Transformer that converts optimized goal videos and language instructions into continuous velocity commands using action-space denoising diffusion. FlowDiT integrates DINOv2 visual features, learned optical flow for ego-motion representation, and CLIP language embeddings for semantic stopping. We pretrain on the RECON outdoor navigation dataset and fine-tune on 203 Unitree G1 humanoid episodes collected in Isaac Sim to calibrate velocity dynamics. A single 43M-parameter checkpoint achieves 73.2% navigation success in simulation and 64.7% task completion on a real Unitree G1 in unseen indoor environments under open-loop execution, while operating at 40--47 Hz. We evaluate Action Agent across three embodiments: a Unitree G1 humanoid (real hardware), a drone, and a wheeled mobile robot (Isaac Sim), demonstrating that decoupling trajectory imagination from execution yields a scalable and embodiment-aware paradigm for language-guided navigation.
- Abstract(参考訳): 我々は,多身体ロボットナビゲーションのためのフロー制約拡散制御を備えたエージェントナビゲーションビデオ生成を統合化するための2段階のフレームワークであるAction Agentを提案する。
ステージIでは、大きな言語モデル(LLM)がオーケストレーションモジュールとして機能し、ビデオ拡散モデルを選択し、反復的検証を通じてプロンプトを洗練し、クロスタスクメモリを蓄積し、言語や画像入力から物理的に検証可能なファーストパーソンナビゲーションビデオを合成する。
これにより、50のナビゲーションタスクでビデオ生成の成功率が35%(単発)から86%に向上する。
ステージIIでは、フロー制約付き拡散変換器であるFlowDiTを導入し、最適化されたゴールビデオと言語命令を、アクション空間デノゲーション拡散を用いた連続速度コマンドに変換する。
FlowDiTはDINOv2視覚機能、エゴモーション表現のための学習された光学フロー、セマンティック停止のためのCLIP言語埋め込みを統合している。
我々は、アイザック・シムで収集された203ユニツリーG1ヒューマノイドエピソードのRECON屋外ナビゲーションデータセットと微調整に基づいて、速度力学の校正を行う。
43Mパラメータの1つのチェックポイントは、シミュレーションで73.2%のナビゲーション成功と64.7%のタスク完了を達成した。
我々は、Unitree G1ヒューマノイド(実際のハードウェア)、ドローン、車輪付き移動ロボット(イザック・シム)の3つの実施形態のアクションエージェントを評価する。
関連論文リスト
- GenieDrive: Towards Physics-Aware Driving World Model with 4D Occupancy Guided Video Generation [80.1493315900789]
我々は物理対応駆動ビデオ生成のためのフレームワークGenieDriveを提案する。
われわれのアプローチは、4Dの占有率の生成から始まり、これはその後のビデオ生成の物理インフォームド基盤として機能する。
実験により、GenieDriveは高度に制御可能で、複数ビューの一貫性があり、物理対応の駆動ビデオ生成を可能にする。
論文 参考訳(メタデータ) (2025-12-14T16:23:51Z) - VHOI: Controllable Video Generation of Human-Object Interactions from Sparse Trajectories via Motion Densification [65.15340059997273]
VHOIは、ビデオにおける現実的な人間とオブジェクトの相互作用を作成するためのフレームワークである。
そこで本研究では,人体と物体の運動だけでなく,身体部分特異的な動特性も識別するために,色エンコーディングを用いた新しいHOI対応動作表現を提案する。
実験は、制御可能なHOIビデオ生成における最先端の結果を示す。
論文 参考訳(メタデータ) (2025-12-10T13:40:24Z) - Dynamic Multi-Target Fusion for Efficient Audio-Visual Navigation [3.3359927518257866]
効率的な音声視覚ナビゲーションのための動的マルチターゲットフュージョン(DMTF-AVN)を提案する。
提案手法では,マルチターゲットアーキテクチャと改良されたTransformer機構を組み合わせることで,クロスモーダル情報をフィルタし,選択的にフューズする。
ReplicaとMatterport3Dデータセットの実験により、DMTF-AVNは、成功率(SR)、パス効率(SPL)、シーン適応(SNA)において、既存の手法よりも優れた、最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-09-23T09:31:00Z) - Diffusion Model-based Activity Completion for AI Motion Capture from Videos [2.9271399793140076]
現在のAIモーションキャプチャ法は、従来のモーションキャプチャと同様、観察されたビデオシーケンスに完全に依存している。
本稿では,人間の動作系列を相補的に生成する拡散モデルに基づく動作完了手法を提案する。
ゲートモジュールと位置時間埋め込みモジュールを導入することで,Human3.6Mデータセット上での競合的な結果が得られる。
論文 参考訳(メタデータ) (2025-05-27T05:04:50Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - Visual CPG-RL: Learning Central Pattern Generators for Visually-Guided
Quadruped Locomotion [4.557963624437784]
視覚的に誘導された四足歩行を学習するための枠組みを提案する。
奥深い強化学習フレームワークに、外感知覚と中央パターン生成装置を統合する。
以上の結果から, CPG, 明示的インターオシレータ結合, メモリ対応ポリシ表現はエネルギー効率に有益であることが示唆された。
論文 参考訳(メタデータ) (2022-12-29T18:14:38Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。