Fugu-MT 論文翻訳(概要): ARDuP: Active Region Video Diffusion for Universal Policies

論文の概要: ARDuP: Active Region Video Diffusion for Universal Policies

arxiv url: http://arxiv.org/abs/2406.13301v1
Date: Wed, 19 Jun 2024 07:42:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 22:40:02.399565
Title: ARDuP: Active Region Video Diffusion for Universal Policies
Title（参考訳）: ARDuP:Universal Policiesのアクティブリージョンビデオ拡散
Authors: Shuaiyi Huang, Mara Levy, Zhenyu Jiang, Anima Anandkumar, Yuke Zhu, Linxi Fan, De-An Huang, Abhinav Shrivastava,
Abstract要約: 我々は,ビデオベースのポリシー学習のための新しいフレームワークである,ユニバーサルポリシーのためのActive Region Video Diffusion(ARDuP)を紹介する。 ARDuPは、活動領域、すなわち潜在的な相互作用領域の生成を強調し、条件付きポリシーの対話領域へのフォーカスを高めている。シミュレータCLIPortと実世界のデータセットBridgeData v2の広範な実験を通じてARDuPの有効性を検証する。
参考スコア（独自算出の注目度）: 114.41748225816555
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sequential decision-making can be formulated as a text-conditioned video generation problem, where a video planner, guided by a text-defined goal, generates future frames visualizing planned actions, from which control actions are subsequently derived. In this work, we introduce Active Region Video Diffusion for Universal Policies (ARDuP), a novel framework for video-based policy learning that emphasizes the generation of active regions, i.e. potential interaction areas, enhancing the conditional policy's focus on interactive areas critical for task execution. This innovative framework integrates active region conditioning with latent diffusion models for video planning and employs latent representations for direct action decoding during inverse dynamic modeling. By utilizing motion cues in videos for automatic active region discovery, our method eliminates the need for manual annotations of active regions. We validate ARDuP's efficacy via extensive experiments on simulator CLIPort and the real-world dataset BridgeData v2, achieving notable improvements in success rates and generating convincingly realistic video plans.
Abstract（参考訳）: 逐次決定は、テキスト条件付きビデオ生成問題として定式化することができ、そこでは、テキスト定義目標によって導かれるビデオプランナーが将来のフレームを生成して、次に制御アクションを導出する。本研究では,タスク実行に不可欠なインタラクティブな領域に対する条件付きポリシの焦点を拡大し,潜在的相互作用領域の生成を強調する,ビデオベースのポリシー学習のための新しいフレームワークであるActive Region Video Diffusion for Universal Policies(ARDuP)を紹介する。このイノベーティブなフレームワークは、ビデオ計画のための潜時拡散モデルとアクティブな領域条件付けを統合し、逆動的モデリング中の直接動作復号に潜時表現を用いる。本手法は,ビデオ中の動作手がかりを有効領域の自動発見に活用することにより,アクティブ領域の手動アノテーションの必要性を解消する。シミュレータCLIPortと実世界のデータセットBridgeData v2の広範な実験を通じてARDuPの有効性を検証する。

関連論文リスト

Grounding Generated Videos in Feasible Plans via World Models [52.63206803295352]
Grounding Video Plans with World Models (GVP-WM) は、ビデオ生成したプランを実行可能なアクションシーケンスに変換するための計画手法である。 GVP-WMはまず、最初の観測とゴール観測からビデオプランを生成し、次に動的に実現可能な潜在軌道の多様体にビデオガイダンスを投影する。
論文参考訳（メタデータ） (2026-02-02T11:04:47Z)
Towards an Effective Action-Region Tracking Framework for Fine-grained Video Action Recognition [35.62986006054654]
Action-Region Tracking (ART)は、クエリ応答機構を利用して、ユニークなローカル詳細のダイナミクスを発見し、追跡する新しいソリューションである。本稿では,識別的およびテキスト制約のあるセマンティクスをクエリとして利用する領域固有のセマンティクスアクティベーションモジュールを提案する。広く使われている行動認識ベンチマークの実験は、従来の最先端のベースラインよりも優れていることを示している。
論文参考訳（メタデータ） (2025-11-26T09:32:06Z)
OpenVidVRD: Open-Vocabulary Video Visual Relation Detection via Prompt-Driven Semantic Space Alignment [5.215417164787923]
視覚言語モデル(VLM)は、オープン語彙の視覚的関係の検出に役立つが、多くの場合、様々な視覚領域とそれらの関係との関係を見落としている。本稿では,オープン語彙のVidVRDフレームワークであるOpenVidVRDを提案する。
論文参考訳（メタデータ） (2025-03-12T14:13:17Z)
Unified Video Action Model [47.88377984526902]
統合されたビデオとアクションモデルは、アクション予測のためのリッチなシーン情報を提供するロボット工学にとって重要な約束である。我々は,映像とアクションの予測を協調的に最適化し,高精度かつ効率的なアクション推論を実現するUnified Video Action Model (UVA)を提案する。広範な実験により、UVAは幅広いロボティクスタスクの汎用的なソリューションとして機能できることが実証された。
論文参考訳（メタデータ） (2025-02-28T21:38:17Z)
ActPrompt: In-Domain Feature Adaptation via Action Cues for Video Temporal Grounding [40.60371529725805]
本稿では,機能適応のためのドメイン内ファインチューニングのパラダイムを提案する。本稿では, VLMのイメージエンコーダにアクションキューを注入し, アクションに敏感なパターンの発見に役立てるアクションキュー注入型テンポラルプロンプト学習(ActPrompt)を提案する。
論文参考訳（メタデータ） (2024-08-13T04:18:32Z)
Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。 OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文参考訳（メタデータ） (2024-05-17T14:52:47Z)
Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-10-12T17:59:23Z)
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。 S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2023-03-28T22:45:07Z)
Weakly-Supervised Temporal Action Localization by Inferring Salient Snippet-Feature [26.7937345622207]
弱教師付き時間的アクションローカライゼーションは、教師なしビデオ内のアクション領域を特定し、アクションカテゴリを同時に特定することを目的としている。擬似ラベル生成は、この課題を解決するための有望な戦略であるが、現在の手法ではビデオの自然な時間構造を無視している。そこで本研究では,有意なスニペット特徴を推定し,時間的動作の局所化を弱く制御する手法を提案する。
論文参考訳（メタデータ） (2023-03-22T06:08:34Z)
Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文参考訳（メタデータ） (2022-03-29T05:52:23Z)
EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文参考訳（メタデータ） (2021-07-22T15:57:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。