論文の概要: CLAD: Constrained Latent Action Diffusion for Vision-Language Procedure Planning
- arxiv url: http://arxiv.org/abs/2503.06637v1
- Date: Sun, 09 Mar 2025 14:31:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:40.854367
- Title: CLAD: Constrained Latent Action Diffusion for Vision-Language Procedure Planning
- Title(参考訳): CLAD:ビジョン・ランゲージ・プロシージャ計画のための制約付き潜在行動拡散
- Authors: Lei Shi, Andreas Bulling,
- Abstract要約: 教師ビデオにおける視覚言語プロシージャ計画のための制約付き潜時行動拡散モデルを提案する。
本手法では, 変動オートエンコーダを用いて, 動作と観測の潜在表現を制約として学習する。
提案手法は最先端の手法よりも大きなマージンで優れていることを示す。
- 参考スコア(独自算出の注目度): 11.4414301678724
- License:
- Abstract: We propose CLAD -- a Constrained Latent Action Diffusion model for vision-language procedure planning in instructional videos. Procedure planning is the challenging task of predicting intermediate actions given a visual observation of a start and a goal state. However, future interactive AI systems must also be able to plan procedures using multi-modal input, e.g., where visual observations are augmented with language descriptions. To tackle this vision-language procedure planning task, our method uses a Variational Autoencoder (VAE) to learn the latent representation of actions and observations as constraints and integrate them into the diffusion process. This approach exploits that the latent space of diffusion models already has semantics that can be used. We use the latent constraints to steer the diffusion model to better generate actions. We report extensive experiments on the popular CrossTask, Coin, and NIV datasets and show that our method outperforms state-of-the-art methods by a large margin. By evaluating ablated versions of our method, we further show that the proposed integration of the action and observation representations learnt in the VAE latent space is key to these performance improvements.
- Abstract(参考訳): 命令ビデオにおける視覚言語プロシージャ計画のための制約付き潜在動作拡散モデルであるCLADを提案する。
プロシージャ計画(Process Planning)は、スタートとゴール状態の視覚的な観察によって中間動作を予測する難しいタスクである。
しかし、将来の対話型AIシステムは、多モード入力(例えば、視覚的な観察を言語記述で拡張する)を使用して手続きを計画できなければならない。
この視覚言語プロシージャ計画課題に対処するために,提案手法は変分オートエンコーダ (VAE) を用いて,行動や観察の潜在表現を制約として学習し,拡散過程に統合する。
このアプローチは、拡散モデルの潜在空間が既に使用可能な意味論を持っていることを悪用する。
遅延制約を使用して、拡散モデルを操り、アクションをより良く生成します。
一般的なCrossTask,Coin,NIVデータセットに関する広範な実験を報告し,我々の手法が最先端の手法よりも大きなマージンで優れていることを示す。
さらに,本手法の短縮バージョンを評価することにより,VAE潜在空間で学習した動作と観測表現の統合が,これらの性能改善の鍵となることを示す。
関連論文リスト
- Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - ActionDiffusion: An Action-aware Diffusion Model for Procedure Planning in Instructional Videos [10.180115984765582]
ActionDiffusionは、講義ビデオにおけるプロシージャ計画のための新しい拡散モデルである。
本手法は,行動間の時間的依存関係の学習と拡散過程における行動計画の認知を統一する。
論文 参考訳(メタデータ) (2024-03-13T14:54:04Z) - Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。
本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。
提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文 参考訳(メタデータ) (2024-02-18T12:43:38Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Masked Diffusion with Task-awareness for Procedure Planning in
Instructional Videos [16.93979476655776]
指導ビデオにおけるプロシージャ計画における重要な課題は、さまざまなアクションタイプからなる大きな決定空間をどのように扱うかである。
マスク付き拡散モデルとして,シンプルで効果的な拡張法を提案する。
我々は,事前学習された視覚言語モデルに人間の行動に焦点を当てるよう促すことで,テキストの埋め込みを生成する共同視覚テキスト埋め込みを学習する。
論文 参考訳(メタデータ) (2023-09-14T03:25:37Z) - Event-Guided Procedure Planning from Instructional Videos with Text
Supervision [31.82121743586165]
本研究は,テキスト管理による指導ビデオからの手順計画の課題に焦点をあてる。
この課題の重要な課題は、観察された視覚状態と観測されていない中間動作の間の大きな意味的ギャップである。
本稿では,まず観測された状態から事象を推定し,その状態と予測された事象の両方に基づいて行動計画を行う,新しいイベント誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-08-17T09:43:28Z) - Variance-Preserving-Based Interpolation Diffusion Models for Speech
Enhancement [53.2171981279647]
本稿では,VP-および分散拡散(VE)に基づく拡散法の両方をカプセル化するフレームワークを提案する。
本研究では,拡散モデルで発生する一般的な困難を解析し,性能の向上とモデルトレーニングの容易化を図る。
我々は,提案手法の有効性を示すために,公開ベンチマークを用いたいくつかの手法によるモデルの評価を行った。
論文 参考訳(メタデータ) (2023-06-14T14:22:22Z) - PDPP: Projected Diffusion for Procedure Planning in Instructional Videos [18.984980596601513]
本研究では,現在の視覚的観察と目的を考慮に入れた計画(一連の行動)の実現を目的とした指導ビデオにおけるプロシージャ計画の課題について検討する。
以前の研究は、これをシーケンスモデリングの問題とみなし、中間的な視覚観察または言語指示を監督として活用した。
自己回帰的に計画することによる中間的監視アノテーションやエラーの蓄積を回避するため,拡散型フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T10:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。