論文の概要: ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos
- arxiv url: http://arxiv.org/abs/2603.04265v1
- Date: Wed, 04 Mar 2026 16:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.409817
- Title: ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos
- Title(参考訳): ViterbiPlanNet: インストラクショナルビデオのプランニングのための差別化可能なViterbiによる手続き的知識注入
- Authors: Luigi Seminara, Davide Moltisanti, Antonino Furnari,
- Abstract要約: 手続き的計画(Procedural Planning)は、初期視覚状態を望ましい目標に変換する一連の行動を予測することを目的としている。
既存のアプローチは、手続き構造を暗黙的に学習する大規模モデルに依存している。
本稿では,手続き的知識を学習プロセスに統合する原則的フレームワークであるViterbiPlanNetを紹介する。
- 参考スコア(独自算出の注目度): 15.697653554425045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Procedural planning aims to predict a sequence of actions that transforms an initial visual state into a desired goal, a fundamental ability for intelligent agents operating in complex environments. Existing approaches typically rely on large-scale models that learn procedural structures implicitly, resulting in limited sample-efficiency and high computational cost. In this work we introduce ViterbiPlanNet, a principled framework that explicitly integrates procedural knowledge into the learning process through a Differentiable Viterbi Layer (DVL). The DVL embeds a Procedural Knowledge Graph (PKG) directly with the Viterbi decoding algorithm, replacing non-differentiable operations with smooth relaxations that enable end-to-end optimization. This design allows the model to learn through graph-based decoding. Experiments on CrossTask, COIN, and NIV demonstrate that ViterbiPlanNet achieves state-of-the-art performance with an order of magnitude fewer parameters than diffusion- and LLM-based planners. Extensive ablations show that performance gains arise from our differentiable structure-aware training rather than post-hoc refinement, resulting in improved sample efficiency and robustness to shorter unseen horizons. We also address testing inconsistencies establishing a unified testing protocol with consistent splits and evaluation metrics. With this new protocol, we run experiments multiple times and report results using bootstrapping to assess statistical significance.
- Abstract(参考訳): 手続き的計画(Procedural Planning)は、複雑な環境で動作するインテリジェントエージェントの基本的な能力である、初期視覚状態を望ましい目標に変換する一連のアクションを予測することを目的としている。
既存のアプローチは通常、手続き構造を暗黙的に学習する大規模なモデルに依存しており、結果としてサンプル効率と計算コストが制限される。
本稿では,Vitabi Layer(DVL)による学習プロセスに手続き的知識を明示的に統合する,原則的フレームワークであるViterbiPlanNetを紹介する。
DVLは、手続き的知識グラフ (Procedural Knowledge Graph, PKG) をビタビ復号アルゴリズムに直接埋め込んで、非微分不可能な操作をスムーズな緩和で置き換え、エンドツーエンドの最適化を可能にする。
この設計により、モデルはグラフベースの復号化を通じて学習することができる。
CrossTask, COIN, NIV の実験により, ViterbiPlanNet は拡散プランナや LLM ベースのプランナよりも桁違いのパラメータで最先端のパフォーマンスを実現していることが示された。
急激な改善は, ポストホック化ではなく, 構造認識訓練による性能向上が示され, 試料効率とロバスト性が向上し, より短い地平線へ到達することを示した。
また、一貫した分割と評価指標を備えた統合テストプロトコルを確立するテストの不整合にも対処する。
このプロトコルでは,複数回実験を行い,ブートストラップを用いて統計的意義を評価する。
関連論文リスト
- Interaction-Grounded Learning for Contextual Markov Decision Processes with Personalized Feedback [59.287761696290865]
本稿では,個人化されたフィードバックを伴って,文脈的マルコフ決定プロセス(MDP)のサブ線形後悔保証を実現する計算効率の高いアルゴリズムを提案する。
提案手法の有効性を,合成エピソードMDPと実世界のユーザ予約データセットの両方を用いた実験を通じて,マルチターンインタラクションからパーソナライズされた目的を学習する際の有効性を示す。
論文 参考訳(メタデータ) (2026-02-09T06:29:54Z) - Dynamic Learning Rate Scheduling based on Loss Changes Leads to Faster Convergence [2.1665689529884697]
emphGreedyLRは、トレーニング中に現在の損失に基づいて学習率を適応的に調整する新しいスケジューラである。
提案手法は, 精度, 速度, 収束の点で, 最先端のスケジューラよりも優れている。
論文 参考訳(メタデータ) (2025-12-16T16:03:52Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Improving Large Language Model Planning with Action Sequence Similarity [50.52049888490524]
本研究では,インコンテキスト学習(ICL)によるモデル計画能力の向上について検討する。
GRASE-DC は2段階のパイプラインで,まず高効率のAS例を再サンプリングし,選択した例をキュレートする。
実験の結果,GRASE-DCは様々な計画タスクにおいて大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-02T05:16:17Z) - An experimental approach on Few Shot Class Incremental Learning [0.0]
FSCIL(Few-Shot Class-Incremental Learning)は、機械学習の幅広い範囲における最先端のパラダイムである。
本論文では,大規模データセットにまたがる広範な実験を含む,さまざまなソリューションを提案する。
それらの利点を強調し、最も有望なものを改善するために実験的なアプローチを提示します。
論文 参考訳(メタデータ) (2025-03-14T12:36:15Z) - Boosting Vision-Language Models with Transduction [12.281505126587048]
本稿では,視覚言語モデルのための新しい,計算効率の良いトランスダクティブアプローチであるTransCLIPを提案する。
TransCLIPは、一般的なinductive zero- and few-shotモデルの上に、プラグイン・アンド・プレイモジュールとして適用することができる。
論文 参考訳(メタデータ) (2024-06-03T23:09:30Z) - Why Not Use Your Textbook? Knowledge-Enhanced Procedure Planning of Instructional Videos [16.333295670635557]
本稿では,エージェントが行動手順を論理的に構築し,戦略的手続き計画を構築する能力について考察する。
この計画は、実生活の指導ビデオに示されているように、初期視覚観察から対象視結果へのナビゲートに不可欠である。
我々は,学習データから抽出した確率論的手続き的知識グラフを利用する,知識向上型プロジェクションプランニングシステムKEPPを提案する。
論文 参考訳(メタデータ) (2024-03-05T08:55:51Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。