論文の概要: RECIPE: Procedural Planning via Grounding in Instructional Video
- arxiv url: http://arxiv.org/abs/2605.19976v1
- Date: Tue, 19 May 2026 15:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.47901
- Title: RECIPE: Procedural Planning via Grounding in Instructional Video
- Title(参考訳): RECIPE: インストラクショナルビデオにおけるグラウンディングによる手続き的計画
- Authors: Luigi Seminara, Antonino Furnari, Lorenzo Torresani,
- Abstract要約: 本稿では,RECIPEがノイズの多いビデオコーパスからクリーンなステップラベルを抽出する方法を示す。
RECIPEはGRPOの報酬としてグラウンド品質を使用し、ノイズの多いコーパスをラベルソースではなく検証器に変換する。
基準ベースLCM-as-judgeプロトコルを用いて,6つの手続き基準にまたがる計画を評価する。
- 参考スコア(独自算出の注目度): 30.96089823924218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual planning asks a model to generate the remaining steps of a procedure in natural language given a partial video context and a goal. Progress on this task is bottlenecked by annotation: clean labeled datasets are small, domain-narrow, and encode a single execution trajectory per example, even though many valid orderings exist. Large-scale instructional video corpora offer orders of magnitude more procedural content, but supervised fine-tuning on pseudo-labels from their noisy ASR narrations propagates segmentation and alignment errors and stays single-trajectory. We identify a key asymmetry: extracting clean step labels from noisy video is hard, but verifying whether a generated step sequence is temporally grounded in ASR transcripts is cheap and scales to millions of videos via precomputed text embeddings. We exploit this asymmetry in RECIPE, which uses grounding quality as a reward for GRPO, turning the noisy corpus into a verifier rather than a label source. The framework applies uniformly to two planner input configurations (Socratic, with a textual history extracted by a frozen VLM, and Video, consuming video tokens directly) and to annotated and weakly supervised regimes. We evaluate on 7 procedural benchmarks using a reference-based LLM-as-judge protocol scoring plans across 6 procedural criteria. RECIPE-RL improves over the base checkpoint at all scales (0.5B, 3B, 7B) and every benchmark, with macro-accuracy gains of +7 to +8 points in-domain and up to +16 points zero-shot. It outperforms supervised fine-tuning on both annotated and pseudo-labeled plans (the latter degrades the base) and remains robust without human annotations. Used as the proposal stage of a prior propose-assess-search planner, it improves over the strongest zero-shot baseline at every horizon on Visual Planning for Assistance, and on COIN it preserves the generation diversity that SFT collapses.
- Abstract(参考訳): ビジュアルプランニングは、部分的にビデオコンテキストとゴールが与えられた自然言語でプロシージャの残りのステップを生成するようモデルに要求する。
クリーンなラベル付きデータセットは小さく、ドメインナローであり、多くの有効な順序が存在するにもかかわらず、例毎に単一の実行軌跡をエンコードする。
大規模ビデオコーパスは、桁違いに手続き的な内容を提供するが、ノイズの多いASRナレーションからの擬似ラベルの微調整はセグメンテーションとアライメントエラーを伝播させ、単一軌道に留まる。
ノイズの多いビデオからクリーンなステップラベルを抽出することは難しいが、生成したステップシーケンスがASR文字起こしに時間的に基底づけられているかどうかを検証することは安価であり、プリ計算されたテキスト埋め込みによって数百万のビデオにスケールする。
我々は、この非対称性を、GRPOの報酬としてグラウンド品質を利用するRECIPEにおいて活用し、ノイズコーパスをラベルソースではなく検証器に変換する。
このフレームワークは2つのプランナー入力構成(ソクラティック、凍結したVLMによって抽出されたテキスト履歴、ビデオトークンを直接消費するビデオ)に一様に適用され、注釈付きで弱い監督体制に適用される。
基準ベースLCM-as-judgeプロトコルを用いて,6つの手続き基準にまたがる計画を評価する。
RECIPE-RLは、すべてのスケール(0.5B、3B、7B)および全てのベンチマークでベースチェックポイントを改善し、マクロ精度はドメイン内で+7から+8ポイント、最大+16ポイントゼロショットとなる。
注釈付き計画と擬似ラベル付き計画の両方で微調整を監督し(後者はベースを劣化させる)、人間のアノテーションなしでも頑健である。
従来の提案-評価-調査プランナーの提案段階として使用されており、Visual Planning for Assistanceのあらゆる面において最強のゼロショットベースラインよりも改善されており、COINではSFTが崩壊する世代多様性を保っている。
関連論文リスト
- GNNVerifier: Graph-based Verifier for LLM Task Planning [26.77252346424261]
大規模言語モデル(LLM)は、自律エージェントの開発を促進する。
近年の研究では、潜在的な欠陥を特定し、修正するための計画検証器が導入されている。
既存のほとんどのアプローチは、検証子として LLM に依存している。
LLMタスク計画のためのグラフベースの検証器を提案する。
論文 参考訳(メタデータ) (2026-03-16T02:05:21Z) - Learning Accurate Segmentation Purely from Self-Supervision [87.78965637247107]
Selfmentは完全に自己管理型のフレームワークで、人間のラベルなしでオブジェクトを生画像から直接分割する。
Selfmentは、複数のベンチマークで新しい最先端(SoTA)結果を設定する。
論文 参考訳(メタデータ) (2026-02-27T07:36:32Z) - Context-Aware Pseudo-Label Scoring for Zero-Shot Video Summarization [6.057968525653529]
本稿では,ルーリック誘導型,擬似ラベル付き,即時駆動型ゼロショットビデオ要約フレームワークを提案する。
人間のアノテーションの小さなサブセットは、高信頼の擬似ラベルに変換される。
推論中、境界シーンはそれぞれの記述に基づいて独立してスコアされる。
論文 参考訳(メタデータ) (2025-10-20T12:54:32Z) - PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。
PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。
PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文 参考訳(メタデータ) (2025-04-01T14:29:51Z) - Exploiting Counter-Examples for Active Learning with Partial labels [45.665996618836516]
本稿では, 部分ラベルを用いたemphactive learning(ALPL)の新たな課題について検討する。
この設定では、オラクルはクエリサンプルに部分的なラベルを付加し、必要な正確なラベル付けプロセスからオラクルを緩和する。
我々は,このパターンを直接学習するために,シンプルだが効果的なWorseNetを提案する。
論文 参考訳(メタデータ) (2023-07-14T15:41:53Z) - Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised
Person Re-Identification [80.98291772215154]
教師なしの人物再識別(ReID)は、アノテーションを使わずに人物検索のための識別的アイデンティティの特徴を学習することを目的としている。
近年の進歩はクラスタリングに基づく擬似ラベルを活用することで実現されている。
本稿では, Pseudo Label Refinement フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T09:39:57Z) - Self-Adaptive Label Augmentation for Semi-supervised Few-shot
Classification [121.63992191386502]
Few-shotの分類は、ラベル付きサンプルがわずかにあれば、新しいタスクをうまく一般化できるモデルを学ぶことを目的としている。
そこで本研究では,手動で定義した指標を用いて,ラベルのない各サンプルに適切なラベルを割り当てる半教師付き小ショット分類手法を提案する。
SALAの目新しいところは、タスク適応計量であり、エンドツーエンドの方法で異なるタスクに対するメトリックを適応的に学習することができる。
論文 参考訳(メタデータ) (2022-06-16T13:14:03Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - CycAs: Self-supervised Cycle Association for Learning Re-identifiable
Descriptions [61.724894233252414]
本稿では,人物再識別(re-ID)問題に対する自己教師型学習手法を提案する。
既存の教師なしのメソッドは通常、ビデオトラッカーやクラスタリングのような擬似ラベルに依存している。
疑似ラベルを使わずに、生のビデオから歩行者の埋め込みを学習できる別の教師なし手法を導入する。
論文 参考訳(メタデータ) (2020-07-15T09:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。