Fugu-MT 論文翻訳(概要): Stitch-a-Recipe: Video Demonstration from Multistep Descriptions

論文の概要: Stitch-a-Recipe: Video Demonstration from Multistep Descriptions

arxiv url: http://arxiv.org/abs/2503.13821v1
Date: Tue, 18 Mar 2025 01:57:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:12.252934
Title: Stitch-a-Recipe: Video Demonstration from Multistep Descriptions
Title（参考訳）: Stitch-a-Recipe:マルチステップ記述によるビデオデモ
Authors: Chi Hsuan Wu, Kumar Ashutosh, Kristen Grauman,
Abstract要約: マルチステップ記述からビデオデモを組み立てる新しい検索手法であるStitch-a-Recipeを提案する。得られたビデオには、すべてのステップ記述を正確に反映したクリップが含まれており、視覚的に一貫性がある。 Stitch-a-Recipeは最先端のパフォーマンスを実現し、人間の嗜好調査では24%まで上昇し、劇的な勝利となった。
参考スコア（独自算出の注目度）: 51.314912554605066
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When obtaining visual illustrations from text descriptions, today's methods take a description with-a single text context caption, or an action description-and retrieve or generate the matching visual context. However, prior work does not permit visual illustration of multistep descriptions, e.g. a cooking recipe composed of multiple steps. Furthermore, simply handling each step description in isolation would result in an incoherent demonstration. We propose Stitch-a-Recipe, a novel retrieval-based method to assemble a video demonstration from a multistep description. The resulting video contains clips, possibly from different sources, that accurately reflect all the step descriptions, while being visually coherent. We formulate a training pipeline that creates large-scale weakly supervised data containing diverse and novel recipes and injects hard negatives that promote both correctness and coherence. Validated on in-the-wild instructional videos, Stitch-a-Recipe achieves state-of-the-art performance, with quantitative gains up to 24% as well as dramatic wins in a human preference study.
Abstract（参考訳）: テキスト記述から視覚的イラストを得る場合、今日の手法は、単一のテキストコンテキストキャプションで記述するか、アクション記述を取り込み、一致する視覚的コンテキストを検索または生成する。しかし、事前の作業では、例えば複数のステップからなる調理レシピなど、多段階の記述の視覚的な図示が許されていない。さらに、各ステップ記述を分離して扱うだけで、一貫性のないデモが発生します。マルチステップ記述からビデオデモを組み立てる新しい検索手法であるStitch-a-Recipeを提案する。生成されたビデオには、おそらく異なるソースからのクリップが含まれており、すべてのステップ記述を正確に反映し、視覚的に一貫性がある。我々は、多種多様な新しいレシピを含む大規模弱教師付きデータを作成し、正当性と整合性の両方を促進する硬い負を注入する訓練パイプラインを定式化する。 Stitch-a-Recipeは、Wildのインストラクショナルビデオで検証され、最先端のパフォーマンスを達成し、定量的に24%まで向上し、人間の嗜好調査で劇的な勝利を収めた。

関連論文リスト

Mobius: Text to Seamless Looping Video Generation via Latent Shift [50.04534295458244]
ユーザアノテーションを使わずにテキスト記述から直接シームレスにループするビデオを生成する新しい方法であるMobiusを提案する。本手法では,事前学習したビデオ遅延拡散モデルを用いて,テキストプロンプトからループ映像を生成する。
論文参考訳（メタデータ） (2025-02-27T17:33:51Z)
Contrastive Sequential-Diffusion Learning: Non-linear and Multi-Scene Instructional Video Synthesis [9.687215124767063]
本稿では,最も適切なシーンを選択して,次のシーンの復調過程をガイドし,条件付けするコントラッシブ・シーケンシャルな映像拡散手法を提案する。実世界の行動中心データを用いた実験は、過去の研究と比較して、我々のモデルの実用性と一貫性を実証し、改善した。
論文参考訳（メタデータ） (2024-07-16T15:03:05Z)
Shot2Story: A New Benchmark for Comprehensive Understanding of Multi-shot Videos [58.53311308617818]
マルチショットビデオ理解ベンチマークShot2Storyには、詳細なショットレベルのキャプション、包括的なビデオ要約、質問応答ペアがある。予備実験では、マルチショットビデオの長大かつ包括的な要約を生成するための課題がいくつか示されている。生成された不完全な要約は、既存のビデオ理解タスクにおいて、すでに競合的なパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2023-12-16T03:17:30Z)
Multi Sentence Description of Complex Manipulation Action Videos [3.7486111821201287]
ビデオの自動記述のための既存のアプローチは、主に一定レベルの詳細で単一の文を生成することに焦点を当てている。この問題に対処するために,1つのハイブリッド統計フレームワークと1つのエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-13T12:27:06Z)
Learning to Ground Instructional Articles in Videos through Narrations [50.3463147014498]
ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
論文参考訳（メタデータ） (2023-06-06T15:45:53Z)
TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文参考訳（メタデータ） (2022-08-14T04:07:40Z)
Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文参考訳（メタデータ） (2021-05-30T09:28:43Z)
A Benchmark for Structured Procedural Knowledge Extraction from Cooking Videos [126.66212285239624]
本稿では,調理ビデオから抽出した構造化手続き的知識のベンチマークを提案する。手動で注釈付けしたオープン語彙リソースには、356の指導的調理ビデオと15,523のビデオクリップ/文レベルのアノテーションが含まれています。
論文参考訳（メタデータ） (2020-05-02T05:15:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。