論文の概要: VG-TVP: Multimodal Procedural Planning via Visually Grounded Text-Video Prompting
- arxiv url: http://arxiv.org/abs/2412.11621v1
- Date: Mon, 16 Dec 2024 10:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:55:15.579762
- Title: VG-TVP: Multimodal Procedural Planning via Visually Grounded Text-Video Prompting
- Title(参考訳): VG-TVP:ビジュアルグラウンド・テキスト・ビデオ・プロンプティングによるマルチモーダル手続き計画
- Authors: Muhammet Furkan Ilaslan, Ali Koksal, Kevin Qinhong Lin, Burak Satar, Mike Zheng Shou, Qianli Xu,
- Abstract要約: 本稿では,新しいマルチモーダル・プロシージャ・プランニング・フレームワークであるVG-TVP法を提案する。
特定の高レベルな目標を与えられた凝集性テキストとビデオプロシージャプランを生成する。
当社のVG-TVP法は,Daily-PPデータセット上での単調なベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 14.065845158830445
- License:
- Abstract: Large Language Model (LLM)-based agents have shown promise in procedural tasks, but the potential of multimodal instructions augmented by texts and videos to assist users remains under-explored. To address this gap, we propose the Visually Grounded Text-Video Prompting (VG-TVP) method which is a novel LLM-empowered Multimodal Procedural Planning (MPP) framework. It generates cohesive text and video procedural plans given a specified high-level objective. The main challenges are achieving textual and visual informativeness, temporal coherence, and accuracy in procedural plans. VG-TVP leverages the zero-shot reasoning capability of LLMs, the video-to-text generation ability of the video captioning models, and the text-to-video generation ability of diffusion models. VG-TVP improves the interaction between modalities by proposing a novel Fusion of Captioning (FoC) method and using Text-to-Video Bridge (T2V-B) and Video-to-Text Bridge (V2T-B). They allow LLMs to guide the generation of visually-grounded text plans and textual-grounded video plans. To address the scarcity of datasets suitable for MPP, we have curated a new dataset called Daily-Life Task Procedural Plans (Daily-PP). We conduct comprehensive experiments and benchmarks to evaluate human preferences (regarding textual and visual informativeness, temporal coherence, and plan accuracy). Our VG-TVP method outperforms unimodal baselines on the Daily-PP dataset.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは手続き的タスクにおいて有望であるが,ユーザを支援するためのテキストやビデオによって強化されたマルチモーダル命令の可能性はまだ未定である。
このギャップに対処するため,新しいMPPフレームワークであるVisually Grounded Text-Video Prompting (VG-TVP)を提案する。
特定の高レベルな目標を与えられた凝集性テキストとビデオプロシージャプランを生成する。
主な課題は、手続き計画におけるテキストおよび視覚的情報性、時間的コヒーレンス、精度の達成である。
VG-TVPは、LCMのゼロショット推論能力、ビデオキャプションモデルのビデオ対テキスト生成能力、拡散モデルのテキスト対ビデオ生成能力を活用する。
VG-TVPは、新しいFusion of Captioning(FoC)法を提案し、Text-to-Video Bridge(T2V-B)とVideo-to-Text Bridge(V2T-B)を用いてモダリティ間の相互作用を改善する。
LLMは、視覚的に接地されたテキストプランとテキストで接地されたビデオプランの生成をガイドすることができる。
MPPに適したデータセットの不足に対処するため、Daily-Life Task Procedural Plans (Daily-PP)と呼ばれる新しいデータセットをキュレートした。
人間の嗜好を評価するための総合的な実験とベンチマーク(テキストおよび視覚的情報性、時間的コヒーレンス、計画の正確性)を行う。
当社のVG-TVP法は,Daily-PPデータセット上での単調なベースラインよりも優れていた。
関連論文リスト
- DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM [23.551036494221222]
我々は,VLTとSOTの5つのベンチマークに基づいて,多種多様なテキストを用いた新しい視覚言語追跡ベンチマークDTVLTを提案する。
セマンティック情報の範囲と密度を考慮して、ベンチマークで4つのテキストを提供する。
我々はDTVLTの総合的な実験分析を行い、多種多様なテキストが追跡性能に与える影響を評価する。
論文 参考訳(メタデータ) (2024-10-03T13:57:07Z) - ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models [53.9661582975843]
Video Temporal Groundingは、特定のセグメントを、与えられた自然言語クエリに対応する未トリミングビデオ内でグラウンドすることを目的としている。
既存のVTG手法は、主に教師付き学習と広範囲な注釈付きデータに依存しており、それは労働集約的であり、人間の偏見に起因している。
本稿では,ビデオ対話大言語モデル(LLM)をゼロショットビデオ時間グラウンドに利用する新しい手法ChatVTGを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:27:56Z) - Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。
既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。
本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T02:25:12Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Language-Guided Self-Supervised Video Summarization Using Text Semantic Matching Considering the Diversity of the Video [22.60291297308379]
本研究では,映像要約タスクを自然言語処理(NLP)タスクに変換する可能性について検討する。
本手法は,ランク相関係数のSumMeデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-14T18:07:04Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Video Language Planning [137.06052217713054]
ビデオ言語計画法は木探索法により構成されるアルゴリズムで、(i)視覚言語モデルにポリシーと値関数の両方を提供するよう訓練し、(ii)動的モデルとしてテキストからビデオモデルを作成する。
提案アルゴリズムは,最終作業の完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を生成する。
シミュレーションロボットと実ロボットの両方の従来の手法と比較して、長時間作業の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-16T17:48:45Z) - VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [62.51232333352754]
VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。
提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
論文 参考訳(メタデータ) (2023-09-26T17:36:26Z) - Multimodal Procedural Planning via Dual Text-Image Prompting [78.73875275944711]
エンボディードエージェントは、タスクを完了するための人間の指示に従う際、顕著なパフォーマンスを達成した。
提案するマルチモーダル手続き計画タスクでは,高レベルな目標をモデルに与え,ペア化されたテキストイメージステップの計画を生成する。
MPPの主な課題は、モダリティを越えた計画の情報性、時間的一貫性、正確性を保証することである。
論文 参考訳(メタデータ) (2023-05-02T21:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。