論文の概要: Multimedia Generative Script Learning for Task Planning
- arxiv url: http://arxiv.org/abs/2208.12306v2
- Date: Fri, 26 May 2023 04:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 00:08:16.263447
- Title: Multimedia Generative Script Learning for Task Planning
- Title(参考訳): タスク計画のためのマルチメディア生成スクリプト学習
- Authors: Qingyun Wang, Manling Li, Hou Pong Chan, Lifu Huang, Julia
Hockenmaier, Girish Chowdhary, Heng Ji
- Abstract要約: 我々は,テキストと視覚の両モードの履歴状態を追跡することによって,次のステップを生成するために,マルチメディア生成スクリプト学習という新しいタスクを提案する。
視覚状態の追跡が可能で、目に見えないタスクに対して帰納的であり、個々のステップで多様であるスクリプトを生成することを目指している。
- 参考スコア(独自算出の注目度): 58.73725388387305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal-oriented generative script learning aims to generate subsequent steps
based on a goal, which is an essential task to assist robots in performing
stereotypical activities of daily life. We show that the performance of this
task can be improved if historical states are not just captured by the
linguistic instructions given to people, but are augmented with the additional
information provided by accompanying images. Therefore, we propose a new task,
Multimedia Generative Script Learning, to generate subsequent steps by tracking
historical states in both text and vision modalities, as well as presenting the
first benchmark containing 2,338 tasks and 31,496 steps with descriptive
images. We aim to generate scripts that are visual-state trackable, inductive
for unseen tasks, and diverse in their individual steps. We propose to encode
visual state changes through a multimedia selective encoder, transferring
knowledge from previously observed tasks using a retrieval-augmented decoder,
and presenting the distinct information at each step by optimizing a
diversity-oriented contrastive learning objective. We define metrics to
evaluate both generation quality and inductive quality. Experiment results
demonstrate that our approach significantly outperforms strong baselines.
- Abstract(参考訳): 目標指向生成スクリプト学習は,ロボットが日常生活のステレオタイプ的活動を行うのを支援する上で不可欠な課題である目標に基づいて,その後のステップを生成することを目的としている。
本課題は, 歴史的状態が人への言語指導によって捉えられただけでなく, 付随画像による付加情報によって拡張された場合にも改善できることを示す。
そこで本稿では,テキストと視覚の両モードの履歴状態をトラッキングし,さらに2,338のタスクと31,496のステップを含む最初のベンチマークを記述的画像で提示する,マルチメディア生成スクリプト学習を提案する。
視覚状態の追跡が可能で、見えないタスクに対して帰納的であり、個々のステップで多様であるスクリプトを生成することを目指している。
本稿では,マルチメディア選択型エンコーダを用いて視覚状態変化を符号化し,検索拡張デコーダを用いて先行観測されたタスクから知識を伝達し,多様性指向のコントラスト学習目標を最適化することにより,各ステップで異なる情報を示すことを提案する。
生成品質と帰納的品質の両方を評価するためにメトリクスを定義します。
実験の結果,本手法は強いベースラインを著しく上回ることがわかった。
関連論文リスト
- MAML MOT: Multiple Object Tracking based on Meta-Learning [7.892321926673001]
MAML MOTは、マルチオブジェクト追跡のためのメタラーニングベースのトレーニングアプローチである。
マルチオブジェクト追跡のためのメタラーニングに基づくトレーニング手法であるMAML MOTを紹介する。
論文 参考訳(メタデータ) (2024-05-12T12:38:40Z) - Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction [22.31940101833938]
本稿では,エージェントに対するタスクガイダンスの強化について検討し,ゲームプレイ指導の理解を可能にした。
命令チューニングを決定変換器に組み込むためのマルチモーダルゲーム命令セットを構築する。
論文 参考訳(メタデータ) (2024-02-06T17:09:25Z) - Masked Diffusion with Task-awareness for Procedure Planning in
Instructional Videos [16.93979476655776]
指導ビデオにおけるプロシージャ計画における重要な課題は、さまざまなアクションタイプからなる大きな決定空間をどのように扱うかである。
マスク付き拡散モデルとして,シンプルで効果的な拡張法を提案する。
我々は,事前学習された視覚言語モデルに人間の行動に焦点を当てるよう促すことで,テキストの埋め込みを生成する共同視覚テキスト埋め込みを学習する。
論文 参考訳(メタデータ) (2023-09-14T03:25:37Z) - Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - Unsupervised Task Graph Generation from Instructional Video Transcripts [53.54435048879365]
本研究では,実世界の活動を行う指導ビデオのテキスト書き起こしを提供する環境について考察する。
目標は、これらの重要なステップ間の依存関係関係と同様に、タスクに関連する重要なステップを特定することです。
本稿では,命令調整言語モデルの推論能力とクラスタリングとランキングコンポーネントを組み合わせたタスクグラフ生成手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T22:50:08Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z) - Visual Goal-Step Inference using wikiHow [29.901908251322684]
目標のステップのサブシーケンスを推測することは、人工知能システムが人間の活動について推論するのに役立ちます。
モデルにテキスト目標を付与し、4つの候補画像の中からその目標に向けての有効なステップを選択する,Visual Goal-Step Inference (VGSI) タスクを提案する。
我々のデータから学んだ知識は、HowTo100Mのような他のデータセットに効果的に転送できることを示し、多重選択の精度を15%から20%向上させる。
論文 参考訳(メタデータ) (2021-04-12T22:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。