論文の概要: Multimedia Generative Script Learning for Task Planning
- arxiv url: http://arxiv.org/abs/2208.12306v3
- Date: Mon, 10 Jul 2023 16:51:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 19:25:22.570070
- Title: Multimedia Generative Script Learning for Task Planning
- Title(参考訳): タスク計画のためのマルチメディア生成スクリプト学習
- Authors: Qingyun Wang, Manling Li, Hou Pong Chan, Lifu Huang, Julia
Hockenmaier, Girish Chowdhary, Heng Ji
- Abstract要約: 我々は,テキストと視覚の両モードの履歴状態を追跡することによって,次のステップを生成するために,マルチメディア生成スクリプト学習という新しいタスクを提案する。
この課題は、画像中の視覚状態をキャプチャするマルチメディアチャレンジ、目に見えないタスクを実行するための誘導チャレンジ、個々のステップで異なる情報をカバーする多様性チャレンジの3つの側面において難しい。
実験の結果,本手法は強いベースラインを著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 58.73725388387305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal-oriented generative script learning aims to generate subsequent steps to
reach a particular goal, which is an essential task to assist robots or humans
in performing stereotypical activities. An important aspect of this process is
the ability to capture historical states visually, which provides detailed
information that is not covered by text and will guide subsequent steps.
Therefore, we propose a new task, Multimedia Generative Script Learning, to
generate subsequent steps by tracking historical states in both text and vision
modalities, as well as presenting the first benchmark containing 5,652 tasks
and 79,089 multimedia steps. This task is challenging in three aspects: the
multimedia challenge of capturing the visual states in images, the induction
challenge of performing unseen tasks, and the diversity challenge of covering
different information in individual steps. We propose to encode visual state
changes through a selective multimedia encoder to address the multimedia
challenge, transfer knowledge from previously observed tasks using a
retrieval-augmented decoder to overcome the induction challenge, and further
present distinct information at each step by optimizing a diversity-oriented
contrastive learning objective. We define metrics to evaluate both generation
and inductive quality. Experiment results demonstrate that our approach
significantly outperforms strong baselines.
- Abstract(参考訳): 目標指向生成型スクリプト学習(goal-oriented generative script learning)は、特定の目標を達成するための次のステップを生成することを目的としている。
このプロセスの重要な側面は、歴史的状態を視覚的に捉え、テキストでカバーされていない詳細な情報を提供し、その後のステップを案内する能力である。
そこで本研究では,テキストと視覚の両方の歴史的状態の追跡と,5,652のタスクと79,089のマルチメディアステップを含む第1のベンチマークを提示することにより,次のステップを生成するマルチメディア生成型スクリプト学習を提案する。
この課題は、画像中の視覚状態をキャプチャするマルチメディアチャレンジ、目に見えないタスクを実行するための誘導チャレンジ、個々のステップで異なる情報をカバーする多様性チャレンジの3つの側面において難しい。
本稿では,マルチメディアの課題に対処するため,選択的マルチメディアエンコーダを用いて視覚状態変化を符号化し,検索拡張デコーダを用いて従来観察されていた課題から知識を伝達して誘導課題を克服し,多様性指向のコントラスト学習目標を最適化することにより,各ステップで異なる情報を示すことを提案する。
生成と帰納的品質の両方を評価するためのメトリクスを定義します。
実験の結果,本手法は強いベースラインを著しく上回ることがわかった。
関連論文リスト
- MAML MOT: Multiple Object Tracking based on Meta-Learning [7.892321926673001]
MAML MOTは、マルチオブジェクト追跡のためのメタラーニングベースのトレーニングアプローチである。
マルチオブジェクト追跡のためのメタラーニングに基づくトレーニング手法であるMAML MOTを紹介する。
論文 参考訳(メタデータ) (2024-05-12T12:38:40Z) - Read to Play (R2-Play): Decision Transformer with Multimodal Game Instruction [22.31940101833938]
本稿では,エージェントに対するタスクガイダンスの強化について検討し,ゲームプレイ指導の理解を可能にした。
命令チューニングを決定変換器に組み込むためのマルチモーダルゲーム命令セットを構築する。
論文 参考訳(メタデータ) (2024-02-06T17:09:25Z) - Masked Diffusion with Task-awareness for Procedure Planning in
Instructional Videos [16.93979476655776]
指導ビデオにおけるプロシージャ計画における重要な課題は、さまざまなアクションタイプからなる大きな決定空間をどのように扱うかである。
マスク付き拡散モデルとして,シンプルで効果的な拡張法を提案する。
我々は,事前学習された視覚言語モデルに人間の行動に焦点を当てるよう促すことで,テキストの埋め込みを生成する共同視覚テキスト埋め込みを学習する。
論文 参考訳(メタデータ) (2023-09-14T03:25:37Z) - Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - Unsupervised Task Graph Generation from Instructional Video Transcripts [53.54435048879365]
本研究では,実世界の活動を行う指導ビデオのテキスト書き起こしを提供する環境について考察する。
目標は、これらの重要なステップ間の依存関係関係と同様に、タスクに関連する重要なステップを特定することです。
本稿では,命令調整言語モデルの推論能力とクラスタリングとランキングコンポーネントを組み合わせたタスクグラフ生成手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T22:50:08Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z) - Visual Goal-Step Inference using wikiHow [29.901908251322684]
目標のステップのサブシーケンスを推測することは、人工知能システムが人間の活動について推論するのに役立ちます。
モデルにテキスト目標を付与し、4つの候補画像の中からその目標に向けての有効なステップを選択する,Visual Goal-Step Inference (VGSI) タスクを提案する。
我々のデータから学んだ知識は、HowTo100Mのような他のデータセットに効果的に転送できることを示し、多重選択の精度を15%から20%向上させる。
論文 参考訳(メタデータ) (2021-04-12T22:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。