論文の概要: MULTISCRIPT: Multimodal Script Learning for Supporting Open Domain
Everyday Tasks
- arxiv url: http://arxiv.org/abs/2310.04965v2
- Date: Thu, 18 Jan 2024 21:17:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 18:55:18.458851
- Title: MULTISCRIPT: Multimodal Script Learning for Supporting Open Domain
Everyday Tasks
- Title(参考訳): multiscript: オープンドメインの日常タスクをサポートするマルチモーダルスクリプト学習
- Authors: Jingyuan Qi, Minqian Liu, Ying Shen, Zhiyang Xu, Lifu Huang
- Abstract要約: 新しいベンチマークチャレンジであるMultiScriptを提示します。
どちらのタスクも、入力はターゲットタスク名と、ターゲットタスクを完了するために何をしたかを示すビデオから成っている。
期待される出力は、(1)デモビデオに基づくテキスト中の構造化されたステップ記述のシーケンス、(2)次のステップのための単一のテキスト記述である。
- 参考スコア(独自算出の注目度): 28.27986773292919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically generating scripts (i.e. sequences of key steps described in
text) from video demonstrations and reasoning about the subsequent steps are
crucial to the modern AI virtual assistants to guide humans to complete
everyday tasks, especially unfamiliar ones. However, current methods for
generative script learning rely heavily on well-structured preceding steps
described in text and/or images or are limited to a certain domain, resulting
in a disparity with real-world user scenarios. To address these limitations, we
present a new benchmark challenge -- MultiScript, with two new tasks on
task-oriented multimodal script learning: (1) multimodal script generation, and
(2) subsequent step prediction. For both tasks, the input consists of a target
task name and a video illustrating what has been done to complete the target
task, and the expected output is (1) a sequence of structured step descriptions
in text based on the demonstration video, and (2) a single text description for
the subsequent step, respectively. Built from WikiHow, MultiScript covers
multimodal scripts in videos and text descriptions for over 6,655 human
everyday tasks across 19 diverse domains. To establish baseline performance on
MultiScript, we propose two knowledge-guided multimodal generative frameworks
that incorporate the task-related knowledge prompted from large language models
such as Vicuna. Experimental results show that our proposed approaches
significantly improve over the competitive baselines.
- Abstract(参考訳): ビデオデモからスクリプト(つまり、テキストで記述された重要なステップのシーケンス)を自動的に生成し、その後のステップを推論することは、現代のAI仮想アシスタントにとって重要であり、人間の日常のタスク、特に馴染みのないタスクの完了を導く。
しかし、現在の生成スクリプト学習の方法は、テキストや画像に記述された、あるいは特定の領域に限定された、十分に構造化された前のステップに大きく依存しているため、現実のユーザシナリオとの相違が生じている。
タスク指向のマルチモーダルスクリプト学習では,(1)マルチモーダルスクリプトの生成,(2)ステップ予測という2つの新しいタスクが導入された。
両方のタスクに対して、入力は、目標タスク名と、目標タスクを完了するために実行されたことをイラストしたビデオで構成され、期待出力は、(1)デモビデオに基づくテキスト中の構造化されたステップ記述のシーケンス、(2)次のステップのための単一のテキスト記述である。
wikihowから構築されたmultiscriptは、19のさまざまなドメインにわたる6655以上の人間の日常タスクの、ビデオやテキスト記述のマルチモーダルスクリプトをカバーする。
マルチスクリプトのベースライン性能を確立するために、vicunaのような大規模言語モデルから引き起こされたタスク関連の知識を組み込んだ2つの知識誘導型マルチモーダル生成フレームワークを提案する。
実験の結果,提案手法は競争ベースラインよりも大幅に改善した。
関連論文リスト
- VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - TransPrompt v2: A Transferable Prompting Framework for Cross-task Text
Classification [37.824031151922604]
そこで本研究では,テキスト分類タスク間の数ショット学習を実現するための,トランスプロンプトv2を提案する。
類似したタスクを学習するために、メタラーナーを訓練するためにマルチタスクメタ知識獲得(MMA)手順を用いる。
遠隔タスクを学習するために、タスクタイプ記述をプロンプトに注入し、タイプ内およびタイプ間プロンプト埋め込みをキャプチャする。
論文 参考訳(メタデータ) (2023-08-29T04:16:57Z) - Non-Sequential Graph Script Induction via Multimedia Grounding [129.83134296316493]
我々は、学習タスクのための明示的なグラフスクリプトを生成することと、部分的なステップシーケンスが与えられた将来のステップを予測することの両方が可能なスクリプト知識モデルを訓練する。
人間による評価では、我々のモデルはWikiHowの線形ベースラインを48.76%上回り、シーケンシャルなステップ関係と非シーケンシャルなステップ関係を捉えた。
論文 参考訳(メタデータ) (2023-05-27T18:13:17Z) - Multimedia Generative Script Learning for Task Planning [58.73725388387305]
我々は,テキストと視覚の両モードの履歴状態を追跡することによって,次のステップを生成するために,マルチメディア生成スクリプト学習という新しいタスクを提案する。
この課題は、画像中の視覚状態をキャプチャするマルチメディアチャレンジ、目に見えないタスクを実行するための誘導チャレンジ、個々のステップで異なる情報をカバーする多様性チャレンジの3つの側面において難しい。
実験の結果,本手法は強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-08-25T19:04:28Z) - Goal-Oriented Script Construction [23.6227797113877]
目標指向のスクリプト構築タスクを提案し、モデルが与えられた目標を達成するための一連のステップを生成する。
wikiHowから収集した18言語をサポートする,最初の多言語スクリプト学習データセットの試験を行った。
論文 参考訳(メタデータ) (2021-07-28T06:39:31Z) - VLM: Task-agnostic Video-Language Model Pre-training for Video
Understanding [78.28397557433544]
本稿では,タスクに依存しないマルチモーダル事前学習手法を提案する。
実験の結果,従来の手法よりも広い範囲のタスクに対して強い性能を示し,タスク固有の事前学習よりも優れていた。
論文 参考訳(メタデータ) (2021-05-20T19:13:27Z) - proScript: Partially Ordered Scripts Generation via Pre-trained Language
Models [49.03193243699244]
我々は、トレーニング済みのニューラルネットワークモデル(LM)が高品質なスクリプトを生成するために微調整できることを初めて実証した。
クラウドソースされた部分的に順序付けられたスクリプト(proScriptという名前)を収集しました。
私たちの実験では、これまでのスクリプトコレクションの障壁を克服するための新しいアプローチを示す(例えば、タスク(i)中のf1=75.7)。
論文 参考訳(メタデータ) (2021-04-16T17:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。