論文の概要: Visual Goal-Step Inference using wikiHow
- arxiv url: http://arxiv.org/abs/2104.05845v1
- Date: Mon, 12 Apr 2021 22:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:50:56.713615
- Title: Visual Goal-Step Inference using wikiHow
- Title(参考訳): wikiHowを用いたビジュアルゴールステップ推論
- Authors: Yue Yang, Artemis Panagopoulou, Qing Lyu, Li Zhang, Mark Yatskar,
Chris Callison-Burch
- Abstract要約: 目標のステップのサブシーケンスを推測することは、人工知能システムが人間の活動について推論するのに役立ちます。
モデルにテキスト目標を付与し、4つの候補画像の中からその目標に向けての有効なステップを選択する,Visual Goal-Step Inference (VGSI) タスクを提案する。
我々のデータから学んだ知識は、HowTo100Mのような他のデータセットに効果的に転送できることを示し、多重選択の精度を15%から20%向上させる。
- 参考スコア(独自算出の注目度): 29.901908251322684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Procedural events can often be thought of as a high level goal composed of a
sequence of steps. Inferring the sub-sequence of steps of a goal can help
artificial intelligence systems reason about human activities. Past work in NLP
has examined the task of goal-step inference for text. We introduce the visual
analogue. We propose the Visual Goal-Step Inference (VGSI) task where a model
is given a textual goal and must choose a plausible step towards that goal from
among four candidate images. Our task is challenging for state-of-the-art
muitimodal models. We introduce a novel dataset harvested from wikiHow that
consists of 772,294 images representing human actions. We show that the
knowledge learned from our data can effectively transfer to other datasets like
HowTo100M, increasing the multiple-choice accuracy by 15% to 20%. Our task will
facilitate multi-modal reasoning about procedural events.
- Abstract(参考訳): 手続き的な出来事は、しばしば一連のステップからなる高レベルの目標と考えることができる。
目標のステップのサブシーケンスを推測することは、人工知能システムが人間の活動について推論するのに役立つ。
NLPにおける過去の研究は、テキストのゴールステップ推論の課題を検討した。
視覚的な類似点を紹介する。
モデルにテキスト目標を付与し、4つの候補画像の中からその目標に向けての有効なステップを選択する,Visual Goal-Step Inference (VGSI) タスクを提案する。
我々の仕事は最先端のミューティモーダルモデルでは難しい。
人行動を表す72,294枚の画像からなるwikiHowから抽出した新しいデータセットを紹介した。
我々のデータから学んだ知識は、HowTo100Mのような他のデータセットに効果的に転送できることを示し、多重選択の精度を15%から20%向上させる。
我々のタスクは手続きイベントに関するマルチモーダル推論を促進する。
関連論文リスト
- ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions [66.20773952864802]
我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。
本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
論文 参考訳(メタデータ) (2024-10-17T15:22:57Z) - SAGA: A Participant-specific Examination of Story Alternatives and Goal Applicability for a Deeper Understanding of Complex Events [13.894639630989563]
このような知識は参加者達成レンズを通じて引き出すことができると我々は主張する。
我々は,参加者の意図した成果に基づいて,物語の中の複雑な出来事を分析する。
データセットに微調整された小さなモデルでは、より大きなモデルを上回るパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2024-08-11T14:52:40Z) - Pretrained Language Models as Visual Planners for Human Assistance [12.8775186900555]
Visual Planning for Assistance (VPA)は、ユーザが複雑な多段階目標を達成するためのツールである。
VPAをビデオアクションセグメンテーションと予測に分解する。
この新しいアプローチは、Visual Language Model Based Planner (VLaMP)と呼ばれ、一連のメトリクスでベースラインを上回ります。
論文 参考訳(メタデータ) (2023-04-17T18:07:36Z) - Are All Steps Equally Important? Benchmarking Essentiality Detection of
Events [92.92425231146433]
本稿では,現在のモデルが目標イベントに関連するステップイベントの本質をどの程度理解しているかについて検討する。
コミュニティガイドサイトWikiHowから収集した高品質なペア(ゴール,ステップ)コーパスをコントリビュートする。
高いアノテータ間の合意は、人間が事象の本質について一貫した理解を持っていることを証明している。
論文 参考訳(メタデータ) (2022-10-08T18:00:22Z) - Multimedia Generative Script Learning for Task Planning [58.73725388387305]
我々は,テキストと視覚の両モードの履歴状態を追跡することによって,次のステップを生成するために,マルチメディア生成スクリプト学習という新しいタスクを提案する。
この課題は、画像中の視覚状態をキャプチャするマルチメディアチャレンジ、目に見えないタスクを実行するための誘導チャレンジ、個々のステップで異なる情報をカバーする多様性チャレンジの3つの側面において難しい。
実験の結果,本手法は強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-08-25T19:04:28Z) - Can Foundation Models Perform Zero-Shot Task Specification For Robot
Manipulation? [54.442692221567796]
タスク仕様は、熟練していないエンドユーザの関与とパーソナライズされたロボットの採用に不可欠である。
タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。
そこで本研究では,人間の指定や使用が容易な目標仕様の代替的,より汎用的な形式について検討する。
論文 参考訳(メタデータ) (2022-04-23T19:39:49Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。