論文の概要: Program Generation from Diverse Video Demonstrations
- arxiv url: http://arxiv.org/abs/2302.00178v1
- Date: Wed, 1 Feb 2023 01:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 13:43:23.560131
- Title: Program Generation from Diverse Video Demonstrations
- Title(参考訳): 多様なビデオデモからのプログラム生成
- Authors: Anthony Manchin, Jamie Sherrah, Qi Wu, Anton van den Hengel
- Abstract要約: 複数の観察を総合することは、歴史的に機械が把握するのが困難であったタスクである。
本稿では,要約と翻訳を同時に行うことで,ビデオデモから一般的なルールを抽出できるモデルを提案する。
- 参考スコア(独自算出の注目度): 49.202289347899836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to use inductive reasoning to extract general rules from multiple
observations is a vital indicator of intelligence. As humans, we use this
ability to not only interpret the world around us, but also to predict the
outcomes of the various interactions we experience. Generalising over multiple
observations is a task that has historically presented difficulties for
machines to grasp, especially when requiring computer vision. In this paper, we
propose a model that can extract general rules from video demonstrations by
simultaneously performing summarisation and translation. Our approach differs
from prior works by framing the problem as a multi-sequence-to-sequence task,
wherein summarisation is learnt by the model. This allows our model to utilise
edge cases that would otherwise be suppressed or discarded by traditional
summarisation techniques. Additionally, we show that our approach can handle
noisy specifications without the need for additional filtering methods. We
evaluate our model by synthesising programs from video demonstrations in the
Vizdoom environment achieving state-of-the-art results with a relative increase
of 11.75% program accuracy on prior works
- Abstract(参考訳): インダクティブ推論を用いて複数の観測から一般的な規則を抽出する能力は、インテリジェンスの重要な指標である。
人間として、私たちはこの能力を使って周りの世界を解釈するだけでなく、私たちが経験する様々な相互作用の結果を予測する。
複数の観察を総合することは、特にコンピュータビジョンを必要とする場合、マシンが把握し難いタスクである。
本稿では,要約と翻訳を同時に行うことで,ビデオデモから一般的なルールを抽出できるモデルを提案する。
提案手法は,モデルの要約を学習するマルチシーケンス・ツー・シーケンスタスクとして問題をフレーミングすることによる先行研究とは異なる。
これにより,従来の要約手法によって抑制あるいは破棄されるようなエッジケースを,モデルで利用することが可能になります。
さらに,提案手法では追加のフィルタリング手法を必要とせず,ノイズの多い仕様を処理できることを示す。
我々は,vizdoom環境における実演映像からプログラムを合成し,先行研究における11.75%のプログラム精度を相対的に向上させて評価する。
関連論文リスト
- Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Causalainer: Causal Explainer for Automatic Video Summarization [77.36225634727221]
多くのアプリケーションシナリオにおいて、不適切なビデオ要約は大きな影響を与える可能性がある。
説明可能性のモデリングは重要な関心事です。
Causalainerと呼ばれるCausal Explainerがこの問題に対処するために提案されている。
論文 参考訳(メタデータ) (2023-04-30T11:42:06Z) - Curriculum-Based Imitation of Versatile Skills [15.97723808124603]
模倣による学習スキルは、ロボットの直感的な教育にとって有望な概念である。
このようなスキルを学ぶ一般的な方法は、デモが与えられた可能性の最大化によってパラメトリックモデルを学ぶことである。
しかし、人間のデモンストレーションはしばしばマルチモーダルであり、同じタスクは複数の方法で解決される。
論文 参考訳(メタデータ) (2023-04-11T12:10:41Z) - Extraneousness-Aware Imitation Learning [25.60384350984274]
Extraneousness-Aware Learning (EIL)は、外部サブシーケンスを用いた第三者によるデモンストレーションから、ビズモタポリシーを学ぶ。
EILは、自己監督された方法で行動条件付き観察埋め込みを学習し、視覚的なデモンストレーション全体にわたってタスク関連観測を検索する。
実験の結果、EILは強いベースラインを上回り、完璧なデモで訓練した人たちと同等のポリシーを達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-04T04:42:26Z) - The Surprising Effectiveness of Representation Learning for Visual
Imitation [12.60653315718265]
本稿では,視覚模倣のための行動学習から表現学習を分離することを提案する。
まず、標準教師付きおよび自己教師付き学習手法を用いて、オフラインデータから視覚表現エンコーダを学習する。
この単純なデカップリングにより、オフラインのデモデータセットと実ロボットドア開口の両方における視覚模倣モデルの性能が、以前の視覚模倣よりも向上することが実験的に示されている。
論文 参考訳(メタデータ) (2021-12-02T18:58:09Z) - Robust Maximum Entropy Behavior Cloning [15.713997170792842]
模倣学習(il)アルゴリズムは、特定のタスクを学ぶために専門家のデモンストレーションを使用する。
既存のアプローチのほとんどは、すべての専門家によるデモンストレーションは信頼性と信頼性を前提としていますが、もし与えられたデータセットに敵対的なデモが存在するとしたらどうでしょう?
敵対するデモを自律的に検出し、データセットから除外するデモからポリシーを直接生成する、新しい一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-04T22:08:46Z) - Realistic Video Summarization through VISIOCITY: A New Benchmark and
Evaluation Framework [15.656965429236235]
いくつかの課題に対処することで,ビデオの自動要約をより現実的にするための一歩を踏み出した。
まず、現在利用可能なデータセットは、非常に短いビデオを持っているか、特定のタイプのビデオしか持たない。
6つのカテゴリにまたがる長いビデオからなる新しいベンチマークデータセットVISIOCITYを導入する。
論文 参考訳(メタデータ) (2020-07-29T02:44:35Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - Evolving Losses for Unsupervised Video Representation Learning [91.2683362199263]
大規模未ラベル映像データから映像表現を学習する新しい手法を提案する。
提案した教師なし表現学習では,単一のRGBネットワークが実現し,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-02-26T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。