論文の概要: Action sequencing using visual permutations
- arxiv url: http://arxiv.org/abs/2008.01156v2
- Date: Fri, 5 Feb 2021 02:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:06:47.386429
- Title: Action sequencing using visual permutations
- Title(参考訳): 視覚的置換を用いた行動シーケンシング
- Authors: Michael Burke, Kartic Subr, Subramanian Ramamoorthy
- Abstract要約: この研究は、単一の参照視覚状態で条件付けられたニューラルアクションシークエンシングのタスクについて考察する。
本稿では、置換の観点から、置換と順序付けの概念の両方について推論できることから、アクションシークエンシングの利点を論じる。
- 参考スコア(独自算出の注目度): 19.583283039057505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can easily reason about the sequence of high level actions needed to
complete tasks, but it is particularly difficult to instil this ability in
robots trained from relatively few examples. This work considers the task of
neural action sequencing conditioned on a single reference visual state. This
task is extremely challenging as it is not only subject to the significant
combinatorial complexity that arises from large action sets, but also requires
a model that can perform some form of symbol grounding, mapping high
dimensional input data to actions, while reasoning about action relationships.
This paper takes a permutation perspective and argues that action sequencing
benefits from the ability to reason about both permutations and ordering
concepts. Empirical analysis shows that neural models trained with latent
permutations outperform standard neural architectures in constrained action
sequencing tasks. Results also show that action sequencing using visual
permutations is an effective mechanism to initialise and speed up traditional
planning techniques and successfully scales to far greater action set sizes
than models considered previously.
- Abstract(参考訳): 人間はタスクを完了させるために必要なハイレベルなアクションのシーケンスを容易に推論できるが、比較的少数の例から訓練されたロボットでは特にこの能力を利用するのは難しい。
本研究は、単一の参照視覚状態上で条件付けられた神経行動シーケンシングのタスクを考察する。
このタスクは、大きなアクションセットから生じる重要な組合せの複雑さの影響を受けるだけでなく、何らかの形のシンボルグラウンドを実行し、高次元の入力データをアクションにマッピングし、アクション関係を推論できるモデルを必要とするため、非常に困難である。
本稿では,順列化の観点から,順列化は順列化と順序付けの概念の両方を推論する能力から得られると論じる。
経験的分析により、潜在順列で訓練されたニューラルモデルは、制約付きアクションシーケンシングタスクにおいて標準的なニューラルアーキテクチャよりも優れていることが示されている。
また、視覚的置換を用いたアクションシーケンシングは、従来の計画手法を初期化・高速化する効果的なメカニズムであり、従来考えられていたモデルよりもはるかに大きなアクションセットサイズにスケールすることに成功した。
関連論文リスト
- SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - Continuous-time convolutions model of event sequences [46.3471121117337]
イベントシーケンスは不均一でスパースであり、従来のモデルは不適当である。
我々は、時間とともに一様でない事象の発生を処理するために設計された効率的な畳み込みニューラルネットワークに基づくCOTICを提案する。
COTICは、次のイベント時間とタイプを予測する際に既存のモデルよりも優れており、最も近いライバルの3.714と比較して平均1.5のランクに達している。
論文 参考訳(メタデータ) (2023-02-13T10:34:51Z) - Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。
タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。
これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-08T05:50:53Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Consequence-aware Sequential Counterfactual Generation [5.71097144710995]
逐次的反事実生成のためのモデル非依存手法を提案する。
私たちのアプローチは、コストの少ないソリューションを生み出し、より効率的で、ユーザが選択するさまざまなソリューションセットを提供します。
論文 参考訳(メタデータ) (2021-04-12T16:10:03Z) - Efficient and Interpretable Robot Manipulation with Graph Neural
Networks [7.799182201815763]
グラフニューラルネットワーク(GNN)を用いて、グラフ上の操作として操作タスクを表現する。
我々の定式化はまず環境をグラフ表現に変換し、次に訓練されたgnnポリシーを適用してどのオブジェクトを操作するかを予測する。
私たちのgnnポリシーは、単純なタスクの専門的なデモンストレーションを使用してトレーニングされ、環境内のオブジェクトの数と構成を一般化しています。
本稿では,学習したGNNポリシがシミュレーションと実ハードウェアの両方で様々なブロックタッキングタスクを解くことができることを示す実験を提案する。
論文 参考訳(メタデータ) (2021-02-25T21:09:12Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Deep Visual Reasoning: Learning to Predict Action Sequences for Task and
Motion Planning from an Initial Scene Image [43.05971157389743]
本稿では,タスク・アンド・モーション・プランニング(TAMP)の動作シーケンスを初期シーン画像から予測する深部畳み込みリカレントニューラルネットワークを提案する。
重要な側面として、我々の手法は、一度に2つのオブジェクトでしか訓練されないにもかかわらず、多数の異なるオブジェクトを持つシーンに一般化する。
論文 参考訳(メタデータ) (2020-06-09T16:52:02Z) - Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。
我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文 参考訳(メタデータ) (2020-04-28T00:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。