論文の概要: Knowledge Distillation for Action Anticipation via Label Smoothing
- arxiv url: http://arxiv.org/abs/2004.07711v2
- Date: Fri, 18 Dec 2020 13:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 21:10:55.049888
- Title: Knowledge Distillation for Action Anticipation via Label Smoothing
- Title(参考訳): ラベル平滑化による行動予測のための知識蒸留
- Authors: Guglielmo Camporese, Pasquale Coscia, Antonino Furnari, Giovanni Maria
Farinella, Lamberto Ballan
- Abstract要約: 視覚的観察や非言語的手がかりから未来を予測できる人間の能力は、インテリジェントなシステムを開発する上で不可欠である。
我々は,長期記憶(LSTM)ネットワークに基づくマルチモーダルフレームワークを実装し,過去の観測を要約し,異なる時間ステップで予測を行う。
実験により,ラベルの平滑化は動作予測のための最先端モデルの性能を体系的に向上することが示された。
- 参考スコア(独自算出の注目度): 21.457069042129138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human capability to anticipate near future from visual observations and
non-verbal cues is essential for developing intelligent systems that need to
interact with people. Several research areas, such as human-robot interaction
(HRI), assisted living or autonomous driving need to foresee future events to
avoid crashes or help people. Egocentric scenarios are classic examples where
action anticipation is applied due to their numerous applications. Such
challenging task demands to capture and model domain's hidden structure to
reduce prediction uncertainty. Since multiple actions may equally occur in the
future, we treat action anticipation as a multi-label problem with missing
labels extending the concept of label smoothing. This idea resembles the
knowledge distillation process since useful information is injected into the
model during training. We implement a multi-modal framework based on long
short-term memory (LSTM) networks to summarize past observations and make
predictions at different time steps. We perform extensive experiments on
EPIC-Kitchens and EGTEA Gaze+ datasets including more than 2500 and 100 action
classes, respectively. The experiments show that label smoothing systematically
improves performance of state-of-the-art models for action anticipation.
- Abstract(参考訳): 視覚観察と非言語的手がかりから近未来を予測する人間の能力は、人と対話する必要があるインテリジェントなシステムを開発するために不可欠である。
HRI(Human-robot Interaction)のようないくつかの研究分野は、衝突を避けたり人を助けるために、将来の出来事を予知する必要がある。
エゴセントリックシナリオは、アクション予測が適用される古典的な例である。
このような困難なタスクは、予測の不確実性を減らすためにドメインの隠れ構造をキャプチャしてモデル化する必要がある。
複数のアクションが将来的に等しく発生する可能性があるため、アクション予測をラベル平滑化の概念を拡張するラベルの欠如によるマルチラベル問題として扱う。
このアイデアは、トレーニング中に有用な情報がモデルに注入されるため、知識蒸留プロセスに似ている。
我々は,長期記憶(LSTM)ネットワークに基づくマルチモーダルフレームワークを実装し,過去の観測を要約し,異なる時間ステップで予測を行う。
2500以上のアクションクラスを含むepic-kitchensとegtea gaze+データセットについて,広範な実験を行った。
実験の結果,ラベル平滑化は行動予測のための最先端モデルの性能を体系的に改善することが示された。
関連論文リスト
- From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - A-ACT: Action Anticipation through Cycle Transformations [89.83027919085289]
未来を予測できる人間の能力が、機械学習アルゴリズムにどのように移行できるかを分析するために、一歩後退します。
人間の心理学に関する最近の研究は、発生を予測して、人間の脳が両方のシステムにカウントされていることを説明している。
本研究では,行動予測作業における各システムの影響について検討し,学習フレームワークに統合するためのパラダイムを導入する。
論文 参考訳(メタデータ) (2022-04-02T21:50:45Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - A Framework for Multisensory Foresight for Embodied Agents [11.351546861334292]
将来の感覚状態を予測することは、ロボット、ドローン、自動運転車などの学習エージェントにとって不可欠である。
本稿では,複数の感覚モーダルを探索行動と組み合わせ,この問題に対処するための予測ニューラルネットワークアーキテクチャを提案する。
このフレームワークは、大規模なオブジェクトに対して9つの動作を複数回実行するヒューマノイドロボット上で、4つの感覚モーダル(ビジョン、触覚、オーディオ、触覚)を含むデータセットでテストされ、検証された。
論文 参考訳(メタデータ) (2021-09-15T20:20:04Z) - Multi-level Motion Attention for Human Motion Prediction [132.29963836262394]
本研究は, 関節, 身体部分, フルポーズレベルなど, 異なる種類の注意力の使用について検討した。
我々は,Human3.6M,AMASS,3DPWを用いて,周期的および非周期的両方の行動に対するアプローチの利点を検証した。
論文 参考訳(メタデータ) (2021-06-17T08:08:11Z) - AC-VRNN: Attentive Conditional-VRNN for Multi-Future Trajectory
Prediction [30.61190086847564]
条件付き変動リカレントニューラルネットワーク(C-VRNN)に基づくマルチフューチャ軌道予測のための生成アーキテクチャを提案する。
ヒューマンインタラクションは、繰り返し推定のオンライン注意深い隠れ状態改善を可能にするグラフベースのアテンションメカニズムでモデル化される。
論文 参考訳(メタデータ) (2020-05-17T17:21:23Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z) - A Novel Graph based Trajectory Predictor with Pseudo Oracle [15.108410951760131]
GTPPOは、歩行者の将来の行動に配慮したエンコーダデコーダに基づく手法である。
ETH、UCY、Stanford Droneのデータセットで評価されている。
論文 参考訳(メタデータ) (2020-02-02T13:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。