論文の概要: Analysis of Latent-Space Motion for Collaborative Intelligence
- arxiv url: http://arxiv.org/abs/2102.04018v1
- Date: Mon, 8 Feb 2021 06:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-02-09 20:27:17.842959
- Title: Analysis of Latent-Space Motion for Collaborative Intelligence
- Title(参考訳): 協調知能のための潜時空間運動の解析
- Authors: Mateen Ulhaq, Ivan V. Baji\'c
- Abstract要約: 特徴テンソルの各チャネルに存在する動きは、入力運動のスケールされたバージョンとほぼ等しいことを示す。
結果はコラボレーティブインテリジェンスアプリケーションに役立ちます。
- 参考スコア(独自算出の注目度): 26.24508656138528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When the input to a deep neural network (DNN) is a video signal, a sequence
of feature tensors is produced at the intermediate layers of the model. If
neighboring frames of the input video are related through motion, a natural
question is, "what is the relationship between the corresponding feature
tensors?" By analyzing the effect of common DNN operations on optical flow, we
show that the motion present in each channel of a feature tensor is
approximately equal to the scaled version of the input motion. The analysis is
validated through experiments utilizing common motion models. %These results
will be useful in collaborative intelligence applications where sequences of
feature tensors need to be compressed or further analyzed.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)への入力がビデオ信号である場合、モデルの中間層で特徴テンソルのシーケンスが生成される。
入力ビデオの隣接するフレームが動きによって関連している場合、自然な質問は「対応する特徴テンソル間の関係は何ですか?
一般的なDNN動作が光学的流れに与える影響を解析することにより、特徴テンソルの各チャネルに存在する動きが入力運動のスケールされたバージョンとほぼ等しいことを示す。
この解析は、共通の運動モデルを用いた実験によって検証される。
これらの結果は、機能テンソルのシーケンスを圧縮またはさらに分析する必要があるコラボレーションインテリジェンスアプリケーションで有用です。
関連論文リスト
- Multi-Modal Gesture Recognition from Video and Surgical Tool Pose Information via Motion Invariants [9.77463802740227]
外科的ジェスチャーをリアルタイムで認識することは、自動化された活動認識、スキルアセスメント、術中援助、そして最終的には外科的自動化への一歩である。
マルチモーダルニューラルネットワークにおける最近の研究では、視覚とキネマティクスのデータの関係が学習されているが、現在のアプローチでは、キネマティクス情報を独立した信号として扱うことができ、ツールチップのポーズには基礎的な関係はない。
JIGSAWSサチューリングデータセットにおいて、不変信号とツール位置を組み合わせることにより、ジェスチャー認識が90.3%の精度で向上することを示す。
論文 参考訳(メタデータ) (2025-03-19T19:02:58Z) - Equivariant Graph Neural Operator for Modeling 3D Dynamics [148.98826858078556]
我々は,次のステップの予測ではなく,ダイナミックスを直接トラジェクトリとしてモデル化するために,Equivariant Graph Neural Operator (EGNO)を提案する。
EGNOは3次元力学の時間的進化を明示的に学習し、時間とともに関数として力学を定式化し、それを近似するためにニューラル演算子を学習する。
粒子シミュレーション、人間のモーションキャプチャー、分子動力学を含む複数の領域における総合的な実験は、既存の手法と比較して、EGNOの極めて優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-19T21:50:32Z) - Dynamic Tensor Decomposition via Neural Diffusion-Reaction Processes [24.723536390322582]
テンソル分解は マルチウェイデータ解析の 重要なツールです
動的EMbedIngs fOr Dynamic Algorithm dEcomposition (DEMOTE)を提案する。
シミュレーション研究と実世界の応用の両方において,本手法の利点を示す。
論文 参考訳(メタデータ) (2023-10-30T15:49:45Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - Relational Self-Attention: What's Missing in Attention for Video
Understanding [52.38780998425556]
リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。
我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2021-11-02T15:36:11Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Tensor Representations for Action Recognition [54.710267354274194]
シーケンスにおける人間の行動は、空間的特徴とその時間的ダイナミクスの複雑な相互作用によって特徴づけられる。
アクション認識タスクの視覚的特徴間の高次関係を捉えるための新しいテンソル表現を提案する。
我々は,高次テンソルといわゆる固有値パワー正規化(NEP)を用いて,高次事象のスペクトル検出を行う。
論文 参考訳(メタデータ) (2020-12-28T17:27:18Z) - On the eigenvector bias of Fourier feature networks: From regression to
solving multi-scale PDEs with physics-informed neural networks [0.0]
ニューラルネットワーク(PINN)は、目標関数を近似する場合には、高周波またはマルチスケールの特徴を示す。
マルチスケールなランダムな観測機能を備えた新しいアーキテクチャを構築し、そのような座標埋め込み層が堅牢で正確なPINNモデルにどのように結びつくかを正当化します。
論文 参考訳(メタデータ) (2020-12-18T04:19:30Z) - MotionSqueeze: Neural Motion Feature Learning for Video Understanding [46.82376603090792]
モーションはビデオを理解する上で重要な役割を担い、ビデオ分類のための最先端のニューラルモデルにはモーション情報が含まれる。
本研究では,光学流の外部および重い計算を内部および軽量な運動特徴学習に置き換える。
提案手法は,アクション認識のための4つの標準ベンチマークにおいて,少ない追加コストで大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2020-07-20T08:30:14Z) - Understanding Recurrent Neural Networks Using Nonequilibrium Response
Theory [5.33024001730262]
リカレントニューラルネットワーク(Recurrent Neural Network, RNN)は、シーケンシャルデータの解析に機械学習で広く使用される脳モデルである。
非平衡統計力学からの応答理論を用いてRNNが入力信号を処理する方法を示す。
論文 参考訳(メタデータ) (2020-06-19T10:09:09Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。