このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200812となっている論文です。

PDF登録状況(公開日: 20200812)

TitleAuthorsAbstract論文公表日・翻訳日
# カルマンフィルタと期待最大化による多時間スペクトルアンミキシング

Kalman Filtering and Expectation Maximization for Multitemporal Spectral Unmixing ( http://arxiv.org/abs/2001.00425v2 )

ライセンス: Link先を確認
Ricardo Augusto Borsoi, Tales Imbiriba, Pau Closas, Jos\'e Carlos Moreira Bermudez, C\'edric Richard(参考訳) 近年のハイパースペクトラルイメージング技術の発展と新たな応用の急増は、複数の時間的ハイパースペクトラル画像の処理を迫られている。 本研究では、物理的動機付けされたパラメトリックな終端表現を用いて、時間的スペクトル変動を考慮したスペクトルアンミックス(SU)戦略を提案する。 状態空間の定式化を用いて多時間混合過程を表現することにより,ベイズフィルタ機構を有効利用し,終端変動係数を推定することができる。 さらに、有効量の時間的変動が短い間隔で小さいと仮定することで、有効量および他のモデルパラメータを推定するために、期待最大化(em)アルゴリズムの効率的な実装が用いられる。 シミュレーションの結果,提案手法は最先端のマルチテンポラルSUアルゴリズムより優れていることが示された。

The recent evolution of hyperspectral imaging technology and the proliferation of new emerging applications presses for the processing of multiple temporal hyperspectral images. In this work, we propose a novel spectral unmixing (SU) strategy using physically motivated parametric endmember representations to account for temporal spectral variability. By representing the multitemporal mixing process using a state-space formulation, we are able to exploit the Bayesian filtering machinery to estimate the endmember variability coefficients. Moreover, by assuming that the temporal variability of the abundances is small over short intervals, an efficient implementation of the expectation maximization (EM) algorithm is employed to estimate the abundances and the other model parameters. Simulation results indicate that the proposed strategy outperforms state-of-the-art multitemporal SU algorithms.
翻訳日:2023-01-16 04:41:34 公開日:2020-08-12
# 単一光子アバランシェダイオードカメラによる画像絡み合い相関

Imaging entanglement correlations with a single-photon avalanche diode camera ( http://arxiv.org/abs/2001.03997v4 )

ライセンス: Link先を確認
Bienvenu Ndagano, Hugo Defienne, Ashley Lyons, Ilya Starshynov, Federica Villa, Simone Tisa, and Daniele Faccio(参考訳) 2つの光子間の空間相関は、多くの量子イメージングスキームを実現する上で重要な資源である。 双光子相関マップの測定は通常、CCD技術に基づいた単点走査検出器または単光子カメラを用いて行われる。 しかし,CCDカメラのスロースキャンとフレームレートの低さにより,両手法とも速度が制限され,データ取得時間が長い。 ここでは、高フレームレートの単光子アバランシェダイオード(SPAD)カメラを用いて、自発パラメトリックダウンコンバージョンによって生じる双光子状態の空間的結合確率分布を測定し、わずか140秒で10^7$のフレームが得られた。 我々は,アインシュタイン・ポドルスキー・ローゼン基準に違反した光子対間の空間的絡み合いの存在を227シグマで検証した。 我々の研究は、光子相関の迅速な特徴化におけるSPADカメラの可能性を示し、リアルタイムの量子イメージングへの道のりを導いた。

Spatial correlations between two photons are the key resource in realising many quantum imaging schemes. Measurement of the bi-photon correlation map is typically performed using single-point scanning detectors or single-photon cameras based on CCD technology. However, both approaches are limited in speed due to the slow scanning and the low frame-rate of CCD-based cameras, resulting in data acquisition times on the order of many hours. Here we employ a high frame rate, single photon avalanche diode (SPAD) camera, to measure the spatial joint probability distribution of a bi-photon state produced by spontaneous parametric down-conversion, with statistics taken over $10^7$ frames acquired in just 140 seconds. We verified the presence of spatial entanglement between our photon pairs through the violation of an Einstein-Podolsky-Rosen criterion, with a confidence level of 227 sigmas. Our work demonstrates the potential of SPAD cameras in the rapid characterisation of photon correlations, leading the way towards quantum imaging in real-time.
翻訳日:2023-01-12 05:00:06 公開日:2020-08-12
# VAEを用いたフラット潜在多様体の学習

Learning Flat Latent Manifolds with VAEs ( http://arxiv.org/abs/2002.04881v3 )

ライセンス: Link先を確認
Nutan Chen, Alexej Klushyn, Francesco Ferroni, Justin Bayer, Patrick van der Smagt(参考訳) データポイント間の類似度を測定するには、しばしばドメイン知識を必要とするが、これは、よりコンパクトな潜在空間において類似度/距離が推定される潜在変数モデルのような教師なしの手法に依存することで補うことができる。 これはデコーダに格納されているデータの類似性に関する情報を無視し、リーマン幾何学の枠組みによって捉えられるという欠点である。 本稿では、ユークリッド計量がデータ点間の類似性の指標となるような平坦な潜在多様体を学習できる変分オートエンコーダの枠組みの拡張を提案する。 これは、潜在空間をリーマン多様体として定義し、計量テンソルをスケールド恒等行列として正則化することで達成される。 さらに、変分オートエンコーダで一般的に使用されるコンパクトな先行処理を、より表現力のある階層的な1つに置き換え、制約付き最適化問題として学習問題を定式化する。 本手法は,ビデオ追跡ベンチマークを含む様々なデータセット上で評価し,教師なし手法の性能は,直線的手法の計算効率を保ちつつ,最先端の教師付き手法に近づいた。

Measuring the similarity between data points often requires domain knowledge, which can in parts be compensated by relying on unsupervised methods such as latent-variable models, where similarity/distance is estimated in a more compact latent space. Prevalent is the use of the Euclidean metric, which has the drawback of ignoring information about similarity of data stored in the decoder, as captured by the framework of Riemannian geometry. We propose an extension to the framework of variational auto-encoders allows learning flat latent manifolds, where the Euclidean metric is a proxy for the similarity between data points. This is achieved by defining the latent space as a Riemannian manifold and by regularising the metric tensor to be a scaled identity matrix. Additionally, we replace the compact prior typically used in variational auto-encoders with a recently presented, more expressive hierarchical one---and formulate the learning problem as a constrained optimisation problem. We evaluate our method on a range of data-sets, including a video-tracking benchmark, where the performance of our unsupervised approach nears that of state-of-the-art supervised approaches, while retaining the computational efficiency of straight-line-based approaches.
翻訳日:2023-01-01 19:21:48 公開日:2020-08-12
# 緊急時の自動車と人間の対話行動:交通事故映像からのデータ抽出

Vehicle-Human Interactive Behaviors in Emergency: Data Extraction from Traffic Accident Videos ( http://arxiv.org/abs/2003.02059v2 )

ライセンス: Link先を確認
Wansong Liu, Danyang Luo, Changxu Wu, Minghui Zheng(参考訳) 現在、緊急時の車両と人間の対話行動を研究するには、ほとんど利用できない実際の緊急状況において大量のデータセットが必要である。 既存の自動運転車(AV)の公共データソースは主に通常の運転シナリオか、人間の関与なしに緊急状況に焦点を当てている。 このギャップを埋め、関連する研究を容易にするために、監視カメラと運転記録装置の両方で撮影された実際の事故映像から、インタラクティブな行動データ(すなわち車両と人間の軌跡)を抽出するための、新しい、かつ便利な方法を提案する。 リアルタイム事故映像からのデータ抽出の最大の課題は、記録カメラが非対応であり、監視の角度が不明であることだ。 本稿では,従来の映像と異なる新たな視点を得るために,画像処理を用いたアプローチを提案する。 一方,各画像フレームの物体特徴点を手作業で検出・マークする。 基準比の勾配を得るために、基準画素値の解析に幾何学モデルを実装し、比の勾配に基づいて特徴点を対象軌道にスケールする。 生成した軌道は、物体の動きを完全に復元するだけでなく、特徴点分布に基づいて車両の速度と回転の変化を反映する。

Currently, studying the vehicle-human interactive behavior in the emergency needs a large amount of datasets in the actual emergent situations that are almost unavailable. Existing public data sources on autonomous vehicles (AVs) mainly focus either on the normal driving scenarios or on emergency situations without human involvement. To fill this gap and facilitate related research, this paper provides a new yet convenient way to extract the interactive behavior data (i.e., the trajectories of vehicles and humans) from actual accident videos that were captured by both the surveillance cameras and driving recorders. The main challenge for data extraction from real-time accident video lies in the fact that the recording cameras are un-calibrated and the angles of surveillance are unknown. The approach proposed in this paper employs image processing to obtain a new perspective which is different from the original video's perspective. Meanwhile, we manually detect and mark object feature points in each image frame. In order to acquire a gradient of reference ratios, a geometric model is implemented in the analysis of reference pixel value, and the feature points are then scaled to the object trajectory based on the gradient of ratios. The generated trajectories not only restore the object movements completely but also reflect changes in vehicle velocity and rotation based on the feature points distributions.
翻訳日:2022-12-27 06:07:50 公開日:2020-08-12
# 深部半教師付き変形性膝関節症に対するsemixup : in-out-of-manifold regularization

Semixup: In- and Out-of-Manifold Regularization for Deep Semi-Supervised Knee Osteoarthritis Severity Grading from Plain Radiographs ( http://arxiv.org/abs/2003.01944v3 )

ライセンス: Link先を確認
Huy Hoang Nguyen, Simo Saarakkala, Matthew Blaschko, Aleksei Tiulpin(参考訳) 変形性膝関節症(OA)は世界で最も高い障害因子の一つである。 この筋骨格障害は臨床症状から評価され、通常は放射線学的評価によって確認される。 放射線科医が行うこの視覚的評価は経験を必要とし、中程度から高いオブザーバー間変動に苦しむ。 近年の文献では、Kelgren-Lawrence(KL)グレーディングシステムにより、深層学習法がOA重度評価を確実に行えることが示されている。 しかし、これらの手法には大量のラベル付きデータが必要である。 本研究では、ラベルのないデータを活用するための半教師付き学習(SSL)手法であるSemixupアルゴリズムを提案する。 semixupは、inand out-of-manifoldサンプルを使った一貫性の正規化と、補間された一貫性に依存している。 独立したテストセットでは、ほとんどの場合、我々の手法は最先端のSSLメソッドよりも大幅に優れていた。 最後に、バランスの取れた精度(ba)をテストセットで70.9\pm0.8%$とした十分に調整された完全教師付きベースラインと比較すると、semixupは711\pm0.8%$$(p=0.368)$であり、ラベル付きデータには6ドル以下のデータが必要だった。 これらの結果から,提案手法は,研究環境外で利用可能なデータセットを用いて,完全自動OA重大度評価ツールを構築することを可能にする。

Knee osteoarthritis (OA) is one of the highest disability factors in the world. This musculoskeletal disorder is assessed from clinical symptoms, and typically confirmed via radiographic assessment. This visual assessment done by a radiologist requires experience, and suffers from moderate to high inter-observer variability. The recent literature has shown that deep learning methods can reliably perform the OA severity assessment according to the gold standard Kellgren-Lawrence (KL) grading system. However, these methods require large amounts of labeled data, which are costly to obtain. In this study, we propose the Semixup algorithm, a semi-supervised learning (SSL) approach to leverage unlabeled data. Semixup relies on consistency regularization using in- and out-of-manifold samples, together with interpolated consistency. On an independent test set, our method significantly outperformed other state-of-the-art SSL methods in most cases. Finally, when compared to a well-tuned fully supervised baseline that yielded a balanced accuracy (BA) of $70.9\pm0.8%$ on the test set, Semixup had comparable performance -- BA of $71\pm0.8%$ $(p=0.368)$ while requiring $6$ times less labeled data. These results show that our proposed SSL method allows building fully automatic OA severity assessment tools with datasets that are available outside research settings.
翻訳日:2022-12-26 12:59:30 公開日:2020-08-12
# コミュニケーション効率の良い大規模UAVオンラインパス制御:フェデレートラーニングと平均ゲーム理論

Communication-Efficient Massive UAV Online Path Control: Federated Learning Meets Mean-Field Game Theory ( http://arxiv.org/abs/2003.04451v2 )

ライセンス: Link先を確認
Hamid Shiri, Jihong Park, and Mehdi Bennis(参考訳) 本稿では,ドローンなど多数のuavの制御について検討する。 uavの制御は、それら間の相互作用を考慮し、群れを作るための簡単な方法であり、リアルタイムアプリケーションでは実装できない巨大なuav間通信を必要とする。 1つの制御方法は、UAV間の通信を大幅に削減する平均フィールドゲーム(MFG)フレームワークを適用することである。 しかし、この枠組みを実現するために、強力なプロセッサは異なるUAVにおける制御法則を得る必要がある。 この要件は、大規模なUAV制御のようなリアルタイムアプリケーションに対するMFGフレームワークの使用を制限する。 そこで,ニューラルネットワーク(nn)に基づく関数近似器を用いて,ハミルトン・ヤコビ・ベルマン方程式(hjb)とフォッカー・プランク・コルモゴロフ方程式(fpk)の解を近似する。 それでも、近似解を用いることで、MFGフレームワークの収束条件を破ることができる。 したがって、ドローンにおけるNNのモデルパラメータを共有できるフェデレートラーニング(FL)アプローチは、要求条件を満たすためにNNベースのMFGを用いて提案される。 NNベースのMFG手法の安定性解析を行い,提案するFL-MFGの性能をシミュレーションにより詳細に検討した。

This paper investigates the control of a massive population of UAVs such as drones. The straightforward method of control of UAVs by considering the interactions among them to make a flock requires a huge inter-UAV communication which is impossible to implement in real-time applications. One method of control is to apply the mean-field game (MFG) framework which substantially reduces communications among the UAVs. However, to realize this framework, powerful processors are required to obtain the control laws at different UAVs. This requirement limits the usage of the MFG framework for real-time applications such as massive UAV control. Thus, a function approximator based on neural networks (NN) is utilized to approximate the solutions of Hamilton-Jacobi-Bellman (HJB) and Fokker-Planck-Kolmogorov (FPK) equations. Nevertheless, using an approximate solution can violate the conditions for convergence of the MFG framework. Therefore, the federated learning (FL) approach which can share the model parameters of NNs at drones, is proposed with NN based MFG to satisfy the required conditions. The stability analysis of the NN based MFG approach is presented and the performance of the proposed FL-MFG is elaborated by the simulations.
翻訳日:2022-12-25 09:40:22 公開日:2020-08-12
# TF-IDFC-RF:新しい改訂項重み付け方式

TF-IDFC-RF: A Novel Supervised Term Weighting Scheme ( http://arxiv.org/abs/2003.07193v2 )

ライセンス: Link先を確認
Flavio Carvalho and Gustavo Paiva Guedes(参考訳) 感情分析は、通常バイナリ分類タスクと見なされる感情コンピューティングの一分野である。 この推論では、映画レビューや皮肉など、テキストサンプルで表現される態度を分類するために、感情分析をいくつかの文脈で適用することができる。 テキストサンプルを表現する一般的なアプローチは、項の重みからなる数値的特徴ベクトルを計算するためにベクトル空間モデルを使用することである。 最も一般的な用語重み付け方式はtf-idf(term frequency - inverse document frequency)である。 用語の重み付けにおいてクラス情報を考慮しないため、Unsupervised Weighting Scheme (UWS) である。 それとは別に、項重み付け計算のクラス情報を検討するSupervised Weighting Schemes (SWS)がある。 TF-IDFよりも優れた結果を示すいくつかのSWSが最近提案されている。 このシナリオでは、異なる用語重み付け方式の比較研究を行い、TF-IDFC-RF(Term Frequency - Inverse Document Frequency in Class - Relevance Frequency)と呼ばれる新しい用語重み付け方式を提案する。 SVM (Support Vector Machine) と NB (Naive Bayes) の分類器を用いて, TF-IDFC-RFの有効性を検証した。 TF-IDFC-RFは有望な結果を示し、他の重み付けスキームを2つのデータセットで上回る。

Sentiment Analysis is a branch of Affective Computing usually considered a binary classification task. In this line of reasoning, Sentiment Analysis can be applied in several contexts to classify the attitude expressed in text samples, for example, movie reviews, sarcasm, among others. A common approach to represent text samples is the use of the Vector Space Model to compute numerical feature vectors consisting of the weight of terms. The most popular term weighting scheme is TF-IDF (Term Frequency - Inverse Document Frequency). It is an Unsupervised Weighting Scheme (UWS) since it does not consider the class information in the weighting of terms. Apart from that, there are Supervised Weighting Schemes (SWS), which consider the class information on term weighting calculation. Several SWS have been recently proposed, demonstrating better results than TF-IDF. In this scenario, this work presents a comparative study on different term weighting schemes and proposes a novel supervised term weighting scheme, named as TF-IDFC-RF (Term Frequency - Inverse Document Frequency in Class - Relevance Frequency). The effectiveness of TF-IDFC-RF is validated with SVM (Support Vector Machine) and NB (Naive Bayes) classifiers on four commonly used Sentiment Analysis datasets. TF-IDFC-RF shows promising results, outperforming all other weighting schemes on two datasets.
翻訳日:2022-12-24 14:22:54 公開日:2020-08-12
# 構造工学のシミュレーションと設計を学ぶ

Learning to simulate and design for structural engineering ( http://arxiv.org/abs/2003.09103v3 )

ライセンス: Link先を確認
Kai-Hung Chang (1), Chin-Yi Cheng (1) ((1) Autodesk Research)(参考訳) 建物の構造設計プロセスは時間がかかり、手間がかかる。 このプロセスを自動化するために、構造エンジニアは最適化手法とシミュレーションツールを組み合わせて、建築規制の対象となる最小限の建築質量で最適な設計を見つける。 しかし、実際には構造エンジニアは、設計スペースの大規模化、最適化手法の反復的性質、遅いシミュレーションツールなどにより、ほとんどの建物のサブ最適設計の最適化や妥協を避けることが多い。 本研究では,建物構造をグラフとして定式化し,事前学習可能な構造シミュレータを用いて,柱と梁の最適断面を学習するエンド・ツー・エンドパイプラインを作成する。 提案する構造設計の性能は、遺伝的アルゴリズム(ga)によって最適化されたものと同等であり、全ての制約を満たしている。 建築重量を削減した最適構造設計は、材料コストを下げるだけでなく、炭素フットプリントを下げることもできる。

The structural design process for buildings is time-consuming and laborious. To automate this process, structural engineers combine optimization methods with simulation tools to find an optimal design with minimal building mass subject to building regulations. However, structural engineers in practice often avoid optimization and compromise on a suboptimal design for the majority of buildings, due to the large size of the design space, the iterative nature of the optimization methods, and the slow simulation tools. In this work, we formulate the building structures as graphs and create an end-to-end pipeline that can learn to propose the optimal cross-sections of columns and beams by training together with a pre-trained differentiable structural simulator. The performance of the proposed structural designs is comparable to the ones optimized by genetic algorithm (GA), with all the constraints satisfied. The optimal structural design with the reduced the building mass can not only lower the material cost, but also decrease the carbon footprint.
翻訳日:2022-12-21 21:57:58 公開日:2020-08-12
# 両プラナーX線画像からの膝骨の3次元再構成のための終端畳み込みニューラルネットワーク

End-To-End Convolutional Neural Network for 3D Reconstruction of Knee Bones From Bi-Planar X-Ray Images ( http://arxiv.org/abs/2004.00871v2 )

ライセンス: Link先を確認
Yoni Kasten, Daniel Doktofsky and Ilya Kovler(参考訳) 両平面X線画像から直接膝骨を3次元再構成するためのエンドツーエンド畳み込みニューラルネットワーク(CNN)を提案する。 臨床的には, 骨の3dモデル撮影は手術計画, インプラント装着, 術後評価に不可欠である。 X線イメージングは、コンピュータ断層撮影(CT)と比較して、電離放射線に対する患者の露出を著しく減少させ、磁気共鳴イメージング(MRI)スキャナーよりもずっと一般的で安価である。 しかし、このような2Dスキャンから3Dモデルを取得することは極めて困難である。 各骨の形状を統計的にモデル化する一般的なアプローチとは対照的に、深層ネットワークはトレーニング画像から直接骨の形状の分布を学習する。 我々は,CTスキャンから生成されたDigitally Reconstructed Radiograph (DRR)画像を用いて,教師なしと教師なしの両方の損失でモデルを訓練する。 X線データにモデルを適用するために,X線とDRRのモダリティの変換にスタイル転送を用いる。 その結果, 実験時には, さらなる最適化を行わず, 幾何的な制約を保ちながら, 双平面x線画像から直接3次元再構成を行う。 以上の結果から,深層学習モデルは非常に効率的であり,汎用性が高く,高品質な再構築が期待できることがわかった。

We present an end-to-end Convolutional Neural Network (CNN) approach for 3D reconstruction of knee bones directly from two bi-planar X-ray images. Clinically, capturing the 3D models of the bones is crucial for surgical planning, implant fitting, and postoperative evaluation. X-ray imaging significantly reduces the exposure of patients to ionizing radiation compared to Computer Tomography (CT) imaging, and is much more common and inexpensive compared to Magnetic Resonance Imaging (MRI) scanners. However, retrieving 3D models from such 2D scans is extremely challenging. In contrast to the common approach of statistically modeling the shape of each bone, our deep network learns the distribution of the bones' shapes directly from the training images. We train our model with both supervised and unsupervised losses using Digitally Reconstructed Radiograph (DRR) images generated from CT scans. To apply our model to X-Ray data, we use style transfer to transform between X-Ray and DRR modalities. As a result, at test time, without further optimization, our solution directly outputs a 3D reconstruction from a pair of bi-planar X-ray images, while preserving geometric constraints. Our results indicate that our deep learning model is very efficient, generalizes well and produces high quality reconstructions.
翻訳日:2022-12-17 13:15:33 公開日:2020-08-12
# ロバストなシャッフルプライバシーとパンプライバシーを結びつける

Connecting Robust Shuffle Privacy and Pan-Privacy ( http://arxiv.org/abs/2004.09481v4 )

ライセンス: Link先を確認
Victor Balcer, Albert Cheu, Matthew Joseph, and Jieming Mao(参考訳) 差分プライバシの‘emph{shuffle model’では、データ保持ユーザはセキュアなシャフラーにランダム化されたメッセージを送信し、シャフラーはメッセージを置換し、その結果のメッセージの集合はユーザデータに関して微分プライベートでなければならない。 emph{pan-private}モデルでは、アルゴリズムはストリームデータに関して差分プライベートな内部状態を維持しながら、データのストリームを処理する。 これら2つのモデルをつなぐ証拠を与えます。 弊社の結果は、プライバシー保証が悪意のあるユーザの影響を大きく受けていないプライベートプロトコルのシャッフルに焦点が当てられている。 まず、異なる要素を数えるための厳密なシャッフルなプライベートプロトコルと上限を与え、一様性テストを行う。 第二に、両問題に対するプライベートなローバウンドを頑健にシャッフルすることを示すために、パンプライベートなローバウンドを用いる。 ドメインサイズへの依存に着目すると、堅牢なシャッフルプライバシと近似パンプライバシーは、異なる要素を数えるための加算誤差$\theta(\sqrt{k})$を持つことが分かる。 均一性テストでは、サンプル複雑性$\tilde O(k^{2/3})$でロバストな近似シャッフルプライベートプロトコルを提供し、ロバストな純粋なシャッフルプライベートテスターには$\Omega(k^{2/3})$依存が必要であることを示す。 最後に、この接続は両方の方向において有用であることを示す: シャッフルプライベートヒストグラムに関する最近の研究をパンプライベートに適応させ、パンプライベートとインタラクティブなローカルプライバシの間のさらなる分離を回復するためにそれを利用する。

In the \emph{shuffle model} of differential privacy, data-holding users send randomized messages to a secure shuffler, the shuffler permutes the messages, and the resulting collection of messages must be differentially private with regard to user data. In the \emph{pan-private} model, an algorithm processes a stream of data while maintaining an internal state that is differentially private with regard to the stream data. We give evidence connecting these two apparently different models. Our results focus on \emph{robustly} shuffle private protocols, whose privacy guarantees are not greatly affected by malicious users. First, we give robustly shuffle private protocols and upper bounds for counting distinct elements and uniformity testing. Second, we use pan-private lower bounds to prove robustly shuffle private lower bounds for both problems. Focusing on the dependence on the domain size $k$, we find that robust approximate shuffle privacy and approximate pan-privacy have additive error $\Theta(\sqrt{k})$ for counting distinct elements. For uniformity testing, we give a robust approximate shuffle private protocol with sample complexity $\tilde O(k^{2/3})$ and show that an $\Omega(k^{2/3})$ dependence is necessary for any robust pure shuffle private tester. Finally, we show that this connection is useful in both directions: we give a pan-private adaptation of recent work on shuffle private histograms and use it to recover further separations between pan-privacy and interactive local privacy.
翻訳日:2022-12-11 19:12:55 公開日:2020-08-12
# 時系列ネットワークを用いた時空間データ解析

Spatiotemporal data analysis with chronological networks ( http://arxiv.org/abs/2004.11483v2 )

ライセンス: Link先を確認
Leonardo N. Ferreira, Didier A. Vega-Oliveros, Moshe Cotacallapa, Manoel F. Cardoso, Marcos G. Quiles, Liang Zhao, Elbert E. N. Macau(参考訳) 異なるドメインからの時空間データセットの量とサイズは近年急速に増加しており、それらから情報を分析し抽出するための堅牢で高速な手法の開発が求められている。 本稿では,chronnetと呼ばれる時空間データ解析のためのネットワークモデルを提案する。 幾何学的空間を時間的に連結されたノードで表される格子セルに分割する。 このモデルの主な目標は、ネットワーク内の強いリンクを持つ細胞間の連続的なリカレントイベントを表現することである。 この表現は、時空間データから情報を抽出するためにネットワーク科学とグラフマイニングツールの使用を可能にする。 chronnet構築プロセスは高速であり、大規模なデータセットに適している。 本稿では,人工的および実データを考慮したモデルの利用方法について述べる。 本研究では,単純な統計だけでなく,頻繁なパターン,空間変化,外れ値,時空間クラスタをクロネットが捉える方法を示すために,人工時空間データセット生成器を提案する。 さらに,1つのchronnetを用いて,火災発生頻度,異常火災検出頻度,季節的活動等を記述した,グローバルな火災検出からなる実世界データセットの解析を行った。

The amount and size of spatiotemporal data sets from different domains have been rapidly increasing in the last years, which demands the development of robust and fast methods to analyze and extract information from them. In this paper, we propose a network-based model for spatiotemporal data analysis called chronnet. It consists of dividing a geometrical space into grid cells represented by nodes connected chronologically. The main goal of this model is to represent consecutive recurrent events between cells with strong links in the network. This representation permits the use of network science and graphing mining tools to extract information from spatiotemporal data. The chronnet construction process is fast, which makes it suitable for large data sets. In this paper, we describe how to use our model considering artificial and real data. For this purpose, we propose an artificial spatiotemporal data set generator to show how chronnets capture not just simple statistics, but also frequent patterns, spatial changes, outliers, and spatiotemporal clusters. Additionally, we analyze a real-world data set composed of global fire detections, in which we describe the frequency of fire events, outlier fire detections, and the seasonal activity, using a single chronnet.
翻訳日:2022-12-10 09:29:32 公開日:2020-08-12
# カメラポーズの監督による学習特徴記述子

Learning Feature Descriptors using Camera Pose Supervision ( http://arxiv.org/abs/2004.13324v2 )

ライセンス: Link先を確認
Qianqian Wang, Xiaowei Zhou, Bharath Hariharan, Noah Snavely(参考訳) 近年,多くの3次元視覚タスクの重要な構成要素である対応推定における有望な改善が示されている。 しかし、既存のディスクリプタ学習フレームワークは通常、トレーニングのために特徴点間の基底的対応を必要とする。 本稿では,画像間の相対的なカメラポーズからのみ特徴記述子を学習できる,新しい弱教師付きフレームワークを提案する。 そこで我々は,カメラのポーズによって与えられるエピポーラ制約を利用する新たな損失関数と,パイプライン全体を微分可能かつ効率的にする新しいモデルアーキテクチャを考案した。 ピクセルレベルの地上通信はもはや不要なので、我々のフレームワークは、より大きく、より多様なデータセットのトレーニングを、より良い、偏見のない記述子に開放する。 得られた記述子をCAmera Pose Supervised(CAPS)と呼びます。 弱い監督の訓練を受けたCAPSディスクリプタは、完全に監督されたディスクリプタよりも優れており、様々な幾何学的タスクにおける最先端のパフォーマンスを実現している。

Recent research on learned visual descriptors has shown promising improvements in correspondence estimation, a key component of many 3D vision tasks. However, existing descriptor learning frameworks typically require ground-truth correspondences between feature points for training, which are challenging to acquire at scale. In this paper we propose a novel weakly-supervised framework that can learn feature descriptors solely from relative camera poses between images. To do so, we devise both a new loss function that exploits the epipolar constraint given by camera poses, and a new model architecture that makes the whole pipeline differentiable and efficient. Because we no longer need pixel-level ground-truth correspondences, our framework opens up the possibility of training on much larger and more diverse datasets for better and unbiased descriptors. We call the resulting descriptors CAmera Pose Supervised, or CAPS, descriptors. Though trained with weak supervision, CAPS descriptors outperform even prior fully-supervised descriptors and achieve state-of-the-art performance on a variety of geometric tasks.
翻訳日:2022-12-08 23:18:12 公開日:2020-08-12
# 観察とナレーションから行動のセグメンテーションを学ぶ

Learning to Segment Actions from Observation and Narration ( http://arxiv.org/abs/2005.03684v2 )

ライセンス: Link先を確認
Daniel Fried, Jean-Baptiste Alayrac, Phil Blunsom, Chris Dyer, Stephen Clark, Aida Nematzadeh(参考訳) 映像中の動作セグメント化にナレーションによって導かれるタスク構造の生成セグメントモデルを適用する。 トレーニング中にアクションラベルが知られていない、教師なし、弱教師なしの設定に焦点を当てます。 その単純さにもかかわらず、我々のモデルは、自然主義的な指導ビデオのデータセットに関する以前の研究と競合する。 私たちのモデルでは、トレーニングで使用される監督のソースを変更することが可能で、タスク構造とナラティブ言語の両方がセグメンテーション品質に大きなメリットをもたらしていることが分かりました。

We apply a generative segmental model of task structure, guided by narration, to action segmentation in video. We focus on unsupervised and weakly-supervised settings where no action labels are known during training. Despite its simplicity, our model performs competitively with previous work on a dataset of naturalistic instructional videos. Our model allows us to vary the sources of supervision used in training, and we find that both task structure and narrative language provide large benefits in segmentation quality.
翻訳日:2022-12-05 22:29:35 公開日:2020-08-12
# 租税法における法定推論と質問応答に関するデータセット

A Dataset for Statutory Reasoning in Tax Law Entailment and Question Answering ( http://arxiv.org/abs/2005.05257v3 )

ライセンス: Link先を確認
Nils Holzenberger, Andrew Blair-Stanek, Benjamin Van Durme(参考訳) 法律は、自然言語で表現された規範的な規則の体系と見なすことができる。 事例の事実に対する法律の適用は、これらの事実が自然言語で表現される法定推論(statutory reasoning)と呼ばれる。 計算法則推論は、機械読解におけるほとんどの既存の作業と異なり、ケースを決定するために必要な情報の多くは正確に1回(法律)宣言されるが、機械読解に必要な情報の多くは分布言語統計によって学習される傾向にある。 法定推論における自然言語理解手法の性能を調べるために,法領域テキストコーパスと共にデータセットを提案する。 機械読影モデルのストレートフォワード適用は、法的領域に微調整されたかどうかに関わらず、我々の質問に対して低いアウトオブボックス性能を示す。 タスクを完全に解くように設計された手作りPrologベースのシステムと対比する。 これらの実験は、自然言語で規定された規範的ルールを活用できるモデルの開発を動機付ける、興味深い現実世界の課題である、と我々は主張する。

Legislation can be viewed as a body of prescriptive rules expressed in natural language. The application of legislation to facts of a case we refer to as statutory reasoning, where those facts are also expressed in natural language. Computational statutory reasoning is distinct from most existing work in machine reading, in that much of the information needed for deciding a case is declared exactly once (a law), while the information needed in much of machine reading tends to be learned through distributional language statistics. To investigate the performance of natural language understanding approaches on statutory reasoning, we introduce a dataset, together with a legal-domain text corpus. Straightforward application of machine reading models exhibits low out-of-the-box performance on our questions, whether or not they have been fine-tuned to the legal domain. We contrast this with a hand-constructed Prolog-based system, designed to fully solve the task. These experiments support a discussion of the challenges facing statutory reasoning moving forward, which we argue is an interesting real-world task that can motivate the development of models able to utilize prescriptive rules specified in natural language.
翻訳日:2022-12-04 20:22:13 公開日:2020-08-12
# Open Domain ASRのためのコンテキストRNN-T

Contextual RNN-T For Open Domain ASR ( http://arxiv.org/abs/2006.03411v2 )

ライセンス: Link先を確認
Mahaveer Jain, Gil Keren, Jay Mahadeokar, Geoffrey Zweig, Florian Metze, Yatharth Saraf(参考訳) RNN Transducer(RNN-T)やListen-Attend-Spell(LAS)のような自動音声認識(ASR)のためのエンドツーエンド(E2E)システムは、従来のハイブリッドASRシステム(音響モデル、言語モデル、発音モデル)の個々のコンポーネントを1つのニューラルネットワークに混ぜる。 良い利点はいくつかあるが、ペアオーディオとテキストのみを使用してシステムをトレーニングする制限がある。 このため、E2Eモデルは、エンティティ名のようなトレーニング中に頻繁に見られない稀な単語を正しく認識することが困難である。 本稿では,RNN-Tモデルに対して,これらの名前付きエンティティ語の性能向上を目的としたメタデータテキストの追加を可能にする改良を提案する。 オープンドメインのASRタスクを表す、未確認のソーシャルメディアビデオからサンプリングした社内データセットに対するアプローチを評価した。 ビデオに付随する文脈メタデータを活用するために注意モデルとバイアスモデルを用いることで、関連するメタデータを持つビデオに対して、名前付きエンティティ (wer-ne) に対する単語誤り率の約16%の相対的改善を観察する。

End-to-end (E2E) systems for automatic speech recognition (ASR), such as RNN Transducer (RNN-T) and Listen-Attend-Spell (LAS) blend the individual components of a traditional hybrid ASR system - acoustic model, language model, pronunciation model - into a single neural network. While this has some nice advantages, it limits the system to be trained using only paired audio and text. Because of this, E2E models tend to have difficulties with correctly recognizing rare words that are not frequently seen during training, such as entity names. In this paper, we propose modifications to the RNN-T model that allow the model to utilize additional metadata text with the objective of improving performance on these named entity words. We evaluate our approach on an in-house dataset sampled from de-identified public social media videos, which represent an open domain ASR task. By using an attention model and a biasing model to leverage the contextual metadata that accompanies a video, we observe a relative improvement of about 16% in Word Error Rate on Named Entities (WER-NE) for videos with related metadata.
翻訳日:2022-11-25 09:43:26 公開日:2020-08-12
# 自己教師付きスキップツリートレーニングによる数学的推論

Mathematical Reasoning via Self-supervised Skip-tree Training ( http://arxiv.org/abs/2006.04757v3 )

ライセンス: Link先を確認
Markus N. Rabe and Dennis Lee and Kshitij Bansal and Christian Szegedy(参考訳) 数学式に適用した自己教師あり言語モデリングが論理的推論を可能にするかどうかを検討する。 本稿では,型推論や仮定の欠如,等式化など,形式的数学的文で訓練された言語モデルの評価に使用できるいくつかの論理推論タスクを提案する。 形式数学のための言語モデルを訓練するために,新しいスキップツリータスクを提案する。 スキップツリータスクでトレーニングされたモデルは驚くほど強力な数学的推論能力を示し、標準スキップシーケンスタスクでトレーニングされたモデルよりも優れています。 また、予測が証明可能であり、他の証明で有用である頻度を測定することによって、新しい予想を定式化するモデルの能力も分析する。

We examine whether self-supervised language modeling applied to mathematical formulas enables logical reasoning. We suggest several logical reasoning tasks that can be used to evaluate language models trained on formal mathematical statements, such as type inference, suggesting missing assumptions and completing equalities. To train language models for formal mathematics, we propose a novel skip-tree task. We find that models trained on the skip-tree task show surprisingly strong mathematical reasoning abilities, and outperform models trained on standard skip-sequence tasks. We also analyze the models' ability to formulate new conjectures by measuring how often the predictions are provable and useful in other proofs.
翻訳日:2022-11-24 00:05:56 公開日:2020-08-12
# ビデオの高密度キャプチャーイベント:activitynet challenge 2020へのsysuの提出

Dense-Captioning Events in Videos: SYSU Submission to ActivityNet Challenge 2020 ( http://arxiv.org/abs/2006.11693v2 )

ライセンス: Link先を確認
Teng Wang, Huicheng Zheng, Mingjing Yu(参考訳) この技術報告は、ActivityNet Challenge 2020の高密度ビデオキャプションタスクへの私たちの提出の簡単な説明である。 まず、時間的イベント提案のセットを抽出する。次に、イベントレベルの時間的関係をキャプチャし、マルチモーダル情報を効果的に融合するマルチイベントキャプションモデルを提案する。 提案手法は,テストセットの9.28 METEORスコアを達成する。

This technical report presents a brief description of our submission to the dense video captioning task of ActivityNet Challenge 2020. Our approach follows a two-stage pipeline: first, we extract a set of temporal event proposals; then we propose a multi-event captioning model to capture the event-level temporal relationships and effectively fuse the multi-modal information. Our approach achieves a 9.28 METEOR score on the test set.
翻訳日:2022-11-18 12:15:06 公開日:2020-08-12
# TensorCoder:自然言語モデリングのためのテンソル表現による次元の注意

TensorCoder: Dimension-Wise Attention via Tensor Representation for Natural Language Modeling ( http://arxiv.org/abs/2008.01547v2 )

ライセンス: Link先を確認
Shuai Zhang, Peng Zhang, Xindian Ma, Junqiu Wei, Ningning Wang, Qun Liu(参考訳) Transformerは多くの自然言語処理(NLP)タスクで広く使われており、トークン間のドット積のスケールはTransformerの中核モジュールである。 この注意はトークン単位で設計され、複雑さはシーケンスの長さに二乗的であり、長いシーケンスタスクの応用可能性を制限する。 本稿では,新しい言語モデリング手法(すなわちテンソルコーダ)を開発できる次元的注意機構を提案する。 次元的な注意は、本来の$O(N^2d)$から$O(Nd^2)$へと注意の複雑さを減らし、$N$はシーケンスの長さ、$d$はヘッドの次元である。 マスキング言語モデリングとニューラルマシン変換を含む2つのタスクでテンソルコーダを検証する。 オリジナルのTransformerと比較して、TensorCoderはオリジナルのモデルの計算を大幅に削減するだけでなく、マスク付き言語モデリングタスク(TBデータセット)および機械翻訳タスクにおける同等のパフォーマンスも向上する。

Transformer has been widely-used in many Natural Language Processing (NLP) tasks and the scaled dot-product attention between tokens is a core module of Transformer. This attention is a token-wise design and its complexity is quadratic to the length of sequence, limiting its application potential for long sequence tasks. In this paper, we propose a dimension-wise attention mechanism based on which a novel language modeling approach (namely TensorCoder) can be developed. The dimension-wise attention can reduce the attention complexity from the original $O(N^2d)$ to $O(Nd^2)$, where $N$ is the length of the sequence and $d$ is the dimensionality of head. We verify TensorCoder on two tasks including masked language modeling and neural machine translation. Compared with the original Transformer, TensorCoder not only greatly reduces the calculation of the original model but also obtains improved performance on masked language modeling task (in PTB dataset) and comparable performance on machine translation tasks.
翻訳日:2022-11-06 01:36:24 公開日:2020-08-12
# 弱ラベルを用いたドメイン適応意味セグメンテーション

Domain Adaptive Semantic Segmentation Using Weak Labels ( http://arxiv.org/abs/2007.15176v2 )

ライセンス: Link先を確認
Sujoy Paul, Yi-Hsuan Tsai, Samuel Schulter, Amit K. Roy-Chowdhury, Manmohan Chandraker(参考訳) 意味的セグメンテーションモデルを学ぶには、膨大なピクセル単位のラベリングが必要です。 しかし、ラベル付きデータは、最小またはノーのアノテーションしか持たない、望ましいターゲットドメインとは異なるドメインでのみ利用できる。 本研究では,画像レベルの弱いラベルを持つセマンティックセグメンテーションにおけるドメイン適応のための新しいフレームワークを提案する。 弱いラベルは、教師なしドメイン適応(UDA)のモデル予測や、セマンティックセグメンテーションのための新しい弱教師付きドメイン適応(WDA)パラダイムにおける人間のアノテーションに基づいて得ることができる。 弱いラベルを使うことは実用的かつ有用です。 (i)画像レベルのターゲットアノテーションの収集はwdaでは比較的に安価であり、udaではコストがかからない。 (ii)カテゴリー別ドメインアライメントの機会を開く。 我々のフレームワークは、機能アライメントと擬似ラベルの相互作用を可能にするために弱いラベルを使用し、ドメイン適応のプロセスの両方を改善する。 具体的には,ネットワークを特定のカテゴリに従わせるための弱ラベル分類モジュールを開発し,その学習信号を用いてカテゴリ毎アライメント手法を導出する。 実験では,UDAにおける既存の最先端技術に対する大幅な改善と,WDA設定における新たなベンチマークを示す。 プロジェクトページはhttp://www.nec-labs.com/~mas/WeakSegDAにある。

Learning semantic segmentation models requires a huge amount of pixel-wise labeling. However, labeled data may only be available abundantly in a domain different from the desired target domain, which only has minimal or no annotations. In this work, we propose a novel framework for domain adaptation in semantic segmentation with image-level weak labels in the target domain. The weak labels may be obtained based on a model prediction for unsupervised domain adaptation (UDA), or from a human annotator in a new weakly-supervised domain adaptation (WDA) paradigm for semantic segmentation. Using weak labels is both practical and useful, since (i) collecting image-level target annotations is comparably cheap in WDA and incurs no cost in UDA, and (ii) it opens the opportunity for category-wise domain alignment. Our framework uses weak labels to enable the interplay between feature alignment and pseudo-labeling, improving both in the process of domain adaptation. Specifically, we develop a weak-label classification module to enforce the network to attend to certain categories, and then use such training signals to guide the proposed category-wise alignment method. In experiments, we show considerable improvements with respect to the existing state-of-the-arts in UDA and present a new benchmark in the WDA setting. Project page is at http://www.nec-labs.com/~mas/WeakSegDA.
翻訳日:2022-11-05 14:17:46 公開日:2020-08-12
# イントラコントラストフレームワークを用いた自己教師あり映像表現学習

Self-supervised Video Representation Learning Using Inter-intra Contrastive Framework ( http://arxiv.org/abs/2008.02531v2 )

ライセンス: Link先を確認
Li Tao, Xueting Wang, Toshihiko Yamasaki(参考訳) ビデオから特徴表現を学習するための自己教師付き手法を提案する。 従来の自己監督手法の標準的なアプローチは、正負のデータペアを使用して、対照的な学習戦略でトレーニングする。 この場合、同一ビデオの異なるモードを正として扱い、異なるビデオからのビデオクリップを負として扱う。 ビデオ表現には時空間情報が重要であるため,ビデオクリップ内の時間的関係を破り,同じアンカービデオから変換される負のサンプルを導入して,負のサンプルを拡張する。 提案するInter-Intra Contrastive (IIC) フレームワークにより,ビデオ表現学習のための時空間畳み込みネットワークを訓練できる。 IICフレームワークにはフレキシブルな選択肢がたくさんあります。 学習した映像表現を用いて,映像検索および映像認識タスクの評価を行う。 提案したICは,UCF101データセットとHMDB51データセットでそれぞれ16.7%,9.5%の精度向上を実現した。 ビデオ認識では、この2つのベンチマークデータセットで改善も得ることができる。 コードはhttps://github.com/bestjuly/inter-intra-video-contrastive-learningで入手できる。

We propose a self-supervised method to learn feature representations from videos. A standard approach in traditional self-supervised methods uses positive-negative data pairs to train with contrastive learning strategy. In such a case, different modalities of the same video are treated as positives and video clips from a different video are treated as negatives. Because the spatio-temporal information is important for video representation, we extend the negative samples by introducing intra-negative samples, which are transformed from the same anchor video by breaking temporal relations in video clips. With the proposed Inter-Intra Contrastive (IIC) framework, we can train spatio-temporal convolutional networks to learn video representations. There are many flexible options in our IIC framework and we conduct experiments by using several different configurations. Evaluations are conducted on video retrieval and video recognition tasks using the learned video representation. Our proposed IIC outperforms current state-of-the-art results by a large margin, such as 16.7% and 9.5% points improvements in top-1 accuracy on UCF101 and HMDB51 datasets for video retrieval, respectively. For video recognition, improvements can also be obtained on these two benchmark datasets. Code is available at https://github.com/BestJuly/Inter-intra-video-contrastive-learning.
翻訳日:2022-11-02 07:20:55 公開日:2020-08-12
# 音楽類似性のための多次元距離学習

Disentangled Multidimensional Metric Learning for Music Similarity ( http://arxiv.org/abs/2008.03720v2 )

ライセンス: Link先を確認
Jongpil Lee, Nicholas J. Bryan, Justin Salamon, Zeyu Jin, Juhan Nam(参考訳) 音楽の類似性検索は、ある音楽録音を別の録音に置き換えるといった、ビデオ編集における一般的なタスクである類似の「feel」に置き換えるといった、様々な創造的なタスクに有用である。 このタスクでは、通常、ある記録と別の記録を比較するために類似度メトリックを定義する必要がある。 しかし、音楽の類似性は定義が困難であり、類似性の複数の同時概念(ジャンル、ムード、楽器、テンポ)に依存している。 先行研究はこの問題を無視する一方で、この概念を受け入れ、多次元類似性の概念を導入し、大域的および特殊的類似性メトリクスを単一の意味的に不整合した多次元類似性メトリクスに統一する。 そのために,条件付き類似性ネットワークと呼ばれる深層メトリック学習の変種を音声領域に適用し,トラックベース情報を用いてモデルの特異性を制御する。 提案手法を評価し, 単一多次元モデルが特殊類似性空間と代替ベースラインよりも優れていることを示す。 ユーザスタディも実行し、アプローチが人間のアノテーションにも好まれていることを示す。

Music similarity search is useful for a variety of creative tasks such as replacing one music recording with another recording with a similar "feel", a common task in video editing. For this task, it is typically necessary to define a similarity metric to compare one recording to another. Music similarity, however, is hard to define and depends on multiple simultaneous notions of similarity (i.e. genre, mood, instrument, tempo). While prior work ignore this issue, we embrace this idea and introduce the concept of multidimensional similarity and unify both global and specialized similarity metrics into a single, semantically disentangled multidimensional similarity metric. To do so, we adapt a variant of deep metric learning called conditional similarity networks to the audio domain and extend it using track-based information to control the specificity of our model. We evaluate our method and show that our single, multidimensional model outperforms both specialized similarity spaces and alternative baselines. We also run a user-study and show that our approach is favored by human annotators as well.
翻訳日:2022-11-01 04:58:24 公開日:2020-08-12
# 異形音楽表現学習におけるメトリクス学習と分類

Metric Learning vs Classification for Disentangled Music Representation Learning ( http://arxiv.org/abs/2008.03729v2 )

ライセンス: Link先を確認
Jongpil Lee, Nicholas J. Bryan, Justin Salamon, Zeyu Jin, Juhan Nam(参考訳) 深層表現学習は、入力データを組織化された埋め込み空間にマッピングする強力なパラダイムを提供し、多くの音楽情報検索タスクに有用である。 表現学習の2つの中心的な方法には、ディープメトリック学習と分類があり、どちらもタスクをまたがってうまく一般化できる表現を学習するという同じ目標を持っている。 一般化とともに、不連続表現の新たな概念も非常に興味深く、複数の意味概念(例えば、ジャンル、ムード、インスツルメンテーション)が共同で学習されるが、学習された表現空間では分離可能である。 本稿では,メートル法学習と分類,ゆがみの関係を包括的に解明する単一表現学習フレームワークを提案する。 そこで,(1)メートル法学習と分類の関係に関する過去の研究を概説し,(2)3つの異なる学習アプローチとその異種バージョンを調査し,(3)4つのタスク(学習時間,類似性検索,自動タグ付け,三重項予測)におけるすべてのモデルを評価することにより,この関係をマルチラベルデータに拡張した。 分類に基づくモデルは、訓練時間、類似性検索、自動タグ付けに一般的に有利であるのに対し、深度検定学習は三重項予測により良い性能を示す。 最後に,提案手法が音楽の自動タグ付けに最先端の結果をもたらすことを示す。

Deep representation learning offers a powerful paradigm for mapping input data onto an organized embedding space and is useful for many music information retrieval tasks. Two central methods for representation learning include deep metric learning and classification, both having the same goal of learning a representation that can generalize well across tasks. Along with generalization, the emerging concept of disentangled representations is also of great interest, where multiple semantic concepts (e.g., genre, mood, instrumentation) are learned jointly but remain separable in the learned representation space. In this paper we present a single representation learning framework that elucidates the relationship between metric learning, classification, and disentanglement in a holistic manner. For this, we (1) outline past work on the relationship between metric learning and classification, (2) extend this relationship to multi-label data by exploring three different learning approaches and their disentangled versions, and (3) evaluate all models on four tasks (training time, similarity retrieval, auto-tagging, and triplet prediction). We find that classification-based models are generally advantageous for training time, similarity retrieval, and auto-tagging, while deep metric learning exhibits better performance for triplet-prediction. Finally, we show that our proposed approach yields state-of-the-art results for music auto-tagging.
翻訳日:2022-11-01 04:58:04 公開日:2020-08-12
# TextureWGAN: 逆問題に対するMLE正規化器を用いたWGANのテクスチャ保存

TextureWGAN: Texture Preserving WGAN with MLE Regularizer for Inverse Problems ( http://arxiv.org/abs/2008.04861v2 )

ライセンス: Link先を確認
Masaki Ikuta and Jun Zhang(参考訳) 機械学習やディープラーニングの手法への関心の高まりに伴い、逆問題に対する多くのアルゴリズムや手法が提案されている。 提案手法の中で最も一般的で効果的な方法は、平均二乗誤差(MSE)を持つ畳み込みニューラルネットワーク(CNN)である。 この手法は超解像、画像デノイズ化、画像再構成に有効であることが証明されている。 しかし、この手法はMSEの性質上、過度に滑らかな画像で知られている。 MSEに基づく手法は,ベースライン画像とCNNによる生成画像とのすべての画素間のユークリッド距離を最小化し,画像テクスチャなどの画素の空間情報を無視する。 本稿では,逆問題に対する WGAN (Wasserstein GAN) に基づく新しい手法を提案する。 WGAN法は画像テクスチャの保存に有効であることを示した。 また、ピクセルの忠実度を維持するために最大推定(MLE)正則化器も使用した。 画像テクスチャとピクセル忠実性を維持することは、医療画像の最も重要な要件である。 提案手法を定量的に評価するために,Pak Signal to Noise Ratio (PSNR) とStructure similarity (SSIM) を用いた。 また,画像テクスチャを評価するために,一階,二階の統計画像テクスチャ解析を行った。

Many algorithms and methods have been proposed for inverse problems particularly with the recent surge of interest in machine learning and deep learning methods. Among all proposed methods, the most popular and effective method is the convolutional neural network (CNN) with mean square error (MSE). This method has been proven effective in super-resolution, image de-noising, and image reconstruction. However, this method is known to over-smooth images due to the nature of MSE. MSE based methods minimize Euclidean distance for all pixels between a baseline image and a generated image by CNN and ignore the spatial information of the pixels such as image texture. In this paper, we proposed a new method based on Wasserstein GAN (WGAN) for inverse problems. We showed that the WGAN-based method was effective to preserve image texture. It also used a maximum likelihood estimation (MLE) regularizer to preserve pixel fidelity. Maintaining image texture and pixel fidelity is the most important requirement for medical imaging. We used Peak Signal to Noise Ratio (PSNR) and Structure Similarity (SSIM) to evaluate the proposed method quantitatively. We also conducted first-order and second-order statistical image texture analysis to assess image texture.
翻訳日:2022-10-31 12:29:23 公開日:2020-08-12
# textray:任意の形状のテキスト検出のための輪郭に基づく幾何モデリング

TextRay: Contour-based Geometric Modeling for Arbitrary-shaped Scene Text Detection ( http://arxiv.org/abs/2008.04851v2 )

ライセンス: Link先を確認
Fangfang Wang, Yifeng Chen, Fei Wu, and Xi Li(参考訳) 任意形のテキスト検出は、大きなアスペクト比、様々なスケール、ランダムな回転、曲線形状などのテキストの複雑な幾何学的レイアウトのために難しい課題である。 ほとんどの最先端の手法はボトムアップの観点からこの問題を解決し、単純な局所単位(ローカルボックスやピクセルなど)で複雑な幾何学的レイアウトのテキストインスタンスをモデル化し、ヒューリスティックな後処理で検出する。 本研究では,一発アンカーフリーフレームワークにおいて,トップダウンの輪郭型幾何モデリングと幾何パラメータ学習を行うテキスト検出手法であるTextRayを提案する。 幾何学的モデリングは、形状空間とパラメータ空間の双方向マッピングスキームを用いて極系下で行われ、複雑な幾何学的レイアウトを統一表現に符号化する。 表現の効果的な学習のために,重み付けされた学習戦略と,幾何エンコーディングと視覚コンテンツ間の伝達経路を構築するコンテンツロスをデザインする。 TextRayは1回のNMS後処理で単純なポリゴン検出を出力する。 いくつかのベンチマークデータセットの実験では、提案手法の有効性が示されている。 コードはhttps://github.com/lianawang/textrayで入手できる。

Arbitrary-shaped text detection is a challenging task due to the complex geometric layouts of texts such as large aspect ratios, various scales, random rotations and curve shapes. Most state-of-the-art methods solve this problem from bottom-up perspectives, seeking to model a text instance of complex geometric layouts with simple local units (e.g., local boxes or pixels) and generate detections with heuristic post-processings. In this work, we propose an arbitrary-shaped text detection method, namely TextRay, which conducts top-down contour-based geometric modeling and geometric parameter learning within a single-shot anchor-free framework. The geometric modeling is carried out under polar system with a bidirectional mapping scheme between shape space and parameter space, encoding complex geometric layouts into unified representations. For effective learning of the representations, we design a central-weighted training strategy and a content loss which builds propagation paths between geometric encodings and visual content. TextRay outputs simple polygon detections at one pass with only one NMS post-processing. Experiments on several benchmark datasets demonstrate the effectiveness of the proposed approach. The code is available at https://github.com/LianaWang/TextRay.
翻訳日:2022-10-31 10:56:16 公開日:2020-08-12
# 複雑な非線形力学系のロバスト同定のための機械学習:地球系モデリングへの応用

Machine Learning for Robust Identification of Complex Nonlinear Dynamical Systems: Applications to Earth Systems Modeling ( http://arxiv.org/abs/2008.05590v1 )

ライセンス: Link先を確認
Nishant Yadav, Sai Ravela, Auroop R. Ganguly(参考訳) カオスに限らず非線形ダイナミクスを示すシステムは、気象学、水文学、気候学、生態学などの地球科学や、神経や心臓のプロセスなどの生物学の至るところに分布している。 しかし、システム識別は依然として課題である。 気候・地球系モデルでは、第一原理から従う方程式や重要な過程の理解が着実に改善されている一方で、雲物理学のようなパラメータ化によって生じる最大の不確実性は、過去数十年間、限定的な改善が見られた。 気候学者は機械学習によるパラメータ推定の強化を可能な解として指摘しており、理想化されたシステムで概念の方法論的適応が検討されている。 気候科学は、遠隔およびその場のセンサーから収集されたモデルシミュレーションと観測の量と複雑さのために「ビッグデータ」課題として強調されてきたが、パラメータ推定プロセスは比較的「小さなデータ」問題であることが多い。 この文脈でデータサイエンティストにとって重要な質問は、ディープニューラルネットワークやカーネルベースのプロセスに基づくものを含む最先端のデータ駆動アプローチの関連性である。 ここでは,気候科学文献のベンチマークモデルとして用いられるカオスシステムである2レベルlorenz-96を,パラメータ推定のためのガウス過程に基づく手法を採用し,ディープラーニングとストローマン線形回帰法の一群と比較する。 以上の結果から,カーネルベースのガウス過程の適応は,不確実な定量化とともに,小さなデータ制約下での他のアプローチよりも優れており,気候科学や地球系モデリングにおいて有効なアプローチであると考えられる必要がある。

Systems exhibiting nonlinear dynamics, including but not limited to chaos, are ubiquitous across Earth Sciences such as Meteorology, Hydrology, Climate and Ecology, as well as Biology such as neural and cardiac processes. However, System Identification remains a challenge. In climate and earth systems models, while governing equations follow from first principles and understanding of key processes has steadily improved, the largest uncertainties are often caused by parameterizations such as cloud physics, which in turn have witnessed limited improvements over the last several decades. Climate scientists have pointed to Machine Learning enhanced parameter estimation as a possible solution, with proof-of-concept methodological adaptations being examined on idealized systems. While climate science has been highlighted as a "Big Data" challenge owing to the volume and complexity of archived model-simulations and observations from remote and in-situ sensors, the parameter estimation process is often relatively a "small data" problem. A crucial question for data scientists in this context is the relevance of state-of-the-art data-driven approaches including those based on deep neural networks or kernel-based processes. Here we consider a chaotic system - two-level Lorenz-96 - used as a benchmark model in the climate science literature, adopt a methodology based on Gaussian Processes for parameter estimation and compare the gains in predictive understanding with a suite of Deep Learning and strawman Linear Regression methods. Our results show that adaptations of kernel-based Gaussian Processes can outperform other approaches under small data constraints along with uncertainty quantification; and needs to be considered as a viable approach in climate science and earth system modeling.
翻訳日:2022-10-31 06:17:40 公開日:2020-08-12
# 初週の活動から得られる2つの特徴を用いたMOOCの降雨予測

Predicting MOOCs Dropout Using Only Two Easily Obtainable Features from the First Week's Activities ( http://arxiv.org/abs/2008.05849v1 )

ライセンス: Link先を確認
Ahmed Alamri, Mohammad Alshehri, Alexandra I. Cristea, Filipe D. Pereira, Elaine Oliveira, Lei Shi, Craig Stewart(参考訳) 大規模オープンオンラインコース(MOOC)プラットフォームは、新しいユニークな方法で知識を提供するが、非常に多くのドロップアウトが大きな欠点である。 いくつかの特徴は、学習者の誘惑や興味の欠如に寄与すると考えられており、そのことが解脱や総減退につながる可能性がある。 陪審員は、どの要因が最も適切な予測者であるかをまだ明らかにしていない。 しかし、文献は早期の予測がタイムリーな介入を可能にするために不可欠であることに同意している。 機能豊富な予測器は高い精度で最適の確率を持つかもしれないが、それらは扱いにくい。 本研究は,ランダムフォレスト,アダプティブブースト,xgboost,gradientboost分類器など,いくつかの機械学習手法を比較し,最初の週から学習者のドロップアウトを予測することを目的とした。 その結果,有望な精度(82%~94%)で2つの特徴が得られた。 本報告では,複数の特徴を配置した場合でも,アキュラシーが芸術的アプローチよりも優れていたことを示す。

While Massive Open Online Course (MOOCs) platforms provide knowledge in a new and unique way, the very high number of dropouts is a significant drawback. Several features are considered to contribute towards learner attrition or lack of interest, which may lead to disengagement or total dropout. The jury is still out on which factors are the most appropriate predictors. However, the literature agrees that early prediction is vital to allow for a timely intervention. Whilst feature-rich predictors may have the best chance for high accuracy, they may be unwieldy. This study aims to predict learner dropout early-on, from the first week, by comparing several machine-learning approaches, including Random Forest, Adaptive Boost, XGBoost and GradientBoost Classifiers. The results show promising accuracies (82%-94%) using as little as 2 features. We show that the accuracies obtained outperform state of the art approaches, even when the latter deploy several features.
翻訳日:2022-10-31 06:17:09 公開日:2020-08-12
# 隠れパターンの探索:MOOC学生の人口分布のプロファイリングに関する比較研究

Revealing the Hidden Patterns: A Comparative Study on Profiling Subpopulations of MOOC Students ( http://arxiv.org/abs/2008.05850v1 )

ライセンス: Link先を確認
Lei Shi, Alexandra I. Cristea, Armando M. Toda, Wilk Oliveira(参考訳) MOOC(Massive Open Online Courses)は、学生の異質性を示す。 MOOCプラットフォームからの複雑な“ビッグデータ”の出現は、学生がMOOCにどのように従事しているかを深く理解する上で、難しいが報われる機会である。 これまでの研究では、学生の多様性に関するパターンを見逃していた可能性がある。 futurelearnが提供するmoocの大規模なデータセットを使用して、マシンラーニングと統計モデリングの両方を通じて隠れたパターンを調べる新しい方法を考え出した。 本稿では,MOOCにおける学生活動のクラスタリング分析と,学生集団間の行動パターンと人口動態パターンの比較分析について報告する。 私たちのアプローチはMOOCの学生の行動や達成方法の理解を深めます。 この知見はMOOC体験の向上に向けた適応戦略の設計に有用である。

Massive Open Online Courses (MOOCs) exhibit a remarkable heterogeneity of students. The advent of complex "big data" from MOOC platforms is a challenging yet rewarding opportunity to deeply understand how students are engaged in MOOCs. Past research, looking mainly into overall behavior, may have missed patterns related to student diversity. Using a large dataset from a MOOC offered by FutureLearn, we delve into a new way of investigating hidden patterns through both machine learning and statistical modelling. In this paper, we report on clustering analysis of student activities and comparative analysis on both behavioral patterns and demographical patterns between student subpopulations in the MOOC. Our approach allows for a deeper understanding of how MOOC students behave and achieve. Our findings may be used to design adaptive strategies towards an enhanced MOOC experience
翻訳日:2022-10-31 06:16:50 公開日:2020-08-12
# 定量取引のための低周波時間パターンの学習

Learning low-frequency temporal patterns for quantitative trading ( http://arxiv.org/abs/2008.09481v1 )

ライセンス: Link先を確認
Joel da Costa, Tim Gebbie(参考訳) 我々は、低周波金融時系列データから信号を学ぶためのモジュール化されたメカニスティックオンライン機械学習フレームワークの実現可能性を検討する。 このフレームワークは、JSEの株式市場から毎日サンプル化された時系列データに基づいて証明されている。 入力パターンは、日毎、週毎、または四半期毎の特徴変化の前処理シーケンスのベクトルである。 データ処理は、教師なし学習により積み重ねられたオートエンコーダを用いて特徴を学習するバッチ処理ステップに分割し、これらの学習特徴を用いてバッチおよびオンライン教師付き学習を行い、出力を測定された時系列特徴変動の点予測とする。 重み付き初期化は制限付きボルツマンマシンプレトレーニングと分散に基づく初期化で実装される。 履歴シミュレーションは、バッチトレーニングと検証ステップの重みで初期化されたオンラインフィードフォワードニューラルネットワークを使用して実行される。 その結果, 後方テストオーバーフィッティングの厳密な評価法として, 組合せ対称クロスバリデーションと確率的および縮退シャープ比を用いて検討した。 結果は、金融市場の現象学と、金融市場の特性を特徴づける不安定な適応力学の下での取引における複雑な歴史的データ分析の価値に関する見解を構築するために使用される。

We consider the viability of a modularised mechanistic online machine learning framework to learn signals in low-frequency financial time series data. The framework is proved on daily sampled closing time-series data from JSE equity markets. The input patterns are vectors of pre-processed sequences of daily, weekly and monthly or quarterly sampled feature changes. The data processing is split into a batch processed step where features are learnt using a stacked autoencoder via unsupervised learning, and then both batch and online supervised learning are carried out using these learnt features, with the output being a point prediction of measured time-series feature fluctuations. Weight initializations are implemented with restricted Boltzmann machine pre-training, and variance based initializations. Historical simulations are then run using an online feedforward neural network initialised with the weights from the batch training and validation step. The validity of results are considered under a rigorous assessment of backtest overfitting using both combinatorially symmetrical cross validation and probabilistic and deflated Sharpe ratios. Results are used to develop a view on the phenomenology of financial markets and the value of complex historical data-analysis for trading under the unstable adaptive dynamics that characterise financial markets.
翻訳日:2022-10-31 06:16:38 公開日:2020-08-12
# モバイルエッジクラウドにおけるリアルタイム分散推論によるID認識属性認識

Identity-Aware Attribute Recognition via Real-Time Distributed Inference in Mobile Edge Clouds ( http://arxiv.org/abs/2008.05255v1 )

ライセンス: Link先を確認
Zichuan Xu, Jiangkai Wu, Qiufen Xia, Pan Zhou, Jiankang Ren, Huizhi Liang(参考訳) ディープラーニング技術の発展に伴い、属性認識と人物再識別(re-ID)が注目され、クラウドコンピューティング集約型ディープニューラルネットワークをクラウドデータセンタで実行することで継続的な改善が達成されている。 しかし、バックホールネットワークの禁止的な遅延や、カメラからデータセンターへの大規模なデータ転送のため、データセンターの展開は属性認識と人物再IDのリアルタイム要件を満たすことはできない。 実現可能な解決策は、カメラの近接部に移動端雲(MEC)を用い、分散推論を可能にすることである。 本論文では,mec対応カメラ監視システムにおいて,歩行者属性認識のための新しいモデルの設計を行う。 また,MEC対応カメラネットワークにおける分散推論の問題についても検討する。 そこで我々はまず,属性認識と人物再IDを共同で検討し,分散モジュールの集合を持つ新しい推論フレームワークを提案する。 そこで,提案する分散推論フレームワークのモジュール分布の学習に基づくアルゴリズムを提案し,不確実性のあるMEC対応カメラネットワークについて検討した。 提案アルゴリズムの性能を,実データを用いたシミュレーションと実検層におけるシステム実装の両方で評価した。 評価結果から,属性認識と人物識別の精度を92.9%,96.6%まで向上させ,推定遅延を既存手法と比較して少なくとも40.6%低減させることで,分散推論フレームワークを用いたアルゴリズムの性能が期待できることがわかった。

With the development of deep learning technologies, attribute recognition and person re-identification (re-ID) have attracted extensive attention and achieved continuous improvement via executing computing-intensive deep neural networks in cloud datacenters. However, the datacenter deployment cannot meet the real-time requirement of attribute recognition and person re-ID, due to the prohibitive delay of backhaul networks and large data transmissions from cameras to datacenters. A feasible solution thus is to employ mobile edge clouds (MEC) within the proximity of cameras and enable distributed inference. In this paper, we design novel models for pedestrian attribute recognition with re-ID in an MEC-enabled camera monitoring system. We also investigate the problem of distributed inference in the MEC-enabled camera network. To this end, we first propose a novel inference framework with a set of distributed modules, by jointly considering the attribute recognition and person re-ID. We then devise a learning-based algorithm for the distributions of the modules of the proposed distributed inference framework, considering the dynamic MEC-enabled camera network with uncertainties. We finally evaluate the performance of the proposed algorithm by both simulations with real datasets and system implementation in a real testbed. Evaluation results show that the performance of the proposed algorithm with distributed inference framework is promising, by reaching the accuracies of attribute recognition and person identification up to 92.9% and 96.6% respectively, and significantly reducing the inference delay by at least 40.6% compared with existing methods.
翻訳日:2022-10-31 06:15:58 公開日:2020-08-12
# 動的・複数協調フィルタリングによる電子健康記録からの情報検索の改善

Improving information retrieval from electronic health records using dynamic and multi-collaborative filtering ( http://arxiv.org/abs/2008.05399v1 )

ライセンス: Link先を確認
Ziwei Fan, Evan Burgun, Zhiyun Ren, Titus Schleyer, Xia Ning(参考訳) 個々の患者に関する情報が急速に増えたため、ほとんどの医師は医療情報システムで患者の情報をレビューする際に情報過負荷に悩まされる。 本稿では,電子カルテからの情報検索を改善するために,ハイブリッドな動的・複数協調フィルタリング手法を提案する。 患者訪問中の医師の電子的健康記録から関連する情報を推薦する。 マルコフモデルを用いて情報探索ダイナミクスをモデル化する。 また、Recommender Systemsを起源とする協調フィルタリングの鍵となるアイデアを活用して、医師、患者、情報項目間の様々な類似性に基づいて情報を優先順位付けする。 この新手法をインディアナ・ネットワークの患者ケア用電子カルテデータを用いて検証した。 実験の結果,46.7%の症例において,本手法は医師が本当に関心を持っていると思われるトップ5の勧告のうち,関連情報を正しく優先順位付けすることができることがわかった。

Due to the rapid growth of information available about individual patients, most physicians suffer from information overload when they review patient information in health information technology systems. In this manuscript, we present a novel hybrid dynamic and multi-collaborative filtering method to improve information retrieval from electronic health records. This method recommends relevant information from electronic health records for physicians during patient visits. It models information search dynamics using a Markov model. It also leverages the key idea of collaborative filtering, originating from Recommender Systems, to prioritize information based on various similarities among physicians, patients and information items. We tested this new method using real electronic health record data from the Indiana Network for Patient Care. Our experimental results demonstrated that for 46.7% of testing cases, this new method is able to correctly prioritize relevant information among top-5 recommendations that physicians are truly interested in.
翻訳日:2022-10-31 06:14:43 公開日:2020-08-12
# 音声合成アシスタントが研修における救急医療提供者のパフォーマンスに及ぼす影響

Effects of Voice-Based Synthetic Assistant on Performance of Emergency Care Provider in Training ( http://arxiv.org/abs/2008.05064v1 )

ライセンス: Link先を確認
Praveen Damacharla, Parashar Dhakal, Sebastian Stumbo, Ahmad Y. Javaid, Subhashini Ganapathy, David A. Malek, Douglas C. Hodge, Vijay Devabhaktuni(参考訳) 我々のチームは、多年にわたるプロジェクトの一環として、戦闘医や医療ファーストレシーバーの訓練を支援する新しい合成アシスタント(SA)技術の開発に積極的に取り組んでいます。 救急患者が緊急時をより効果的に対処できるように、医療ファーストレスポンダが十分に訓練されていることが重要である。 これにより、各トレーナーに対するリアルタイムの監視とフィードバックが必要になる。 そこで我々は,医療ファーストレスポンサの訓練プロセスを強化し,現場におけるパフォーマンスを向上させるための音声ベースSAを導入した。 SAの潜在的な利点は、トレーニングコストの削減と監視メカニズムの強化である。 日々の生活における音声ベースのパーソナルアシスタント(PA)の使用の増加にもかかわらず、関連する効果は人間の要因を研究するために一般的に無視されている。 そこで本研究では, 緊急治療シナリオを想定した緊急医療提供者研修における音声ベースsaの性能分析について述べる。 本稿では,提案技術開発における設計科学に倣い,アーキテクチャと開発について論じ,音声によるSAの動作結果を提示した。 実験実験は,統計解析ツールを用いたユーザスタディとして,従来の手法で学習したグループと,saの助けを借りたグループで実施した。 統計結果は,saを用いた医療応答者の訓練効果と性能の増幅を示した。 さらに,タスク実行(t)の正確性や時間についても論じ,特定された問題の解決に関するガイドラインをまとめる。

As part of a perennial project, our team is actively engaged in developing new synthetic assistant (SA) technologies to assist in training combat medics and medical first responders. It is critical that medical first responders are well trained to deal with emergencies more effectively. This would require real-time monitoring and feedback for each trainee. Therefore, we introduced a voice-based SA to augment the training process of medical first responders and enhance their performance in the field. The potential benefits of SAs include a reduction in training costs and enhanced monitoring mechanisms. Despite the increased usage of voice-based personal assistants (PAs) in day-to-day life, the associated effects are commonly neglected for a study of human factors. Therefore, this paper focuses on performance analysis of the developed voice-based SA in emergency care provider training for a selected emergency treatment scenario. The research discussed in this paper follows design science in developing proposed technology; at length, we discussed architecture and development and presented working results of voice-based SA. The empirical testing was conducted on two groups as user studies using statistical analysis tools, one trained with conventional methods and the other with the help of SA. The statistical results demonstrated the amplification in training efficacy and performance of medical responders powered by SA. Furthermore, the paper also discusses the accuracy and time of task execution (t) and concludes with the guidelines for resolving the identified problems.
翻訳日:2022-10-31 06:08:39 公開日:2020-08-12
# リチウムイオン電池劣化の多段階同定による不変学習

Invariant learning based multi-stage identification for Lithium-ion battery performance degradation ( http://arxiv.org/abs/2008.05123v1 )

ライセンス: Link先を確認
Yan Qin, Chau Yuen, Stefan Adams(参考訳) 正確な性能(キャパシティなど)を知らせることによって、健康状態管理は電池とその動力システムを保護する上で重要な役割を果たす。 現在のアプローチは、主にデータ駆動方式に基づいているが、バッテリー性能低下機構の詳細な分析が欠けていると性能が低下する可能性がある。 データ駆動型バッテリ性能劣化解析の研究ギャップを埋めるために,バッテリ性能劣化が一定の振舞いに追従するかどうかを,不変学習に基づく手法を提案する。 まず、サイクリングバッテリデータの隠れたダイナミクスを広げるために、位相部分空間で測定を再構成する。 次に、複数の劣化挙動の存在を判断するために、新しい多段階分割戦略を提唱する。 そして、全老化手順を複数のセグメントに順次分割し、その中の一貫した劣化速度のサイクリングデータを同じ段階で割り当てる。 well-knowベンチマークによるシミュレーションにより,提案手法の有効性が検証された。 提案手法は,データの観点からの劣化メカニズムの洞察を可能にするだけでなく,健康状態などの関連トピックにも有効である。

By informing accurate performance (e.g., capacity), health state management plays a significant role in safeguarding battery and its powered system. While most current approaches are primarily based on data-driven methods, lacking in-depth analysis of battery performance degradation mechanism may discount their performances. To fill in the research gap about data-driven battery performance degradation analysis, an invariant learning based method is proposed to investigate whether the battery performance degradation follows a fixed behavior. First, to unfold the hidden dynamics of cycling battery data, measurements are reconstructed in phase subspace. Next, a novel multi-stage division strategy is put forward to judge the existent of multiple degradation behaviors. Then the whole aging procedure is sequentially divided into several segments, among which cycling data with consistent degradation speed are assigned in the same stage. Simulations on a well-know benchmark verify the efficacy of the proposed multi-stages identification strategy. The proposed method not only enables insights into degradation mechanism from data perspective, but also will be helpful to related topics, such as stage of health.
翻訳日:2022-10-31 06:08:07 公開日:2020-08-12
# キャッシュ型UAVNOMAネットワークのキャッシュ配置とリソース割り当て

Caching Placement and Resource Allocation for Cache-Enabling UAV NOMA Networks ( http://arxiv.org/abs/2008.05168v1 )

ライセンス: Link先を確認
Tiankui Zhang, Ziduan Wang, Yuanwei Liu, Wenjun Xu and Arumugam Nallanathan(参考訳) 本稿では,非直交多重アクセス(NOMA)をサポートした大規模アクセス機能を有する無人航空機(UAV)セルネットワークについて検討する。 地上ユーザ向けの大量のマルチメディアコンテンツの配信は、無線バックホールリンクトラフィックオフロードのために人気のあるコンテンツをキャッシュするモバイルUAVベースステーションによって支援される。 キャッシュ取得型uav nomaネットワークでは,キャッシングフェーズのキャッシング配置とコンテンツ配信フェーズの無線リソース割り当てがネットワーク性能に不可欠である。 実際のシナリオにおいて、動的UAV位置とコンテンツ要求に対処するために、コンテンツ配信遅延最小化のための長期キャッシュ配置とリソース割り当て最適化問題をマルコフ決定プロセス(MDP)として定式化する。 UAVは、コンテンツ要求のユーザスケジューリングとNOMAユーザのパワーアロケーションを含む、プレースメントとリソースアロケーションをキャッシュするためのアクションを行うエージェントとして機能する。 MDP に対処するために,UAV は Q-learning に基づくキャッシュ配置と資源割り当てアルゴリズムを提案し,そこでは行動と状態の最適な一致を探索するために, \emph{soft ${\varepsilon}$-greedy} 戦略を用いて行動を学び,選択する。 動的ネットワークにおける状態数に応じてq-learningの動作状態テーブルサイズが大きくなるため,大規模ネットワークに適した確率的勾配降下とディープニューラルネットワークを組み合わせた関数近似に基づくアルゴリズムを提案する。 最後に,提案アルゴリズムはベンチマークアルゴリズムと比較して高い性能を示し,ネットワーク性能と計算複雑性のトレードオフが得られることを示した。

This article investigates the cache-enabling unmanned aerial vehicle (UAV) cellular networks with massive access capability supported by non-orthogonal multiple access (NOMA). The delivery of a large volume of multimedia contents for ground users is assisted by a mobile UAV base station, which caches some popular contents for wireless backhaul link traffic offloading. In cache-enabling UAV NOMA networks, the caching placement of content caching phase and radio resource allocation of content delivery phase are crucial for network performance. To cope with the dynamic UAV locations and content requests in practical scenarios, we formulate the long-term caching placement and resource allocation optimization problem for content delivery delay minimization as a Markov decision process (MDP). The UAV acts as an agent to take actions for caching placement and resource allocation, which includes the user scheduling of content requests and the power allocation of NOMA users. In order to tackle the MDP, we propose a Q-learning based caching placement and resource allocation algorithm, where the UAV learns and selects action with \emph{soft ${\varepsilon}$-greedy} strategy to search for the optimal match between actions and states. Since the action-state table size of Q-learning grows with the number of states in the dynamic networks, we propose a function approximation based algorithm with combination of stochastic gradient descent and deep neural networks, which is suitable for large-scale networks. Finally, the numerical results show that the proposed algorithms provide considerable performance compared to benchmark algorithms, and obtain a trade-off between network performance and calculation complexity.
翻訳日:2022-10-31 06:07:51 公開日:2020-08-12
# GeoTrackNetを用いたAISデータからの異常容器挙動の検出:実験室から海洋まで

Detection of Abnormal Vessel Behaviours from AIS data using GeoTrackNet: from the Laboratory to the Ocean ( http://arxiv.org/abs/2008.05443v1 )

ライセンス: Link先を確認
Duong Nguyen, Matthieu Simonin, Guillaume Hajduch, Rodolphe Vadaine, C\'edric Tedeschi and Ronan Fablet(参考訳) 海上交通の絶え間ない増加は自動異常検知の必要性を招き、研究が注目されている。 AIS(Automatic Identification System)データによって提供される情報と、近年のディープラーニングの進歩により、ニューラルネットワーク(NN)を用いた船舶監視は非常に有望なアプローチとなっている。 本稿では,我々が最近導入した新しいニューラルネットワークであるgeotracknetの解析を行う。 特に評価をめざして (i)ジオトラックネットによる専門家の解釈における異常行動の関連性 (ii) GeoTrackNetがAISデータストリームをリアルタイムに処理できる範囲。 我々は,モデルの運用レベルを満たすための高い可能性を示す実験を報告する。

The constant growth of maritime traffic leads to the need of automatic anomaly detection, which has been attracting great research attention. Information provided by AIS (Automatic Identification System) data, together with recent outstanding progresses of deep learning, make vessel monitoring using neural networks (NNs) a very promising approach. This paper analyses a novel neural network we have recently introduced -- GeoTrackNet -- regarding operational contexts. Especially, we aim to evaluate (i) the relevance of the abnormal behaviours detected by GeoTrackNet with respect to expert interpretations, (ii) the extent to which GeoTrackNet may process AIS data streams in real time. We report experiments showing the high potential to meet operational levels of the model.
翻訳日:2022-10-31 06:06:53 公開日:2020-08-12
# マシンラーニングとソフトウェアエンジニアリングの相乗効果: どこまであるのか?

Synergy between Machine/Deep Learning and Software Engineering: How Far Are We? ( http://arxiv.org/abs/2008.05515v1 )

ライセンス: Link先を確認
Simin Wang, Liguo Huang, Jidong Ge, Tengfei Zhang, Haitao Feng, Ming Li, He Zhang and Vincent Ng(参考訳) 2009年以来、ImageNetの導入によって引き起こされたディープラーニング革命は、機械学習(ML)/ディープラーニング(DL)とソフトウェア工学(SE)のシナジーを刺激してきた。 一方、ML/DLを慎重に使用するべきだという批判的なレビューが生まれている。 ML/DL関連SE研究の質(特に適用性・一般化性)の向上と,SE/AI研究者と業界実践者の今後の連携の促進を目的として,2009年から2018年の間に発行された906 ML/DL関連SE論文に対して,SLR(Systematic Literature Review)を10年間実施した。 我々の傾向分析はML/DLとSEが相互に与える影響を実証した。 しかし同時に, 複製性および再現性を有するML/DL関連SE研究も観察し, 再現性と再現性に影響を与える5つの因子を同定した。 研究成果の適用性や一般化性を向上させるため,特定のSE問題に対してML/DL技術が選択された理由を理解する上で,研究のどの要素が有効かを分析した。 さらに、seタスクにおけるdlモデルの影響のユニークな傾向と、seタスクの生産性を改善するためにdlをよりよく活用するために達成しなければならない5つのユニークな課題を特定した。 最後に、ML/DLベースのSE研究結果の現実的な産業実践への移行を促進することができると信じているロードマップを概説した。

Since 2009, the deep learning revolution, which was triggered by the introduction of ImageNet, has stimulated the synergy between Machine Learning (ML)/Deep Learning (DL) and Software Engineering (SE). Meanwhile, critical reviews have emerged that suggest that ML/DL should be used cautiously. To improve the quality (especially the applicability and generalizability) of ML/DL-related SE studies, and to stimulate and enhance future collaborations between SE/AI researchers and industry practitioners, we conducted a 10-year Systematic Literature Review (SLR) on 906 ML/DL-related SE papers published between 2009 and 2018. Our trend analysis demonstrated the mutual impacts that ML/DL and SE have had on each other. At the same time, however, we also observed a paucity of replicable and reproducible ML/DL-related SE studies and identified five factors that influence their replicability and reproducibility. To improve the applicability and generalizability of research results, we analyzed what ingredients in a study would facilitate an understanding of why a ML/DL technique was selected for a specific SE problem. In addition, we identified the unique trends of impacts of DL models on SE tasks, as well as five unique challenges that needed to be met in order to better leverage DL to improve the productivity of SE tasks. Finally, we outlined a road-map that we believe can facilitate the transfer of ML/DL-based SE research results into real-world industry practices.
翻訳日:2022-10-31 06:06:22 公開日:2020-08-12
# ベイジアンニューラルネットワークを用いた乳癌検診における高能率信頼度評価指標

An Efficient Confidence Measure-Based Evaluation Metric for Breast Cancer Screening Using Bayesian Neural Networks ( http://arxiv.org/abs/2008.05566v1 )

ライセンス: Link先を確認
Anika Tabassum, Naimul Khan(参考訳) 乳がんの早期発見のための金の基準はマンモグラムのスクリーニングである。 マンモグラフィ画像の分類、特に深層ニューラルネットワークについて多くの研究がなされているが、その分類の信頼性や不確実性の測定についてはあまり調査されていない。 本稿では,乳がん検診における信頼度測定に基づく評価基準を提案する。 本稿では,従来のニューラルネットワークを伝達学習のための特徴抽出器として用いるモジュール型ネットワークアーキテクチャを提案し,その後に単純なベイズニューラルネットワークを提案する。 2段階のアプローチを利用することで計算の複雑さが減少し、提案されたフレームワークがより広いデプロイメントのために魅力的になる。 医療従事者にベイジアンニューラルネットワークの2つのハイパーパラメータ、すなわちサンプルされたネットワーク数と最小確率をチューニングするツールを提供することで、このフレームワークをドメインエキスパートが必要に応じて適用できることを示す。 最後に、精度のような単一の数ではなく、タプル(正確性、カバレッジ、サンプリングされたネットワーク数、最小確率)をフレームワークの評価指標として利用することができると論じた。 CBIS-DDSMデータセットを用いて,2つのハイパーパラメータを調整しながら精度被覆トレードオフの傾向を示す。 また, 信頼度調整により, ベースライン変換学習と比較して, 画像集合の精度が向上し, 高い信頼度が得られることを示した。 提案されたフレームワークを簡単にデプロイできるように、https://git.io/jvrqeで再現可能な結果の(匿名化された)ソースコードを提供します。

Screening mammograms is the gold standard for detecting breast cancer early. While a good amount of work has been performed on mammography image classification, especially with deep neural networks, there has not been much exploration into the confidence or uncertainty measurement of the classification. In this paper, we propose a confidence measure-based evaluation metric for breast cancer screening. We propose a modular network architecture, where a traditional neural network is used as a feature extractor with transfer learning, followed by a simple Bayesian neural network. Utilizing a two-stage approach helps reducing the computational complexity, making the proposed framework attractive for wider deployment. We show that by providing the medical practitioners with a tool to tune two hyperparameters of the Bayesian neural network, namely, fraction of sampled number of networks and minimum probability, the framework can be adapted as needed by the domain expert. Finally, we argue that instead of just a single number such as accuracy, a tuple (accuracy, coverage, sampled number of networks, and minimum probability) can be utilized as an evaluation metric of our framework. We provide experimental results on the CBIS-DDSM dataset, where we show the trends in accuracy-coverage tradeoff while tuning the two hyperparameters. We also show that our confidence tuning results in increased accuracy with a reduced set of images with high confidence when compared to the baseline transfer learning. To make the proposed framework readily deployable, we provide (anonymized) source code with reproducible results at https://git.io/JvRqE.
翻訳日:2022-10-31 06:05:56 公開日:2020-08-12
# 点群における因子グラフに基づく3次元多物体追跡

Factor Graph based 3D Multi-Object Tracking in Point Clouds ( http://arxiv.org/abs/2008.05309v1 )

ライセンス: Link先を確認
Johannes P\"oschmann, Tim Pfeifer and Peter Protzel(参考訳) 3次元空間における複数の移動物体の正確な追跡は都市景観理解の重要な要素である。 以前のフレームから予測されたオブジェクトに現在のフレーム内の検出を割り当てる必要があるため、これは困難なタスクです。 既存のフィルタベースのアプローチは、この初期割り当てが正しくない場合に苦労する傾向がある。 明示的および固定的な代入に依存しない新しい最適化ベースアプローチを提案する。 代わりに、既製の3Dオブジェクト検出器の成果を、因子グラフフレームワークに組み込まれたガウス混合モデルとして表現する。 これにより、すべての検出をすべてのオブジェクトに同時に割り当てる柔軟性が得られます。 その結果、非線形最小二乗最適化を用いた3次元空間多目的状態推定と暗黙的かつ協調的に課題を解決した。 その単純さにもかかわらず、提案アルゴリズムは堅牢で信頼性の高い追跡結果を達成し、オフラインやオンライントラッキングにも適用できる。 我々は、実世界のKITTI追跡データセットの性能を実証し、多くの最先端アルゴリズムよりも優れた結果を得る。 特に、推定トラックの一貫性はオフラインでもオンラインでも優れている。

Accurate and reliable tracking of multiple moving objects in 3D space is an essential component of urban scene understanding. This is a challenging task because it requires the assignment of detections in the current frame to the predicted objects from the previous one. Existing filter-based approaches tend to struggle if this initial assignment is not correct, which can happen easily. We propose a novel optimization-based approach that does not rely on explicit and fixed assignments. Instead, we represent the result of an off-the-shelf 3D object detector as Gaussian mixture model, which is incorporated in a factor graph framework. This gives us the flexibility to assign all detections to all objects simultaneously. As a result, the assignment problem is solved implicitly and jointly with the 3D spatial multi-object state estimation using non-linear least squares optimization. Despite its simplicity, the proposed algorithm achieves robust and reliable tracking results and can be applied for offline as well as online tracking. We demonstrate its performance on the real world KITTI tracking dataset and achieve better results than many state-of-the-art algorithms. Especially the consistency of the estimated tracks is superior offline as well as online.
翻訳日:2022-10-31 06:00:42 公開日:2020-08-12
# LogoDet-3K:ロゴ検出のための大規模画像データセット

LogoDet-3K: A Large-Scale Image Dataset for Logo Detection ( http://arxiv.org/abs/2008.05359v1 )

ライセンス: Link先を確認
Jing Wang, Weiqing Min, Sujuan Hou, Shengnan Ma, Yuanjie Zheng, Shuqiang Jiang(参考訳) 著作権侵害検出、ブランドの可視性監視、ソーシャルメディア上の製品ブランド管理など、マルチメディア分野における幅広い応用により、ローゴ検出が注目されている。 本稿では,3000のロゴカテゴリ,約20万の注釈付きロゴオブジェクト,および158,652のイメージを有する,全アノテーション付き最大のロゴ検出データセットであるLogoDet-3Kを紹介する。 LogoDet-3Kは、ロゴ検出のためのより難しいベンチマークを作成し、ロゴカテゴリと注釈付きオブジェクトの両方において、既存のデータセットと比較して、より包括的なカバレッジと広範な多様性を実現する。 当社のデータセットの収集とアノテーションプロセスについて説明し,ロゴ検出のための他のデータセットと比較して,そのスケールと多様性を分析した。 さらに,大規模なロゴ検出のための最先端のyolov3フレームワークに焦点損失とciou損失を組み込んだ,強力なベースライン手法であるlogo-yoloを提案する。 Logo-Yoloは、マルチスケールオブジェクト、ロゴサンプルの不均衡、一貫性のないバウンディングボックス回帰の問題を解決することができる。 YOLOv3と比較して平均パフォーマンスが約4%向上し、LogoDet-3Kのいくつかのディープ検出モデルと比較して改善が進んだ。 本手法の有効性を検証し,ロゴ検出および検索作業におけるLogoDet-3Kの一般化能力の向上を実証した。 LogoDet-3Kデータセットは、大規模なロゴ関連の研究を促進するために使用され、https://github.com/Wangjing1551/LogoDet-3K-Datasetで見ることができる。

Logo detection has been gaining considerable attention because of its wide range of applications in the multimedia field, such as copyright infringement detection, brand visibility monitoring, and product brand management on social media. In this paper, we introduce LogoDet-3K, the largest logo detection dataset with full annotation, which has 3,000 logo categories, about 200,000 manually annotated logo objects and 158,652 images. LogoDet-3K creates a more challenging benchmark for logo detection, for its higher comprehensive coverage and wider variety in both logo categories and annotated objects compared with existing datasets. We describe the collection and annotation process of our dataset, analyze its scale and diversity in comparison to other datasets for logo detection. We further propose a strong baseline method Logo-Yolo, which incorporates Focal loss and CIoU loss into the state-of-the-art YOLOv3 framework for large-scale logo detection. Logo-Yolo can solve the problems of multi-scale objects, logo sample imbalance and inconsistent bounding-box regression. It obtains about 4% improvement on the average performance compared with YOLOv3, and greater improvements compared with reported several deep detection models on LogoDet-3K. The evaluations on other three existing datasets further verify the effectiveness of our method, and demonstrate better generalization ability of LogoDet-3K on logo detection and retrieval tasks. The LogoDet-3K dataset is used to promote large-scale logo-related research and it can be found at https://github.com/Wangjing1551/LogoDet-3K-Dataset.
翻訳日:2022-10-31 06:00:25 公開日:2020-08-12
# 知覚的特徴のモデル化による異常局在化

Anomaly localization by modeling perceptual features ( http://arxiv.org/abs/2008.05369v1 )

ライセンス: Link先を確認
David Dehaene, Pierre Eline(参考訳) 変分オートエンコーダ(VAE)を用いた画像データセットの教師なし生成モデルを用いて、画像中の異常画像や異常領域を検出するが、近年の研究では、堅牢な異常検出のための生成モデルの有用性に疑問を投げかけながら、人間の知覚と一致しない画像や領域をしばしば特定することが示されている。 そこで我々は,これらの問題は異常分布の単純化モデルを持つことから生じうると論じ,人間の知覚に近いより複雑な異常モデルを表現する新しいvaeモデルを提案する。 このFeature-Augmented VAEは、入力イメージを画素空間で再構成するだけでなく、大きな画像データセットに基づいて事前にトレーニングされた畳み込みニューラルネットワークによって計算される複数の異なる特徴空間でトレーニングされる。 MVTec異常検出およびローカライゼーションデータセットの最先端手法に対する明確な改善を実現する。

Although unsupervised generative modeling of an image dataset using a Variational AutoEncoder (VAE) has been used to detect anomalous images, or anomalous regions in images, recent works have shown that this method often identifies images or regions that do not concur with human perception, even questioning the usability of generative models for robust anomaly detection. Here, we argue that those issues can emerge from having a simplistic model of the anomaly distribution and we propose a new VAE-based model expressing a more complex anomaly model that is also closer to human perception. This Feature-Augmented VAE is trained by not only reconstructing the input image in pixel space, but also in several different feature spaces, which are computed by a convolutional neural network trained beforehand on a large image dataset. It achieves clear improvement over state-of-the-art methods on the MVTec anomaly detection and localization datasets.
翻訳日:2022-10-31 06:00:00 公開日:2020-08-12
# DXSLAM: 深い機能を備えたロバストで効率的なビジュアルSLAMシステム

DXSLAM: A Robust and Efficient Visual SLAM System with Deep Features ( http://arxiv.org/abs/2008.05416v1 )

ライセンス: Link先を確認
Dongjiang Li, Xuesong Shi, Qiwei Long, Shenghui Liu, Wei Yang, Fangshi Wang, Qi Wei, Fei Qiao(参考訳) ロボットの自律性にはロバストで効率的な同時ローカライゼーション・マッピング(slam)システムが不可欠である。 ビジュアルSLAMアルゴリズムについては、ほとんどの面において理論的な枠組みが確立されているが、機能抽出とアソシエーションはいまだに実証的に設計されており、複雑な環境では脆弱である。 本稿では、深層畳み込みニューラルネットワーク(CNN)による特徴抽出を、現代のSLAMフレームワークにシームレスに組み込むことができることを示す。 提案システムでは,最新のCNNを用いて各画像フレーム内のキーポイントを検出し,キーポイント記述子だけでなく,全体像のグローバル記述子も提供する。 これらのローカルおよびグローバル機能は、異なるslamモジュールによって使用されるため、手作りの機能よりも環境変化や視点変化に対する堅牢性が向上する。 また,Bag of Words (BoW) 法を用いて局所特徴の視覚語彙を訓練する。 局所的な特徴,グローバルな特徴,語彙に基づいて,信頼性の高いループクロージャ検出手法を構築した。 実験の結果,提案するモジュールはベースラインを著しく上回っており,全システムでは軌道誤差が大幅に低く,評価されたデータに対して精度が高かった。 さらに、CNNをIntel OpenVINOツールキットで最適化し、Fast BoWライブラリを活用することにより、現代のCPUにおけるSIMD(シングルインストラクション・マルチプルデータ)技術から大いに恩恵を受ける。 フルシステムはGPUや他のアクセラレータなしでリアルタイムに実行できる。 コードはhttps://github.com/ivipsourcecode/dxslam.comで公開されている。

A robust and efficient Simultaneous Localization and Mapping (SLAM) system is essential for robot autonomy. For visual SLAM algorithms, though the theoretical framework has been well established for most aspects, feature extraction and association is still empirically designed in most cases, and can be vulnerable in complex environments. This paper shows that feature extraction with deep convolutional neural networks (CNNs) can be seamlessly incorporated into a modern SLAM framework. The proposed SLAM system utilizes a state-of-the-art CNN to detect keypoints in each image frame, and to give not only keypoint descriptors, but also a global descriptor of the whole image. These local and global features are then used by different SLAM modules, resulting in much more robustness against environmental changes and viewpoint changes compared with using hand-crafted features. We also train a visual vocabulary of local features with a Bag of Words (BoW) method. Based on the local features, global features, and the vocabulary, a highly reliable loop closure detection method is built. Experimental results show that all the proposed modules significantly outperforms the baseline, and the full system achieves much lower trajectory errors and much higher correct rates on all evaluated data. Furthermore, by optimizing the CNN with Intel OpenVINO toolkit and utilizing the Fast BoW library, the system benefits greatly from the SIMD (single-instruction-multiple-data) techniques in modern CPUs. The full system can run in real-time without any GPU or other accelerators. The code is public at https://github.com/ivipsourcecode/dxslam.
翻訳日:2022-10-31 05:59:42 公開日:2020-08-12
# より多様な意味: マルチモーダルディープラーニングはリモートセンシングのイメージ分類を満たしている

More Diverse Means Better: Multimodal Deep Learning Meets Remote Sensing Imagery Classification ( http://arxiv.org/abs/2008.05457v1 )

ライセンス: Link先を確認
Danfeng Hong and Lianru Gao and Naoto Yokoya and Jing Yao and Jocelyn Chanussot and Qian Du and Bing Zhang(参考訳) 地球表面上または地下にある材料の分類と同定は、地球科学とリモートセンシング(rs)における基礎的かつ挑戦的な研究課題であり、近年のディープラーニング技術の進歩により、懸念が高まっている。 ディープネットワークは単一モダリティ主体の分類タスクでうまく適用されてきたが、その性能は情報多様性の制限のため、複雑なシーンのボトルネックを必然的に満たしている。 本稿では,mdl(general multimodal deep learning)フレームワークの開発により,上記の難易度に対するベースラインソリューションを提案する。 特に,マルチモーダリティ学習 (MML) の特別事例として,RS画像分類応用において広く存在するクロスモーダリティ学習 (CML) について検討する。 フューズする"何"、"どこで"、"どのように"に焦点を当てることで、深層ネットワークをトレーニングし、ネットワークアーキテクチャを構築する方法だけでなく、異なる融合戦略を示します。 具体的には,5つの融合アーキテクチャを導入,開発し,さらにMDLフレームワークに統合する。 さらに,本フレームワークは画素単位の分類タスクに限らず,畳み込みニューラルネットワーク(CNN)を用いた空間情報モデリングにも適用可能である。 MDLフレームワークの有効性と優位性を検証するため、MMLとCMLの設定に関する広範な実験を2つの異なるマルチモーダルRSデータセット上で行った。 さらに、コードとデータセットはhttps://github.com/danfenghong/IEEE_TGRS_MDL-RSで入手できる。

Classification and identification of the materials lying over or beneath the Earth's surface have long been a fundamental but challenging research topic in geoscience and remote sensing (RS) and have garnered a growing concern owing to the recent advancements of deep learning techniques. Although deep networks have been successfully applied in single-modality-dominated classification tasks, yet their performance inevitably meets the bottleneck in complex scenes that need to be finely classified, due to the limitation of information diversity. In this work, we provide a baseline solution to the aforementioned difficulty by developing a general multimodal deep learning (MDL) framework. In particular, we also investigate a special case of multi-modality learning (MML) -- cross-modality learning (CML) that exists widely in RS image classification applications. By focusing on "what", "where", and "how" to fuse, we show different fusion strategies as well as how to train deep networks and build the network architecture. Specifically, five fusion architectures are introduced and developed, further being unified in our MDL framework. More significantly, our framework is not only limited to pixel-wise classification tasks but also applicable to spatial information modeling with convolutional neural networks (CNNs). To validate the effectiveness and superiority of the MDL framework, extensive experiments related to the settings of MML and CML are conducted on two different multimodal RS datasets. Furthermore, the codes and datasets will be available at https://github.com/danfenghong/IEEE_TGRS_MDL-RS, contributing to the RS community.
翻訳日:2022-10-31 05:58:48 公開日:2020-08-12
# 自己パス: アノテーションを限定した病理画像分類のための自己監督

Self-Path: Self-supervision for Classification of Pathology Images with Limited Annotations ( http://arxiv.org/abs/2008.05571v1 )

ライセンス: Link先を確認
Navid Alemi Koohbanani, Balagopal Unnikrishnan, Syed Ali Khurram, Pavitra Krishnaswamy, Nasir Rajpoot(参考訳) 高解像度の病理画像は「データ空腹」な深層学習アルゴリズムに相応しいが、これらの画像に対する徹底的なアノテーションを得ることは大きな課題である。 本稿では,病理画像における一般化および領域不変表現の学習にラベルなしデータを活用するための自己教師付きcnn手法を提案する。 提案手法は, 組織分類を主課題とするマルチタスク学習手法であり, プレテキストタスクは, 入力データ固有のラベルを持つ多種多様な自己教師型タスクである。 半教師付き学習とドメイン適応のための病理画像における文脈的,多解性,意味的特徴を活用した,新たなドメイン固有の自己スーパービジョンタスクを導入する。 3つの異なる病理データに対するセルフパスの有効性について検討した。 その結果、ドメイン固有のプリテキストタスクとの自己パスは、少量のラベル付きデータがある場合の半教師付き学習における最先端のパフォーマンスを実現する。 さらに,対象領域にラベル付きデータがない場合,自己パスにより組織像パッチの分類にドメイン適応性が向上することを示す。 このアプローチは、アノテーション予算が制限されたり、ラベルなしの画像データが大量に入手できる場合が多い計算病理学の他の応用にも応用できる可能性がある。

While high-resolution pathology images lend themselves well to `data hungry' deep learning algorithms, obtaining exhaustive annotations on these images is a major challenge. In this paper, we propose a self-supervised CNN approach to leverage unlabeled data for learning generalizable and domain invariant representations in pathology images. The proposed approach, which we term as Self-Path, is a multi-task learning approach where the main task is tissue classification and pretext tasks are a variety of self-supervised tasks with labels inherent to the input data. We introduce novel domain specific self-supervision tasks that leverage contextual, multi-resolution and semantic features in pathology images for semi-supervised learning and domain adaptation. We investigate the effectiveness of Self-Path on 3 different pathology datasets. Our results show that Self-Path with the domain-specific pretext tasks achieves state-of-the-art performance for semi-supervised learning when small amounts of labeled data are available. Further, we show that Self-Path improves domain adaptation for classification of histology image patches when there is no labeled data available for the target domain. This approach can potentially be employed for other applications in computational pathology, where annotation budget is often limited or large amount of unlabeled image data is available.
翻訳日:2022-10-31 05:58:20 公開日:2020-08-12
# NCW型モデルにおける火災配分の最適化

Optimizing fire allocation in a NCW-type model ( http://arxiv.org/abs/2008.05250v1 )

ライセンス: Link先を確認
Nam Hong Nguyen and My Anh Vu and Dinh Van Bui and Anh Ngoc Ta and Manh Duc Hy(参考訳) 本稿では,NCW型非線形ランチェスターモデルを導入し,このモデルに対する最適化問題について検討する。 ブルーフォースの最適火力配分は、区分的に一定の時間の関数の形で求められている。 戦闘の各段階の開始時に、赤軍と各補給員に対して脅迫率が計算される。 これらの速度は、青軍にとって、火力は赤軍自身または供給エージェントの1つに集中する最適な決定を導出するために用いられる。 この最適火力配分は、ブルーフォース部隊数の最適化問題を考慮して導出され、証明される。 理論的結果を示すための数値実験を含む。

In this paper, we introduce a non-linear Lanchester model of NCW-type and investigate an optimization problem for this model, where only the Red force is supplied by several supply agents. Optimal fire allocation of the Blue force is sought in the form of a piece-wise constant function of time. A threatening rate is computed for the Red force and each of its supply agents at the beginning of each stage of the combat. These rates can be used to derive the optimal decision for the Blue force to focus its firepower to the Red force itself or one of its supply agents. This optimal fire allocation is derived and proved by considering an optimization problem of number of Blue force troops. Numerical experiments are included to demonstrate the theoretical results.
翻訳日:2022-10-31 05:57:21 公開日:2020-08-12
# 認知の定量化に向けて

Toward the quantification of cognition ( http://arxiv.org/abs/2008.05580v1 )

ライセンス: Link先を確認
Richard Granger(参考訳) 人間の脳の機械(アナログ、確率的、エンボディ)は、計算的に特徴づけられるが、どんな機械が計算能力を引き出すのか? 有限状態機械は、電流、化学、メカニクスを介しても計算ステップを実行することができ、また、通常、シナプス変化、状態遷移、またはリカレントアクティビティを介して読み書きできる情報ストアの用語で定式化された、許容可能なメモリ操作のセットである。 これらのメカニズムを情報の内容に当てはめることで、様々なシステムで可能な計算能力の違いを捉えることができる。 認知から行動、記憶に至るまで、ほとんどの人間の認知能力は、他の種と共有されており、人間に普遍的に存在し、他の種には存在しないそれらの(few)能力を特徴付けようとしている。 強固な制約の3つの領域 -- a) 測定可能な人間の認知能力 b)測定可能な解剖学的脳特性、及び c) 特定のオートマトンと形式文法の計測可能な特徴 - 人間の能力に対する著しく鋭い制限を図示し、予期せぬほど人間の認知を特定のオートマトン(ネストスタック)に限定し、チューリング機械を著しく下回る。

The machinery of the human brain -- analog, probabilistic, embodied -- can be characterized computationally, but what machinery confers what computational powers? Any such system can be abstractly cast in terms of two computational components: a finite state machine carrying out computational steps, whether via currents, chemistry, or mechanics; plus a set of allowable memory operations, typically formulated in terms of an information store that can be read from and written to, whether via synaptic change, state transition, or recurrent activity. Probing these mechanisms for their information content, we can capture the difference in computational power that various systems are capable of. Most human cognitive abilities, from perception to action to memory, are shared with other species; we seek to characterize those (few) capabilities that are ubiquitously present among humans and absent from other species. Three realms of formidable constraints -- a) measurable human cognitive abilities, b) measurable allometric anatomic brain characteristics, and c) measurable features of specific automata and formal grammars -- illustrate remarkably sharp restrictions on human abilities, unexpectedly confining human cognition to a specific class of automata ("nested stack"), which are markedly below Turing machines.
翻訳日:2022-10-31 05:51:53 公開日:2020-08-12
# エンド・ツー・エンドニューラルトランスを用いた音声言語理解

End-to-End Neural Transformer Based Spoken Language Understanding ( http://arxiv.org/abs/2008.10984v1 )

ライセンス: Link先を確認
Martin Radfar, Athanasios Mouchtaris, and Siegfried Kunzmann(参考訳) 音声言語理解(SLU)とは、音声信号から意味情報を推測する過程のこと。 ニューラルトランスフォーマーは、自然言語処理(NLP)分野における最先端のニューラルアーキテクチャの中で一貫して最高の性能を保っているが、それらと密接に関連する分野、すなわち音声言語理解(SLU)におけるメリットは研究されていない。 本稿では,中間トークン予測アーキテクチャを持たない音声信号に埋め込まれた可変長領域,インテント,スロットベクトルを予測可能な,エンドツーエンドのニューラルトランスフォーマーに基づくSLUモデルを提案する。 この新しいアーキテクチャは、音声信号が様々なサブサブサブ空間に変換され、発話によって暗示される意味的文脈を抽出するセルフアテンション機構を利用する。 我々のエンドツーエンド変換器SLUは、Fluent Speech Commandsデータセットのドメイン、インテント、スロットを、それぞれ98.1 \%、99.6 \%、99.6 \%と精度で予測し、繰り返しおよび畳み込みニューラルネットワークの組み合わせを利用するSLUモデルを1.4 \%上回る一方、モデルのサイズはこれらのアーキテクチャよりも25\%小さい。 さらに、自己アテンション層における独立した部分空間投影のため、モデルは高い並列化が可能であり、オンデバイスSLUの候補となる。

Spoken language understanding (SLU) refers to the process of inferring the semantic information from audio signals. While the neural transformers consistently deliver the best performance among the state-of-the-art neural architectures in field of natural language processing (NLP), their merits in a closely related field, i.e., spoken language understanding (SLU) have not beed investigated. In this paper, we introduce an end-to-end neural transformer-based SLU model that can predict the variable-length domain, intent, and slots vectors embedded in an audio signal with no intermediate token prediction architecture. This new architecture leverages the self-attention mechanism by which the audio signal is transformed to various sub-subspaces allowing to extract the semantic context implied by an utterance. Our end-to-end transformer SLU predicts the domains, intents and slots in the Fluent Speech Commands dataset with accuracy equal to 98.1 \%, 99.6 \%, and 99.6 \%, respectively and outperforms the SLU models that leverage a combination of recurrent and convolutional neural networks by 1.4 \% while the size of our model is 25\% smaller than that of these architectures. Additionally, due to independent sub-space projections in the self-attention layer, the model is highly parallelizable which makes it a good candidate for on-device SLU.
翻訳日:2022-10-31 05:50:14 公開日:2020-08-12
# 3次元視覚計測に基づくエアロエンジン低圧タービンシャフトの自動組み立て

Automatic assembly of aero engine low pressure turbine shaft based on 3D vision measurement ( http://arxiv.org/abs/2008.04903v1 )

ライセンス: Link先を確認
Jiaxiang Wang and Kunyong Chen(参考訳) 本稿では, 空気エンジン軸組立体の低自動化と非接触高精度測定の難しさという課題を解決するため, 航空機エンジンの主要部品の光双眼鏡計測技術を提案する。 三次元点雲データ処理と組立位置マッチングアルゴリズムとを組み合わせることで、タービンシャフトドッキング過程におけるシャフトホール組立姿勢の高精度測定を実現する。 まず、ボルト面上のねじ糸曲線をPCAプロジェクションとエッジポイントクラウドクラスタリングに基づいてセグメント化し、ハフ変換を用いて3次元スレッド曲線をモデル化する。 そして、前処理された2次元凸容器を構築して鍵孔位置特徴を分割し、RANSAC法に基づいてセグメンテーションにより得られる取付面と穴位置を取付ける。 最後に、形状特徴マッチングを用いて、そのポーズを最適化するためにタービン軸組立の評価指標を確立する。 実装面マッチングの最終測定精度は0.05mm未満であり、最小ランス最適化に基づく実装孔マッチングの測定精度は0.1度未満である。 測定アルゴリズムは、あるタイプのエアロエンジン低圧タービンロータの自動組立テストベッドに実装されている。 狭い設置空間において、狭い設置空間指導、リアルタイム検査、組立結果評価において、シャフトホールの自動アライメント及びドッキング、設置シームの自動加熱及び温度測定、および2つの銃の自動締め付け等のタービンシャフトアセンブリの組立工程を実現する。

In order to solve the problem of low automation of Aero-engine Turbine shaft assembly and the difficulty of non-contact high-precision measurement, a structured light binocular measurement technology for key components of aero-engine is proposed in this paper. Combined with three-dimensional point cloud data processing and assembly position matching algorithm, the high-precision measurement of shaft hole assembly posture in the process of turbine shaft docking is realized. Firstly, the screw thread curve on the bolt surface is segmented based on PCA projection and edge point cloud clustering, and Hough transform is used to model fit the three-dimensional thread curve. Then the preprocessed two-dimensional convex hull is constructed to segment the key hole location features, and the mounting surface and hole location obtained by segmentation are fitted based on RANSAC method. Finally, the geometric feature matching is used the evaluation index of turbine shaft assembly is established to optimize the pose. The final measurement accuracy of mounting surface matching is less than 0.05mm, and the measurement accuracy of mounting hole matching based on minimum ance optimization is less than 0.1 degree. The measurement algorithm is implemented on the automatic assembly test-bed of a certain type of aero-engine low-pressure turbine rotor. In the narrow installation space, the assembly process of the turbine shaft assembly, such as the automatic alignment and docking of the shaft hole, the automatic heating and temperature measurement of the installation seam, and the automatic tightening of the two guns, are realized in the narrow installation space Guidance, real-time inspection and assembly result evaluation.
翻訳日:2022-10-31 05:49:47 公開日:2020-08-12
# サイクル一貫性を用いた自己監督光視野合成

Self-supervised Light Field View Synthesis Using Cycle Consistency ( http://arxiv.org/abs/2008.05084v1 )

ライセンス: Link先を確認
Yang Chen, Martin Alain, Aljosa Smolic(参考訳) 高角分解能は光場の実用的応用に有利である。 光場の角分解能を高めるために、ビュー合成法を用いてスパース光場入力から濃密な中間ビューを生成することができる。 最も成功したビュー合成手法は学習に基づくアプローチであり、基底真理と組み合わせた大量のトレーニングデータを必要とする。 しかし、このような大規模なデータセットの収集は、自然画像やビデオと比較して困難である。 この問題に対処するために、サイクル整合性を有する自己教師付き光場ビュー合成フレームワークを提案する。 提案手法は,高品質自然映像データセットから学習した先行知識を光フィールドビュー合成タスクに転送することを目的としており,ラベル付き光フィールドデータの必要性を低減している。 サイクル一貫性制約は、生成されたビューを入力ビューと整合させる双方向マッピングを構築するために使用される。 この鍵となる概念から導かれる2つの損失関数、すなわちサイクル損失と再構成損失は、最先端のビデオ補間法の訓練済みモデルを微調整するために用いられる。 提案手法は, その頑健性を評価するために, 各種データセット上で評価され, 教師付き微調整に比べて競争性能が向上するだけでなく, 特に複数の中間ビューの生成において, 最先端の光視野合成法よりも優れていた。 また、先進的なビデオ補間のための事前訓練されたモデルにも、汎用光界ビュー合成フレームワークを適用できる。

High angular resolution is advantageous for practical applications of light fields. In order to enhance the angular resolution of light fields, view synthesis methods can be utilized to generate dense intermediate views from sparse light field input. Most successful view synthesis methods are learning-based approaches which require a large amount of training data paired with ground truth. However, collecting such large datasets for light fields is challenging compared to natural images or videos. To tackle this problem, we propose a self-supervised light field view synthesis framework with cycle consistency. The proposed method aims to transfer prior knowledge learned from high quality natural video datasets to the light field view synthesis task, which reduces the need for labeled light field data. A cycle consistency constraint is used to build bidirectional mapping enforcing the generated views to be consistent with the input views. Derived from this key concept, two loss functions, cycle loss and reconstruction loss, are used to fine-tune the pre-trained model of a state-of-the-art video interpolation method. The proposed method is evaluated on various datasets to validate its robustness, and results show it not only achieves competitive performance compared to supervised fine-tuning, but also outperforms state-of-the-art light field view synthesis methods, especially when generating multiple intermediate views. Besides, our generic light field view synthesis framework can be adopted to any pre-trained model for advanced video interpolation.
翻訳日:2022-10-31 05:49:21 公開日:2020-08-12
# 人間からアバターへの表情再ターゲティングを容易にする

Facial Expression Retargeting from Human to Avatar Made Easy ( http://arxiv.org/abs/2008.05110v1 )

ライセンス: Link先を確認
Juyong Zhang, Keyu Chen, Jianmin Zheng(参考訳) 人間から仮想キャラクタへの顔表現のリターゲティングは,コンピュータグラフィックスやアニメーションにおいて有用である。 伝統的な手法では、人間とアバターの顔のマッピングを構築するためにマーカーやブレンド形状を使用する。 しかし、これらのアプローチは退屈な3Dモデリングプロセスを必要とし、パフォーマンスはモデラーの経験に依存します。 本稿では,このクロスドメイン表現伝達問題に対する非線形表現埋め込みと表現領域変換による新しい解を提案する。 まず,可変オートエンコーダを用いて,人間およびアバターの表情の低次元潜在空間を構築する。 次に,幾何学的制約と知覚的制約によって導かれる2つの潜在空間間の対応関係を構築する。 具体的には,幾何学的マッチングを反映した幾何学的対応をデザインし,三重項データ構造を用いてユーザのアバター表現の知覚的嗜好を表現する。 ユーザが容易にかつ効率的に対応を注釈できるシステムのためのトリプレットを自動生成するユーザフレンドリーな手法を提案する。 幾何学的および知覚的対応を用いて,人間からアバターへの表現領域翻訳のためのネットワークを訓練した。 広範な実験結果とユーザスタディにより,非プロフェッショナルユーザでさえ,より少ない時間と労力で高品質な表情再ターゲティング結果を生成することができることが示された。

Facial expression retargeting from humans to virtual characters is a useful technique in computer graphics and animation. Traditional methods use markers or blendshapes to construct a mapping between the human and avatar faces. However, these approaches require a tedious 3D modeling process, and the performance relies on the modelers' experience. In this paper, we propose a brand-new solution to this cross-domain expression transfer problem via nonlinear expression embedding and expression domain translation. We first build low-dimensional latent spaces for the human and avatar facial expressions with variational autoencoder. Then we construct correspondences between the two latent spaces guided by geometric and perceptual constraints. Specifically, we design geometric correspondences to reflect geometric matching and utilize a triplet data structure to express users' perceptual preference of avatar expressions. A user-friendly method is proposed to automatically generate triplets for a system allowing users to easily and efficiently annotate the correspondences. Using both geometric and perceptual correspondences, we trained a network for expression domain translation from human to avatar. Extensive experimental results and user studies demonstrate that even nonprofessional users can apply our method to generate high-quality facial expression retargeting results with less time and effort.
翻訳日:2022-10-31 05:48:55 公開日:2020-08-12
# 畳み込み畳み込みニューラルネットワークにおけるバンド間損失とバンド内損失

An Inter- and Intra-Band Loss for Pansharpening Convolutional Neural Networks ( http://arxiv.org/abs/2008.05133v1 )

ライセンス: Link先を確認
Jiajun Cai and Bo Huang(参考訳) pansharpeningは、衛星からパンクロマティック画像とマルチスペクトル画像を融合して、高い空間分解能とスペクトル分解能を持つ画像を生成することを目的としている。 コンピュータビジョン分野におけるディープラーニングの応用が成功し、多くの学者がパンシャーピングの課題を解決するために多くの畳み込みニューラルネットワーク(CNN)を提案している。 これらのパンシャーピングネットワークは、CNNの様々な特徴構造に焦点を当てており、そのほとんどは、融合画像と模擬多重スペクトル画像の間のL2損失によって訓練されている。 しかしながら、L2損失は、トレーニング過程におけるバンド間関係を考慮しない各バンドのスペクトル情報の差を直接最小化するように設計されている。 本稿では,L2損失の欠点を克服するために,新たなバンド間およびバンド内損失(IIB)を提案する。 提案したIIB損失はバンド間関係とバンド間関係の両方を効果的に保ち、パンシャーピングCNNに直接適用することができる。

Pansharpening aims to fuse panchromatic and multispectral images from the satellite to generate images with both high spatial and spectral resolution. With the successful applications of deep learning in the computer vision field, a lot of scholars have proposed many convolutional neural networks (CNNs) to solve the pansharpening task. These pansharpening networks focused on various distinctive structures of CNNs, and most of them are trained by L2 loss between fused images and simulated desired multispectral images. However, L2 loss is designed to directly minimize the difference of spectral information of each band, which does not consider the inter-band relations in the training process. In this letter, we propose a novel inter- and intra-band (IIB) loss to overcome the drawback of original L2 loss. Our proposed IIB loss can effectively preserve both inter- and intra-band relations and can be directly applied to different pansharpening CNNs.
翻訳日:2022-10-31 05:48:35 公開日:2020-08-12
# KISS-GPによる高密度深度推定とスパースレンジ計測の平衡深さ補完

Balanced Depth Completion between Dense Depth Inference and Sparse Range Measurements via KISS-GP ( http://arxiv.org/abs/2008.05158v1 )

ライセンス: Link先を確認
Sungho Yoon and Ayoung Kim(参考訳) 密集した正確な深度マップを推定することは、自動運転とロボティクスにとって重要な要件である。 近年のディープラーニングの進歩により、単一の画像から全解像度での深度推定が可能になった。 この印象的な結果にもかかわらず、多くのディープラーニングベースの単眼深度推定(mde)アルゴリズムは、メートルレベルの推定誤差をもたらす精度を維持することができなかった。 多くのロボティクスアプリケーションでは、光検出とランキング(LiDAR)から正確だがスパースな測定が容易に行える。 精度は高いが、空間は全解像度深度マップの再構成を制限する。 本稿では,深度推定と深度回帰を両立させることにより,これら2つのモードの融合を,深度推定と深度回帰を両立させることにより,深度完備化(DC)問題として導入する。 本稿では,最先端のMDEとガウス過程に基づく深度回帰法を用いて,その深度をスパースレンジ測定で拡張することにより,様々なMDEモジュールで柔軟に動作可能な一般解を提案する。 GPの限界を克服するため、我々はKernel Interpolation for Scalable Structured (KISS)-GPを採用し、計算複雑性をO(N^3)からO(N)に緩和する。 提案手法の精度とロバスト性は,スパース法とバイアス測定の非教師なし手法より優れていることを示す。

Estimating a dense and accurate depth map is the key requirement for autonomous driving and robotics. Recent advances in deep learning have allowed depth estimation in full resolution from a single image. Despite this impressive result, many deep-learning-based monocular depth estimation (MDE) algorithms have failed to keep their accuracy yielding a meter-level estimation error. In many robotics applications, accurate but sparse measurements are readily available from Light Detection and Ranging (LiDAR). Although they are highly accurate, the sparsity limits full resolution depth map reconstruction. Targeting the problem of dense and accurate depth map recovery, this paper introduces the fusion of these two modalities as a depth completion (DC) problem by dividing the role of depth inference and depth regression. Utilizing the state-of-the-art MDE and our Gaussian process (GP) based depth-regression method, we propose a general solution that can flexibly work with various MDE modules by enhancing its depth with sparse range measurements. To overcome the major limitation of GP, we adopt Kernel Interpolation for Scalable Structured (KISS)-GP and mitigate the computational complexity from O(N^3) to O(N). Our experiments demonstrate that the accuracy and robustness of our method outperform state-of-the-art unsupervised methods for sparse and biased measurements.
翻訳日:2022-10-31 05:48:19 公開日:2020-08-12
# フリービュー合成

Free View Synthesis ( http://arxiv.org/abs/2008.05511v1 )

ライセンス: Link先を確認
Gernot Riegler, Vladlen Koltun(参考訳) 本稿では,シーン周囲に自由に分布する入力画像から新規なビュー合成手法を提案する。 本手法は,入力ビューの規則的な配置に依存しず,シーンを通して自由なカメラ運動のための画像の合成が可能であり,制約のない幾何学的レイアウトの一般的な場面で機能する。 入力画像をSfMで校正し、粗い幾何学的足場をMVSで作成する。 この足場は、シーンの新しいビューのためのプロキシ深度マップを作成するために使用されます。 この深度マップに基づいて、リカレントエンコーダ・デコーダネットワークは、近くのビューから特徴を再投影し、新しいビューを合成する。 私たちのネットワークは特定のシーンに最適化される必要はありません。 データセットをトレーニングした後は、微調整やシーンごとの最適化なしで、これまで見つからなかった環境で動作する。 我々は,タンクやテンプルなど,現実のデータセットに挑戦する上で提示されたアプローチを評価し,初めてビュー合成を成功させ,事前および同時処理を大幅に上回った。

We present a method for novel view synthesis from input images that are freely distributed around a scene. Our method does not rely on a regular arrangement of input views, can synthesize images for free camera movement through the scene, and works for general scenes with unconstrained geometric layouts. We calibrate the input images via SfM and erect a coarse geometric scaffold via MVS. This scaffold is used to create a proxy depth map for a novel view of the scene. Based on this depth map, a recurrent encoder-decoder network processes reprojected features from nearby views and synthesizes the new view. Our network does not need to be optimized for a given scene. After training on a dataset, it works in previously unseen environments with no fine-tuning or per-scene optimization. We evaluate the presented approach on challenging real-world datasets, including Tanks and Temples, where we demonstrate successful view synthesis for the first time and substantially outperform prior and concurrent work.
翻訳日:2022-10-31 05:42:10 公開日:2020-08-12
# 共同生成と分類によるデータセットの不均衡の緩和

Mitigating Dataset Imbalance via Joint Generation and Classification ( http://arxiv.org/abs/2008.05524v1 )

ライセンス: Link先を確認
Aadarsh Sahoo, Ankit Singh, Rameswar Panda, Rogerio Feris, Abir Das(参考訳) 改良されたディープラーニング手法は、コンピュータビジョンの多くの実践的応用において大きな成功を収めており、ロボット工学に革命をもたらす可能性がある。 しかし、バイアスや不均衡データに対する顕著な性能劣化は、これらの手法の信頼性に疑問を投げかける。 本研究では,特定のクラスに対する注釈付きトレーニングデータの過度な表現と,その深層分類と生成方法への影響から,データセットの不均衡の観点からこれらの疑問を解決した。 本稿では,ニューラルネットワーク分類器とgan(generative adversarial networks)を組み合わせることにより,学習例の不足を補う共同データセット修復戦略を提案する。 重度のクラス不均衡に対する分類器とGANの堅牢性向上に寄与することを示す。 提案手法は,不均衡の程度が異なる3つの全く異なるデータセットに対して有効であることを示す。 コードはhttps://github.com/AadSah/Im BalanceCycleGANで入手できる。

Supervised deep learning methods are enjoying enormous success in many practical applications of computer vision and have the potential to revolutionize robotics. However, the marked performance degradation to biases and imbalanced data questions the reliability of these methods. In this work we address these questions from the perspective of dataset imbalance resulting out of severe under-representation of annotated training data for certain classes and its effect on both deep classification and generation methods. We introduce a joint dataset repairment strategy by combining a neural network classifier with Generative Adversarial Networks (GAN) that makes up for the deficit of training examples from the under-representated class by producing additional training examples. We show that the combined training helps to improve the robustness of both the classifier and the GAN against severe class imbalance. We show the effectiveness of our proposed approach on three very different datasets with different degrees of imbalance in them. The code is available at https://github.com/AadSah/ImbalanceCycleGAN .
翻訳日:2022-10-31 05:41:53 公開日:2020-08-12
# 船上深部物体検出のための協調学習

Co-training for On-board Deep Object Detection ( http://arxiv.org/abs/2008.05534v1 )

ライセンス: Link先を確認
Gabriel Villalonga and Antonio M. Lopez(参考訳) 視覚モデルのトレーニングに基礎的真理の監督を提供することは、長年のボトルネックであり、そのようなモデルのパフォーマンスを低下させるドメインシフトによって悪化している。 これは、視覚タスクが手作りの機能と浅い機械学習に依存していた場合であり、前例のないパフォーマンス向上にもかかわらず、そのデータに飢えた性質のため、ディープラーニングパラダイム内で問題が発生し続けている。 ディープビジョンベースのオブジェクト検出器は、トレーニングイメージ内のクラスインスタンス(すなわちオブジェクト)をローカライズするヒューマンラベルのバウンディングボックスに依存することによって、教師ありの方法でトレーニングされる。 本稿では,非ラベル画像における自己ラベル付き物体の半教師付き学習方法としての協調学習を評価し,深層物体検出装置の開発における人間ラベルの労力を削減する。 特に,オブジェクト境界ボックスを持つ仮想空間イメージが自動生成され,ラベル付けされていない実空間イメージが存在する場合,ドメインシフトを伴うシナリオに特に注目する。 さらに、運転支援システムや自動運転車の文脈において、深部物体検出のためのコトレーニングの利用にも特に関心がある。 したがって、これらのアプリケーションコンテキストにおけるオブジェクト検出のための確立されたデータセットとプロトコルを使用することで、協調訓練がオブジェクトラベリングを緩和するためのパラダイムであることを示す。

Providing ground truth supervision to train visual models has been a bottleneck over the years, exacerbated by domain shifts which degenerate the performance of such models. This was the case when visual tasks relied on handcrafted features and shallow machine learning and, despite its unprecedented performance gains, the problem remains open within the deep learning paradigm due to its data-hungry nature. Best performing deep vision-based object detectors are trained in a supervised manner by relying on human-labeled bounding boxes which localize class instances (i.e.objects) within the training images.Thus, object detection is one of such tasks for which human labeling is a major bottleneck. In this paper, we assess co-training as a semi-supervised learning method for self-labeling objects in unlabeled images, so reducing the human-labeling effort for developing deep object detectors. Our study pays special attention to a scenario involving domain shift; in particular, when we have automatically generated virtual-world images with object bounding boxes and we have real-world images which are unlabeled. Moreover, we are particularly interested in using co-training for deep object detection in the context of driver assistance systems and/or self-driving vehicles. Thus, using well-established datasets and protocols for object detection in these application contexts, we will show how co-training is a paradigm worth to pursue for alleviating object labeling, working both alone and together with task-agnostic domain adaptation.
翻訳日:2022-10-31 05:41:39 公開日:2020-08-12
# CT胸部切開のための連続的授業増分学習

Continual Class Incremental Learning for CT Thoracic Segmentation ( http://arxiv.org/abs/2008.05557v1 )

ライセンス: Link先を確認
Abdelrahman Elskhawy, Aneta Lisowska, Matthias Keicher, Josep Henry, Paul Thomson, Nassir Navab(参考訳) ディープラーニングオルガンセグメンテーションアプローチには大量の注釈付きトレーニングデータが必要であり、機密性や専門家の手動アノテーションに要する時間のために供給が制限されている。 したがって、以前に使用したデータにアクセスせずに、段階的にモデルをトレーニングできることが望ましい。 シーケンシャルトレーニングの一般的な形式はファインチューニング(FT)である。 この設定では、モデルは新しいタスクを効果的に学習するが、以前に学習したタスクのパフォーマンスを失う。 LwF(Learning without Forgetting)アプローチは、モデルトレーニング中に過去のタスクに対する独自の予測を再生することでこの問題に対処する。 本研究では, FT と LwF を用いて, AAPM データセットを用いて, 複数組織セグメンテーションにおけるクラスインクリメンタル学習の評価を行った。 従来のセグメンテーションではlwfが知識の保持に成功しているが,各クラスの追加によって新しいクラスを学習する能力は低下する。 この問題に対処するために,タスク固有およびタスク不変の特徴に特徴空間を分散させる対向的連続学習セグメンテーション手法 (ACLSeg) を提案する。 これにより、過去のタスクにおけるパフォーマンスの維持と、新しい知識の効果的な獲得が可能になる。

Deep learning organ segmentation approaches require large amounts of annotated training data, which is limited in supply due to reasons of confidentiality and the time required for expert manual annotation. Therefore, being able to train models incrementally without having access to previously used data is desirable. A common form of sequential training is fine tuning (FT). In this setting, a model learns a new task effectively, but loses performance on previously learned tasks. The Learning without Forgetting (LwF) approach addresses this issue via replaying its own prediction for past tasks during model training. In this work, we evaluate FT and LwF for class incremental learning in multi-organ segmentation using the publicly available AAPM dataset. We show that LwF can successfully retain knowledge on previous segmentations, however, its ability to learn a new class decreases with the addition of each class. To address this problem we propose an adversarial continual learning segmentation approach (ACLSeg), which disentangles feature space into task-specific and task-invariant features. This enables preservation of performance on past tasks and effective acquisition of new knowledge.
翻訳日:2022-10-31 05:41:13 公開日:2020-08-12
# トランスファー学習に基づく仮想現実ヘッドセットによる部分閉塞時の表情認識

Facial Expression Recognition Under Partial Occlusion from Virtual Reality Headsets based on Transfer Learning ( http://arxiv.org/abs/2008.05563v1 )

ライセンス: Link先を確認
Bita Houshmand, Naimul Khan(参考訳) 感情の表情は私たちの日常コミュニケーションにおいて主要なチャネルであり、近年は激しい研究の対象となっている。 表情の自動推論には,表情認識(fer)タスクの適用性が証明されたことから,畳み込みニューラルネットワークに基づくアプローチが広く採用されている。一方,仮想現実(vr)は没入型マルチメディアプラットフォームとして人気を博し,ferがメディアエクスペリエンスの充実を図っている。 しかし、ヘッドマウントvrヘッドセットを装着しながら表情を認識することは、顔の上半分が完全にオクルードされているため、難しい課題である。 本稿では,これらの問題を克服し,ユーザがVR環境においてヘッドマウントディスプレイを装着している状況において,表情認識に焦点をあてる。 既存のFERデータセットに適用可能なSamsung Gear VRヘッドセットによる閉塞をシミュレートする幾何学的モデルを提案する。 次に、VGGとResNetという2つの事前学習ネットワークから始まる転送学習アプローチを採用する。 さらに、FER+およびRAF-DBデータセット上のネットワークを微調整します。 実験の結果,VRヘッドセットの装着による現実的な閉塞に順応する3つのベンチマークデータセットをトレーニングしながら,既存の手法と同等の結果が得られた。 この論文のコードは、https://github.com/bita-github/mrp-ferで入手できる。

Facial expressions of emotion are a major channel in our daily communications, and it has been subject of intense research in recent years. To automatically infer facial expressions, convolutional neural network based approaches has become widely adopted due to their proven applicability to Facial Expression Recognition (FER) task.On the other hand Virtual Reality (VR) has gained popularity as an immersive multimedia platform, where FER can provide enriched media experiences. However, recognizing facial expression while wearing a head-mounted VR headset is a challenging task due to the upper half of the face being completely occluded. In this paper we attempt to overcome these issues and focus on facial expression recognition in presence of a severe occlusion where the user is wearing a head-mounted display in a VR setting. We propose a geometric model to simulate occlusion resulting from a Samsung Gear VR headset that can be applied to existing FER datasets. Then, we adopt a transfer learning approach, starting from two pretrained networks, namely VGG and ResNet. We further fine-tune the networks on FER+ and RAF-DB datasets. Experimental results show that our approach achieves comparable results to existing methods while training on three modified benchmark datasets that adhere to realistic occlusion resulting from wearing a commodity VR headset. Code for this paper is available at: https://github.com/bita-github/MRP-FER
翻訳日:2022-10-31 05:40:52 公開日:2020-08-12
# ビデオにおける意味的関係集合の抽象化のモデリング

We Have So Much In Common: Modeling Semantic Relational Set Abstractions in Videos ( http://arxiv.org/abs/2008.05596v1 )

ライセンス: Link先を確認
Alex Andonian, Camilo Fosco, Mathew Monfort, Allen Lee, Rogerio Feris, Carl Vondrick, and Aude Oliva(参考訳) イベント間の共通パターンの特定は、知的な意思決定の基礎となる、人間と機械の知覚において重要な能力である。 本稿では,人間の学習に触発されたビデオ上の意味関係集合の抽象化を学ぶためのアプローチを提案する。 視覚特徴と自然言語監督を組み合わせることで,映像群全体の類似度を高レベルに表現する。 これにより、我々のモデルは、セット抽象化(ビデオのセットに共通する一般的な概念?)、セット完了(新しいビデオはセットと相性がいいのか?)、奇妙な1つの検出(どのビデオはセットに属さないのか? 2つのビデオベンチマーク、kineticsとmulti-moments in timeの実験では、集合間の共通性を認識するために学習すると、頑健で多彩な表現が現れる。 モデルといくつかのベースラインアルゴリズムを比較し,意味的監督を伴う関係抽象化を明示的に学習した結果,大幅な改善が得られたことを示す。

Identifying common patterns among events is a key ability in human and machine perception, as it underlies intelligent decision making. We propose an approach for learning semantic relational set abstractions on videos, inspired by human learning. We combine visual features with natural language supervision to generate high-level representations of similarities across a set of videos. This allows our model to perform cognitive tasks such as set abstraction (which general concept is in common among a set of videos?), set completion (which new video goes well with the set?), and odd one out detection (which video does not belong to the set?). Experiments on two video benchmarks, Kinetics and Multi-Moments in Time, show that robust and versatile representations emerge when learning to recognize commonalities among sets. We compare our model to several baseline algorithms and show that significant improvements result from explicitly learning relational abstractions with semantic supervision.
翻訳日:2022-10-31 05:40:03 公開日:2020-08-12
# マルチタスク文書ランキングと質問回答のための細粒度関連アノテーション

Fine-Grained Relevance Annotations for Multi-Task Document Ranking and Question Answering ( http://arxiv.org/abs/2008.05363v1 )

ライセンス: Link先を確認
Sebastian Hofst\"atter, Markus Zlabinger, Mete Sertkan, Michael Schr\"oder, Allan Hanbury(参考訳) 既存の検索および質問応答データセットは数多く存在する。 しかし、そのほとんどはランク付けされたリストの評価や、単一候補の質問応答に焦点を当てている。 この分割は、ドキュメントのランク付けに関するアプローチを適切に評価し、与えられたクエリに対するスニペットや回答を提供することを難しくする。 本稿では,Fine-Grained Relevance Annotationsの新たなデータセットであるFiRAを紹介する。 TREC 2019のディープ・ラーニング・トラックのランク付けされた検索アノテーションは、すべての関連文書のパスレベルとワードグレードの関連アノテーションで拡張する。 我々は、新たに作成したデータを用いて、長い文書における関連性の分布と、テキストの特定の位置に対するアノテータの注意を調査する。 例えば、最近導入されたTKL文書ランキングモデルを評価する。 その結果,TKLは長い文書に対して最先端の検索結果を示すが,多くの関連項目を見逃していることがわかった。

There are many existing retrieval and question answering datasets. However, most of them either focus on ranked list evaluation or single-candidate question answering. This divide makes it challenging to properly evaluate approaches concerned with ranking documents and providing snippets or answers for a given query. In this work, we present FiRA: a novel dataset of Fine-Grained Relevance Annotations. We extend the ranked retrieval annotations of the Deep Learning track of TREC 2019 with passage and word level graded relevance annotations for all relevant documents. We use our newly created data to study the distribution of relevance in long documents, as well as the attention of annotators to specific positions of the text. As an example, we evaluate the recently introduced TKL document ranking model. We find that although TKL exhibits state-of-the-art retrieval results for long documents, it misses many relevant passages.
翻訳日:2022-10-31 05:39:44 公開日:2020-08-12
# 不動産価格の生涯予測:トロントの不動産市場を事例として

Lifelong Property Price Prediction: A Case Study for the Toronto Real Estate Market ( http://arxiv.org/abs/2008.05880v1 )

ライセンス: Link先を確認
Hao Peng, Jianxin Li, Zheng Wang, Renyu Yang, Mingzhe Liu, Mingming Zhang, Philip S. Yu and Lifang He(参考訳) 自動資産評価のための最初の寿命予測モデルであるLuceを提示する。 ルースは不動産評価額の2つの重要な問題に対処している。 最近の住宅取引データの限られた量で動作するように設計されている。 以前の作業から離れて、Luceはハウスデータをヘテロジニアスな情報ネットワーク(HIN)に整理し、グラフノードはハウスエンティティであり、ハウス価格評価に重要な属性である。 グラフ畳み込みネットワーク(GCN)を用いて、HINから地理的位置情報などの住宅関連データを抽出し、Long Short Term Memory(LSTM)ネットワークを用いて、住宅取引データの時間的依存関係を時間とともにモデル化する。 以前の仕事とは異なり、luceはhin内のすべてのハウスエンティティのバリュエーション情報を更新するために、過去数ヶ月で限られたハウストランザクションデータを有効に利用することができる。 完全かつ最新の住宅評価データセットを提供することで、Luceはターゲットプロパティの下流評価タスクを大幅に単純化する。 トロント不動産市場から得られた大規模な実生活データセットに適用することで,Luceのメリットを実証する。 広範な実験結果から、ルースが先行する資産評価手法を大幅に上回るだけでなく、実際の実現価格を根拠とする独立した専門家による評価精度をしばしば上回ることも示されている。

We present Luce, the first life-long predictive model for automated property valuation. Luce addresses two critical issues of property valuation: the lack of recent sold prices and the sparsity of house data. It is designed to operate on a limited volume of recent house transaction data. As a departure from prior work, Luce organizes the house data in a heterogeneous information network (HIN) where graph nodes are house entities and attributes that are important for house price valuation. We employ a Graph Convolutional Network (GCN) to extract the spatial information from the HIN for house-related data like geographical locations, and then use a Long Short Term Memory (LSTM) network to model the temporal dependencies for house transaction data over time. Unlike prior work, Luce can make effective use of the limited house transactions data in the past few months to update valuation information for all house entities within the HIN. By providing a complete and up-to-date house valuation dataset, Luce thus massively simplifies the downstream valuation task for the targeting properties. We demonstrate the benefit of Luce by applying it to large, real-life datasets obtained from the Toronto real estate market. Extensive experimental results show that Luce not only significantly outperforms prior property valuation methods but also often reaches and sometimes exceeds the valuation accuracy given by independent experts when using the actual realization price as the ground truth.
翻訳日:2022-10-31 05:39:32 公開日:2020-08-12
# ゼロショットスケッチに基づくリモートセンシング画像のためのモード間オブジェクト検索方式

A Zero-Shot Sketch-based Inter-Modal Object Retrieval Scheme for Remote Sensing Images ( http://arxiv.org/abs/2008.05225v1 )

ライセンス: Link先を確認
Ushasi Chaudhuri, Biplab Banerjee, Avik Bhattacharya, Mihai Datcu(参考訳) リモートセンシング(RS)における従来の既存の検索方法は、しばしばユニモーダルなデータ検索フレームワークに基づいている。 本研究では,RSデータのスケッチベース表現を用いたモーダル三重項に基づくゼロショット検索手法を提案する。 提案手法は、スケッチ表現が画像の極端にプロトタイプである場合でも効率よく動作する。 本研究では,本研究で考案された Earth on Canvas (EoC) というバイモーダルな画像スケッチデータセットの実験を行った。 このデータセットの詳細なベンチマーキングを行い,提案手法がリモートセンシングにおけるゼロショットスケッチに基づく検索フレームワークの最先端手法よりも優れていることを示す。

Conventional existing retrieval methods in remote sensing (RS) are often based on a uni-modal data retrieval framework. In this work, we propose a novel inter-modal triplet-based zero-shot retrieval scheme utilizing a sketch-based representation of RS data. The proposed scheme performs efficiently even when the sketch representations are marginally prototypical of the image. We conducted experiments on a new bi-modal image-sketch dataset called Earth on Canvas (EoC) conceived during this study. We perform a thorough bench-marking of this dataset and demonstrate that the proposed network outperforms other state-of-the-art methods for zero-shot sketch-based retrieval framework in remote sensing.
翻訳日:2022-10-31 05:32:57 公開日:2020-08-12
# DNNボトルネック補強による敵防御事例

Defending Adversarial Examples via DNN Bottleneck Reinforcement ( http://arxiv.org/abs/2008.05230v1 )

ライセンス: Link先を確認
Wenqing Liu, Miaojing Shi, Teddy Furon, Li Li(参考訳) 本稿では,敵対的攻撃に対するディープニューラルネットワーク(DNN)の脆弱性を軽減するために,DNNのボトルネック強化手法を提案する。 典型的なDNN分類器は、入力画像を推論に適した圧縮潜在表現にエンコードする。 この情報ボトルネックは、画像内の画像固有の構造とクラス固有の情報とのトレードオフをもたらす。 後者を維持しながら前者を補強することにより、逆らうか否かに関わらず、冗長な情報は、潜在表現から取り除かなければならない。 そこで本稿では,同じ符号化重みを視覚分類器と共有するオートエンコーダ(AE)を共同で訓練することを提案する。 情報ボトルネックを強化するために,ネットワークの周波数ステアリングを改善するために,マルチスケールの低域目標とマルチスケールの高周波通信を導入する。 既存の手法とは異なり,本方式は,前処理ヘッドを付加することなく分類器構造を無修正に保ち,クリーン画像のみを訓練する最初の再設計防御方式である。 MNIST, CIFAR-10 および ImageNet の広範囲にわたる実験により, 本手法の様々な攻撃に対する強力な防御効果が示された。

This paper presents a DNN bottleneck reinforcement scheme to alleviate the vulnerability of Deep Neural Networks (DNN) against adversarial attacks. Typical DNN classifiers encode the input image into a compressed latent representation more suitable for inference. This information bottleneck makes a trade-off between the image-specific structure and class-specific information in an image. By reinforcing the former while maintaining the latter, any redundant information, be it adversarial or not, should be removed from the latent representation. Hence, this paper proposes to jointly train an auto-encoder (AE) sharing the same encoding weights with the visual classifier. In order to reinforce the information bottleneck, we introduce the multi-scale low-pass objective and multi-scale high-frequency communication for better frequency steering in the network. Unlike existing approaches, our scheme is the first reforming defense per se which keeps the classifier structure untouched without appending any pre-processing head and is trained with clean images only. Extensive experiments on MNIST, CIFAR-10 and ImageNet demonstrate the strong defense of our method against various adversarial attacks.
翻訳日:2022-10-31 05:32:48 公開日:2020-08-12
# pam:6次元物体ポーズ推定のためのポイントワイズアテンションモジュール

PAM:Point-wise Attention Module for 6D Object Pose Estimation ( http://arxiv.org/abs/2008.05242v1 )

ライセンス: Link先を確認
Myoungha Song, Jeongho Lee, Donghwan Kim(参考訳) 6次元ポーズ推定は3次元回転と3次元変換の物体認識と推定を指す。 6dポーズを推定するための重要な技術は、どんな環境でもポーズを見つけるのに十分な特徴を抽出することでポーズを推定することである。 従来の手法では、細分化プロセスで奥行き情報を利用するか、特徴を抽出するために各データ空間の異種アーキテクチャとして設計されていた。 しかし、これらの方法は十分な特徴を抽出できないという点で制限されている。 そこで本稿では,RGB-Dから効率よく強力な特徴を抽出できるポイントアテンションモジュールを提案する。 我々のモジュールでは、幾何学的注意経路(GAP)とチャネル注意経路(CAP)を通して注意マップを形成する。 GAPでは幾何情報における重要な情報に注意を払うように設計されており、CAPはチャネル情報における重要な情報に注意を払うように設計されている。 注意モジュールは計算複雑性を大幅に増大させることなく,効率よく特徴表現を生成する。 実験の結果,提案手法はベンチマーク,ycbビデオ,linemodの既存手法よりも優れていた。 さらに,アテンションモジュールを分類タスクに適用し,既存のモデルと比較して性能が有意に向上したことを確認した。

6D pose estimation refers to object recognition and estimation of 3D rotation and 3D translation. The key technology for estimating 6D pose is to estimate pose by extracting enough features to find pose in any environment. Previous methods utilized depth information in the refinement process or were designed as a heterogeneous architecture for each data space to extract feature. However, these methods are limited in that they cannot extract sufficient feature. Therefore, this paper proposes a Point Attention Module that can efficiently extract powerful feature from RGB-D. In our Module, attention map is formed through a Geometric Attention Path(GAP) and Channel Attention Path(CAP). In GAP, it is designed to pay attention to important information in geometric information, and CAP is designed to pay attention to important information in Channel information. We show that the attention module efficiently creates feature representations without significantly increasing computational complexity. Experimental results show that the proposed method outperforms the existing methods in benchmarks, YCB Video and LineMod. In addition, the attention module was applied to the classification task, and it was confirmed that the performance significantly improved compared to the existing model.
翻訳日:2022-10-31 05:32:01 公開日:2020-08-12
# TF-NAS:レイテンシ制約付き微分可能なニューラルネットワーク探索の3つの自由度を再考する

TF-NAS: Rethinking Three Search Freedoms of Latency-Constrained Differentiable Neural Architecture Search ( http://arxiv.org/abs/2008.05314v1 )

ライセンス: Link先を確認
Yibo Hu, Xiang Wu, Ran He(参考訳) 微分可能なニューラルネットワークサーチ(NAS)の普及に伴い、遅延制約のあるアーキテクチャの自動検索は、人間の労働力と専門知識を減らすための新たな視点を提供する。 しかしながら、検索されたアーキテクチャは通常、精度が最適以下であり、ターゲットレイテンシの周りに大きなジッタを持つ可能性がある。 本稿では,3つの微分可能なnas,すなわち操作レベル,深さレベル,幅レベルの自由度を再検討し,分類精度とレイテンシ制約の精度を両立する新しい手法である3自由度nas(tf-nas)を提案する。 動作レベルでは,二サンプリング探索アルゴリズムを用いて動作崩壊を緩和する。 奥行きレベルでは,スキップ操作と他の候補操作との相互排他性を確保し,アーキテクチャ冗長性を排除するため,シンク接続検索空間を導入する。 広帯域化のために, 精度の高い遅延制約を実現する弾性スケーリング手法を提案する。 ImageNetの実験はTF-NASの有効性を示した。 特に,検索したTF-NAS-Aは76.9%のTop-1精度を示し,最新結果のレイテンシを低くした。 検索時間は1Titan RTX GPUでわずか1.8日である。 コードはhttps://github.com/AberHu/TF-NASで入手できる。

With the flourish of differentiable neural architecture search (NAS), automatically searching latency-constrained architectures gives a new perspective to reduce human labor and expertise. However, the searched architectures are usually suboptimal in accuracy and may have large jitters around the target latency. In this paper, we rethink three freedoms of differentiable NAS, i.e. operation-level, depth-level and width-level, and propose a novel method, named Three-Freedom NAS (TF-NAS), to achieve both good classification accuracy and precise latency constraint. For the operation-level, we present a bi-sampling search algorithm to moderate the operation collapse. For the depth-level, we introduce a sink-connecting search space to ensure the mutual exclusion between skip and other candidate operations, as well as eliminate the architecture redundancy. For the width-level, we propose an elasticity-scaling strategy that achieves precise latency constraint in a progressively fine-grained manner. Experiments on ImageNet demonstrate the effectiveness of TF-NAS. Particularly, our searched TF-NAS-A obtains 76.9% top-1 accuracy, achieving state-of-the-art results with less latency. The total search time is only 1.8 days on 1 Titan RTX GPU. Code is available at https://github.com/AberHu/TF-NAS.
翻訳日:2022-10-31 05:31:43 公開日:2020-08-12
# 画像に基づく肖像彫刻

Image-based Portrait Engraving ( http://arxiv.org/abs/2008.05336v1 )

ライセンス: Link先を確認
Paul L. Rosin and Yu-Kun Lai(参考訳) 本稿では,順序付きディザリングを用いて肖像画に刻印スタイライゼーションを施す簡易な画像ベース手法について述べる。 顔検出は、ディザマトリクスをゆがめるために使用されるシリンダーからなる頭部の粗いプロキシジオメトリを推定するために使用され、彫刻ラインが顔の周りに曲がってスタイリゼーションが向上する。 最後に,カラー彫刻へのアプローチの応用を実証した。

This paper describes a simple image-based method that applies engraving stylisation to portraits using ordered dithering. Face detection is used to estimate a rough proxy geometry of the head consisting of a cylinder, which is used to warp the dither matrix, causing the engraving lines to curve around the face for better stylisation. Finally, an application of the approach to colour engraving is demonstrated.
翻訳日:2022-10-31 05:31:22 公開日:2020-08-12
# DAWN:逆気象自然データセットにおける車両検出

DAWN: Vehicle Detection in Adverse Weather Nature Dataset ( http://arxiv.org/abs/2008.05402v1 )

ライセンス: Link先を確認
Mourad A. Kenk, Mahmoud Hassaballah(参考訳) 近年、車線キープ支援、交通渋滞の待ち行列支援、駐車支援、事故回避など、自動運転車にいくつかの自動化機能が導入されている。 これらの自動運転車とインテリジェントな視覚交通監視システムは、主にカメラとセンサーの融合システムに依存している。 激しい霧、雨、雪、砂嵐などの逆の気象条件は、シーン理解のためのコンピュータビジョンアルゴリズム(車両の検出、追跡、交通現場での認識など)の性能に深刻な影響を及ぼすカメラの機能に危険な制約があると考えられている。 例えば、雨流や道路上の氷からの反射は大規模な検出エラーを引き起こし、インテリジェントな視覚交通システムの性能に影響を及ぼす可能性がある。 さらに、シーン理解と車両検出アルゴリズムは、特定の種類の合成画像といくつかの実世界の画像を含むデータセットを用いて、主に評価される。 したがって、これらのアルゴリズムが野生で取得された不明瞭な画像に対してどのように機能するか、そしてこれらのアルゴリズムの進歩が現場でどのように標準化されるかは不透明である。 そこで本研究では,様々な気象条件下で収集された実世界画像からなるデータセットであるbenchmark(benchmark)を提案する。 このデータセットは多様な交通環境(都市、高速道路、高速道路)と豊富な交通の流れを強調している。 夜明けのデータセットは、霧、雪、雨、砂嵐の4つの気象条件に分けられる、現実の交通環境からの1000枚の画像からなる。 データセットには、自律運転とビデオ監視シナリオのためのオブジェクトバウンディングボックスがアノテートされている。 このデータは,車両検出システムの性能に及ぼす悪天候条件の影響の解釈に有用である。

Recently, self-driving vehicles have been introduced with several automated features including lane-keep assistance, queuing assistance in traffic-jam, parking assistance and crash avoidance. These self-driving vehicles and intelligent visual traffic surveillance systems mainly depend on cameras and sensors fusion systems. Adverse weather conditions such as heavy fog, rain, snow, and sandstorms are considered dangerous restrictions of the functionality of cameras impacting seriously the performance of adopted computer vision algorithms for scene understanding (i.e., vehicle detection, tracking, and recognition in traffic scenes). For example, reflection coming from rain flow and ice over roads could cause massive detection errors which will affect the performance of intelligent visual traffic systems. Additionally, scene understanding and vehicle detection algorithms are mostly evaluated using datasets contain certain types of synthetic images plus a few real-world images. Thus, it is uncertain how these algorithms would perform on unclear images acquired in the wild and how the progress of these algorithms is standardized in the field. To this end, we present a new dataset (benchmark) consisting of real-world images collected under various adverse weather conditions called DAWN. This dataset emphasizes a diverse traffic environment (urban, highway and freeway) as well as a rich variety of traffic flow. The DAWN dataset comprises a collection of 1000 images from real-traffic environments, which are divided into four sets of weather conditions: fog, snow, rain and sandstorms. The dataset is annotated with object bounding boxes for autonomous driving and video surveillance scenarios. This data helps interpreting effects caused by the adverse weather conditions on the performance of vehicle detection systems.
翻訳日:2022-10-31 05:30:56 公開日:2020-08-12
# こっちを見ろ! パラメトリック学習に基づく視覚的注意のリダイレクト

Look here! A parametric learning based approach to redirect visual attention ( http://arxiv.org/abs/2008.05413v1 )

ライセンス: Link先を確認
Youssef Alami Mejjati and Celso F. Gomez and Kwang In Kim and Eli Shechtman and Zoya Bylinskii(参考訳) 写真、マーケティング、ウェブサイトデザインにおいて、視聴者の注意を向けることができることは強力なツールである。 プロのワークフローに触発されて,画像領域を微妙な画像編集によってより注意を惹きつける手法を導入し,現実性と忠実さをオリジナルに維持する。 入力画像とユーザが提供するマスクから、gazageshiftnetモデルは、前景と背景画像領域に別々に適用される、異なるグローバルパラメトリック変換のセットを予測する。 本稿では,先行研究よりも改善を示す定量的・定性的な実験結果を示す。 既存の注意シフトアルゴリズムとは対照的に、我々のグローバルパラメトリックアプローチはイメージセマンティクスをより良く保存し、典型的な生成的アーティファクトを避ける。 私たちの編集では、任意の画像サイズでインタラクティブなレートで推論が可能で、ビデオに簡単に一般化できます。 モデルの拡張により、マルチスタイルな編集が可能となり、画像領域での注意を増減・弱めることができる。 さらに、ユーザーはパラメータ空間の補間によって編集をダイヤルすることで、編集画像をカスタマイズできる。 本稿では,将来の画像編集パイプラインを簡素化する実用的なツールを提案する。

Across photography, marketing, and website design, being able to direct the viewer's attention is a powerful tool. Motivated by professional workflows, we introduce an automatic method to make an image region more attention-capturing via subtle image edits that maintain realism and fidelity to the original. From an input image and a user-provided mask, our GazeShiftNet model predicts a distinct set of global parametric transformations to be applied to the foreground and background image regions separately. We present the results of quantitative and qualitative experiments that demonstrate improvements over prior state-of-the-art. In contrast to existing attention shifting algorithms, our global parametric approach better preserves image semantics and avoids typical generative artifacts. Our edits enable inference at interactive rates on any image size, and easily generalize to videos. Extensions of our model allow for multi-style edits and the ability to both increase and attenuate attention in an image region. Furthermore, users can customize the edited images by dialing the edits up or down via interpolations in parameter space. This paper presents a practical tool that can simplify future image editing pipelines.
翻訳日:2022-10-31 05:30:32 公開日:2020-08-12
# 畳み込みニューラルネットワーク圧縮のための安定低ランクテンソル分解

Stable Low-rank Tensor Decomposition for Compression of Convolutional Neural Network ( http://arxiv.org/abs/2008.05441v1 )

ライセンス: Link先を確認
Anh-Huy Phan, Konstantin Sobolev, Konstantin Sozykin, Dmitry Ermilov, Julia Gusak, Petr Tichavsky, Valeriy Glukhov, Ivan Oseledets, and Andrzej Cichocki(参考訳) 最先端のディープニューラルネットワークのほとんどは過パラメータであり、計算コストが高い。 この問題に対する直接的なアプローチは、畳み込み核を低ランクテンソル近似で置き換えることであるが、カノニカル多進テンソル分解は最も適したモデルの1つである。 しかし、数値最適化アルゴリズムによる畳み込みテンソルの適合は、しばしば異なる成分、すなわち非常に大きなランク1テンソルに遭遇する。 このような縮退は、しばしばニューラルネットワークの微調整の非解釈結果と数値不安定を引き起こす。 本稿では,畳み込み核のテンソル分解における縮退性に関する最初の研究である。 本稿では、畳み込みカーネルの低ランク近似を安定化し、ニューラルネットワークの性能を保ちながら効率的な圧縮を確保する新しい手法を提案する。 画像分類のための一般的なCNNアーキテクチャに対するアプローチを評価し,提案手法により精度が大幅に低下し,一貫した性能が得られることを示す。

Most state of the art deep neural networks are overparameterized and exhibit a high computational cost. A straightforward approach to this problem is to replace convolutional kernels with its low-rank tensor approximations, whereas the Canonical Polyadic tensor Decomposition is one of the most suited models. However, fitting the convolutional tensors by numerical optimization algorithms often encounters diverging components, i.e., extremely large rank-one tensors but canceling each other. Such degeneracy often causes the non-interpretable result and numerical instability for the neural network fine-tuning. This paper is the first study on degeneracy in the tensor decomposition of convolutional kernels. We present a novel method, which can stabilize the low-rank approximation of convolutional kernels and ensure efficient compression while preserving the high-quality performance of the neural networks. We evaluate our approach on popular CNN architectures for image classification and show that our method results in much lower accuracy degradation and provides consistent performance.
翻訳日:2022-10-31 05:30:13 公開日:2020-08-12
# 離散POMDPの観察における知覚カーネル機能

Deceptive Kernel Function on Observations of Discrete POMDP ( http://arxiv.org/abs/2008.05585v1 )

ライセンス: Link先を確認
Zhili Zhang and Quanyan Zhu(参考訳) 本稿では, 部分的に観察可能なマルコフ決定過程において, エージェントに適用されるデセプションについて検討する。 離散POMDPにおけるエージェントの観察に応用した, 擬似カーネル関数(カーネル)を提案する。 エージェントが使用する値反復法、値関数近似法、pomcp3特性アルゴリズムに基づき、その信念をカーネルの出力として偽の観察によって誤解し、エージェントの報酬や潜在的性能に対する潜在的な脅威を予測する。 我々は,2つのPOMDP問題に対して実験を行うことで,我々の期待を検証し,詐欺のより有害な影響を探る。 その結果、エージェントの観察に適用されるカーネルは、その信念に影響を与え、結果として得られる報酬を実質的に低下させることができる。

This paper studies the deception applied on agent in a partially observable Markov decision process. We introduce deceptive kernel function (the kernel) applied to agent's observations in a discrete POMDP. Based on value iteration, value function approximation and POMCP three characteristic algorithms used by agent, we analyze its belief being misled by falsified observations as the kernel's outputs and anticipate its probable threat on agent's reward and potentially other performance. We validate our expectation and explore more detrimental effects of the deception by experimenting on two POMDP problems. The result shows that the kernel applied on agent's observation can affect its belief and substantially lower its resulting rewards; meantime certain implementation of the kernel could induce other abnormal behaviors by the agent.
翻訳日:2022-10-31 05:24:14 公開日:2020-08-12
# 畳み込みニューラルネットワークに基づくディブルリングに適した領域の選択

Select Good Regions for Deblurring based on Convolutional Neural Networks ( http://arxiv.org/abs/2008.05065v1 )

ライセンス: Link先を確認
Hang Yang and Xiaotian Wu and Xinglong Sun(参考訳) ブラインド画像の劣化の目的は、未知のぼかしカーネルで入力されたぼかし画像からシャープ画像を復元することである。 イメージデブラリングのアプローチのほとんどは、イメージプリエントの開発に焦点を当てているが、画像の詳細と構造がぼやけたカーネル推定に与える影響には十分な注意が払われていない。 有用なイメージ構造とよいデブラリング領域の選択方法は何か? 本研究では,ぼけカーネルの推定に適した領域を選択するディープニューラルネットワークモデル手法を提案する。 まず、ラベル付きイメージパッチを構築し、ディープニューラルネットワークをトレーニングし、学習モデルを適用して、画像のどの領域がデブラリングに最も適しているかを決定する。 実験の結果,提案手法は有効であり,画像デブラリングに適した領域を選択できることがわかった。

The goal of blind image deblurring is to recover sharp image from one input blurred image with an unknown blur kernel. Most of image deblurring approaches focus on developing image priors, however, there is not enough attention to the influence of image details and structures on the blur kernel estimation. What is the useful image structure and how to choose a good deblurring region? In this work, we propose a deep neural network model method for selecting good regions to estimate blur kernel. First we construct image patches with labels and train a deep neural networks, then the learned model is applied to determine which region of the image is most suitable to deblur. Experimental results illustrate that the proposed approach is effective, and could be able to select good regions for image deblurring.
翻訳日:2022-10-31 05:24:01 公開日:2020-08-12
# BiHand: マルチステージ双眼鏡ネットワークによるハンドメッシュの復元

BiHand: Recovering Hand Mesh with Multi-stage Bisected Hourglass Networks ( http://arxiv.org/abs/2008.05079v1 )

ライセンス: Link先を確認
Lixin Yang, Jiasen Li, Wenqiang Xu, Yiqun Diao, Cewu Lu(参考訳) 3dハンド推定はコンピュータビジョンにおける長年の研究テーマである。 最近のトレンドは、3dハンドジョイントの位置を推定するだけでなく、メッシュモデルの復元も目指している。 しかし、1枚のRGB画像からこれらの目標を達成することは依然として困難である。 本稿では,2次元シードステージ,3次元リフトステージ,メッシュ生成ステージの3段階からなる,エンドツーエンドの学習可能なモデルであるBiHandを紹介する。 バイハンドの出力では、ネットワークから予測されるジョイント回転と形状パラメータを用いて全ハンドメッシュを復元する。 それぞれのステージ内で、BiHandは2つの密接に関連する情報(例えば、2次元のシードステージにおける2Dキーポイントとシルエット、3次元のジョイントマップ、メッシュ生成ステージにおける関節回転と形状パラメータ)を単一の前方通過でカプセル化できる新しいバイセクティング設計を採用する。 情報が異なる幾何学や構造の詳細を表すため、データフローを二分することで最適化が容易になり、堅牢性が向上する。 定量的評価のために,Rendered Hand Dataset (RHD) と Stereo Hand Pose Tracking Benchmark (STB) の2つの公開ベンチマーク実験を行った。 広汎な実験により,本モデルは最先端の手法と比較して精度が良く,いくつかの厳しい条件下で魅力的な3Dハンドメッシュを作成できることがわかった。

3D hand estimation has been a long-standing research topic in computer vision. A recent trend aims not only to estimate the 3D hand joint locations but also to recover the mesh model. However, achieving those goals from a single RGB image remains challenging. In this paper, we introduce an end-to-end learnable model, BiHand, which consists of three cascaded stages, namely 2D seeding stage, 3D lifting stage, and mesh generation stage. At the output of BiHand, the full hand mesh will be recovered using the joint rotations and shape parameters predicted from the network. Inside each stage, BiHand adopts a novel bisecting design which allows the networks to encapsulate two closely related information (e.g. 2D keypoints and silhouette in 2D seeding stage, 3D joints, and depth map in 3D lifting stage, joint rotations and shape parameters in the mesh generation stage) in a single forward pass. As the information represents different geometry or structure details, bisecting the data flow can facilitate optimization and increase robustness. For quantitative evaluation, we conduct experiments on two public benchmarks, namely the Rendered Hand Dataset (RHD) and the Stereo Hand Pose Tracking Benchmark (STB). Extensive experiments show that our model can achieve superior accuracy in comparison with state-of-the-art methods, and can produce appealing 3D hand meshes in several severe conditions.
翻訳日:2022-10-31 05:23:49 公開日:2020-08-12
# 弱教師付き局所化のための画像間通信

Inter-Image Communication for Weakly Supervised Localization ( http://arxiv.org/abs/2008.05096v1 )

ライセンス: Link先を確認
Xiaolin Zhang, Yunchao Wei, Yi Yang(参考訳) 弱い教師付きローカライゼーションは、画像レベルの監督だけでターゲットのオブジェクト領域を見つけることを目的としている。 しかし,分類ネットワークから抽出したローカライゼーションマップは,微細な画素レベルの監督が欠如しているため,しばしば正確ではない。 本稿では,異なる物体間の画素レベルの類似性を利用して,より正確な物体位置を相補的に学習することを提案する。 特に、同じカテゴリ内のオブジェクト特徴の一貫性を促進するために、2種類の制約が提案されている。 最初の制約は、バッチ内で異なる画像からランダムにサンプリングされた識別画素間の確率的特徴一貫性を学ぶことである。 1つの画像に埋め込まれた識別情報は、画像間通信の利点を享受することができる。 2つめの制約は、データセット全体を通してオブジェクトの機能のグローバル一貫性を学ぶことである。 各カテゴリの特徴中心を学習し,クラス固有の中心にオブジェクトの特徴を強制することで,グローバルな特徴整合性を実現する。 グローバルセンターはトレーニングプロセスで積極的に更新されている。 この2つの制約は、同じカテゴリ内で一貫したピクセルレベルの特徴を学習し、最終的にローカライズマップの品質を改善するのに役立ちます。 ILSVRCとCUB-200-2011の2つの人気のあるベンチマークで広範な実験を行った。 本手法は,ilsvrc検証セット上でトップ1位置推定誤差率45.17%を達成し,現在の最先端手法を大差で上回った。 コードはhttps://github.com/xiaomengyc/i2cで入手できる。

Weakly supervised localization aims at finding target object regions using only image-level supervision. However, localization maps extracted from classification networks are often not accurate due to the lack of fine pixel-level supervision. In this paper, we propose to leverage pixel-level similarities across different objects for learning more accurate object locations in a complementary way. Particularly, two kinds of constraints are proposed to prompt the consistency of object features within the same categories. The first constraint is to learn the stochastic feature consistency among discriminative pixels that are randomly sampled from different images within a batch. The discriminative information embedded in one image can be leveraged to benefit its counterpart with inter-image communication. The second constraint is to learn the global consistency of object features throughout the entire dataset. We learn a feature center for each category and realize the global feature consistency by forcing the object features to approach class-specific centers. The global centers are actively updated with the training process. The two constraints can benefit each other to learn consistent pixel-level features within the same categories, and finally improve the quality of localization maps. We conduct extensive experiments on two popular benchmarks, i.e., ILSVRC and CUB-200-2011. Our method achieves the Top-1 localization error rate of 45.17% on the ILSVRC validation set, surpassing the current state-of-the-art method by a large margin. The code is available at https://github.com/xiaomengyc/I2C.
翻訳日:2022-10-31 05:23:09 公開日:2020-08-12
# ASAP-Net: 注意と構造を考慮したクラウドシーケンスセグメンテーション

ASAP-Net: Attention and Structure Aware Point Cloud Sequence Segmentation ( http://arxiv.org/abs/2008.05149v1 )

ライセンス: Link先を確認
Hanwen Cao, Yongyi Lu, Cewu Lu, Bo Pang, Gongshen Liu, Alan Yuille(参考訳) 点雲の最近の研究は、多フレーム時空間モデリングがクロスフレーム情報を利用することでシングルフレームバージョンより優れていることを示している。 本稿では,動的点雲におけるセグメンテーションを成功させる2つの重要な要因として,フレーム間の注意情報と構造情報の両方を考慮したASAPと呼ばれるフレキシブルモジュールを用いて,時空間雲の特徴学習をさらに改善する。 まず、我々のASAPモジュールは、フレーム間の比較的情報性の高い局所的特徴を反復的に融合させるために、新しい注意的時間的埋め込み層を含む。 第2に, 時間的一貫性と計算複雑性の低減を図りながら, より局所的な構造を利用した効率的な時空間相関法を提案する。 最後に、ポイントクラウドシーケンシャルセグメンテーションのための異なるバックボーンネットワークを持つASAPモジュールの一般化能力を示す。 我々のASAP-Net(バックボーンとASAPモジュール)は、ベースラインとSynthiaおよびSemanticKITTIデータセット(異なるバックボーンを持つ+3.4から+15.2 mIoUポイント)の以前のメソッドよりも優れています。 コードはhttps://github.com/intrepidchw/asap-netで利用可能

Recent works of point clouds show that mulit-frame spatio-temporal modeling outperforms single-frame versions by utilizing cross-frame information. In this paper, we further improve spatio-temporal point cloud feature learning with a flexible module called ASAP considering both attention and structure information across frames, which we find as two important factors for successful segmentation in dynamic point clouds. Firstly, our ASAP module contains a novel attentive temporal embedding layer to fuse the relatively informative local features across frames in a recurrent fashion. Secondly, an efficient spatio-temporal correlation method is proposed to exploit more local structure for embedding, meanwhile enforcing temporal consistency and reducing computation complexity. Finally, we show the generalization ability of the proposed ASAP module with different backbone networks for point cloud sequence segmentation. Our ASAP-Net (backbone plus ASAP module) outperforms baselines and previous methods on both Synthia and SemanticKITTI datasets (+3.4 to +15.2 mIoU points with different backbones). Code is availabe at https://github.com/intrepidChw/ASAP-Net
翻訳日:2022-10-31 05:22:31 公開日:2020-08-12
# HOSE-Net:シーングラフ生成のための高次構造埋め込みネットワーク

HOSE-Net: Higher Order Structure Embedded Network for Scene Graph Generation ( http://arxiv.org/abs/2008.05156v1 )

ライセンス: Link先を確認
Meng Wei, Chun Yuan, Xiaoyu Yue, Kuo Zhong(参考訳) シーングラフ生成は、オブジェクト間の関係を理解する必要がある画像の構造化表現を作成することを目的としている。 深層ニューラルネットワークの連続的な性質から,シーングラフの予測はオブジェクト検出と関係分類に分けられる。 しかし、独立した関係クラスは視覚的特徴をうまく分離できない。 視覚的な特徴をグラフ構造に整理し、メッセージパッシングを使って文脈情報を学ぶ方法もあるが、それでもクラス内変異や不均衡なデータ分布に苦しむ。 重要な要因の1つは、シーングラフの固有の構造を無視する非構造化出力空間を学ぶことである。 そこで本稿では,この問題を軽減するために,高次構造埋め込みネットワーク(HOSE-Net)を提案する。 まず,関係の局所的および大域的構造情報を出力空間に組み込むための新しい構造認識型組込み分類器(SEC)モジュールを提案する。 具体的には、コンテキスト埋め込みのセットをローカルグラフベースのメッセージパッシングを通じて学習し、グローバルな構造ベースの分類空間にマップする。 第2に、コンテキスト固有の分類サブスペースが多すぎるとデータ空間の問題が発生するため、高次構造情報を導入してサブスペースの数を減少させる階層的意味集約(HSA)モジュールを提案する。 HSAはまた、関係知識グラフに基づいて意味オブジェクト階層を自動的に検索する高速で柔軟なツールである。 広範な実験により,提案するホースネットは,視覚ゲノムとvrdの2つのベンチマークにおいて最先端のパフォーマンスを達成していることが示された。

Scene graph generation aims to produce structured representations for images, which requires to understand the relations between objects. Due to the continuous nature of deep neural networks, the prediction of scene graphs is divided into object detection and relation classification. However, the independent relation classes cannot separate the visual features well. Although some methods organize the visual features into graph structures and use message passing to learn contextual information, they still suffer from drastic intra-class variations and unbalanced data distributions. One important factor is that they learn an unstructured output space that ignores the inherent structures of scene graphs. Accordingly, in this paper, we propose a Higher Order Structure Embedded Network (HOSE-Net) to mitigate this issue. First, we propose a novel structure-aware embedding-to-classifier(SEC) module to incorporate both local and global structural information of relationships into the output space. Specifically, a set of context embeddings are learned via local graph based message passing and then mapped to a global structure based classification space. Second, since learning too many context-specific classification subspaces can suffer from data sparsity issues, we propose a hierarchical semantic aggregation(HSA) module to reduces the number of subspaces by introducing higher order structural information. HSA is also a fast and flexible tool to automatically search a semantic object hierarchy based on relational knowledge graphs. Extensive experiments show that the proposed HOSE-Net achieves the state-of-the-art performance on two popular benchmarks of Visual Genome and VRD.
翻訳日:2022-10-31 05:22:11 公開日:2020-08-12
# 代表型グラフニューラルネットワーク

Representative Graph Neural Network ( http://arxiv.org/abs/2008.05202v1 )

ライセンス: Link先を確認
Changqian Yu, Yifan Liu, Changxin Gao, Chunhua Shen, Nong Sang(参考訳) 非ローカル操作は長距離依存関係をモデル化するために広く研究されている。 しかし、この演算における冗長な計算は、制限的な複雑さをもたらす。 本稿では,いくつかの代表的特徴を動的にサンプリングするために,代表グラフ(RepGraph)層を提案する。 すべての位置からメッセージを伝搬する代わりに、RepGraphレイヤは1つのノードの応答を数個の代表ノードで計算します。 代表ノードの位置は学習された空間オフセット行列から来る。 RepGraphレイヤは多くのビジュアルアーキテクチャに統合され、他の操作と組み合わせられる。 セマンティクスセグメンテーションの適用により,ade20k,cityscapes,pascal-contextデータセットという,3つの難解なベンチマークにおいて,最先端の手法と競合するか,あるいは好適に実行することができます。 オブジェクト検出のタスクでは、RepGraph層は非ローカル操作と比較してCOCOデータセットのパフォーマンスも向上する。 コードはhttps://git.io/RepGraph.comで入手できる。

Non-local operation is widely explored to model the long-range dependencies. However, the redundant computation in this operation leads to a prohibitive complexity. In this paper, we present a Representative Graph (RepGraph) layer to dynamically sample a few representative features, which dramatically reduces redundancy. Instead of propagating the messages from all positions, our RepGraph layer computes the response of one node merely with a few representative nodes. The locations of representative nodes come from a learned spatial offset matrix. The RepGraph layer is flexible to integrate into many visual architectures and combine with other operations. With the application of semantic segmentation, without any bells and whistles, our RepGraph network can compete or perform favourably against the state-of-the-art methods on three challenging benchmarks: ADE20K, Cityscapes, and PASCAL-Context datasets. In the task of object detection, our RepGraph layer can also improve the performance on the COCO dataset compared to the non-local operation. Code is available at https://git.io/RepGraph.
翻訳日:2022-10-31 05:21:25 公開日:2020-08-12
# 全スライディング画像における小点アノテーションによる腎細胞癌の検出とサブタイピング

Renal Cell Carcinoma Detection and Subtyping with Minimal Point-Based Annotation in Whole-Slide Images ( http://arxiv.org/abs/2008.05332v1 )

ライセンス: Link先を確認
Zeyu Gao, Pargorn Puttapirat, Jiangbo Shi, Chen Li(参考訳) 医療画像における大量のラベル付きデータを得ることは、特に病理学において、手間と時間を要する。 しかし、全スライド画像(WSI)からラベル付きデータを入手するのはずっと簡単かつ安価である。 半教師付き学習(SSL)は、ラベル付きデータの利用とラベル付きデータの必要性を軽減する効果的な方法である。 そこで我々はSSL法を用いて,最小点アノテーションと呼ばれる新しいアノテーション手法を用いて癌領域を正確に検出し,その予測結果を革新的なハイブリッド損失で活用し,サブタイピングのための分類モデルを訓練するフレームワークを提案する。 アノテーションは、いくつかのポイントをマークして、それぞれのwsiに癌とラベル付けするだけでよい。 腎細胞癌(rcc)の3つの重要な亜型についての実験により、min-point annotated datasetで訓練された分類器の性能は、癌領域検出のための segmentation annotated dataset で訓練された分類器と同等であることが証明された。 そして、サブタイピングモデルは、診断ラベルのみをトレーニングしたモデルよりも、wsisをテストするためのf1-scoreの点で12%多い。

Obtaining a large amount of labeled data in medical imaging is laborious and time-consuming, especially for histopathology. However, it is much easier and cheaper to get unlabeled data from whole-slide images (WSIs). Semi-supervised learning (SSL) is an effective way to utilize unlabeled data and alleviate the need for labeled data. For this reason, we proposed a framework that employs an SSL method to accurately detect cancerous regions with a novel annotation method called Minimal Point-Based annotation, and then utilize the predicted results with an innovative hybrid loss to train a classification model for subtyping. The annotator only needs to mark a few points and label them are cancer or not in each WSI. Experiments on three significant subtypes of renal cell carcinoma (RCC) proved that the performance of the classifier trained with the Min-Point annotated dataset is comparable to a classifier trained with the segmentation annotated dataset for cancer region detection. And the subtyping model outperforms a model trained with only diagnostic labels by 12% in terms of f1-score for testing WSIs.
翻訳日:2022-10-31 05:12:51 公開日:2020-08-12
# 深部ニューラルネットワークに基づくベクトル-ベクトル回帰における絶対誤差について

On Mean Absolute Error for Deep Neural Network Based Vector-to-Vector Regression ( http://arxiv.org/abs/2008.07281v1 )

ライセンス: Link先を確認
Jun Qi, Jun Du, Sabato Marco Siniscalchi, Xiaoli Ma, Chin-Hui Lee(参考訳) 本稿では,ディープニューラルネットワーク(DNN)に基づくベクトル-ベクトル回帰の損失関数として,平均絶対誤差(MAE)の特性を利用する。 この仕事の目標は次の2つです。 (i)MAEのパフォーマンスバウンダリを提示し、 (II) DNNに基づくベクトル-ベクトル回帰の損失関数として平均二乗誤差(MSE)よりも適切であるMAEの新たな特性を示す。 第一に、DNNに基づくベクトル-ベクトル回帰に対する一般化された上界は、MAEの既知のリプシッツ連続性を利用して確保できることを示す。 次に、加算雑音の存在下での新しい一般化上界を導出する。 最後に,回帰のガウス誤差近似に一般的なmseとは対照的に,mae はラプラシアン分布によってモデル化された誤差として解釈できることを示した。 音声強調実験を行い,提案した定理を相関させ,DNN回帰に対するMSEよりもMAEの利点を検証した。

In this paper, we exploit the properties of mean absolute error (MAE) as a loss function for the deep neural network (DNN) based vector-to-vector regression. The goal of this work is two-fold: (i) presenting performance bounds of MAE, and (ii) demonstrating new properties of MAE that make it more appropriate than mean squared error (MSE) as a loss function for DNN based vector-to-vector regression. First, we show that a generalized upper-bound for DNN-based vector- to-vector regression can be ensured by leveraging the known Lipschitz continuity property of MAE. Next, we derive a new generalized upper bound in the presence of additive noise. Finally, in contrast to conventional MSE commonly adopted to approximate Gaussian errors for regression, we show that MAE can be interpreted as an error modeled by Laplacian distribution. Speech enhancement experiments are conducted to corroborate our proposed theorems and validate the performance advantages of MAE over MSE for DNN based regression.
翻訳日:2022-10-31 05:11:54 公開日:2020-08-12
# sidod: 3次元物体ポーズ認識のための合成画像データセット

SIDOD: A Synthetic Image Dataset for 3D Object Pose Recognition with Distractors ( http://arxiv.org/abs/2008.05955v1 )

ライセンス: Link先を確認
Mona Jalal, Josef Spjut, Ben Boudaoud, Margrit Betke(参考訳) 本稿では,NVIDIA Deep Learning Data Synthesizerによって生成され,オブジェクト検出,ポーズ推定,トラッキングアプリケーションに使用される新しい,公開可能な画像データセットを提案する。 このデータセットは、114kのステレオ画像ペアを含み、最大10のオブジェクト(ycbデータセットの21のオブジェクトモデルからランダムに選択される)と空飛ぶ気晴らし器で、3つのフォトリアリスティックな仮想環境の18のカメラ視点を合成する。 オブジェクトとカメラのポーズ、シーンの照明、オブジェクトと気晴らしの量がランダム化された。 各ビューにはrgb、深度、セグメンテーション、表面正規画像が含まれ、すべてのピクセルレベルである。 ドメインのランダム化に対する我々のアプローチを説明し、データセットを作成した決定について考察する。

We present a new, publicly-available image dataset generated by the NVIDIA Deep Learning Data Synthesizer intended for use in object detection, pose estimation, and tracking applications. This dataset contains 144k stereo image pairs that synthetically combine 18 camera viewpoints of three photorealistic virtual environments with up to 10 objects (chosen randomly from the 21 object models of the YCB dataset [1]) and flying distractors. Object and camera pose, scene lighting, and quantity of objects and distractors were randomized. Each provided view includes RGB, depth, segmentation, and surface normal images, all pixel level. We describe our approach for domain randomization and provide insight into the decisions that produced the dataset.
翻訳日:2022-10-31 05:11:38 公開日:2020-08-12
# LST20コーパスの注釈ガイドライン

The Annotation Guideline of LST20 Corpus ( http://arxiv.org/abs/2008.05055v1 )

ライセンス: Link先を確認
Prachya Boonkwan and Vorapon Luantangsrisuk and Sitthaa Phaholphinyo and Kanyanat Kriengket and Dhanon Leenoi and Charun Phrombut and Monthika Boriboon and Krit Kosawat and Thepchai Supnithi(参考訳) 本稿では,タイ語処理のための多層言語アノテーションを備えた大規模コーパスであるLST20のアノテーションガイドラインを提案する。 私たちのガイドラインは、単語分割、posタグ付け、名前付きエンティティ、節境界、文境界という5つの言語アノテーションからなる。 データセットは、使いやすさのためにCoNLL-2003スタイルのフォーマットに準拠している。 LST20 Corpusは前述の5つの言語アノテーションを提供している。 大規模には3,164,864ワード、288,020名前付きエンティティ、248,962節、74,180文で構成され、16の異なるposタグで注釈されている。 3,745の文書には15のニュースジャンルが付記されている。 その大きさに関しては、このデータセットはNLPのジョイントニューラルモデルを開発するのに十分な大きさであると考えられている。 この公に入手可能なコーパスの存在により、タイ語は初めて言語的に豊かな言語となった。

This report presents the annotation guideline for LST20, a large-scale corpus with multiple layers of linguistic annotation for Thai language processing. Our guideline consists of five layers of linguistic annotation: word segmentation, POS tagging, named entities, clause boundaries, and sentence boundaries. The dataset complies to the CoNLL-2003-style format for ease of use. LST20 Corpus offers five layers of linguistic annotation as aforementioned. At a large scale, it consists of 3,164,864 words, 288,020 named entities, 248,962 clauses, and 74,180 sentences, while it is annotated with 16 distinct POS tags. All 3,745 documents are also annotated with 15 news genres. Regarding its sheer size, this dataset is considered large enough for developing joint neural models for NLP. With the existence of this publicly available corpus, Thai has become a linguistically rich language for the first time.
翻訳日:2022-10-31 05:11:25 公開日:2020-08-12
# 言語解釈ツール : nlpモデルの拡張性とインタラクティブな可視化と解析

The Language Interpretability Tool: Extensible, Interactive Visualizations and Analysis for NLP Models ( http://arxiv.org/abs/2008.05122v1 )

ライセンス: Link先を確認
Ian Tenney, James Wexler, Jasmijn Bastings, Tolga Bolukbasi, Andy Coenen, Sebastian Gehrmann, Ellen Jiang, Mahima Pushkarna, Carey Radebaugh, Emily Reif, Ann Yuan(参考訳) 我々は,NLPモデルの可視化と理解のためのオープンソースのプラットフォームであるLanguage Interpretability Tool (LIT)を提案する。 なぜ私のモデルはこの予測をしたのか? いつ性能が悪いのですか。 インプットの制御された変更で何が起こるのか? LITは、局所的な説明、集約分析、および反ファクト生成を合理化されたブラウザベースのインターフェースに統合し、迅速な探索とエラー解析を可能にする。 本稿では,感情分析のための反事実の探索,コアシステムにおける性別バイアスの測定,テキスト生成における局所行動の探索など,さまざまなワークフローのケーススタディを含む。 LITは、分類、Seq2seq、構造化予測を含む幅広いモデルをサポートし、宣言的なフレームワークに依存しないAPIを通じて非常に拡張性が高い。 litは開発中で、コードと完全なドキュメントはhttps://github.com/pair-code/litで入手できる。

We present the Language Interpretability Tool (LIT), an open-source platform for visualization and understanding of NLP models. We focus on core questions about model behavior: Why did my model make this prediction? When does it perform poorly? What happens under a controlled change in the input? LIT integrates local explanations, aggregate analysis, and counterfactual generation into a streamlined, browser-based interface to enable rapid exploration and error analysis. We include case studies for a diverse set of workflows, including exploring counterfactuals for sentiment analysis, measuring gender bias in coreference systems, and exploring local behavior in text generation. LIT supports a wide range of models--including classification, seq2seq, and structured prediction--and is highly extensible through a declarative, framework-agnostic API. LIT is under active development, with code and full documentation available at https://github.com/pair-code/lit.
翻訳日:2022-10-31 05:11:12 公開日:2020-08-12
# バンディットフィードバックを用いた非確率制御

Non-Stochastic Control with Bandit Feedback ( http://arxiv.org/abs/2008.05523v1 )

ライセンス: Link先を確認
Paula Gradu and John Hallman and Elad Hazan(参考訳) 本研究では, 制御器に利用可能なフィードバックがスカラーロスのみであり, 損失関数自体が不明な線形力学系を逆摂動で制御する問題について検討する。 この問題に対して、既知のシステムまたは未知のシステムにおいて、効率的なサブ線形後悔アルゴリズムを与える。 アルゴリズムの主な困難は、過去の制御への損失の依存である。 この問題を解決するために,メモリを持つ損失関数に対して,バンド凸最適化を一般化するための効率的なアルゴリズムを提案する。

We study the problem of controlling a linear dynamical system with adversarial perturbations where the only feedback available to the controller is the scalar loss, and the loss function itself is unknown. For this problem, with either a known or unknown system, we give an efficient sublinear regret algorithm. The main algorithmic difficulty is the dependence of the loss on past controls. To overcome this issue, we propose an efficient algorithm for the general setting of bandit convex optimization for loss functions with memory, which may be of independent interest.
翻訳日:2022-10-31 05:04:25 公開日:2020-08-12
# 頻繁なシーケンスに基づく計量モデルによる逐次推薦

Sequential recommendation with metric models based on frequent sequences ( http://arxiv.org/abs/2008.05587v1 )

ライセンス: Link先を確認
Corentin Lonjarret, Roch Auburtin, C\'eline Robardet and Marc Plantevit(参考訳) ユーザ嗜好(長期履歴)とユーザダイナミクス(短期履歴)のモデリングは、効率的なシーケンシャルレコメンデーションシステムを構築する上で最も重要である。 課題は、ユーザの履歴全体と、パーソナライズされたレコメンデーションを提供するための最近のアクション(シーケンスダイナミクス)をうまく組み合わせることにある。 既存の手法では、ユーザに関係なく固定オーダーのマルコフチェーン(通常は第一オーダーチェーン)を使用して、ユーザのシーケンシャルなダイナミクスをキャプチャする。 本稿では,頻繁なシーケンスを用いてユーザ履歴の最も関連性の高い部分を特定することを提案する。 最も有望なアイテムは、ユーザの好みとシーケンシャルなダイナミクスに基づいてアイテムを埋め込む統一メトリックモデルで使用される。 広範な実験により,本手法が最先端,特にスパースデータセットよりも優れていることが証明された。 様々な長さのシーケンスを考慮すればレコメンデーションが改善し、これらのシーケンスがレコメンデーションの説明を提供することも強調する。

Modeling user preferences (long-term history) and user dynamics (short-term history) is of greatest importance to build efficient sequential recommender systems. The challenge lies in the successful combination of the whole user's history and his recent actions (sequential dynamics) to provide personalized recommendations. Existing methods capture the sequential dynamics of a user using fixed-order Markov chains (usually first order chains) regardless of the user, which limits both the impact of the past of the user on the recommendation and the ability to adapt its length to the user profile. In this article, we propose to use frequent sequences to identify the most relevant part of the user history for the recommendation. The most salient items are then used in a unified metric model that embeds items based on user preferences and sequential dynamics. Extensive experiments demonstrate that our method outperforms state-of-the-art, especially on sparse datasets. We show that considering sequences of varying lengths improves the recommendations and we also emphasize that these sequences provide explanations on the recommendation.
翻訳日:2022-10-31 05:04:16 公開日:2020-08-12
# フラッシュ写真を用いた幾何誘導型神経リライト

Towards Geometry Guided Neural Relighting with Flash Photography ( http://arxiv.org/abs/2008.05157v1 )

ライセンス: Link先を確認
Di Qiu, Jin Zeng, Zhanghan Ke, Wenxiu Sun, Chengxi Yang(参考訳) 従来の画像ベースのリライティング手法では、複数の画像をキャプチャして、異なる照明条件下での高周波照明効果を得る必要がある。 このようなアプローチは、異なる照明条件下で色画像を巧妙にサンプリングすることに完全に依存しているが、光沢のあるハイライトやキャストシャドウなどの画像の高周波特徴に重要な影響を及ぼす幾何学的情報を活用するためにはほとんど行われていない。 そこで我々は,深層学習を用いた深度マップを用いた1枚のフラッシュ写真から画像の照準を行うフレームワークを提案する。 深度マップを組み込むことにより,新しい照明下でのリアルな高周波効果を,フラッシュライト画像からの幾何学的画像分解により外挿し,シャドウエンコード変換深度マップからキャストシャドウマップを予測できる。 さらに、シングルイメージベースの設定は、データキャプチャプロセスを大幅に単純化します。 画像分解と画像リライトにおける最先端画像ベースアプローチに対する幾何誘導アプローチの利点を実験的に検証し,実携帯電話写真の実例での性能を実証した。

Previous image based relighting methods require capturing multiple images to acquire high frequency lighting effect under different lighting conditions, which needs nontrivial effort and may be unrealistic in certain practical use scenarios. While such approaches rely entirely on cleverly sampling the color images under different lighting conditions, little has been done to utilize geometric information that crucially influences the high-frequency features in the images, such as glossy highlight and cast shadow. We therefore propose a framework for image relighting from a single flash photograph with its corresponding depth map using deep learning. By incorporating the depth map, our approach is able to extrapolate realistic high-frequency effects under novel lighting via geometry guided image decomposition from the flashlight image, and predict the cast shadow map from the shadow-encoding transformed depth map. Moreover, the single-image based setup greatly simplifies the data capture process. We experimentally validate the advantage of our geometry guided approach over state-of-the-art image-based approaches in intrinsic image decomposition and image relighting, and also demonstrate our performance on real mobile phone photo examples.
翻訳日:2022-10-31 05:02:32 公開日:2020-08-12
# 深層学習意味と輪郭セグメンテーションの融合による金属構造物の画素レベル腐食検出

Pixel-level Corrosion Detection on Metal Constructions by Fusion of Deep Learning Semantic and Contour Segmentation ( http://arxiv.org/abs/2008.05204v1 )

ライセンス: Link先を確認
Iason Katsamenis, Eftychios Protopapadakis, Anastasios Doulamis, Nikolaos Doulamis, Athanasios Voulodimos(参考訳) 金属構造物の腐食検出は、迅速かつ安全かつ効果的な検査のための土木工学における大きな課題である。 既存の画像解析手法では、構造分析やプレファブリケーションには不十分な欠陥領域にバウンディングボックスを配置する傾向がある。 本稿では,3つのセマンティックセグメンテーション指向ディープラーニングモデル (FCN, U-Net, Mask R-CNN) を腐食検出に適用し, 精度, 時間面では良好であり, CNN などの他の深層モデルと比較してアノテートサンプルが少ない。 しかし、最終的な画像は構造分析やプリファブリケーションに十分正確ではない。 そこで我々は,カラーセグメンテーションの結果を融合させる新しいデータ投影方式を採用し,その領域の高精度だが過剰な輪郭と,ディープマスクの処理領域とを融合させ,高信頼のコーディネート画素を生成する。

Corrosion detection on metal constructions is a major challenge in civil engineering for quick, safe and effective inspection. Existing image analysis approaches tend to place bounding boxes around the defected region which is not adequate both for structural analysis and pre-fabrication, an innovative construction concept which reduces maintenance cost, time and improves safety. In this paper, we apply three semantic segmentation-oriented deep learning models (FCN, U-Net and Mask R-CNN) for corrosion detection, which perform better in terms of accuracy and time and require a smaller number of annotated samples compared to other deep models, e.g. CNN. However, the final images derived are still not sufficiently accurate for structural analysis and pre-fabrication. Thus, we adopt a novel data projection scheme that fuses the results of color segmentation, yielding accurate but over-segmented contours of a region, with a processed area of the deep masks, resulting in high-confidence corroded pixels.
翻訳日:2022-10-31 05:02:11 公開日:2020-08-12
# ピクセル単位半教師付き学習のための指導的協調学習

Guided Collaborative Training for Pixel-wise Semi-Supervised Learning ( http://arxiv.org/abs/2008.05258v1 )

ライセンス: Link先を確認
Zhanghan Ke, Di Qiu, Kaican Li, Qiong Yan, Rynson W.H. Lau(参考訳) 本稿では,半教師付き学習(SSL)の多彩なピクセルワイドタスクへの一般化について検討する。 SSL法は画像分類において顕著な結果を得たが,高密度出力を必要とするため,画素単位のタスクに適用する性能は不十分である。 さらに、既存のpixel-wise sslアプローチは、タスク固有のプロパティを使用する必要がある特定のタスクにのみ適合する。 本稿では,pixel-wiseタスクのための新しいsslフレームワークであるguided collaborative training(gct)について述べる。 まず、GCTは新たな欠陥検出器を通じて高密度出力に起因する問題に対処する。 第2に、GCTのモジュールは、タスク固有のプロパティに依存しない2つの新しい制約を通じて、ラベルのないデータから協調的に学習する。 その結果、GCTは、構造的適応を伴わずに、幅広い画素単位のタスクに適用できる。 セマンティックセグメンテーション, 実像デノイング, ポートレート画像マッチング, 夜間画像強調を含む4つの難解な視覚課題に対する広範な実験により, GCTは最先端のSSL手法よりも大きなマージンで優れていることが示された。 私たちのコードは、https://github.com/ZHKKe/PixelSSL.comで利用可能です。

We investigate the generalization of semi-supervised learning (SSL) to diverse pixel-wise tasks. Although SSL methods have achieved impressive results in image classification, the performances of applying them to pixel-wise tasks are unsatisfactory due to their need for dense outputs. In addition, existing pixel-wise SSL approaches are only suitable for certain tasks as they usually require to use task-specific properties. In this paper, we present a new SSL framework, named Guided Collaborative Training (GCT), for pixel-wise tasks, with two main technical contributions. First, GCT addresses the issues caused by the dense outputs through a novel flaw detector. Second, the modules in GCT learn from unlabeled data collaboratively through two newly proposed constraints that are independent of task-specific properties. As a result, GCT can be applied to a wide range of pixel-wise tasks without structural adaptation. Our extensive experiments on four challenging vision tasks, including semantic segmentation, real image denoising, portrait image matting, and night image enhancement, show that GCT outperforms state-of-the-art SSL methods by a large margin. Our code available at: https://github.com/ZHKKKe/PixelSSL.
翻訳日:2022-10-31 05:01:51 公開日:2020-08-12
# ECG信号の多領域融合によるマルチレベル応力評価

Multi-level Stress Assessment Using Multi-domain Fusion of ECG Signal ( http://arxiv.org/abs/2008.05503v1 )

ライセンス: Link先を確認
Zeeshan Ahmad and Naimul Khan(参考訳) 心電図を生理信号として用いた心情状態のストレス分析と評価は,生体信号処理における燃えるような研究課題である。 しかし、既存の文献はストレスのバイナリ評価のみを提供しているが、複数のレベルの評価は医療アプリケーションにとってより有益かもしれない。 また, ストレス解析のためのecg信号は, 空間領域や変換領域において独立に検討されているが, それらを利用する利点は十分に活用されていない。 本稿では,複数のストレスレベルを持つデータセットを導入し,ECG信号を特徴抽出なしでR-Rピークに基づく信号画像に変換することによって,新しい深層学習手法を用いてこれらのレベルを分類する。 さらに,ガボルウェーブレット変換 (GWT) と離散フーリエ変換 (DFT) を用いて時間周波数領域と周波数領域に変換することで,信号画像のマルチモーダル化とマルチドメイン化を実現した。 畳み込みニューラルネットワーク(cnns)を用いて、異なるモダリティから特徴を抽出し、分類精度を向上させるために決定レベルの融合を行う。 15人のユーザで収集された社内データセットの実験結果から,提案された融合フレームワークとECG信号による画像変換により,平均精度85.45%に達することが示された。

Stress analysis and assessment of affective states of mind using ECG as a physiological signal is a burning research topic in biomedical signal processing. However, existing literature provides only binary assessment of stress, while multiple levels of assessment may be more beneficial for healthcare applications. Furthermore, in present research, ECG signal for stress analysis is examined independently in spatial domain or in transform domains but the advantage of fusing these domains has not been fully utilized. To get the maximum advantage of fusing diferent domains, we introduce a dataset with multiple stress levels and then classify these levels using a novel deep learning approach by converting ECG signal into signal images based on R-R peaks without any feature extraction. Moreover, We made signal images multimodal and multidomain by converting them into time-frequency and frequency domain using Gabor wavelet transform (GWT) and Discrete Fourier Transform (DFT) respectively. Convolutional Neural networks (CNNs) are used to extract features from different modalities and then decision level fusion is performed for improving the classification accuracy. The experimental results on an in-house dataset collected with 15 users show that with proposed fusion framework and using ECG signal to image conversion, we reach an average accuracy of 85.45%.
翻訳日:2022-10-31 04:55:35 公開日:2020-08-12
# モデル解釈におけるshapley値を用いた予測と因果関係

Predictive and Causal Implications of using Shapley Value for Model Interpretation ( http://arxiv.org/abs/2008.05052v1 )

ライセンス: Link先を確認
Sisi Ma, Roshan Tourani(参考訳) シャプリーの価値はゲーム理論からの概念である。 近年,機械学習技術が生み出す複雑なモデルの説明に用いられている。 シェープ値の数学的定義は直進的であるが、モデル解釈ツールとして使うという意味はいまだに説明されていない。 本稿では,ベイジアンネットワークフレームワークにおけるShapley値の解析を行った。 予測モデルと因果モデルの両方において重要な概念であるshapley値と条件独立性の関係を確立した。 その結果,モデルからShapley値の高い変数を除去することは必ずしも予測性能を損なうわけではないが,モデルからShapley値の低い変数を除去することは性能を損なう可能性が示唆された。 したがって、特徴選択にShapley値を使用すると、一般の場合において最も同相かつ予測可能なモデルが得られない。 さらに重要なのは、変数のShapley値は、関心の対象との因果関係を反映しない。

Shapley value is a concept from game theory. Recently, it has been used for explaining complex models produced by machine learning techniques. Although the mathematical definition of Shapley value is straight-forward, the implication of using it as a model interpretation tool is yet to be described. In the current paper, we analyzed Shapley value in the Bayesian network framework. We established the relationship between Shapley value and conditional independence, a key concept in both predictive and causal modeling. Our results indicate that, eliminating a variable with high Shapley value from a model do not necessarily impair predictive performance, whereas eliminating a variable with low Shapley value from a model could impair performance. Therefore, using Shapley value for feature selection do not result in the most parsimonious and predictively optimal model in the general case. More importantly, Shapley value of a variable do not reflect their causal relationship with the target of interest.
翻訳日:2022-10-31 04:53:39 公開日:2020-08-12
# アンサンブルモデルに基づくインテリジェントエッジ中心クエリ割り当て方式

An Intelligent Edge-Centric Queries Allocation Scheme based on Ensemble Models ( http://arxiv.org/abs/2008.05427v1 )

ライセンス: Link先を確認
Kostas Kolomvatsos, Christos Anagnostopoulos(参考訳) IoT(Internet of Things)とエッジコンピューティング(Edge Computing)の組み合わせは、エンドユーザの活動を促進する新しいアプリケーションのデリバリを支援する。 IoTインフラストラクチャに存在する多数のデバイスによって収集されたデータは、分析のプロビジョニングの処理タスクの対象となるECノードのセットにホストすることができる。 分析はエンドユーザやアプリケーションが定義するさまざまなクエリの結果から導出されます。 このようなクエリは利用可能なECノードで実行でき、レスポンスのプロビジョニングのレイテンシを制限することができる。 本稿では,適切なecノードにクエリを割り当てるための意思決定を支援するメタセンス学習方式を提案する。 学習モデルはクエリとノードの特性について決定する。 本稿では,我々のメタアンサンブル方式で採用されている各特性のコンテキスト情報をまとめて,クエリとノード間のマッチングプロセスを記述する。 私たちは広く知られているアンサンブルモデルに依存し、それらを組み合わせ、パフォーマンスを高めるために追加の処理層を提供します。 目的は、各クエリーをホストするECノードのサブセットを作成することである。 提案モデルの記述は別として,その評価と対応結果について報告する。 提案手法の長所と短所を明らかにすることを目的として,大規模な実験と数値解析を行った。

The combination of Internet of Things (IoT) and Edge Computing (EC) can assist in the delivery of novel applications that will facilitate end users activities. Data collected by numerous devices present in the IoT infrastructure can be hosted into a set of EC nodes becoming the subject of processing tasks for the provision of analytics. Analytics are derived as the result of various queries defined by end users or applications. Such queries can be executed in the available EC nodes to limit the latency in the provision of responses. In this paper, we propose a meta-ensemble learning scheme that supports the decision making for the allocation of queries to the appropriate EC nodes. Our learning model decides over queries' and nodes' characteristics. We provide the description of a matching process between queries and nodes after concluding the contextual information for each envisioned characteristic adopted in our meta-ensemble scheme. We rely on widely known ensemble models, combine them and offer an additional processing layer to increase the performance. The aim is to result a subset of EC nodes that will host each incoming query. Apart from the description of the proposed model, we report on its evaluation and the corresponding results. Through a large set of experiments and a numerical analysis, we aim at revealing the pros and cons of the proposed scheme.
翻訳日:2022-10-31 04:53:04 公開日:2020-08-12
# 音声・音声信号におけるLS-GANの安定性向上

Improving Stability of LS-GANs for Audio and Speech Signals ( http://arxiv.org/abs/2008.05454v1 )

ライセンス: Link先を確認
Mohammad Esmaeilpour, Raymel Alfonso Sallo, Olivier St-Georges, Patrick Cardinal, Alessandro Lameiras Koerich(参考訳) 本稿では,音声および音声信号の2次元表現に対するschur分解のユニタリ空間における新しい類似性指標を提案することで,gan(generative adversarial network)の不安定性問題に対処する。 このベクトル空間で計算された正規性から生成器最適化定式化への符号化は、より包括的なスペクトログラムの作成に役立つことを示す。 本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。 urbansound8kとmozilla common voiceデータセットのサブセットに関する実験結果は、fr\'echetインセプション距離で測定された生成されたサンプルの品質にかなり改善が見られた。 また,これらのサンプルからの再構成信号は,通常のls-ganよりも高い信号とノイズ比を達成している。

In this paper we address the instability issue of generative adversarial network (GAN) by proposing a new similarity metric in unitary space of Schur decomposition for 2D representations of audio and speech signals. We show that encoding departure from normality computed in this vector space into the generator optimization formulation helps to craft more comprehensive spectrograms. We demonstrate the effectiveness of binding this metric for enhancing stability in training with less mode collapse compared to baseline GANs. Experimental results on subsets of UrbanSound8k and Mozilla common voice datasets have shown considerable improvements on the quality of the generated samples measured by the Fr\'echet inception distance. Moreover, reconstructed signals from these samples, have achieved higher signal to noise ratio compared to regular LS-GANs.
翻訳日:2022-10-31 04:52:48 公開日:2020-08-12
# 小型エッジマイクロコントローラのための混合低精度量子化の自動化

Leveraging Automated Mixed-Low-Precision Quantization for tiny edge microcontrollers ( http://arxiv.org/abs/2008.05124v1 )

ライセンス: Link先を確認
Manuele Rusci, Marco Fariselli, Alessandro Capotondi, Luca Benini(参考訳) オンチップメモリの厳しい制限は、たとえ効果的な8ビット量子化スキームを利用したとしても、現在最も正確なディープニューラルネットワーク(DNN)モデルのマイクロコントローラユニット(MCU)への展開を妨げている。 この問題に対処するために,本論文では,MCUデバイスのメモリと計算特性に合わせて,HAQフレームワークに基づく自動混合精度量子化フローを提案する。 特に、強化学習エージェントは、ramおよびフラッシュ埋め込みメモリサイズの厳しい制約下で、個々の重みおよび活性化テンソルの2,4,8ビットのうち、最適な一様量子化レベルを探索する。 画像ネット分類のためのMobileNetV1,MobileNetV2,MNasNetモデルの実験的解析を行う。 量子化ポリシー探索については、RLエージェントがメモリ利用を最大化する量子化ポリシーを選択する。 重みのみの量子化のために2MBのMCUクラスのメモリバウンドが与えられた場合、混合精度エンジンによって生成された圧縮モデルは、非一様関数で量子化された最先端のソリューションと同程度に正確である。 これは、深い重みの圧縮のためにMCUデプロイメントに必要な均一な量子化が可能であることを示す。 また、アクティベーションメモリ予算を512kbに制限すると、最良のmobilenetv1モデルは、検出された量子化ポリシーによりimagenet上で最大68.4%のスコアを獲得し、同じメモリ制約を満たす他の8ビットネットワークよりも4%精度が向上する。

The severe on-chip memory limitations are currently preventing the deployment of the most accurate Deep Neural Network (DNN) models on tiny MicroController Units (MCUs), even if leveraging an effective 8-bit quantization scheme. To tackle this issue, in this paper we present an automated mixed-precision quantization flow based on the HAQ framework but tailored for the memory and computational characteristics of MCU devices. Specifically, a Reinforcement Learning agent searches for the best uniform quantization levels, among 2, 4, 8 bits, of individual weight and activation tensors, under the tight constraints on RAM and FLASH embedded memory sizes. We conduct an experimental analysis on MobileNetV1, MobileNetV2 and MNasNet models for Imagenet classification. Concerning the quantization policy search, the RL agent selects quantization policies that maximize the memory utilization. Given an MCU-class memory bound of 2MB for weight-only quantization, the compressed models produced by the mixed-precision engine result as accurate as the state-of-the-art solutions quantized with a non-uniform function, which is not tailored for CPUs featuring integer-only arithmetic. This denotes the viability of uniform quantization, required for MCU deployments, for deep weights compression. When also limiting the activation memory budget to 512kB, the best MobileNetV1 model scores up to 68.4% on Imagenet thanks to the found quantization policy, resulting to be 4% more accurate than the other 8-bit networks fitting the same memory constraints.
翻訳日:2022-10-31 04:47:36 公開日:2020-08-12
# 解釈・公正表現のためのNull-sampling

Null-sampling for Interpretable and Fair Representations ( http://arxiv.org/abs/2008.05248v1 )

ライセンス: Link先を確認
Thomas Kehrenberg, Myles Bartlett, Oliver Thomas, Novi Quadrianto(参考訳) 本稿では,データ領域における不変表現を学習し,アルゴリズム的公正性において解釈可能性を実現することを提案する。 不変性は、高いレベルの選択性、w.r.t.クラスラベルアノテーションの関連相関、人種や性別などの保護された特性と無関係な相関に対する堅牢性を意味する。 本稿では,クラスラベルアノテーションが無関係であり,スプリアス相関が区別できないような,トレーニングセットが強いバイアスを示す非自明な設定を導入する。 この問題に対処するために,データ領域で不変表現を生成するために,nullサンプリングプロシージャを持つ逆訓練モデルを導入する。 絡み合いを可能にするために、部分的にラベルされた代表セットを用いる。 データドメインに表現を配置することで、モデルによる変更は、人間の監査者によって容易に検査可能である。 我々は,MNIST,CelebA,アダルトデータセットといった画像と表のデータセットに対して,本手法の有効性を示す。

We propose to learn invariant representations, in the data domain, to achieve interpretability in algorithmic fairness. Invariance implies a selectivity for high level, relevant correlations w.r.t. class label annotations, and a robustness to irrelevant correlations with protected characteristics such as race or gender. We introduce a non-trivial setup in which the training set exhibits a strong bias such that class label annotations are irrelevant and spurious correlations cannot be distinguished. To address this problem, we introduce an adversarially trained model with a null-sampling procedure to produce invariant representations in the data domain. To enable disentanglement, a partially-labelled representative set is used. By placing the representations into the data domain, the changes made by the model are easily examinable by human auditors. We show the effectiveness of our method on both image and tabular datasets: Coloured MNIST, the CelebA and the Adult dataset.
翻訳日:2022-10-31 04:46:27 公開日:2020-08-12
# 非パラメトリック因果発見における再パラメータ化不変性

Reparametrization Invariance in non-parametric Causal Discovery ( http://arxiv.org/abs/2008.05552v1 )

ライセンス: Link先を確認
Martin J{\o}rgensen and S{\o}ren Hauberg(参考訳) 因果発見は観測データを生成する物理過程を推定する: x は y を引き起こすか、y は x を引き起こすか? 現在の手法では、観測データのみが利用可能な場合、構造条件を用いて因果クエリを統計的クエリに変換する。 しかし、これらの統計クエリが因果不変量に敏感な場合はどうだろう? 本研究では, X と Y の間の因果関係が X と Y の辺分布に不変であることを示す。 このようにして、限界を疎外し、本質的にどのような関係があるのかを検査することができる。 結果として生じる因果推定は、現在の方法論と競合し、因果クエリの不確実性に重点を置いている。

Causal discovery estimates the underlying physical process that generates the observed data: does X cause Y or does Y cause X? Current methodologies use structural conditions to turn the causal query into a statistical query, when only observational data is available. But what if these statistical queries are sensitive to causal invariants? This study investigates one such invariant: the causal relationship between X and Y is invariant to the marginal distributions of X and Y. We propose an algorithm that uses a non-parametric estimator that is robust to changes in the marginal distributions. This way we may marginalize the marginals, and inspect what relationship is intrinsically there. The resulting causal estimator is competitive with current methodologies and has high emphasis on the uncertainty in the causal query; an aspect just as important as the query itself.
翻訳日:2022-10-31 04:45:20 公開日:2020-08-12
# 生成データ拡張による細粒度画像分類器の性能向上

Improving the Performance of Fine-Grain Image Classifiers via Generative Data Augmentation ( http://arxiv.org/abs/2008.05381v1 )

ライセンス: Link先を確認
Shashank Manjunath, Aitzaz Nathaniel, Jeff Druce, Stan German(参考訳) 機械学習(ML)とコンピュータビジョンツールの最近の進歩は、財務分析、医療診断、さらには国防総省内でも幅広い分野の応用を可能にしている。 However, their widespread implementation in real-world use cases poses several challenges: (1) many applications are highly specialized, and hence operate in a \emph{sparse data} domain; (2) ML tools are sensitive to their training sets and typically require cumbersome, labor-intensive data collection and data labelling processes; and (3) ML tools can be extremely "black box," offering users little to no insight into the decision-making process or how new data might affect prediction performance. これらの課題に対処するため,我々は,学習画像の新たなビューを自動的に生成し,下流分類器の性能を向上させるml解析支援ツールであるdapper gan(ロバスト・ジェネレーティブ・アドバーサリー・ネットワーク)の熟練した事前トレーニングによるデータ拡張を設計・開発した。 DAPPER GANは、StyleGAN2モデル(LSUNカーデータセットでトレーニングされている)によって生成された高忠実な埋め込みを活用して、以前は目に見えないクラスのための新しいイメージを作成する。 我々はこの手法をStanford Carsデータセット上で実験的に評価し、改良された車両製造およびモデル分類精度を示し、GANベースのデータ拡張フレームワークを用いて実データに対する要求を低減した。 この手法の有効性は、拡張データセットと非拡張データセットの両方で分類器の性能を分析し、視覚的に類似したクラス間で最大30\%の実際のデータで同等またはより良い精度を達成することで支持された。 この手法をサポートするために,対象物体の意味的に意味のある次元(例えば方向)を埋め込み空間で操作できる新しい拡張法を開発した。

Recent advances in machine learning (ML) and computer vision tools have enabled applications in a wide variety of arenas such as financial analytics, medical diagnostics, and even within the Department of Defense. However, their widespread implementation in real-world use cases poses several challenges: (1) many applications are highly specialized, and hence operate in a \emph{sparse data} domain; (2) ML tools are sensitive to their training sets and typically require cumbersome, labor-intensive data collection and data labelling processes; and (3) ML tools can be extremely "black box," offering users little to no insight into the decision-making process or how new data might affect prediction performance. To address these challenges, we have designed and developed Data Augmentation from Proficient Pre-Training of Robust Generative Adversarial Networks (DAPPER GAN), an ML analytics support tool that automatically generates novel views of training images in order to improve downstream classifier performance. DAPPER GAN leverages high-fidelity embeddings generated by a StyleGAN2 model (trained on the LSUN cars dataset) to create novel imagery for previously unseen classes. We experimentally evaluate this technique on the Stanford Cars dataset, demonstrating improved vehicle make and model classification accuracy and reduced requirements for real data using our GAN based data augmentation framework. The method's validity was supported through an analysis of classifier performance on both augmented and non-augmented datasets, achieving comparable or better accuracy with up to 30\% less real data across visually similar classes. To support this method, we developed a novel augmentation method that can manipulate semantically meaningful dimensions (e.g., orientation) of the target object in the embedding space.
翻訳日:2022-10-31 04:44:20 公開日:2020-08-12
# 多面的注意ハイブリッドニューラルネットワークによるテキスト分類

Text Classification based on Multi-granularity Attention Hybrid Neural Network ( http://arxiv.org/abs/2008.05282v1 )

ライセンス: Link先を確認
Zhenyu Liu, Chaohong Lu, Haiwei Huang, Shengfei Lyu, Zhenchao Tao(参考訳) ニューラルネットワークベースのアプローチは、自然言語処理(NLP)タスクの原動力となっている。 従来のnlpタスクには、recurrent neural network(rnn)とconvolution neural network(convnet)という2つのメインストリームニューラルネットワークがある。 RNNは入力テキストによる長期依存関係のモデリングに長けているが、並列計算を妨げている。 ConvNetにはメモリ機能がなく、シーケンシャルデータを非順序機能としてモデル化する必要がある。 そのため、ConvNetsは入力テキストの逐次依存関係を学習することができないが、高効率な並列計算を行うことができる。 RNNやConvNetsなど、それぞれのニューラルアーキテクチャが独自のproとconを持っているため、異なるアーキテクチャの統合は、テキストの意味表現を強化し、NLPタスクのパフォーマンスを向上させることができると仮定されている。 しかし、これらの非互換なアーキテクチャの和解を調査する研究はほとんどない。 本稿では,階層型多粒度注目機構であるmahnn(multi-granularity attention-based hybrid neural network)に基づくハイブリッドアーキテクチャを提案する。 注目されるメカニズムは、ニューラルネットワークの計算効率と性能を高めるために、入力シーケンスの異なる部分に異なる重みを割り当てることである。 MahNNでは、構文的注意と意味的注意という2つのタイプの注意が導入されている。 構文的注意は、低い記号レベルで構文要素(単語や文など)の重要性を計算し、意味論的注意は、上位潜在意味論に対応する埋め込み空間次元の重要性を計算するために使用される。 我々は,MahNNのテキスト理解能力を示す例として,テキスト分類を採用した。

Neural network-based approaches have become the driven forces for Natural Language Processing (NLP) tasks. Conventionally, there are two mainstream neural architectures for NLP tasks: the recurrent neural network (RNN) and the convolution neural network (ConvNet). RNNs are good at modeling long-term dependencies over input texts, but preclude parallel computation. ConvNets do not have memory capability and it has to model sequential data as un-ordered features. Therefore, ConvNets fail to learn sequential dependencies over the input texts, but it is able to carry out high-efficient parallel computation. As each neural architecture, such as RNN and ConvNets, has its own pro and con, integration of different architectures is assumed to be able to enrich the semantic representation of texts, thus enhance the performance of NLP tasks. However, few investigation explores the reconciliation of these seemingly incompatible architectures. To address this issue, we propose a hybrid architecture based on a novel hierarchical multi-granularity attention mechanism, named Multi-granularity Attention-based Hybrid Neural Network (MahNN). The attention mechanism is to assign different weights to different parts of the input sequence to increase the computation efficiency and performance of neural models. In MahNN, two types of attentions are introduced: the syntactical attention and the semantical attention. The syntactical attention computes the importance of the syntactic elements (such as words or sentence) at the lower symbolic level and the semantical attention is used to compute the importance of the embedded space dimension corresponding to the upper latent semantics. We adopt the text classification as an exemplifying way to illustrate the ability of MahNN to understand texts.
翻訳日:2022-10-31 04:37:04 公開日:2020-08-12
# フェデレーション設定における遠隔監視型関係抽出

Distantly Supervised Relation Extraction in Federated Settings ( http://arxiv.org/abs/2008.05049v1 )

ライセンス: Link先を確認
Dianbo Sui, Yubo Chen, Kang Liu and Jun Zhao(参考訳) 本稿では,フェデレーション設定における遠隔教師付き関係抽出について検討する。 従来の研究では、異なるプラットフォームからテキストを収集し、1台のマシンに保存する必要がある集中型トレーニングを前提とした遠隔監視に焦点が当てられていた。 しかし、集中的なトレーニングには、データバリアとプライバシ保護という2つの課題がある。 したがって、モデルトレーニングを生データへの直接アクセスの必要性から切り離すフェデレーション学習パラダイムにおける遠隔監視を検討すべきである。 しかし, 遠隔監視によるラベルノイズの克服は, 同一のエンティティペアを含む文が異なるプラットフォームに散らばっているため, フェデレーション環境では困難になる。 本稿では,フェデレート設定におけるラベルノイズを抑制するフェデレート雑音除去フレームワークを提案する。 このフレームワークの中核は、クロスプラットフォームのコラボレーションを通じて信頼できるインスタンスを選択できる、複数のインスタンス学習ベースの分別メソッドである。 new york times datasetとmirna gene regulation relation datasetの様々な実験結果が提案手法の有効性を示している。

This paper investigates distantly supervised relation extraction in federated settings. Previous studies focus on distant supervision under the assumption of centralized training, which requires collecting texts from different platforms and storing them on one machine. However, centralized training is challenged by two issues, namely, data barriers and privacy protection, which make it almost impossible or cost-prohibitive to centralize data from multiple platforms. Therefore, it is worthy to investigate distant supervision in the federated learning paradigm, which decouples the model training from the need for direct access to the raw data. Overcoming label noise of distant supervision, however, becomes more difficult in federated settings, since the sentences containing the same entity pair may scatter around different platforms. In this paper, we propose a federated denoising framework to suppress label noise in federated settings. The core of this framework is a multiple instance learning based denoising method that is able to select reliable instances via cross-platform collaboration. Various experimental results on New York Times dataset and miRNA gene regulation relation dataset demonstrate the effectiveness of the proposed method.
翻訳日:2022-10-31 04:36:37 公開日:2020-08-12
# AIによる人材獲得と職種ベンチマーク

An AI based talent acquisition and benchmarking for job ( http://arxiv.org/abs/2009.09088v1 )

ライセンス: Link先を確認
Rudresh Mishra, Ricardo Rodriguez, Valentin Portillo(参考訳) 採用業界では、数千個のCVの山の中で、特定の役職から最高のCVを選択することは非常に難しい。 組織文化の中で働くのに適した組織のための完璧な候補を見つけることは難しい課題です。 これらのギャップを埋めるために、私たちはAIの助けを借りています。 CVとジョブポストから生成されたスキルグラフをマッチングすることにより,これらの問題を解決する手法を提案する。 本報告では,このような問題の発生理由と,自然言語処理と機械学習技術を用いてこれらの問題を解決する方法について,ビジネス理解を行う。 私たちは、コンピュータサイエンス産業の領域で問題を解決するためだけにプロジェクトを制限します。

In a recruitment industry, selecting a best CV from a particular job post within a pile of thousand CV's is quite challenging. Finding a perfect candidate for an organization who can be fit to work within organizational culture is a difficult task. In order to help the recruiters to fill these gaps we leverage the help of AI. We propose a methodology to solve these problems by matching the skill graph generated from CV and Job Post. In this report our approach is to perform the business understanding in order to justify why such problems arise and how we intend to solve these problems using natural language processing and machine learning techniques. We limit our project only to solve the problem in the domain of the computer science industry.
翻訳日:2022-10-31 04:35:49 公開日:2020-08-12
# 強化学習のための眼バイオメカニクス環境

An ocular biomechanics environment for reinforcement learning ( http://arxiv.org/abs/2008.05088v1 )

ライセンス: Link先を確認
Julie Iskander and Mohammed Hossny(参考訳) 強化学習は、生理学に基づく生体力学モデルを通して人間の運動に応用され、これらの運動の神経制御に関する洞察を付加し、人工装具やロボット工学の設計にも有用である。 本稿では,最高速眼球運動系の一つであるサッケードの眼球バイオメカニカルシステムの制御における強化学習の利用を拡大する。 本稿では、眼環境と、Deep Deterministic Policy Gradients法を用いて学習したエージェントについて述べる。 このエージェントは、所望の目の位置を平均偏差角3:5+/-1:25で一致させることができた。 提案する枠組みは,深層強化学習の能力を利用して眼バイオメカニクスの理解を深める第一歩である。

Reinforcement learning has been applied to human movement through physiologically-based biomechanical models to add insights into the neural control of these movements; it is also useful in the design of prosthetics and robotics. In this paper, we extend the use of reinforcement learning into controlling an ocular biomechanical system to perform saccades, which is one of the fastest eye movement systems. We describe an ocular environment and an agent trained using Deep Deterministic Policy Gradients method to perform saccades. The agent was able to match the desired eye position with a mean deviation angle of 3:5+/-1:25 degrees. The proposed framework is a first step towards using the capabilities of deep reinforcement learning to enhance our understanding of ocular biomechanics.
翻訳日:2022-10-31 04:35:37 公開日:2020-08-12
# ラウンドベースゲームにおける推論学習:一対一シューティングにおける購入決定のためのマルチタスクシーケンス生成

Learning to Reason in Round-based Games: Multi-task Sequence Generation for Purchasing Decision Making in First-person Shooters ( http://arxiv.org/abs/2008.05131v1 )

ライセンス: Link先を確認
Yilei Zeng, Deren Lei, Beichen Li, Gangrong Jiang, Emilio Ferrara, Michael Zyda(参考訳) シークエンシャル推論は複雑な人間の能力であり、1つの連続ゲームにおけるゲームAIに焦点を合わせ、ラウンドベースの意思決定が一連のゲームに拡張されることは、まだ調査されていない。 Counter-Strike: Global Offensive (CS:GO)は、多人数ラウンドベースのシーケンシャル推論のための優れた環境を提供する。 本研究では,ラウンド・アトリビュート・エンコーダとマルチタスク・デコーダを用いたシーケンス・レコーダを提案し,ラウンド・ベースの買収決定の背後にある戦略を解釈する。 複数のラウンドを一致でサンプリングし,メタ学習ループのためのモデル非依存なメタ学習アルゴリズムをレプティルに変更した。 各ラウンドをマルチタスクシーケンス生成問題として定式化する。 我々の状態表現は、アクションエンコーダ、チームエンコーダ、プレイヤー機能、ラウンド属性エンコーダ、エコノミーエンコーダを組み合わせて、エージェントがこの特定のマルチプレイヤーラウンドベースシナリオで推論することを学ぶのに役立つ。 完全アブレーション研究とグリーディアプローチとの比較により,本モデルの有効性が証明された。 我々の研究は、ゲームコミュニティを超えて、エピソードと長期的な購入戦略を理解するための解釈可能なAIのための扉を開く。

Sequential reasoning is a complex human ability, with extensive previous research focusing on gaming AI in a single continuous game, round-based decision makings extending to a sequence of games remain less explored. Counter-Strike: Global Offensive (CS:GO), as a round-based game with abundant expert demonstrations, provides an excellent environment for multi-player round-based sequential reasoning. In this work, we propose a Sequence Reasoner with Round Attribute Encoder and Multi-Task Decoder to interpret the strategies behind the round-based purchasing decisions. We adopt few-shot learning to sample multiple rounds in a match, and modified model agnostic meta-learning algorithm Reptile for the meta-learning loop. We formulate each round as a multi-task sequence generation problem. Our state representations combine action encoder, team encoder, player features, round attribute encoder, and economy encoders to help our agent learn to reason under this specific multi-player round-based scenario. A complete ablation study and comparison with the greedy approach certify the effectiveness of our model. Our research will open doors for interpretable AI for understanding episodic and long-term purchasing strategies beyond the gaming community.
翻訳日:2022-10-31 04:35:23 公開日:2020-08-12
# オンライングラフ補完:コンピュータビジョンにおける多変量信号の回復

Online Graph Completion: Multivariate Signal Recovery in Computer Vision ( http://arxiv.org/abs/2008.05060v1 )

ライセンス: Link先を確認
Won Hwa Kim, Mona Jalal, Seongjae Hwang, Sterling C. Johnson, Vikas Singh(参考訳) コンピュータビジョンと機械学習における「ヒューマン・イン・ザ・ループ」パラダイムの採用は、実際のデータ取得(例えば、人間の監督)と根底にある推論アルゴリズムが密接に相互作用する様々な応用につながっている。 アクティブラーニングにおける古典的な作業は、学習モジュールが分類と回帰タスクを含む場合に効果的な解決策を提供するが、部分的に観測された測定や財務上の制約、さらにはデータの分散的あるいは構造的な側面など、多くの実用的な問題は、一般的にこの処理の範囲外にある。 例えば、行列(またはテンソル)として表されるデータの部分的な測定を逐次取得することで、残りのエントリの完了(または協調フィルタリング)のための新しい戦略が研究されている。 クラウドソーシングプラットフォームを介して大量の画像のアノテートや,あるいは人間のフィードバックを用いた最先端のオブジェクト検出結果の補完を目的とした視覚的問題により,我々は,グラフ上に定義された「補完」問題について検討し,追加測定の要求を順次行う必要がある。 我々は、適応部分モジュラリティに基づくアイデアが実際にうまく機能するアルゴリズムをどのように提供するかを記述するグラフのフーリエ領域で最適化モデルを設計する。 Imgurから収集した大量の画像では、分類が難しい画像に対して有望な結果が得られる。 また、ニューロイメージングにおける実験的デザイン問題への応用を示す。

The adoption of "human-in-the-loop" paradigms in computer vision and machine learning is leading to various applications where the actual data acquisition (e.g., human supervision) and the underlying inference algorithms are closely interwined. While classical work in active learning provides effective solutions when the learning module involves classification and regression tasks, many practical issues such as partially observed measurements, financial constraints and even additional distributional or structural aspects of the data typically fall outside the scope of this treatment. For instance, with sequential acquisition of partial measurements of data that manifest as a matrix (or tensor), novel strategies for completion (or collaborative filtering) of the remaining entries have only been studied recently. Motivated by vision problems where we seek to annotate a large dataset of images via a crowdsourced platform or alternatively, complement results from a state-of-the-art object detector using human feedback, we study the "completion" problem defined on graphs, where requests for additional measurements must be made sequentially. We design the optimization model in the Fourier domain of the graph describing how ideas based on adaptive submodularity provide algorithms that work well in practice. On a large set of images collected from Imgur, we see promising results on images that are otherwise difficult to categorize. We also show applications to an experimental design problem in neuroimaging.
翻訳日:2022-10-31 04:27:37 公開日:2020-08-12
# 誤りから学ぶための学習: 敵対的雑音に対するロバスト最適化

Learning to Learn from Mistakes: Robust Optimization for Adversarial Noise ( http://arxiv.org/abs/2008.05247v1 )

ライセンス: Link先を確認
Alex Serban, Erik Poll, Joost Visser(参考訳) 敵対的ノイズに対する感受性は、セキュリティクリティカルなアプリケーションにおける機械学習アルゴリズムの展開を妨げる。 多くの敵の防御策が提案されているが、敵の雑音に対する堅牢性は依然として未解決の問題である。 最も説得力のある防御、敵の訓練は、処理時間を大幅に増加させ、トレーニングデータに過度に適合することが示されている。 本稿では,低データ環境におけるロバストモデルを訓練し,異なるモデル間での敵知識を伝達することにより,これらの制約を克服することを目的とする。 我々は,敵の例を用いてモデルを堅牢に最適化することを学び,新たな敵の例を生成することなく,新たなモデルに学習した知識を伝達するメタ最適化を訓練する。 実験の結果、メタ最適化は異なるアーキテクチャやデータセット間で一貫性があることを示し、敵の脆弱性を自動的にパッチできることを示している。

Sensitivity to adversarial noise hinders deployment of machine learning algorithms in security-critical applications. Although many adversarial defenses have been proposed, robustness to adversarial noise remains an open problem. The most compelling defense, adversarial training, requires a substantial increase in processing time and it has been shown to overfit on the training data. In this paper, we aim to overcome these limitations by training robust models in low data regimes and transfer adversarial knowledge between different models. We train a meta-optimizer which learns to robustly optimize a model using adversarial examples and is able to transfer the knowledge learned to new models, without the need to generate new adversarial examples. Experimental results show the meta-optimizer is consistent across different architectures and data sets, suggesting it is possible to automatically patch adversarial vulnerabilities.
翻訳日:2022-10-31 04:26:51 公開日:2020-08-12