このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211017となっている論文です。

PDF登録状況(公開日: 20211017)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 深部視覚追跡のためのアクティブラーニング [全文訳有]

Active Learning for Deep Visual Tracking ( http://arxiv.org/abs/2110.13259v1 )

ライセンス: CC BY 4.0
Di Yuan and Xiaojun Chang and Qiao Liu and Dehua Wang and Zhenyu He(参考訳) 近年、畳み込みニューラルネットワーク(cnns)が単一の目標追跡タスクにうまく適用されている。 一般的に、深層cnnモデルのトレーニングには多数のラベル付きトレーニングサンプルが必要であり、これらのサンプルの数と品質はトレーニングモデルの表現能力に直接影響する。 しかし、このような大量のトレーニングサンプルを手動でラベル付けするのは時間を要するため、実際には制限がある。 本稿では,ラベルなしサンプルを選択・注釈付けして深層cnnsモデルを学習する,深部視覚追跡のためのアクティブ学習手法を提案する。 アクティブラーニングの指導のもと、トレーニングされた深層CNNモデルに基づくトラッカーは、ラベリングコストを低減しつつ、競合追跡性能を達成することができる。 より具体的には、選択したサンプルの多様性を確保するために、複数フレームの協調に基づくアクティブな学習手法を提案し、アノテートが必要なトレーニングサンプルを選択する。 一方, 選択したサンプルの表現性を考慮すると, 隣り合う平均近傍距離に基づく近接識別手法を採用し, 孤立サンプルと低品質サンプルをスクリーニングする。 したがって,本手法に基づいて選択したトレーニングサンプルサブセットは,サンプル全体の多様性と代表性を維持するために,所定の予算しか必要としない。 さらに、トラッカーのバウンディングボックス推定を改善するためにTversky損失を採用し、トラッカーがより正確なターゲット状態を達成することを保証する。 総合的な実験結果から,我々のアクティブラーニングベーストラッカー(ALT)は,7つの最も困難な評価ベンチマークにおいて,最先端トラッカーと比較して,競争力のあるトラッキング精度と速度を達成することを確認した。

Convolutional neural networks (CNNs) have been successfully applied to the single target tracking task in recent years. Generally, training a deep CNN model requires numerous labeled training samples, and the number and quality of these samples directly affect the representational capability of the trained model. However, this approach is restrictive in practice, because manually labeling such a large number of training samples is time-consuming and prohibitively expensive. In this paper, we propose an active learning method for deep visual tracking, which selects and annotates the unlabeled samples to train the deep CNNs model. Under the guidance of active learning, the tracker based on the trained deep CNNs model can achieve competitive tracking performance while reducing the labeling cost. More specifically, to ensure the diversity of selected samples, we propose an active learning method based on multi-frame collaboration to select those training samples that should be and need to be annotated. Meanwhile, considering the representativeness of these selected samples, we adopt a nearest neighbor discrimination method based on the average nearest neighbor distance to screen isolated samples and low-quality samples. Therefore, the training samples subset selected based on our method requires only a given budget to maintain the diversity and representativeness of the entire sample set. Furthermore, we adopt a Tversky loss to improve the bounding box estimation of our tracker, which can ensure that the tracker achieves more accurate target states. Extensive experimental results confirm that our active learning-based tracker (ALT) achieves competitive tracking accuracy and speed compared with state-of-the-art trackers on the seven most challenging evaluation benchmarks.
翻訳日:2021-11-01 08:53:12 公開日:2021-10-17
# AUTO-DISCERN:コモンセンス推論を用いた自律走行

AUTO-DISCERN: Autonomous Driving Using Common Sense Reasoning ( http://arxiv.org/abs/2110.13606v1 )

ライセンス: Link先を確認
Suraj Kothawade, Vinaya Khandelwal, Kinjal Basu, Huaduo Wang, Gopal Gupta(参考訳) 自動車の運転には、周囲を観察し、これらの観測(ステア、ブレーキ、海岸など)に基づいて運転決定を行う作業が含まれる。 自動運転では、これらのタスクはすべて自動化する必要があります。 これまで自動運転技術は主に機械学習技術に依存してきた。 適切なタスクに適切な技術を使うべきだと我々は主張する。 つまり、機械学習技術は自動車の周囲を観察し、自動的に理解するのに適しているが、運転決定は機械学習よりも常識推論によって自動化される。 本稿では,本稿で論じる。 (i) 応答セットプログラミング(ASP)とゴール指向のs(CASP) ASPシステムを用いて、どのようにコモンセンス推論を自動化できるか。 二 この技術を用いた自動運転における意思決定の自動化を図ること。 本研究の目的は、人間の運転者の心をシミュレートして機能する自動運転システムを開発することである。 運転決定は人間スタイルの推論に基づいており、それらは説明可能であり、システムのモデリングとシステム入力が正しければ、その倫理は保証され、常に正しい。

Driving an automobile involves the tasks of observing surroundings, then making a driving decision based on these observations (steer, brake, coast, etc.). In autonomous driving, all these tasks have to be automated. Autonomous driving technology thus far has relied primarily on machine learning techniques. We argue that appropriate technology should be used for the appropriate task. That is, while machine learning technology is good for observing and automatically understanding the surroundings of an automobile, driving decisions are better automated via commonsense reasoning rather than machine learning. In this paper, we discuss (i) how commonsense reasoning can be automated using answer set programming (ASP) and the goal-directed s(CASP) ASP system, and (ii) develop the AUTO-DISCERN system using this technology for automating decision-making in driving. The goal of our research, described in this paper, is to develop an autonomous driving system that works by simulating the mind of a human driver. Since driving decisions are based on human-style reasoning, they are explainable, their ethics can be ensured, and they will always be correct, provided the system modeling and system inputs are correct.
翻訳日:2021-10-31 09:07:16 公開日:2021-10-17
# (参考訳) 量子ニューラルネットワークに基づく音声コマンド認識のための古典-量子変換学習 [全文訳有]

Classical-to-Quantum Transfer Learning for Spoken Command Recognition Based on Quantum Neural Networks ( http://arxiv.org/abs/2110.08689v1 )

ライセンス: CC BY 4.0
Jun Qi, Javier Tejedor(参考訳) 本研究では、音声コマンド認識(SCR)のための新しいハイブリッドエンドツーエンド量子ニューラルネットワーク(QNN)への機械学習アルゴリズムの適用範囲の拡張について検討する。 古典部は主に1次元畳み込みニューラルネットワーク(cnn)に依存して音声の特徴を抽出する。(2)量子部はいくつかの学習可能なパラメータを持つ変分量子回路上に構築されている。 ノイズの多い中間スケール量子(NISQ)デバイス上で、ハイブリッドQNNをスクラッチからトレーニングするのは非効率であるため、事前学習された古典的ネットワークをハイブリッドQNNモデルの古典的部分に移行させるハイブリッドトランスファー学習アルゴリズムを提案する。 事前訓練された古典的ネットワークは、変分量子回路(VQC)との共同微調整により、さらに修正および拡張される。 低次元の古典的特徴が量子状態に符号化されることが期待されているため、ハイブリッドトランスファー学習手法はQNNベースのSCRの課題にとって特に魅力的である。 Google音声コマンドデータセット上で、SCR用ハイブリッド古典量子QNNに適用されたハイブリッドトランスファー学習アルゴリズムを評価し、従来のシミュレーション結果から、ハイブリッドトランスファー学習がSCRタスクのベースライン性能を向上させることが示唆された。

This work investigates an extension of transfer learning applied in machine learning algorithms to the emerging hybrid end-to-end quantum neural network (QNN) for spoken command recognition (SCR). Our QNN-based SCR system is composed of classical and quantum components: (1) the classical part mainly relies on a 1D convolutional neural network (CNN) to extract speech features; (2) the quantum part is built upon the variational quantum circuit with a few learnable parameters. Since it is inefficient to train the hybrid end-to-end QNN from scratch on a noisy intermediate-scale quantum (NISQ) device, we put forth a hybrid transfer learning algorithm that allows a pre-trained classical network to be transferred to the classical part of the hybrid QNN model. The pre-trained classical network is further modified and augmented through jointly fine-tuning with a variational quantum circuit (VQC). The hybrid transfer learning methodology is particularly attractive for the task of QNN-based SCR because low-dimensional classical features are expected to be encoded into quantum states. We assess the hybrid transfer learning algorithm applied to the hybrid classical-quantum QNN for SCR on the Google speech command dataset, and our classical simulation results suggest that the hybrid transfer learning can boost our baseline performance on the SCR task.
翻訳日:2021-10-21 08:57:08 公開日:2021-10-17
# (参考訳) mmwaveネットワークにおける分散ビームスケジューリングのためのqラーニング手法 [全文訳有]

A Q-Learning-based Approach for Distributed Beam Scheduling in mmWave Networks ( http://arxiv.org/abs/2110.08704v1 )

ライセンス: CC BY 4.0
Xiang Zhang, Shamik Sarkar, Arupjyoti Bhuyan, Sneha Kumar Kasera, Mingyue Ji(参考訳) 異なるサービス事業者に属する複数の基地局(bss)が同一の非ライセンススペクトルを共有し、中央の調整や協調を伴わないミリ波(mmwave)セルネットワークにおける分散ダウンリンクビームスケジューリングと電力割り当ての問題を考える。 我々のゴールは、全スループットの重み付け和として定義されたネットワークレベルのペイオフを最大化できるように、効率的な分散ビームスケジューリングと電力割り当てアルゴリズムを設計することである。 そこで本研究では,各BSを独立したQ-ラーニングエージェントとしてモデル化し,効率的な干渉管理のための分散スケジューリング手法を提案する。 ベースラインとして,提案手法を,従来同じ問題のために開発された非協調型ゲームベースアプローチと比較した。 両手法の性能に複数の要因が与える影響を検証するため,様々なシナリオで広範な実験を行った。 実験の結果,提案手法は経験から学習することで異なる干渉状況に適応し,ゲームベースアプローチよりも高い報酬が得られることがわかった。 提案手法は,これまで開発したLyapunov確率最適化フレームワークにも組み込むことができ,ネットワークユーティリティの最大化と最適性を保証する。 これにより、lyapunov最適化フレームワークから派生したサブプロームからの仮想キュー値により、ペイオフ関数の重みを自動的に最適に決定することができる。

We consider the problem of distributed downlink beam scheduling and power allocation for millimeter-Wave (mmWave) cellular networks where multiple base stations (BSs) belonging to different service operators share the same unlicensed spectrum with no central coordination or cooperation among them. Our goal is to design efficient distributed beam scheduling and power allocation algorithms such that the network-level payoff, defined as the weighted sum of the total throughput and a power penalization term, can be maximized. To this end, we propose a distributed scheduling approach to power allocation and adaptation for efficient interference management over the shared spectrum by modeling each BS as an independent Q-learning agent. As a baseline, we compare the proposed approach to the state-of-the-art non-cooperative game-based approach which was previously developed for the same problem. We conduct extensive experiments under various scenarios to verify the effect of multiple factors on the performance of both approaches. Experiment results show that the proposed approach adapts well to different interference situations by learning from experience and can achieve higher payoff than the game-based approach. The proposed approach can also be integrated into our previously developed Lyapunov stochastic optimization framework for the purpose of network utility maximization with optimality guarantee. As a result, the weights in the payoff function can be automatically and optimally determined by the virtual queue values from the sub-problems derived from the Lyapunov optimization framework.
翻訳日:2021-10-21 08:45:23 公開日:2021-10-17
# (参考訳) NeuralArTS: 型理論によるニューラルネットワーク検索の構造化 [全文訳有]

NeuralArTS: Structuring Neural Architecture Search with Type Theory ( http://arxiv.org/abs/2110.08710v1 )

ライセンス: CC BY 4.0
Robert Wu, Nayan Saxena, Rohan Jain(参考訳) neural architecture search (nas)アルゴリズムは、可能な操作の最初の検索空間から最適なディープラーニングアーキテクチャを見つけるタスクを自動化する。 これらの検索空間の開発は、通常、スクラッチから検索するよりも、事前最適化された検索空間の方が効率的である手作業による作業である。 本稿では,ニューラルネットワーク型システム(NeuralArTS)と呼ばれる,構造化型システムにおけるネットワーク操作の無限集合を分類するフレームワークを提案する。 我々はさらに,NeuralArTSを畳み込み層に適用し,今後の方向性を提案する。

Neural Architecture Search (NAS) algorithms automate the task of finding optimal deep learning architectures given an initial search space of possible operations. Developing these search spaces is usually a manual affair with pre-optimized search spaces being more efficient, rather than searching from scratch. In this paper we present a new framework called Neural Architecture Type System (NeuralArTS) that categorizes the infinite set of network operations in a structured type system. We further demonstrate how NeuralArTS can be applied to convolutional layers and propose several future directions.
翻訳日:2021-10-21 08:22:44 公開日:2021-10-17
# (参考訳) ネットワーク多段階交通状態予測モデルにおけるブラックボックス攻撃 [全文訳有]

Black-box Adversarial Attacks on Network-wide Multi-step Traffic State Prediction Models ( http://arxiv.org/abs/2110.08712v1 )

ライセンス: CC BY 4.0
Bibek Poudel, Weizi Li(参考訳) 多くのインテリジェントな輸送システムアプリケーションでは、トラフィック状態の予測が必要である。 このトピックの最近の発展は、ディープラーニングモデル、特にグラフニューラルネットワークベースのモデルを通じて、アートパフォーマンスの状態が達成される、ネットワーク全体のマルチステップ予測に焦点を当てている。 深層学習モデルの予測精度は高いが、入力に付加される知覚不能な摂動がモデル性能を著しく低下させることを考えると、これらのモデルの堅牢性は多くの安全上の懸念を提起している。 本研究では,予測モデルをブラックボックスとして扱うこと,すなわち,モデルアーキテクチャやトレーニングデータ,(ハイパー)パラメータに関する知識を仮定することによる,敵対的攻撃フレームワークを提案する。 しかし、敵は任意の入力で予測モデルを導出し、対応する出力を得ることができると仮定する。 次に、入力出力ペアを用いて代用モデルを訓練し、代用モデルに基づいて逆信号を生成する。 攻撃の有効性を検証するため,グラフニューラルネットワークモデル(GCGRNNとDCRNN)の2つの状態について検討した。 その結果、敵はターゲットモデルの予測精度を最大$54\%まで低下させることができる。 また,従来の2つの統計モデル(線形回帰と履歴平均)についても検討した。 これら2つのモデルでは高い予測精度は得られないが、それらは無視的に($3\%以下の)影響を受けているか、敵の攻撃に免疫がある。

Traffic state prediction is necessary for many Intelligent Transportation Systems applications. Recent developments of the topic have focused on network-wide, multi-step prediction, where state of the art performance is achieved via deep learning models, in particular, graph neural network-based models. While the prediction accuracy of deep learning models is high, these models' robustness has raised many safety concerns, given that imperceptible perturbations added to input can substantially degrade the model performance. In this work, we propose an adversarial attack framework by treating the prediction model as a black-box, i.e., assuming no knowledge of the model architecture, training data, and (hyper)parameters. However, we assume that the adversary can oracle the prediction model with any input and obtain corresponding output. Next, the adversary can train a substitute model using input-output pairs and generate adversarial signals based on the substitute model. To test the attack effectiveness, two state of the art, graph neural network-based models (GCGRNN and DCRNN) are examined. As a result, the adversary can degrade the target model's prediction accuracy up to $54\%$. In comparison, two conventional statistical models (linear regression and historical average) are also examined. While these two models do not produce high prediction accuracy, they are either influenced negligibly (less than $3\%$) or are immune to the adversary's attack.
翻訳日:2021-10-21 08:19:04 公開日:2021-10-17
# (参考訳) 時間的畳み込みと注意機構を用いた手のジェスチャー認識 [全文訳有]

Hand Gesture Recognition Using Temporal Convolutions and Attention Mechanism ( http://arxiv.org/abs/2110.08717v1 )

ライセンス: CC BY 4.0
Elahe Rahimian, Soheil Zabihi, Amir Asif, Dario Farina, S. Farokh Atashzar, Arash Mohammadi(参考訳) 生体信号処理と機械学習の進歩、特にディープニューラルネットワーク(dnn)は、人間の意図を解読し、人工肢を制御するための革新的なヒューマンマシンインタフェースの開発の道を開いた。 dnnモデルは、筋肉電気活動、特に手のジェスチャーの認識をデコードするための他のアルゴリズムに関して有望な結果を示している。 しかし、このようなデータ駆動モデルには、多くのトレーニング可能なパラメータとその構造的複雑さの必要性が課題となっている。 本稿では,この計算負担を軽減するため,時間的畳み込みに基づくハンドジェスチャ認識アーキテクチャ(TC-HGR)を提案する。 本手法では,注意機構と時間的畳み込みを応用し,表面筋電図(SEMG)信号を介して手指のジェスチャーを17個分類した。 提案手法は,それぞれ300ms,200msのウィンドウサイズに対して81.65%,80.72%の分類精度を示した。 提案されたTC-HGRアーキテクチャをトレーニングするパラメータの数は、最先端のアーキテクチャの1.9倍少ない。

Advances in biosignal signal processing and machine learning, in particular Deep Neural Networks (DNNs), have paved the way for the development of innovative Human-Machine Interfaces for decoding the human intent and controlling artificial limbs. DNN models have shown promising results with respect to other algorithms for decoding muscle electrical activity, especially for recognition of hand gestures. Such data-driven models, however, have been challenged by their need for a large number of trainable parameters and their structural complexity. Here we propose the novel Temporal Convolutions-based Hand Gesture Recognition architecture (TC-HGR) to reduce this computational burden. With this approach, we classified 17 hand gestures via surface Electromyogram (sEMG) signals by the adoption of attention mechanisms and temporal convolutions. The proposed method led to 81.65% and 80.72% classification accuracy for window sizes of 300ms and 200ms, respectively. The number of parameters to train the proposed TC-HGR architecture is 11.9 times less than that of its state-of-the-art counterpart.
翻訳日:2021-10-21 08:04:55 公開日:2021-10-17
# (参考訳) cae-transformer : non-thin section 3d ctスキャンによる肺腺癌の浸潤性予測のためのトランスフォーマモデル [全文訳有]

CAE-Transformer: Transformer-based Model to Predict Invasiveness of Lung Adenocarcinoma Subsolid Nodules from Non-thin Section 3D CT Scans ( http://arxiv.org/abs/2110.08721v1 )

ライセンス: CC BY 4.0
Shahin Heidarian, Parnian Afshar, Anastasia Oikonomou, Konstantinos N. Plataniotis, Arash Mohammadi(参考訳) 肺がんは、世界中のがんによる死亡率の主要な原因であり、様々な組織型があり、肺腺癌(lauc)が最近最も普及している。 肺腺癌は浸潤前、浸潤最小限、浸潤性腺癌に分類される。 肺結節の侵襲性のタイムリーかつ正確な知識は適切な治療計画をもたらし、不必要な手術や遅発手術のリスクを低減する。 現在、LAUCの浸潤度を評価し、予測するための主要な画像モダリティは胸部CTである。 しかし,CT画像による評価は,外科的切除後の臨床所見と比較すると,主観的であり,精度が低い。 本稿では、LAUCを分類するために、予測トランスフォーマーベースのフレームワーク「CAE-Transformer」を開発した。 cae変換器は畳み込みオートエンコーダ(cae)を使用してctスライスから情報的特徴を自動的に抽出し、修正トランスフォーマモデルに供給してグローバルスライス間関係をキャプチャする。 病理学的に証明された114個のサブソリッド・ノジュール(SSN)の社内データセットによる実験結果から,CAE変換器のヒストグラム/ラジオグラフィーモデルおよび深層学習モデルに対する優位性を示し,精度87.73%,感度88.67%,特異性86.33%,AUC of 0.913を実現した。

Lung cancer is the leading cause of mortality from cancer worldwide and has various histologic types, among which Lung Adenocarcinoma (LAUC) has recently been the most prevalent. Lung adenocarcinomas are classified as pre-invasive, minimally invasive, and invasive adenocarcinomas. Timely and accurate knowledge of the invasiveness of lung nodules leads to a proper treatment plan and reduces the risk of unnecessary or late surgeries. Currently, the primary imaging modality to assess and predict the invasiveness of LAUCs is the chest CT. The results based on CT images, however, are subjective and suffer from a low accuracy compared to the ground truth pathological reviews provided after surgical resections. In this paper, a predictive transformer-based framework, referred to as the "CAE-Transformer" ;, is developed to classify LAUCs. The CAE-Transformer utilizes a Convolutional Auto-Encoder (CAE) to automatically extract informative features from CT slices, which are then fed to a modified transformer model to capture global inter-slice relations. Experimental results on our in-house dataset of 114 pathologically proven Sub-Solid Nodules (SSNs) demonstrate the superiority of the CAE-Transformer over the histogram/radiomics- based models and its deep learning-based counterparts, achieving an accuracy of 87.73%, sensitivity of 88.67%, specificity of 86.33%, and AUC of 0.913, using a 10-fold cross-validation.
翻訳日:2021-10-21 07:53:40 公開日:2021-10-17
# (参考訳) ノイズラベル対応のためのデータシャプレー値 : 胸部ctスキャンからのcovid-19肺炎スクリーニングへの応用 [全文訳有]

Data Shapley Value for Handling Noisy Labels: An application in Screening COVID-19 Pneumonia from Chest CT Scans ( http://arxiv.org/abs/2110.08726v1 )

ライセンス: CC BY 4.0
Nastaran Enshaei, Moezedin Javad Rafiee, Arash Mohammadi, Farnoosh Naderkhani(参考訳) ディープラーニングモデルの長年にわたる課題は、特に人間の命がかかっているアプリケーションにおいて、ノイズの多いラベルを扱う方法だ。 協調ゲーム理論的なアプローチであるdata shapley value(sv)の採用は、ノイズラベルの問題に取り組むためのインテリジェントな評価ソリューションである。 データsvは、学習モデルと評価メトリクスと一緒に使用して、各トレーニングポイントのモデルのパフォーマンスへの貢献を検証することができる。 しかし、データポイントのSVはユニークではなく、学習モデル、評価指標、およびトレーニングゲームで協調する他のデータポイントに依存している。 しかし,SVの計算,ノイズラベルの検出,データポイントの重要度測定に異なる評価指標を用いることの効果は,まだ十分に研究されていない。 この文脈では,異なる評価指標を用いて,ノイズの多い入力ラベルを検出するSVの能力を評価するために,一連の比較分析を行った。 データSVはノイズラベルを効果的に識別できるが、異なる評価基準を採用することは、異なるデータクラスからノイズラベルを識別する能力に大きな影響を及ぼす可能性がある。 具体的には,SVが関連する評価基準に依存することを示す。

A long-standing challenge of deep learning models involves how to handle noisy labels, especially in applications where human lives are at stake. Adoption of the data Shapley Value (SV), a cooperative game theoretical approach, is an intelligent valuation solution to tackle the issue of noisy labels. Data SV can be used together with a learning model and an evaluation metric to validate each training point's contribution to the model's performance. The SV of a data point, however, is not unique and depends on the learning model, the evaluation metric, and other data points collaborating in the training game. However, effects of utilizing different evaluation metrics for computation of the SV, detecting the noisy labels, and measuring the data points' importance has not yet been thoroughly investigated. In this context, we performed a series of comparative analyses to assess SV's capabilities to detect noisy input labels when measured by different evaluation metrics. Our experiments on COVID-19-infected of CT images illustrate that although the data SV can effectively identify noisy labels, adoption of different evaluation metric can significantly influence its ability to identify noisy labels from different data classes. Specifically, we demonstrate that the SV greatly depends on the associated evaluation metric.
翻訳日:2021-10-21 07:41:27 公開日:2021-10-17
# (参考訳) 効果的な拡張機構を用いたミスプロニュシエーション検出のためのエンド・ツー・エンドモデルの改善 [全文訳有]

Improving End-To-End Modeling for Mispronunciation Detection with Effective Augmentation Mechanisms ( http://arxiv.org/abs/2110.08731v1 )

ライセンス: CC BY 4.0
Tien-Hong Lo, Yao-Ting Sung and Berlin Chen(参考訳) 近年,L2学習者の発話のスペクトルベクトル列を入力とし,対応する音声レベル列を出力として生成するエンド・ツー・エンド(E2E)モデルが,誤発音検出(MD)システムの開発において注目されている。 しかし、モデル推定にL2話者の十分なラベル付き音声データが不足しているため、DNN-HMM音響モデルに基づく従来のモデルと比較して、E2E MDモデルは過度に適合する傾向にある。 そこで本研究では,E2E MDモデルの識別能力を高めるための2つのモデリング手法を提案する。 1つ目は、DNN-HMM音響モデルから音声識別に関する知識を抽出することを目的とした入力拡張である。 2つ目はラベル拡張で、トレーニングデータの書き起こしからより多くの音韻学的パターンをキャプチャする。 L2-ARCTIC の英語データセットを用いた実験実験により,DNN-HMM音響モデルを用いて構築した最上位のE2E MDモデルと古典的な発音基準に基づく手法と比較して,E2E MDモデルの有効性が確認された。

Recently, end-to-end (E2E) models, which allow to take spectral vector sequences of L2 (second-language) learners' utterances as input and produce the corresponding phone-level sequences as output, have attracted much research attention in developing mispronunciation detection (MD) systems. However, due to the lack of sufficient labeled speech data of L2 speakers for model estimation, E2E MD models are prone to overfitting in relation to conventional ones that are built on DNN-HMM acoustic models. To alleviate this critical issue, we in this paper propose two modeling strategies to enhance the discrimination capability of E2E MD models, each of which can implicitly leverage the phonetic and phonological traits encoded in a pretrained acoustic model and contained within reference transcripts of the training data, respectively. The first one is input augmentation, which aims to distill knowledge about phonetic discrimination from a DNN-HMM acoustic model. The second one is label augmentation, which manages to capture more phonological patterns from the transcripts of training data. A series of empirical experiments conducted on the L2-ARCTIC English dataset seem to confirm the efficacy of our E2E MD model when compared to some top-of-the-line E2E MD models and a classic pronunciation-scorin g based method built on a DNN-HMM acoustic model.
翻訳日:2021-10-21 07:29:03 公開日:2021-10-17
# (参考訳) リアルタイムフェイスマスク検出のための深層学習に基づくアプローチ [全文訳有]

A Deep Learning-based Approach for Real-time Facemask Detection ( http://arxiv.org/abs/2110.08732v1 )

ライセンス: CC BY 4.0
Wadii Boulila, Ayyub Alzahem, Aseel Almoudi, Muhanad Afifi, Ibrahim Alturki, Maha Driss(参考訳) 新型コロナウイルスのパンデミックが世界的な健康危機を引き起こしている。 公共空間はこのパンデミックの悪影響から保護される必要がある。 フェイスマスクを着用することは、多くの政府によって採用されている効果的な保護ソリューションの1つである。 大規模なグループでのフェイスマスク着用の手動リアルタイム監視が難しい課題になりつつある。 本研究の目的は,多くの実生活アプリケーションにおいて優れた結果を示したディープラーニング(DL)を用いて,効率的なリアルタイム顔マスク検出を実現することである。 提案手法は2つのステップに基づいている。 フェイスマスクを検出、発見し、適切な着用の有無を判断できるdlモデルの作成を目的としたオフラインのステップ。 リアルタイムにマスクを検出するために、エッジコンピューティングでDLモデルをデプロイするオンラインステップ。 本研究では,リアルタイムの顔マスク検出にMobileNetV2を提案する。 いくつかの実験が行われ、提案手法の優れた性能を示す(トレーニングとテスト精度の99%)。 さらに、ResNet50、DenseNet、VGG16といった最先端モデルと比較すると、トレーニング時間と精度でMobileNetV2の性能が向上している。

The COVID-19 pandemic is causing a global health crisis. Public spaces need to be safeguarded from the adverse effects of this pandemic. Wearing a facemask becomes one of the effective protection solutions adopted by many governments. Manual real-time monitoring of facemask wearing for a large group of people is becoming a difficult task. The goal of this paper is to use deep learning (DL), which has shown excellent results in many real-life applications, to ensure efficient real-time facemask detection. The proposed approach is based on two steps. An off-line step aiming to create a DL model that is able to detect and locate facemasks and whether they are appropriately worn. An online step that deploys the DL model at edge computing in order to detect masks in real-time. In this study, we propose to use MobileNetV2 to detect facemask in real-time. Several experiments are conducted and show good performances of the proposed approach (99% for training and testing accuracy). In addition, several comparisons with many state-of-the-art models namely ResNet50, DenseNet, and VGG16 show good performance of the MobileNetV2 in terms of training time and accuracy.
翻訳日:2021-10-21 07:14:49 公開日:2021-10-17
# (参考訳) GNN-LM:グローバルコンテキストに基づく言語モデリング [全文訳有]

GNN-LM: Language Modeling based on Global Contexts via GNN ( http://arxiv.org/abs/2110.08743v1 )

ライセンス: CC BY 4.0
Yuxian Meng, Shi Zong, Xiaoya Li, Xiaofei Sun, Tianwei Zhang, Fei Wu, Jiwei Li(参考訳) 本研究は,<{\it to copy</{\it is easier than to memorize}``という概念に触発され,学習コーパス全体の類似したコンテキストを参照できるようにすることで,バニラニューラル言語モデル(LM)を拡張したGNN-LMを導入する。 入力コンテキスト内のトークンであるノードと検索された隣接コンテキスト,エッジがノード間の接続を表す,トレーニングコーパスから選択された,入力コンテキストと意味的に関連した隣同士の有向不均一グラフを構築する。 グラフニューラルネットワーク(GNN)は、同じコンテキストから情報を集約してトークンをデコードするためにグラフ上に構築される。 この学習パラダイムは、参照コンテキストに直接アクセスし、モデルの一般化能力を改善するのに役立つ。 GNN-LMはWikiText-103(バニラLMモデルに比較して4.5ポイント改善)で14.8の最先端パープレキシティを実現し、10億ワードとEnwiki8データセットを強力なベースラインに対して大幅に改善した。 GNN-LMの力学を理解するため,深部アブレーション研究を行っている。

Inspired by the notion that ``{\it to copy is easier than to memorize}``, in this work, we introduce GNN-LM, which extends the vanilla neural language model (LM) by allowing to reference similar contexts in the entire training corpus. We build a directed heterogeneous graph between an input context and its semantically related neighbors selected from the training corpus, where nodes are tokens in the input context and retrieved neighbor contexts, and edges represent connections between nodes. Graph neural networks (GNNs) are constructed upon the graph to aggregate information from similar contexts to decode the token. This learning paradigm provides direct access to the reference contexts and helps improve a model's generalization ability. We conduct comprehensive experiments to validate the effectiveness of the GNN-LM: GNN-LM achieves a new state-of-the-art perplexity of 14.8 on WikiText-103 (a 4.5 point improvement over its counterpart of the vanilla LM model) and shows substantial improvement on One Billion Word and Enwiki8 datasets against strong baselines. In-depth ablation studies are performed to understand the mechanics of GNN-LM.
翻訳日:2021-10-21 07:08:12 公開日:2021-10-17
# (参考訳) フルローカル画像解釈のためのモデル [全文訳有]

A model for full local image interpretation ( http://arxiv.org/abs/2110.08744v1 )

ライセンス: CC BY 4.0
Guy Ben-Yosef, Liav Assif, Daniel Harari, Shimon Ullman(参考訳) シーン内の構成要素の詳細な解釈を行う人間の能力の計算モデルについて述べる。 人間は、ほぼ至るところで画像有意義なコンポーネントを識別でき、これらのコンポーネントを識別することは、視覚プロセスの重要な部分であり、周囲のシーンとその潜在的な意味を理解する。 詳細な解釈は、現在の視覚認識モデルの範囲を超えている。 私たちのモデルは、既存のモデルがフィードフォワードだがトップダウン処理に制限があるという事実に関連して、これは基本的な制限であることを示唆している。 本モデルでは,第1の認識段階は,不完全かつ精度の低いクラス候補の初期活性化につながる。 このステージはクラス固有の解釈と検証プロセスの適用をトリガーし、よりリッチで正確な視覚シーンの解釈を回復する。 人間の視覚解釈モデルやコンピュータビジョンモデルによる視覚解釈モデルの有効性について論じる。

We describe a computational model of humans' ability to provide a detailed interpretation of components in a scene. Humans can identify in an image meaningful components almost everywhere, and identifying these components is an essential part of the visual process, and of understanding the surrounding scene and its potential meaning to the viewer. Detailed interpretation is beyond the scope of current models of visual recognition. Our model suggests that this is a fundamental limitation, related to the fact that existing models rely on feed-forward but limited top-down processing. In our model, a first recognition stage leads to the initial activation of class candidates, which is incomplete and with limited accuracy. This stage then triggers the application of class-specific interpretation and validation processes, which recover richer and more accurate interpretation of the visible scene. We discuss implications of the model for visual interpretation by humans and by computer vision models.
翻訳日:2021-10-21 06:48:08 公開日:2021-10-17
# (参考訳) ロバストテンソル完成問題に対する完全連結テンソルネットワーク分解 [全文訳有]

Fully-Connected Tensor Network Decomposition for Robust Tensor Completion Problem ( http://arxiv.org/abs/2110.08754v1 )

ライセンス: CC BY 4.0
Yun-Yang Liu, Xi-Le Zhao, Guang-Jing Song, Yu-Bang Zheng, Ting-Zhu Huang(参考訳) スパーステンソルで汚染された部分的観測テンソルから低ランクテンソルを再構成することを目的としたロバストテンソル補完(rtc)問題は注目を集めている。 本稿では、完全連結テンソルネットワーク(FCTN)分解の優れた表現を活用することにより、RTC問題に対する$\textbf{FCTN}$-based $\textbf{r}$obust $\textbf{c}$onvex Optimization model (RC-FCTN)を提案する。 そして、RC-FCTNの正確な回復保証を厳格に確立する。 制約付き最適化モデルRC-FCTNを解くため,グローバル収束保証を享受する乗算器(ADMM)に基づくアルゴリズムの交互方向法を開発した。 さらに、RTC問題に対する$\textbf{FCTN}$-based $\textbf{r}$obust $\textbf{n}$on$\textbf{c}$onvex Optimization model (RNC-FCTN)を提案する。 提案する rnc-fctn を解くために, 近位交互最小化(pam)に基づくアルゴリズムを開発した。 一方、理論的にはPAMに基づくアルゴリズムの収束を導出する。 ビデオ補完やビデオ背景抽出といったいくつかの応用における総合的な数値実験により,提案手法が最先端の手法よりも優れていることを示す。

The robust tensor completion (RTC) problem, which aims to reconstruct a low-rank tensor from partially observed tensor contaminated by a sparse tensor, has received increasing attention. In this paper, by leveraging the superior expression of the fully-connected tensor network (FCTN) decomposition, we propose a $\textbf{FCTN}$-based $\textbf{r}$obust $\textbf{c}$onvex optimization model (RC-FCTN) for the RTC problem. Then, we rigorously establish the exact recovery guarantee for the RC-FCTN. For solving the constrained optimization model RC-FCTN, we develop an alternating direction method of multipliers (ADMM)-based algorithm, which enjoys the global convergence guarantee. Moreover, we suggest a $\textbf{FCTN}$-based $\textbf{r}$obust $\textbf{n}$on$\textbf{c}$onvex optimization model (RNC-FCTN) for the RTC problem. A proximal alternating minimization (PAM)-based algorithm is developed to solve the proposed RNC-FCTN. Meanwhile, we theoretically derive the convergence of the PAM-based algorithm. Comprehensive numerical experiments in several applications, such as video completion and video background subtraction, demonstrate that proposed methods are superior to several state-of-the-art methods.
翻訳日:2021-10-21 06:38:21 公開日:2021-10-17
# (参考訳) ECG-ATK-GAN:条件付き生成逆ネットワークを用いたECGの逆攻撃に対するロバスト性 [全文訳有]

ECG-ATK-GAN: Robustness against Adversarial Attacks on ECG using Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2110.09983v1 )

ライセンス: CC BY-SA 4.0
Khondker Fariha Hossain, Sharif Amit Kamran, Xingjun Ma, Alireza Tavakkoli(参考訳) 近年,心電図(ECG)による不整脈の分類において,深層学習は人間レベルに到達している。 しかし、ディープニューラルネットワーク(DNN)は敵の攻撃に対して脆弱であり、モデルの精度を下げることでECG信号を誤分類することができる。 敵攻撃は、正しいクラスを誤分類するために従来のDNNモデルを示すデータに摂動を注入する。 したがって、臨床応用には高い信頼度が必要であるため、システムの信頼性を確立することが困難になる。 本稿では,この問題を緩和し,DNNモデルを臨床および実生活環境でより堅牢にするため,新しいコンディショナルジェネクティブ・アドバイザリアル・ネットワーク(GAN)を導入し,敵のECG信号に対して堅牢であり,高精度に維持する。 さらに,心電図から心臓異常を検出するため,他の最先端モデルと比較した。 実験によると、我々のモデルは、他のアーキテクチャと比較して敵攻撃に対してより堅牢である。

Recently deep learning has reached human-level performance in classifying arrhythmia from Electrocardiogram (ECG). However, deep neural networks (DNN) are vulnerable to adversarial attacks, which can misclassify ECG signals by decreasing the model's precision. Adversarial attacks are crafted perturbations injected in data that manifest the conventional DNN models to misclassify the correct class. Thus, safety concerns arise as it becomes challenging to establish the system's reliability, given that clinical applications require high levels of trust. To mitigate this problem and make DNN models more robust in clinical and real-life settings, we introduce a novel Conditional Generative Adversarial Network (GAN), robust against adversarial attacked ECG signals and retaining high accuracy. Furthermore, we compared it with other state-of-art models to detect cardiac abnormalities from indistinguishable adversarial attacked ECGs. The experiment confirms, our model is more robust against adversarial attacks compared to other architectures.
翻訳日:2021-10-21 06:00:33 公開日:2021-10-17
# (参考訳) POLE: 署名ネットワークのための偏極埋め込み [全文訳有]

POLE: Polarized Embedding for Signed Networks ( http://arxiv.org/abs/2110.09899v1 )

ライセンス: CC BY 4.0
Zexi Huang, Arlei Silva, Ambuj Singh(参考訳) 2016年のアメリカ合衆国大統領選挙から2021年の議事堂暴動、新型コロナウイルスに関する誤報の拡散に至るまで、多くの人々がソーシャルメディアを、今日の大きく分裂した社会に非難してきた。 署名ネットワークにおける機械学習の最近の進歩は、ソーシャルメディアの分極を減らすことを目的として、小さな介入を導くという約束を掲げている。 しかし、既存のモデルは特にユーザ間の衝突(あるいはネガティブリンク)を予測するのに役に立たない。 これはリンクサインとネットワーク構造の間に強い相関関係があり、偏極化されたコミュニティ間の負のリンクは最先端のアプローチでも予測できないためである。 この問題に対処するために,まず,符号付きランダムウォークに基づく符号付きグラフの分割非依存分極測度を設計し,多くの実世界のグラフが高度に分極されていることを示す。 そこで我々は,符号付き自己共分散による位相的類似性と符号付き類似性の両方を同時にキャプチャする偏波グラフの符号付き埋め込み法POLEを提案する。 広範な実験を通して、POLEは符号付きリンク予測において、特に最大1桁の利得を持つ負のリンクに対して、最先端の手法よりも著しく優れていることを示す。

From the 2016 U.S. presidential election to the 2021 Capitol riots to the spread of misinformation related to COVID-19, many have blamed social media for today's deeply divided society. Recent advances in machine learning for signed networks hold the promise to guide small interventions with the goal of reducing polarization in social media. However, existing models are especially ineffective in predicting conflicts (or negative links) among users. This is due to a strong correlation between link signs and the network structure, where negative links between polarized communities are too sparse to be predicted even by state-of-the-art approaches. To address this problem, we first design a partition-agnostic polarization measure for signed graphs based on the signed random-walk and show that many real-world graphs are highly polarized. Then, we propose POLE (POLarized Embedding for signed networks), a signed embedding method for polarized graphs that captures both topological and signed similarities jointly via signed autocovariance. Through extensive experiments, we show that POLE significantly outperforms state-of-the-art methods in signed link prediction, particularly for negative links with gains of up to one order of magnitude.
翻訳日:2021-10-21 05:48:05 公開日:2021-10-17
# ImageNet競合における非制限逆攻撃

Unrestricted Adversarial Attacks on ImageNet Competition ( http://arxiv.org/abs/2110.09903v1 )

ライセンス: Link先を確認
Yuefeng Chen, Xiaofeng Mao, Yuan He, Hui Xue, Chao Li, Yinpeng Dong, Qi-An Fu, Xiao Yang, Wenzhao Xiang, Tianyu Pang, Hang Su, Jun Zhu, Fangcheng Liu, Chao Zhang, Hongyang Zhang, Yichi Zhang, Shilong Liu, Chang Liu, Wenzhao Xiang, Yajie Wang, Huipeng Zhou, Haoran Lyu, Yidan Xu, Zixuan Xu, Taoyu Zhu, Wenjun Li, Xianfeng Gao, Guoqiu Wang, Huanqian Yan, Ying Guo, Chaoning Zhang, Zheng Fang, Yang Wang, Bingyang Fu, Yunfei Zheng, Yekui Wang, Haorong Luo and Zhen Yang(参考訳) 多くの作品が、入力に境界的かつ不可避な摂動を追加できる設定の下で、敵対的な攻撃や防御を調査している。 しかし、現実世界では、攻撃者はこの制限に従う必要はない。 実際、深層モデルに対するさらなる脅威は、制限のない敵の例、すなわち、攻撃者は画像に大きくて目に見える修正を加え、モデルが誤って分類されるが、人間の視点では通常の観察には影響しない。 制限のない敵の攻撃は一般的かつ実用的な方向であるが、十分に研究されていない。 我々は,より効果的な非拘束的攻撃アルゴリズムを探索し,強固な無拘束攻撃下でのモデルロバスト性に関する学術研究を加速する目的で,このコンペティションを組織する。 コンテストはAI Security Challengers Programのシリーズの1つとして、TianChiプラットフォーム(\url{https://tianchi.aliy un.com/competition/e ntrance/531853/intro duction})で開催される。

Many works have investigated the adversarial attacks or defenses under the settings where a bounded and imperceptible perturbation can be added to the input. However in the real-world, the attacker does not need to comply with this restriction. In fact, more threats to the deep model come from unrestricted adversarial examples, that is, the attacker makes large and visible modifications on the image, which causes the model classifying mistakenly, but does not affect the normal observation in human perspective. Unrestricted adversarial attack is a popular and practical direction but has not been studied thoroughly. We organize this competition with the purpose of exploring more effective unrestricted adversarial attack algorithm, so as to accelerate the academical research on the model robustness under stronger unbounded attacks. The competition is held on the TianChi platform (\url{https://tianchi.aliy un.com/competition/e ntrance/531853/intro duction}) as one of the series of AI Security Challengers Program.
翻訳日:2021-10-20 14:04:40 公開日:2021-10-17
# (参考訳) 非線形変換誘起テンソル核ノルムによるテンソル完了 [全文訳有]

Nonlinear Transform Induced Tensor Nuclear Norm for Tensor Completion ( http://arxiv.org/abs/2110.08774v1 )

ライセンス: CC BY 4.0
Ben-Zheng Li, Xi-Le Zhao, Teng-Yu Ji, Xiong-Jun Zhang, and Ting-Zhu Huang(参考訳) 線形変換に基づくテンソル核ノルム(TNN)法は,最近,テンソル完備化の有望な結果を得た。 この種の方法の主な考え方は、第三モードに沿った線形変換の下でターゲットテンソルの前面スライスの低ランク構造を利用することである。 しかし, 線形変換系では, 前方スライスの低ランクさは重要ではない。 低ランク近似をよりよく追求するために,非線形変換に基づくTNN(NTTNN)を提案する。 より具体的には、提案した非線形変換は、第3モードに沿った線形半直交変換と、その基礎となる低ランク性を完全に活用するために、合成変換において必須かつ相補的である線形半直交変換の下でのテンソルの前方スライス上の要素次非線形変換からなる合成変換である。 提案する低ランク度指標(NTTNN)に基づいて,低ランクテンソル補完(LRTC)モデルを提案する。 結果の非線形および非凸最適化モデルに対処するため、近似交互最小化(PAM)アルゴリズムを精巧に設計し、PAMアルゴリズムの理論的収束保証を確立する。 ハイパースペクトラル画像,マルチスペクトラル画像,ビデオの広範な実験結果から,本手法は線形変換に基づくlrtc法よりも質的,定量的に優れることが示された。

The linear transform-based tensor nuclear norm (TNN) methods have recently obtained promising results for tensor completion. The main idea of this type of methods is exploiting the low-rank structure of frontal slices of the targeted tensor under the linear transform along the third mode. However, the low-rankness of frontal slices is not significant under linear transforms family. To better pursue the low-rank approximation, we propose a nonlinear transform-based TNN (NTTNN). More concretely, the proposed nonlinear transform is a composite transform consisting of the linear semi-orthogonal transform along the third mode and the element-wise nonlinear transform on frontal slices of the tensor under the linear semi-orthogonal transform, which are indispensable and complementary in the composite transform to fully exploit the underlying low-rankness. Based on the suggested low-rankness metric, i.e., NTTNN, we propose a low-rank tensor completion (LRTC) model. To tackle the resulting nonlinear and nonconvex optimization model, we elaborately design the proximal alternating minimization (PAM) algorithm and establish the theoretical convergence guarantee of the PAM algorithm. Extensive experimental results on hyperspectral images, multispectral images, and videos show that the our method outperforms linear transform-based state-of-the-art LRTC methods qualitatively and quantitatively.
翻訳日:2021-10-20 13:09:30 公開日:2021-10-17
# (参考訳) 偏平・セシラスポリプセグメンテーションのための自己教師付きu-net [全文訳有]

Self-Supervised U-Net for Segmenting Flat and Sessile Polyps ( http://arxiv.org/abs/2110.08776v1 )

ライセンス: CC BY 4.0
Debayan Bhattacharya, Christian Betz, Dennis Eggert, Alexander Schlaefer(参考訳) 大腸癌(crc)は公衆の健康に大きなリスクをもたらす。 これはアメリカ合衆国で3番目に多いがんの原因である。 大腸ポリープは最も初期のがんの徴候の一つである。 ポリープの早期検出と切除は生存率を90%に大きく向上させる。 手動検査は、ポリープの色、形状、サイズ、外観が異なるため、誤検出を引き起こす可能性がある。 このため,大腸内視鏡ビデオの処理によりポリープを検出するcadx (computer-assisted diagnostic systems) が提案されている。 このシステムは、臨床医ががんに転換する前にポリープを切除できるように、誤検出を減らすために二次チェックを行う。 ポリプは色、形、サイズ、テクスチャ、外観によって異なる。 その結果,CADx溶液の出現にもかかわらず,ポリプのミス率は6%から27%であった。 さらに、直径が10mm未満の皮脂や平らなポリプは検出されない傾向が強い。 畳み込みニューラルネットワーク(CNN)は,ポリプセグメンテーションにおいて有望な結果を示した。 しかしながら、これらの作業はすべて教師付きアプローチであり、データセットのサイズによって制限される。 より小さなデータセットはResUNet++のセグメンテーション精度を低下させる。 u-netをトレーニングして、プロキシタスクとして画像中のピクセルをランダムにドロップアウトします。 事前トレーニングに使用するデータセットは、Kvasir-SEGデータセットです。 この後、限られたKvasir-Sessileデータセットの教師付きトレーニングが行われる。 実験の結果,限定的な注釈付きデータセットとより大きなラベル付きデータセットでは,自己教師付きアプローチが完全な教師付きアプローチよりも優れた代替手段であることが判明した。 具体的には、Kvasir-Sessileデータセットに基づいて教師付き方法でトレーニングされた5つのセグメンテーションモデルより優れている。

Colorectal Cancer(CRC) poses a great risk to public health. It is the third most common cause of cancer in the US. Development of colorectal polyps is one of the earliest signs of cancer. Early detection and resection of polyps can greatly increase survival rate to 90%. Manual inspection can cause misdetections because polyps vary in color, shape, size and appearance. To this end, Computer-Aided Diagnosis systems(CADx) has been proposed that detect polyps by processing the colonoscopic videos. The system acts a secondary check to help clinicians reduce misdetections so that polyps may be resected before they transform to cancer. Polyps vary in color, shape, size, texture and appearance. As a result, the miss rate of polyps is between 6% and 27% despite the prominence of CADx solutions. Furthermore, sessile and flat polyps which have diameter less than 10 mm are more likely to be undetected. Convolutional Neural Networks(CNN) have shown promising results in polyp segmentation. However, all of these works have a supervised approach and are limited by the size of the dataset. It was observed that smaller datasets reduce the segmentation accuracy of ResUNet++. We train a U-Net to inpaint randomly dropped out pixels in the image as a proxy task. The dataset we use for pre-training is Kvasir-SEG dataset. This is followed by a supervised training on the limited Kvasir-Sessile dataset. Our experimental results demonstrate that with limited annotated dataset and a larger unlabeled dataset, self-supervised approach is a better alternative than fully supervised approach. Specifically, our self-supervised U-Net performs better than five segmentation models which were trained in supervised manner on the Kvasir-Sessile dataset.
翻訳日:2021-10-20 12:41:23 公開日:2021-10-17
# (参考訳) 視覚誘導音の生成

Taming Visually Guided Sound Generation ( http://arxiv.org/abs/2110.08791v1 )

ライセンス: CC BY 4.0
Vladimir Iashin and Esa Rahtu(参考訳) 視覚誘発音声生成の最近の進歩は、短音、低音、単音のサンプリングに基づいている。 さらに、最先端モデルから1秒のオーディオをサンプリングするには、ハイエンドGPUで数分かかる。 本研究では,オープンドメインビデオのフレームセットを1つのGPUで再生するよりも少ない時間で,視覚的に関連性の高い高忠実度音を生成することのできる単一モデルを提案する。 ビデオ機能セットを前提に,事前学習済みのスペクトログラムコードブックから新しいスペクトログラムをサンプリングするためにトランスフォーマーをトレーニングする。 このコードブックは、新しいスペクトログラムに基づく知覚損失を持つコンパクトなサンプリング空間を生成するために訓練されたVQGANの変種を用いて得られる。 生成されたスペクトログラムは、生成を著しく高速化するウィンドウベースのGANを用いて波形に変換する。 生成したスペクトログラムの自動評価のためのメトリクスが欠如していることを考えると、FIDとMKLと呼ばれるメトリクスのファミリも構築する。 これらの指標はメルセプションと呼ばれる新しい音響分類器に基づいており、オープンドメインサンプルの忠実度と妥当性を評価するように設計されている。 小規模および大規模データセットを用いて定性的および定量的研究を行い、生成したサンプルの忠実度と妥当性を評価する。 また,本モデルと最先端のモデルを比較し,品質,サイズ,計算時間の大幅な改善を観察した。 コード、デモ、サンプル: v-iashin.github.io/S pecVQGAN

Recent advances in visually-induced audio generation are based on sampling short, low-fidelity, and one-class sounds. Moreover, sampling 1 second of audio from the state-of-the-art model takes minutes on a high-end GPU. In this work, we propose a single model capable of generating visually relevant, high-fidelity sounds prompted with a set of frames from open-domain videos in less time than it takes to play it on a single GPU. We train a transformer to sample a new spectrogram from the pre-trained spectrogram codebook given the set of video features. The codebook is obtained using a variant of VQGAN trained to produce a compact sampling space with a novel spectrogram-based perceptual loss. The generated spectrogram is transformed into a waveform using a window-based GAN that significantly speeds up generation. Considering the lack of metrics for automatic evaluation of generated spectrograms, we also build a family of metrics called FID and MKL. These metrics are based on a novel sound classifier, called Melception, and designed to evaluate the fidelity and relevance of open-domain samples. Both qualitative and quantitative studies are conducted on small- and large-scale datasets to evaluate the fidelity and relevance of generated samples. We also compare our model to the state-of-the-art and observe a substantial improvement in quality, size, and computation time. Code, demo, and samples: v-iashin.github.io/S pecVQGAN
翻訳日:2021-10-20 12:35:09 公開日:2021-10-17
# (参考訳) 道路網上のドローンとトラックの協調型マルチエージェントパスフィニング [全文訳有]

Coordinated Multi-Agent Pathfinding for Drones and Trucks over Road Networks ( http://arxiv.org/abs/2110.08802v1 )

ライセンス: CC BY 4.0
Shushman Choudhury and Kiril Solovey and Mykel Kochenderfer and Marco Pavone(参考訳) 我々は、ドローンとトラックのチームを大規模都市道路網にルーティングする問題に対処する。 限られた飛行エネルギーを節約するために、ドローンはトラックを目的地に向かう途中の一時的な交通手段として使用できる。 このような調整は、トラックの走行距離やドローンの飛行距離といった車両全体の距離を、独立して運用するドローンやトラックと比べて大幅に節約することができる。 しかし、どのトラックとドローンが、いつ、どこで、そしてどこで、最も有益かを調整すべきかを決める、潜在的な計算コストが伴う。 我々はこの根本的なトレードオフに取り組み、難解な問題をステージワイズで解決するトラクタブルなサブプロブレムに分解する。 第一段階はトラックのみを解決し、ドローンにとって便利な交通手段になりやすい経路を計算している。 第2段階は、第1段階からトラック経路によって定義された道路網と交通網の複合体にルーティングすることで、ドローンのみを解決する。 我々は,各ステージをマルチエージェントパス探索問題として構成する包括的アルゴリズムフレームワークを設計し,その解法を2つ実装する。 我々は,約4500ドルの頂点と10000ドルのエッジを持つ実世界のマンハッタンロードネットワーク上で,最大100ドルのエージェントによる大規模シミュレーションのアプローチを評価した。 当社のフレームワークは、トラックやドローンを独立して解決するのに対し、走行距離50セント以上を節約し、コモディティハードウェアで5分以内のすべての設定に対するソリューションを計算します。

We address the problem of routing a team of drones and trucks over large-scale urban road networks. To conserve their limited flight energy, drones can use trucks as temporary modes of transit en route to their own destinations. Such coordination can yield significant savings in total vehicle distance traveled, i.e., truck travel distance and drone flight distance, compared to operating drones and trucks independently. But it comes at the potentially prohibitive computational cost of deciding which trucks and drones should coordinate and when and where it is most beneficial to do so. We tackle this fundamental trade-off by decoupling our overall intractable problem into tractable sub-problems that we solve stage-wise. The first stage solves only for trucks, by computing paths that make them more likely to be useful transit options for drones. The second stage solves only for drones, by routing them over a composite of the road network and the transit network defined by truck paths from the first stage. We design a comprehensive algorithmic framework that frames each stage as a multi-agent path-finding problem and implement two distinct methods for solving them. We evaluate our approach on extensive simulations with up to $100$ agents on the real-world Manhattan road network containing nearly $4500$ vertices and $10000$ edges. Our framework saves on more than $50\%$ of vehicle distance traveled compared to independently solving for trucks and drones, and computes solutions for all settings within $5$ minutes on commodity hardware.
翻訳日:2021-10-20 12:33:56 公開日:2021-10-17
# (参考訳) TEAM-Net:部分復号化によるビデオ行動認識のためのマルチモーダル学習 [全文訳有]

TEAM-Net: Multi-modal Learning for Video Action Recognition with Partial Decoding ( http://arxiv.org/abs/2110.08814v1 )

ライセンス: CC BY 4.0
Zhengwei Wang, Qi She, Aljosa Smolic(参考訳) 既存のビデオアクション認識モデルのほとんどは生のRGBフレームを取り込みます。 しかし、生のビデオストリームには膨大なストレージが必要であり、時間的冗長性も大きい。 ビデオ圧縮(H.264、MPEG-4)は、グループ・オブ・ピクチャーズ(GOP)という概念を用いて生のビデオストリームを表現することで、過剰な情報を減らす。 各GOPは、最初のIフレーム(別名RGB画像)と、多数のPフレームで構成され、動きベクトルと残差で表され、事前抽出された特徴と見なすことができる。 この作品では、 1)GOPレベルに基づく部分復号化ビデオからネットワークの入力をサンプリングし、 2) IフレームとPフレームからの情報を用いてネットワークをエンドツーエンドにトレーニングするためのプラグアンドプレイ mulTi-modal lEArning Module (TEAM) を提案する。 RGBのみを用いたベースラインと比較して,TEAM-Netの優れた性能を示す。 TEAM-Netは、部分的復号化を伴うビデオアクション認識領域における最先端のパフォーマンスも達成している。 コードはhttps://github.com/v illawang/TEAM-Netで提供されている。

Most of existing video action recognition models ingest raw RGB frames. However, the raw video stream requires enormous storage and contains significant temporal redundancy. Video compression (e.g., H.264, MPEG-4) reduces superfluous information by representing the raw video stream using the concept of Group of Pictures (GOP). Each GOP is composed of the first I-frame (aka RGB image) followed by a number of P-frames, represented by motion vectors and residuals, which can be regarded and used as pre-extracted features. In this work, we 1) introduce sampling the input for the network from partially decoded videos based on the GOP-level, and 2) propose a plug-and-play mulTi-modal lEArning Module (TEAM) for training the network using information from I-frames and P-frames in an end-to-end manner. We demonstrate the superior performance of TEAM-Net compared to the baseline using RGB only. TEAM-Net also achieves the state-of-the-art performance in the area of video action recognition with partial decoding. Code is provided at https://github.com/v illawang/TEAM-Net.
翻訳日:2021-10-20 11:29:14 公開日:2021-10-17
# (参考訳) edge tpuによるディープニューラルネットワークの探索 [全文訳有]

Exploring Deep Neural Networks on Edge TPU ( http://arxiv.org/abs/2110.08826v1 )

ライセンス: CC BY 4.0
Seyedehfaezeh Hosseininoorbin, Siamak Layeghy, Brano Kusy, Raja Jurdak, Marius Portmann(参考訳) 本稿では、フィードフォワードニューラルネットワークにおけるGoogleのEdge TPUの性能について検討する。 当社はEdge TPUをハードウェアプラットフォームとみなし、リソース制約のあるエッジデバイス上での運用がこれまで難しかったディープニューラルネットワーク分類器のさまざまなアーキテクチャを探求しています。 スペクトログラム(Spectrogram)と呼ばれる共同周波数データ表現を用いて、分類性能と推論に消費されるエネルギーとのトレードオフを考察する。 Edge TPUのエネルギー効率は、広く使われている組み込みCPU ARM Cortex-A53と比較される。 その結果、ニューラルネットワークアーキテクチャ仕様がEdge TPUの性能に与える影響を定量化し、TPUの最適動作点に関する決定を導いた。 また,本評価では,ニューラルネットワーク仕様によるエッジtpuとcortex-a53の性能のクロスオーバーに注目した。 分析に基づいて,モデルパラメータとコンテキストに基づいて,プラットフォーム選択に関する意思決定をガイドする意思決定チャートを提供する。

This paper explores the performance of Google's Edge TPU on feed forward neural networks. We consider Edge TPU as a hardware platform and explore different architectures of deep neural network classifiers, which traditionally has been a challenge to run on resource constrained edge devices. Based on the use of a joint-time-frequency data representation, also known as spectrogram, we explore the trade-off between classification performance and the energy consumed for inference. The energy efficiency of Edge TPU is compared with that of widely-used embedded CPU ARM Cortex-A53. Our results quantify the impact of neural network architectural specifications on the Edge TPU's performance, guiding decisions on the TPU's optimal operating point, where it can provide high classification accuracy with minimal energy consumption. Also, our evaluations highlight the crossover in performance between the Edge TPU and Cortex-A53, depending on the neural network specifications. Based on our analysis, we provide a decision chart to guide decisions on platform selection based on the model parameters and context.
翻訳日:2021-10-20 10:55:58 公開日:2021-10-17
# (参考訳) 畳み込みニューラルネットワークアクティベーションのためのグリーディ次元縮小による圧縮・アウェア射影 [全文訳有]

Compression-aware Projection with Greedy Dimension Reduction for Convolutional Neural Network Activations ( http://arxiv.org/abs/2110.08828v1 )

ライセンス: CC BY 4.0
Yu-Shan Tai, Chieh-Fang Teng, Cheng-Yang Chang, and An-Yeu Wu(参考訳) 畳み込みニューラルネットワーク(CNN)は幅広い分野において優れた性能を発揮する。 しかし、アクティベーションの集中的なメモリアクセスはかなりのエネルギー消費をもたらし、リソース制約されたエッジデバイスへのcnnのデプロイを妨げる。 アクティベーション圧縮の既存の作業は、高い圧縮性のために特徴マップを変換し、次元の縮小を可能にする。 にもかかわらず、攻撃的な次元縮小の場合、これらの手法は厳しい精度低下をもたらす。 分類精度と圧縮比のトレードオフを改善するために,復元損失を補償するために学習可能な投影を用いる圧縮認識投影システムを提案する。 また、精度と#bits低減を同時に考慮し、層間圧縮比の割り当てを最適化するために、グリーディ選択メトリックを導入する。 提案手法は,MobileNetV2/ResNet1 8/VGG16の精度低下で2.91x〜5.97xのメモリアクセスを効果的に削減できることを示す。

Convolutional neural networks (CNNs) achieve remarkable performance in a wide range of fields. However, intensive memory access of activations introduces considerable energy consumption, impeding deployment of CNNs on resourceconstrained edge devices. Existing works in activation compression propose to transform feature maps for higher compressibility, thus enabling dimension reduction. Nevertheless, in the case of aggressive dimension reduction, these methods lead to severe accuracy drop. To improve the trade-off between classification accuracy and compression ratio, we propose a compression-aware projection system, which employs a learnable projection to compensate for the reconstruction loss. In addition, a greedy selection metric is introduced to optimize the layer-wise compression ratio allocation by considering both accuracy and #bits reduction simultaneously. Our test results show that the proposed methods effectively reduce 2.91x~5.97x memory access with negligible accuracy drop on MobileNetV2/ResNet18 /VGG16.
翻訳日:2021-10-20 10:39:57 公開日:2021-10-17
# (参考訳) 極小スーパービジョンによる微粒オピニオン要約 [全文訳有]

Fine-Grained Opinion Summarization with Minimal Supervision ( http://arxiv.org/abs/2110.08845v1 )

ライセンス: CC BY 4.0
Suyu Ge, Jiaxin Huang, Yu Meng, Sharon Wang, Jiawei Han(参考訳) オピニオン要約は、複数の文書から意見を抽出することでターゲットをプロファイルすることを目的としている。 既存の作業の多くは、何千ものドキュメントから高品質なアノテーションを得ることが難しいため、半監督的な方法でタスクに近づきます。 その中でも、意見を識別するための代理としてアスペクトと感情分析を使用するものもある。 本研究では,(1)アスペクト名といくつかのアスペクト/強調キーワードのみ使用可能な最小限の監督,(2)感情分析をサブアスペクトレベルまで掘り下げたきめ細かな意見分析,(3)意見をフレーズ形式で要約した句ベースの要約という3つの観点で,このフロンティアを前進させる新たな枠組みであるファインサムを提案する。 FineSumは、生のコーパスから意見語句を自動的に識別し、異なる側面と感情に分類し、各アスペクト/感覚の下に複数のきめ細かい意見クラスタを構築する。 各クラスタは意味的に一貫性のあるフレーズで構成され、あるサブアスペクトや特徴に対して一様の意見を表現している(例: `food' における ``burgers''' に対する肯定的な感情)。 句分類器に対して、意見指向の球形単語埋め込み空間を訓練し、句分類器から生成されたアスペクト対応コンテキスト化埋め込みを用いて句クラスタリングを行う。 ベンチマークの自動評価と定量的人間評価はともに,提案手法の有効性を検証する。

Opinion summarization aims to profile a target by extracting opinions from multiple documents. Most existing work approaches the task in a semi-supervised manner due to the difficulty of obtaining high-quality annotation from thousands of documents. Among them, some use aspect and sentiment analysis as a proxy for identifying opinions. In this work, we propose a new framework, FineSum, which advances this frontier in three aspects: (1) minimal supervision, where only aspect names and a few aspect/sentiment keywords are available; (2) fine-grained opinion analysis, where sentiment analysis drills down to the sub-aspect level; and (3) phrase-based summarization, where opinion is summarized in the form of phrases. FineSum automatically identifies opinion phrases from the raw corpus, classifies them into different aspects and sentiments, and constructs multiple fine-grained opinion clusters under each aspect/sentiment. Each cluster consists of semantically coherent phrases, expressing uniform opinions towards certain sub-aspect or characteristics (e.g., positive feelings for ``burgers'' in the ``food'' aspect). An opinion-oriented spherical word embedding space is trained to provide weak supervision for the phrase classifier, and phrase clustering is performed using the aspect-aware contextualized embedding generated from the phrase classifier. Both automatic evaluation on the benchmark and quantitative human evaluation validate the effectiveness of our approach.
翻訳日:2021-10-20 10:31:32 公開日:2021-10-17
# (参考訳) 成長する表現学習 [全文訳有]

Growing Representation Learning ( http://arxiv.org/abs/2110.08857v1 )

ライセンス: CC BY 4.0
Ryan King, Bobak Mortazavi(参考訳) 機械学習は、ますます複雑なタスクを学習する能力によって、人気を高め続けている。 しかし、多くの教師付きモデルでは、データ分散の変化や新しいイベントの出現により、モデルの性能が大幅に低下する可能性がある。 モデルをスクラッチから更新データで再トレーニングすることは、組織やシステムに置かれる制約によって、リソース集約的あるいは不可能になる可能性がある。 継続学習法は、モデルを再訓練する代わりに、新しいクラスに適応させようとする。 しかし、これらの手法の多くは、新しいクラスの検出方法や、クラスの分布に関する仮定を持っていない。 本稿では,ラベルの有無に関わらずデータの解釈可能な表現を学習する,GMATと呼ばれるガウス混合手法を開発する。 この手法を既存のニューラルアーキテクチャ探索手法に組み込んで,成長訓練の反復プロセスを通じて,最適な表現数に対する新しい事象を検出するアルゴリズムを開発した。 本手法はラベルやラベルの分布に関する仮定を伴わずに新たなデータ表現を学習できることを示す。 また,モデルがラベルを利用して表現をより正確に開発できる手法を開発した。 最後に,本手法は,学習表現からサンプルを再生することで,破滅的な忘れを回避できることを示す。

Machine learning continues to grow in popularity due to its ability to learn increasingly complex tasks. However, for many supervised models, the shift in a data distribution or the appearance of a new event can result in a severe decrease in model performance. Retraining a model from scratch with updated data can be resource intensive or impossible depending on the constraints placed on an organization or system. Continual learning methods attempt to adapt models to new classes instead of retraining. However, many of these methods do not have a detection method for new classes or make assumptions about the distribution of classes. In this paper, we develop an attention based Gaussian Mixture, called GMAT, that learns interpretable representations of data with or without labels. We incorporate this method with existing Neural Architecture Search techniques to develop an algorithm for detection new events for an optimal number of representations through an iterative process of training a growing. We show that our method is capable learning new representations of data without labels or assumptions about the distributions of labels. We additionally develop a method that allows our model to utilize labels to more accurately develop representations. Lastly, we show that our method can avoid catastrophic forgetting by replaying samples from learned representations.
翻訳日:2021-10-20 10:19:47 公開日:2021-10-17
# (参考訳) 生体プラズブルな時空間調整による深部スパイクニューラルネットワークのトレーニング [全文訳有]

Backpropagation with Biologically Plausible Spatio-Temporal Adjustment For Training Deep Spiking Neural Networks ( http://arxiv.org/abs/2110.08858v1 )

ライセンス: CC BY 4.0
Guobin Shen, Dongcheng Zhao and Yi Zeng(参考訳) スパイキングニューラルネットワーク(SNN)は、人間の脳における情報処理操作を模倣し、豊かな空間的および時間的情報を含むスパイクトレインで情報を表現し、伝達し、多くの認知タスクにおいて優れた性能を示す。 さらに、イベント駆動情報処理は、ニューロモルフィックチップのエネルギー効率の高い実装を可能にする。 ディープラーニングの成功は、バックプロパゲーションとは分離できない。 離散的な情報伝達のため、SNNのトレーニングにバックプロパゲーションを直接適用しても、従来のディープニューラルネットワークと比較してパフォーマンスの差は残る。 また、パフォーマンス向上のためには大きなシミュレーション時間が必要であり、結果としてレイテンシが高くなる。 そこで本研究では, 膜電位とスパイクの関係を再考し, 異なる時間ステップへの勾配の適度な調整を実現する, 生物学的に妥当な空間調整を提案する。 そして、空間次元に沿った誤差のバックプロパゲーションを正確に制御する。 第二に,従来のスパイクニューロンのスパイク周期における時間依存問題を克服し,誤りを時間次元のスパイクに伝達させる生物学的に妥当な時間調整を提案する。 提案アルゴリズムを複数のデータセットで検証した結果,ネットワークのレイテンシと消費電力を大幅に低減し,ネットワーク性能も向上した。 我々はニューロモルフィックデータセットN-MNIST, DVS-Gesture, DVS-CIFAR10の最先端性能を達成した。 静的データセット MNIST と CIFAR10 については,従来の SNN のバックプロパゲーショントレーニングアルゴリズムの大部分を超え,比較的優れた性能を実現している。

The spiking neural network (SNN) mimics the information processing operation in the human brain, represents and transmits information in spike trains containing wealthy spatial and temporal information, and shows superior performance on many cognitive tasks. In addition, the event-driven information processing enables the energy-efficient implementation on neuromorphic chips. The success of deep learning is inseparable from backpropagation. Due to the discrete information transmission, directly applying the backpropagation to the training of the SNN still has a performance gap compared with the traditional deep neural networks. Also, a large simulation time is required to achieve better performance, which results in high latency. To address the problems, we propose a biological plausible spatial adjustment, which rethinks the relationship between membrane potential and spikes and realizes a reasonable adjustment of gradients to different time steps. And it precisely controls the backpropagation of the error along the spatial dimension. Secondly, we propose a biologically plausible temporal adjustment making the error propagate across the spikes in the temporal dimension, which overcomes the problem of the temporal dependency within a single spike period of the traditional spiking neurons. We have verified our algorithm on several datasets, and the experimental results have shown that our algorithm greatly reduces the network latency and energy consumption while also improving network performance. We have achieved state-of-the-art performance on the neuromorphic datasets N-MNIST, DVS-Gesture, and DVS-CIFAR10. For the static datasets MNIST and CIFAR10, we have surpassed most of the traditional SNN backpropagation training algorithm and achieved relatively superior performance.
翻訳日:2021-10-20 10:09:45 公開日:2021-10-17
# (参考訳) 3d-retr:トランスフォーマーを用いたエンドツーエンド・マルチビュー3d再構成 [全文訳有]

3D-RETR: End-to-End Single and Multi-View 3D Reconstruction with Transformers ( http://arxiv.org/abs/2110.08861v1 )

ライセンス: CC BY 4.0
Zai Shi, Zhao Meng, Yiran Xing, Yunpu Ma, Roger Wattenhofer(参考訳) 3Dリコンストラクションは、2Dビューから3Dオブジェクトを再構築することを目的としている。 以前の3dリコンストラクションは、主にビュー間の機能マッチングや、cnnをバックボーンとして使用することに重点を置いている。 近年,コンピュータビジョンの複数の応用においてトランスフォーマーが有効であることが示されている。 しかし、トランスフォーマーを3D再構成に使えるかどうかはまだ不明である。 本稿では,TRアンスフォーマを用いたエンドツーエンドの3D再構成が可能な3D-RETRを提案することで,このギャップを埋める。 3D-RETRは、まずトレーニング済みのTransformerを使用して、2D入力画像から視覚的特徴を抽出する。 3D-RETRは、別のTransformer Decoderを使って、voxel機能を取得する。 その後、cnnデコーダがvoxel特徴の入力を受け取り、再構成されたオブジェクトを取得する。 3D-RETRは、単一のビューまたは複数のビューから3D再構成を行うことができる。 2つのデータセットによる実験結果から、3DRETRが3D再構成における最先端の性能に達することが示された。 さらなるアブレーション研究により、3D-DETR は Transformer の恩恵を受けることが示されている。

3D reconstruction aims to reconstruct 3D objects from 2D views. Previous works for 3D reconstruction mainly focus on feature matching between views or using CNNs as backbones. Recently, Transformers have been shown effective in multiple applications of computer vision. However, whether or not Transformers can be used for 3D reconstruction is still unclear. In this paper, we fill this gap by proposing 3D-RETR, which is able to perform end-to-end 3D REconstruction with TRansformers. 3D-RETR first uses a pretrained Transformer to extract visual features from 2D input images. 3D-RETR then uses another Transformer Decoder to obtain the voxel features. A CNN Decoder then takes as input the voxel features to obtain the reconstructed objects. 3D-RETR is capable of 3D reconstruction from a single view or multiple views. Experimental results on two datasets show that 3DRETR reaches state-of-the-art performance on 3D reconstruction. Additional ablation study also demonstrates that 3D-DETR benefits from using Transformers.
翻訳日:2021-10-20 09:56:44 公開日:2021-10-17
# (参考訳) メルスペクトログラムとテンポグラム特徴を用いた深層学習に基づくEDMサブジェネア分類 [全文訳有]

Deep Learning Based EDM Subgenre Classification using Mel-Spectrogram and Tempogram Features ( http://arxiv.org/abs/2110.08862v1 )

ライセンス: CC BY 4.0
Wei-Han Hsu, Bo-Yu Chen, Yi-Hsuan Yang(参考訳) 音楽技術の発展とともに、電子ダンス音楽(edm)の「サブジャンル」と呼ばれる多くのスタイルが近年登場している。 EDMと非EDMを区別する分類課題は、音楽ジャンル分類の文脈においてしばしば研究されているが、より困難なEDMサブジャンル分類についてはほとんど研究されていない。 最先端モデルは極めてランダムな木に基づいており、深層学習法によって改善できる。 本稿では,現在最先端の音楽自動タグモデルであるShort-chunkCNN+ResnetをEDMサブジャンルに拡張し,Fourier tempogram とautocorrelation tempogram という2つの中レベルのテンポ関連特徴表現を追加する。 そして, 早期融合と後期融合という2つの融合戦略を探索し, 二つのタイプのテンポグラムを集約する。 提案手法は,30種類のEDMサブジャンルに対して75,000曲からなる大規模データセットを用いて評価し,深層学習モデルとテンポ特徴の導入により,分類精度が向上したことを示す。

Along with the evolution of music technology, a large number of styles, or "subgenres," of Electronic Dance Music(EDM) have emerged in recent years. While the classification task of distinguishing between EDM and non-EDM has been often studied in the context of music genre classification, little work has been done on the more challenging EDM subgenre classification. The state-of-art model is based on extremely randomized trees and could be improved by deep learning methods. In this paper, we extend the state-of-art music auto-tagging model "short-chunkCNN+Resnet" to EDM subgenre classification, with the addition of two mid-level tempo-related feature representations, called the Fourier tempogram and autocorrelation tempogram. And, we explore two fusion strategies, early fusion and late fusion, to aggregate the two types of tempograms. We evaluate the proposed models using a large dataset consisting of 75,000 songs for 30 different EDM subgenres, and show that the adoption of deep learning models and tempo features indeed leads to higher classification accuracy.
翻訳日:2021-10-20 09:43:23 公開日:2021-10-17
# (参考訳) 無監督キーフレーズ抽出と文書表現学習によるCOVID-19関連文献の優先順位付け [全文訳有]

Prioritization of COVID-19-related literature via unsupervised keyphrase extraction and document representation learning ( http://arxiv.org/abs/2110.08874v1 )

ライセンス: CC BY 4.0
Bla\v{z} \v{S}krlj and Marko Juki\v{c} and Nika Er\v{z}en and Senja Pollak and Nada Lavra\v{c}(参考訳) 新型コロナウイルスのパンデミックは、手作業で適切な時間枠で検査や研究が不可能な、新しい科学文献の波を引き起こした。 現在の機械学習手法では、同様の文書が互いに近接しているベクトル空間にそのような文献を投影し、COVID-19に関連する科学論文やその他の知識ソースの洞察に富んだ調査を提供する。 しかし、検索を始めるには、そのようなテキストに適切な注釈をつける必要がある。 本システムでは, 学習した文書の埋め込み(低次元表現)を含む潜伏空間への初期クエリを容易にするために, 教師なしキーフレーズ抽出を用いて, 現行のCOVID-19関連文献に注釈を付けている。 このソリューションは、インタラクティブな検索、タームランキング、潜在的に興味深い文献の探索が可能なwebサーバを通じてアクセスできる。 医薬化学領域のケーススタディを通じて, 本手法の有用性を実証する。

The COVID-19 pandemic triggered a wave of novel scientific literature that is impossible to inspect and study in a reasonable time frame manually. Current machine learning methods offer to project such body of literature into the vector space, where similar documents are located close to each other, offering an insightful exploration of scientific papers and other knowledge sources associated with COVID-19. However, to start searching, such texts need to be appropriately annotated, which is seldom the case due to the lack of human resources. In our system, the current body of COVID-19-related literature is annotated using unsupervised keyphrase extraction, facilitating the initial queries to the latent space containing the learned document embeddings (low-dimensional representations). The solution is accessible through a web server capable of interactive search, term ranking, and exploration of potentially interesting literature. We demonstrate the usefulness of the approach via case studies from the medicinal chemistry domain.
翻訳日:2021-10-20 09:32:56 公開日:2021-10-17
# (参考訳) Schr\odinger's Tree - 構文モデルとニューラル言語モデルについて [全文訳有]

Schr\"odinger's Tree -- On Syntax and Neural Language Models ( http://arxiv.org/abs/2110.08887v1 )

ライセンス: CC BY 4.0
Artur Kulmizev, Joakim Nivre(参考訳) 過去半年で、自然言語処理(NLP)の分野は、主要なモデリングパラダイムとしてのニューラルネットワークへの切り替えと、トレーニング体制(プレトレイン、ファインチューン)の均質化という、2つの大きな移行を遂げた。 このプロセスの中で、言語モデルはNLPのワークホースとして登場し、ますます流動的な生成能力を示し、下流での知識伝達の必要不可欠な手段であることが証明されている。 このようなモデルが不透明でブラックボックス的な性質のため、研究者は言語理論の側面を用いて行動の特徴付けを行っている。 構文(言語の階層構造の研究)の中心的な疑問は、モデル固有のバイアスと人間のような一般化を行う能力に関する貴重な洞察を隠蔽し、そのような研究に大きく影響した。 本稿では,この成長する文献の在庫を取ろうとする。 このようにして、多くの次元にまたがる明瞭さの欠如が、研究者が形成する仮説や、それらが発見から引き出す結論に影響を及ぼすのを観察する。 そこで我々は, 符号化特性の調査, 表現の選択, 下流タスクによる評価において, 研究者の注意を喚起する。 さらに,構文研究において提示される異なる種類の研究質問の意義と,集合的メトリクスの固有の落とし穴について概説する。 最終的に、私たちの議論が言語モデルの研究の見通しにニュアンスをもたらし、この文脈における構文に対するよりモノリシックな視点の道を開くことを願っている。

In the last half-decade, the field of natural language processing (NLP) has undergone two major transitions: the switch to neural networks as the primary modeling paradigm and the homogenization of the training regime (pre-train, then fine-tune). Amidst this process, language models have emerged as NLP's workhorse, displaying increasingly fluent generation capabilities and proving to be an indispensable means of knowledge transfer downstream. Due to the otherwise opaque, black-box nature of such models, researchers have employed aspects of linguistic theory in order to characterize their behavior. Questions central to syntax -- the study of the hierarchical structure of language -- have factored heavily into such work, shedding invaluable insights about models' inherent biases and their ability to make human-like generalizations. In this paper, we attempt to take stock of this growing body of literature. In doing so, we observe a lack of clarity across numerous dimensions, which influences the hypotheses that researchers form, as well as the conclusions they draw from their findings. To remedy this, we urge researchers make careful considerations when investigating coding properties, selecting representations, and evaluating via downstream tasks. Furthermore, we outline the implications of the different types of research questions exhibited in studies on syntax, as well as the inherent pitfalls of aggregate metrics. Ultimately, we hope that our discussion adds nuance to the prospect of studying language models and paves the way for a less monolithic perspective on syntax in this context.
翻訳日:2021-10-20 09:15:52 公開日:2021-10-17
# (参考訳) 汎用音声表現のための深層クラスタリング [全文訳有]

Deep Clustering For General-Purpose Audio Representations ( http://arxiv.org/abs/2110.08895v1 )

ライセンス: CC BY 4.0
Sreyan Ghosh and Sandesh V Katta and Ashish Seth and S. Umesh(参考訳) 本稿では,汎用音声表現学習のための自己教師付き事前学習手法であるDECARを紹介する。 我々のシステムはクラスタリングに基づいており、オフラインクラスタリングのステップを使用して、予測タスクを解決するために擬似ラベルとして機能するターゲットラベルを提供する。 我々は,コンピュータビジョンのための自己教師付き学習の最近の進歩と,軽量で使いやすい自己教師付き事前学習スキームの設計の上に開発する。 大規模オーディオセットデータセットのバランスのとれたサブセットにデカル埋め込みを事前トレーニングし、これらの表現を音声、音楽、動物音、音響シーンを含む9つの下流分類タスクに転送する。 さらに,重要な設計選択を識別するアブレーション研究を行い,すべてのコードと事前学習モデルを公開する。

We introduce DECAR, a self-supervised pre-training approach for learning general-purpose audio representations. Our system is based on clustering: it utilizes an offline clustering step to provide target labels that act as pseudo-labels for solving a prediction task. We develop on top of recent advances in self-supervised learning for computer vision and design a lightweight, easy-to-use self-supervised pre-training scheme. We pre-train DECAR embeddings on a balanced subset of the large-scale Audioset dataset and transfer those representations to 9 downstream classification tasks, including speech, music, animal sounds, and acoustic scenes. Furthermore, we conduct ablation studies identifying key design choices and also make all our code and pre-trained models publicly available.
翻訳日:2021-10-20 08:51:34 公開日:2021-10-17
# (参考訳) 確率的プロセス制御を加速するためのグリーンシミュレーションによる政策勾配支援

Green Simulation Assisted Policy Gradient to Accelerate Stochastic Process Control ( http://arxiv.org/abs/2110.08902v1 )

ライセンス: CC BY 4.0
Hua Zheng, Wei Xie, M. Ben Feng(参考訳) この研究は、高い複雑さ、高い不確実性、非常に限られたプロセスデータを含む、バイオ医薬品製造における重要な課題に動機づけられている。 各実験は、しばしば非常に高価である。 最適かつロバストなプロセス制御を支援するために,オンラインとオフラインの両方の学習環境を対象とした一般グリーンシミュレーション支援ポリシー勾配(GS-PG)フレームワークを提案する。 基本的に、サンプル不効率や低信頼性といった最先端強化学習(RL)の鍵となる限界に対処するために、プロセスモデル係数や決定ポリシーパラメータなど、異なる入力下で実施された履歴実験からの情報を利用する混合可能性比に基づくポリシー勾配推定を作成する。 そして,最適かつロバストな政策の学習を促進するために,GS-PGが最も重要な歴史的軌跡をインテリジェントに選択・再利用できる分散還元に基づくサンプル選択法を提案する。 選択ルールは、プロセスメカニズムの学習と最適なポリシーの探索中に再利用されるサンプルを自動的に更新する。 我々の理論的および実証的研究は、提案手法が最先端の政策勾配法よりも優れた性能を示し、不確実性の高い複素確率系に対する最適ロバストなプロセス制御を加速できることを示した。

This study is motivated by the critical challenges in the biopharmaceutical manufacturing, including high complexity, high uncertainty, and very limited process data. Each experiment run is often very expensive. To support the optimal and robust process control, we propose a general green simulation assisted policy gradient (GS-PG) framework for both online and offline learning settings. Basically, to address the key limitations of state-of-art reinforcement learning (RL), such as sample inefficiency and low reliability, we create a mixture likelihood ratio based policy gradient estimation that can leverage on the information from historical experiments conducted under different inputs, including process model coefficients and decision policy parameters. Then, to accelerate the learning of optimal and robust policy, we further propose a variance reduction based sample selection method that allows GS-PG to intelligently select and reuse most relevant historical trajectories. The selection rule automatically updates the samples to be reused during the learning of process mechanisms and the search for optimal policy. Our theoretical and empirical studies demonstrate that the proposed framework can perform better than the state-of-art policy gradient approach and accelerate the optimal robust process control for complex stochastic systems under high uncertainty.
翻訳日:2021-10-20 08:41:37 公開日:2021-10-17
# (参考訳) 公正な機械学習に対する毒殺攻撃 [全文訳有]

Poisoning Attacks on Fair Machine Learning ( http://arxiv.org/abs/2110.08932v1 )

ライセンス: CC BY 4.0
Minh-Hao Van, Wei Du, Xintao Wu, Aidong Lu(参考訳) 公正な機械学習と敵対的学習の両方が広く研究されている。 しかし、公正な機械学習モデルに対する攻撃は、あまり注目されていない。 本稿では,モデル精度とアルゴリズム公正性を両立させるため,有毒なサンプルを効果的に生成する枠組みを提案する。 我々の攻撃フレームワークは、人口動態パリティや等化オッズなど、様々なグループベースの公正の概念で訓練された公正な機械学習モデルをターゲットにすることができる。 我々は,3つのオンラインアタック,対向サンプリング,対向ラベル付け,対向特徴修正を開発する。 3つの攻撃はすべて、テストの精度を低下させるために、サンプリング、ラベル付け、あるいはわずかなトレーニングデータの変更を通じて、効果的かつ効率的に、有毒なサンプルを生成する。 提案手法は,攻撃者の予測精度や公平性に対する焦点を柔軟に調整し,各候補点の精度損失と公正性違反に対する影響を正確に定量化し,効果的な中毒サンプルを生成する。 2つの実際のデータセットの実験は、我々のフレームワークの有効性と効率を実証している。

Both fair machine learning and adversarial learning have been extensively studied. However, attacking fair machine learning models has received less attention. In this paper, we present a framework that seeks to effectively generate poisoning samples to attack both model accuracy and algorithmic fairness. Our attacking framework can target fair machine learning models trained with a variety of group based fairness notions such as demographic parity and equalized odds. We develop three online attacks, adversarial sampling , adversarial labeling, and adversarial feature modification. All three attacks effectively and efficiently produce poisoning samples via sampling, labeling, or modifying a fraction of training data in order to reduce the test accuracy. Our framework enables attackers to flexibly adjust the attack's focus on prediction accuracy or fairness and accurately quantify the impact of each candidate point to both accuracy loss and fairness violation, thus producing effective poisoning samples. Experiments on two real datasets demonstrate the effectiveness and efficiency of our framework.
翻訳日:2021-10-20 08:40:11 公開日:2021-10-17
# (参考訳) Rejoinder: 最適分散ロバスト個別処理規則の学習 [全文訳有]

Rejoinder: Learning Optimal Distributionally Robust Individualized Treatment Rules ( http://arxiv.org/abs/2110.08936v1 )

ライセンス: CC BY-SA 4.0
Weibin Mo, Zhengling Qi and Yufeng Liu(参考訳) 私たちは、この議論に対して編集者と議論者が提示した機会に感謝します。 また、再ターゲティングによる政策学習の効率向上に熱心に取り組んでいたkallus氏(2020年)を祝福したい。 Dukes and Vansteelandt (2020) での議論から動機づけられた我々は、まず第1節で、我々の仕事とKallus (2020) の間の興味深いつながりと区別を指摘した。 特に、これらの2つの論文における仮定と変化の源泉は、異なるスコープと焦点を持つ異なる研究問題に繋がる。 第2節では、li et al.(2020)、liang and zhao(2020)での議論に続いて、トレーニング段階で利用可能なテストディストリビューションからのデータがある場合、効率的なポリシー評価の問題についても検討する。 トレーニングとテストのサンプルサイズが同じ順序で成長しているという仮定の下では、効率的な値関数推定が競争力のあるパフォーマンスをもたらすことを示す。 さらに、これらの推定と既存の文献との関連性を示す。 しかし、トレーニングで利用可能なサンプルサイズのテストが遅い場合、効率的な値関数の推定はもはやうまくいかないかもしれない。 対照的に、DRITRの試験サンプルサイズは、組み合わせたデータを用いた効率的な政策評価の要件ほど強くない。 最後に,第3節におけるDRITRの適用性と有用性について述べる。

We thank the opportunity offered by editors for this discussion and the discussants for their insightful comments and thoughtful contributions. We also want to congratulate Kallus (2020) for his inspiring work in improving the efficiency of policy learning by retargeting. Motivated from the discussion in Dukes and Vansteelandt (2020), we first point out interesting connections and distinctions between our work and Kallus (2020) in Section 1. In particular, the assumptions and sources of variation for consideration in these two papers lead to different research problems with different scopes and focuses. In Section 2, following the discussions in Li et al. (2020); Liang and Zhao (2020), we also consider the efficient policy evaluation problem when we have some data from the testing distribution available at the training stage. We show that under the assumption that the sample sizes from training and testing are growing in the same order, efficient value function estimates can deliver competitive performance. We further show some connections of these estimates with existing literature. However, when the growth of testing sample size available for training is in a slower order, efficient value function estimates may not perform well anymore. In contrast, the requirement of the testing sample size for DRITR is not as strong as that of efficient policy evaluation using the combined data. Finally, we highlight the general applicability and usefulness of DRITR in Section 3.
翻訳日:2021-10-20 08:20:29 公開日:2021-10-17
# (参考訳) 動的スリム化制御ネットワーク [全文訳有]

Dynamic Slimmable Denoising Network ( http://arxiv.org/abs/2110.08940v1 )

ライセンス: CC BY 4.0
Zutao Jiang and Changlin Li and Xiaojun Chang and Jihua Zhu and Yi Yang(参考訳) 近年、人間のデザインと自動検索のニューラルネットワークが画像認知に応用されている。 しかしながら、以前の作業では、事前に定義された静的ネットワークアーキテクチャでノイズの多いイメージをすべて処理することを目的としていた。 本稿では,異なるノイズ画像に対して,テスト時にネットワークのチャネル構成を動的に調整することにより,より少ない計算量で優れたデノナイズ品質を実現するための一般的な手法である動的スリムブルデノナイズネットワーク(DDS-Net)を提案する。 我々のDDS-Netは動的ゲートによる動的推論機能を備えており、ネットワークのチャネル構成を無視可能な余分な計算コストで予測的に調整することができる。 各候補サブネットワークの性能と動的ゲートの公平性を確保するため,三段階最適化方式を提案する。 第1段階では、重み付きスリム化可能なスーパーネットワークを訓練する。 第2段階では、トレーニングされたスリム化可能なスーパーネットワークを反復的に評価し、各層のチャネル番号を最小の分別品質低下で段階的に調整する。 1回のパスで、異なるチャネル構成で優れた性能を持つサブネットワークを複数取得できる。 最後の段階では,オンライン手法で簡単で硬いサンプルを識別し,動的ゲートを訓練し,異なるノイズ画像に対して対応するサブネットワークを予測的に選択する。 大規模な実験により、DDS-Netは、最先端の個別訓練静的デノゲーションネットワークよりも一貫して優れています。

Recently, tremendous human-designed and automatically searched neural networks have been applied to image denoising. However, previous works intend to handle all noisy images in a pre-defined static network architecture, which inevitably leads to high computational complexity for good denoising quality. Here, we present dynamic slimmable denoising network (DDS-Net), a general method to achieve good denoising quality with less computational complexity, via dynamically adjusting the channel configurations of networks at test time with respect to different noisy images. Our DDS-Net is empowered with the ability of dynamic inference by a dynamic gate, which can predictively adjust the channel configuration of networks with negligible extra computation cost. To ensure the performance of each candidate sub-network and the fairness of the dynamic gate, we propose a three-stage optimization scheme. In the first stage, we train a weight-shared slimmable super network. In the second stage, we evaluate the trained slimmable super network in an iterative way and progressively tailor the channel numbers of each layer with minimal denoising quality drop. By a single pass, we can obtain several sub-networks with good performance under different channel configurations. In the last stage, we identify easy and hard samples in an online way and train a dynamic gate to predictively select the corresponding sub-network with respect to different noisy images. Extensive experiments demonstrate our DDS-Net consistently outperforms the state-of-the-art individually trained static denoising networks.
翻訳日:2021-10-20 08:00:06 公開日:2021-10-17
# (参考訳) MIMIC-IV ICUデータを用いた非パラメトリックハザードのリアルタイム死亡予測 [全文訳有]

Real-time Mortality Prediction Using MIMIC-IV ICU Data Via Boosted Nonparametric Hazards ( http://arxiv.org/abs/2110.08949v1 )

ライセンス: CC BY 4.0
Zhale Nowroozilarki, Arash Pakbin, James Royalty, Donald K.K. Lee, and Bobak J. Mortazavi(参考訳) EHR(Electronic Health Record)システムは、重要でリッチで価値のある情報を高周波で提供する。 EHRデータの最もエキサイティングな応用の1つは、生存分析のツールを用いたリアルタイム死亡警告システムの開発である。 しかし、最近使われている生存分析手法のほとんどは静的共変量を用いた(半)パラメトリックモデルに基づいている。 これらのモデルは、時間変化のEHRデータによって伝達される情報を利用していない。 そこで本研究では,MIMIC IVデータセットに基づくリアルタイムICU死亡警報器の開発のために,高度にスケーラブルな生存分析手法であるBoXHED 2.0を提案する。 重要なことに、BoXHEDは時間依存の共変体を完全に非パラメトリックな方法で組み込むことができ、理論によって裏付けられている。 我々のICU死亡モデルでは、サンプルからAUC-PRC 0.41 と AUC-ROC 0.83 を達成し、リアルタイムモニタリングの利点を実証した。

Electronic Health Record (EHR) systems provide critical, rich and valuable information at high frequency. One of the most exciting applications of EHR data is in developing a real-time mortality warning system with tools from survival analysis. However, most of the survival analysis methods used recently are based on (semi)parametric models using static covariates. These models do not take advantage of the information conveyed by the time-varying EHR data. In this work, we present an application of a highly scalable survival analysis method, BoXHED 2.0 to develop a real-time in-ICU mortality warning indicator based on the MIMIC IV data set. Importantly, BoXHED can incorporate time-dependent covariates in a fully nonparametric manner and is backed by theory. Our in-ICU mortality model achieves an AUC-PRC of 0.41 and AUC-ROC of 0.83 out of sample, demonstrating the benefit of real-time monitoring.
翻訳日:2021-10-20 07:40:04 公開日:2021-10-17
# SSD構成の自動チューニングに向けた学習ベースアプローチ

A Learning-based Approach Towards Automated Tuning of SSD Configurations ( http://arxiv.org/abs/2110.08685v1 )

ライセンス: Link先を確認
Daixuan Li and Jian Huang(参考訳) 成熟した製造技術のおかげで、ソリッドステートドライブ(SSD)はアプリケーションにとって非常にカスタマイズ可能であり、ストレージ性能とリソース利用をさらに改善する機会をもたらす。 しかし、SSD効率は通常、多くのハードウェアパラメータによって決定されるため、開発者が手動で調整し、最適なSSD構成を決定することは困難である。 本稿では,教師付きと教師なしの両方の機械学習(ml)技術を用いて,ssdのハードウェア構成のチューニングを行う,学習ベースの自動化フレームワークであるlearningssdを提案する。 LearnedSSDは、ブロックI/Oトレースを使用して、新しいワークロードのユニークなアクセスパターンを自動的に抽出し、学習したエクスペリエンスを活用するために、ワークロードを以前のワークロードにマップし、検証されたストレージパフォーマンスに基づいた最適なSSD構成を推奨する。 LearnedSSDは、ハードウェアパラメータ設定の自動化と手作業の削減により、新しいSSDデバイスの開発を加速する。 マルチコアCPU上で効率的に動作可能な,単純かつ効率的な学習アルゴリズムを備えたLeartedSSDを開発した。 対象のストレージワークロードを考慮すれば、LearnedSSDは常にターゲットのワークロードに対して最適なSSD構成を提供することができ、この構成はターゲット外のワークロードのパフォーマンスを損なうことはない。

Thanks to the mature manufacturing techniques, solid-state drives (SSDs) are highly customizable for applications today, which brings opportunities to further improve their storage performance and resource utilization. However, the SSD efficiency is usually determined by many hardware parameters, making it hard for developers to manually tune them and determine the optimal SSD configurations. In this paper, we present an automated learning-based framework, named LearnedSSD, that utilizes both supervised and unsupervised machine learning (ML) techniques to drive the tuning of hardware configurations for SSDs. LearnedSSD automatically extracts the unique access patterns of a new workload using its block I/O traces, maps the workload to previously workloads for utilizing the learned experiences, and recommends an optimal SSD configuration based on the validated storage performance. LearnedSSD accelerates the development of new SSD devices by automating the hard-ware parameter configurations and reducing the manual efforts. We develop LearnedSSD with simple yet effective learning algorithms that can run efficiently on multi-core CPUs. Given a target storage workload, our evaluation shows that LearnedSSD can always deliver an optimal SSD configuration for the target workload, and this configuration will not hurt the performance of non-target workloads.
翻訳日:2021-10-19 21:32:39 公開日:2021-10-17
# 実験室SR-30ガスタービンエンジンのオンボード故障診断

On-board Fault Diagnosis of a Laboratory Mini SR-30 Gas Turbine Engine ( http://arxiv.org/abs/2110.08820v1 )

ライセンス: Link先を確認
Richa Singh(参考訳) 近年の機械学習の進歩にインスパイアされたFDI(Data-driven fault diagnosis and isolation)スキームは, 燃料供給システムの故障と, 実験室のガスタービンシステムのセンサ測定のために, 明確に開発されている。 障害診断の受動的アプローチは、機械学習の分類器を使ってモデルが訓練された時に、与えられた障害シナリオのセットをリアルタイムで検出する。 最後に, ベクトル分類器, 線形判別分析, k-neighbor, 決定木などの既知の分類手法について比較検討を行った。 提案手法の利点, 性能, 性能を実証し, 実証するために, いくつかのシミュレーション実験を行った。

Inspired by recent progress in machine learning, a data-driven fault diagnosis and isolation (FDI) scheme is explicitly developed for failure in the fuel supply system and sensor measurements of the laboratory gas turbine system. A passive approach of fault diagnosis is implemented where a model is trained using machine learning classifiers to detect a given set of fault scenarios in real-time on which it is trained. Towards the end, a comparative study is presented for well-known classification techniques, namely Support vector classifier, linear discriminant analysis, K-neighbor, and decision trees. Several simulation studies were carried out to demonstrate and illustrate the proposed fault diagnosis scheme's advantages, capabilities, and performance.
翻訳日:2021-10-19 21:32:16 公開日:2021-10-17
# MARTINI:WiFiセンシングとクラスタリングに基づくHVACスケジューリングと省エネルギーのスマートメータ駆動推定

MARTINI: Smart Meter Driven Estimation of HVAC Schedules and Energy Savings Based on WiFi Sensing and Clustering ( http://arxiv.org/abs/2110.08927v1 )

ライセンス: Link先を確認
Kingsley Nweye and Zoltan Nagy(参考訳) HVACシステムは建築エネルギー利用のかなりの部分を占めている。 夜間のセットバックスケジューリングは、省エネを目標とする未占有期間において、冷却と暖房のセットポイントをそれぞれ増加・減少させる省エネ対策である。 しかし、この対策の成功を最大化するためには、建物の実力に関する知識が必要である。 さらに、特定のパラメータの構築や実験またはシミュレーションのモデリング投資によって制限されない省エネルギー対策から省エネポテンシャルを見積もるスケーラブルな方法が必要となる。 本稿では、商業ビルにおけるエネルギースマートメーターとWi-Fiインフラの両面を活用した、占有者由来のHVACスケジュールと省エネのシミュレーションであるMARTINIを提案する。 スマートメータエネルギープロファイルのクラスタリングにより得られた典型的な/測定された負荷プロファイルで観測されるランプアップとセットバックタイムのシフトにより、wifiによる占有率プロファイルをクラスタリングし、省エネルギーによりスケジュールを推定する。 7か月間の5つの建物におけるケーススタディの結果は、平均8.1%-10.8% (夏) と0.2%-5.9% (秋) の冷却水エネルギー節約効果を示した。 建築エネルギー性能シミュレーション (BEPS) の結果から, MARTINI の平均貯蓄量が BEPS 予測の 0.9%-2.4% 以内であることが確認された。 占有情報がない場合、昇降時間の増加とセットバック開始時間の減少から潜在的な貯蓄を推定することができる。 51の学術建築物では、1%から5%の貯蓄ポテンシャルが見出される。

HVAC systems account for a significant portion of building energy use. Nighttime setback scheduling is an energy conservation measure where cooling and heating setpoints are increased and decreased respectively during unoccupied periods with the goal of obtaining energy savings. However, knowledge of a building's real occupancy is required to maximize the success of this measure. In addition, there is the need for a scalable way to estimate energy savings potential from energy conservation measures that is not limited by building specific parameters and experimental or simulation modeling investments. Here, we propose MARTINI, a sMARt meTer drIveN estImation of occupant-derived HVAC schedules and energy savings that leverages the ubiquity of energy smart meters and WiFi infrastructure in commercial buildings. We estimate the schedules by clustering WiFi-derived occupancy profiles and, energy savings by shifting ramp-up and setback times observed in typical/measured load profiles obtained by clustering smart meter energy profiles. Our case-study results with five buildings over seven months show an average of 8.1%-10.8% (summer) and 0.2%-5.9% (fall) chilled water energy savings when HVAC system operation is aligned with occupancy. We validate our method with results from building energy performance simulation (BEPS) and find that estimated average savings of MARTINI are within 0.9%-2.4% of the BEPS predictions. In the absence of occupancy information, we can still estimate potential savings from increasing ramp-up time and decreasing setback start time. In 51 academic buildings, we find savings potentials between 1%-5%.
翻訳日:2021-10-19 21:32:04 公開日:2021-10-17
# グラフ分類のためのGNNへのメンバーシップ推論攻撃の適応:アプローチと意味

Adapting Membership Inference Attacks to GNN for Graph Classification: Approaches and Implications ( http://arxiv.org/abs/2110.08760v1 )

ライセンス: Link先を確認
Bang Wu and Xiangwen Yang and Shirui Pan and Xingliang Yuan(参考訳) グラフニューラルネットワーク(GNN)は、化学ネットワーク、脳ネットワーク、ソーシャルネットワークなどの非ユークリッドデータを分析し、複雑な関係とオブジェクト間の相互依存をモデル化するために広く採用されている。 近年、GNNに対するメンバーシップ推論攻撃(MIA)は、トレーニングデータをトレーニングされたGNNモデルから漏洩させるという深刻なプライバシー上の懸念を提起している。 しかし、以前の研究はグラフ内のコンポーネント、例えば個々のノードやエッジのみのメンバシップを推測することに焦点を当てている。 グラフレコード全体のメンバシップを推測する方法はまだ検討されていない。 本稿では、グラフレベル分類のためのGNNに対するMIAの最初のステップについて述べる。 本研究の目的は,グラフサンプルがGNNモデルのトレーニングに使用されたかどうかを推定することである。 我々は,訓練に基づく攻撃と,異なる敵能力によるしきい値に基づく攻撃の2種類の攻撃を提示・実装する。 我々は,5つの代表的GNNモデルを用いて,実世界の7つのデータセットにおける攻撃を評価する包括的実験を行った。 どちらの攻撃も効果的であり、多くの場合、0.7アタックf1スコアを超える高いパフォーマンスを達成できる。 さらに,MIAのGNNに対する影響を分析した。 その結果,GNNは非グラフ構造を持つモデルよりもMIAに対して脆弱であることが確認された。 ノードレベルの分類器とは異なり、グラフレベルの分類タスクのMIAは、トレーニンググラフの統計的性質よりも、GNNのオーバーフィッティングレベルとより密接に関連している。

Graph Neural Networks (GNNs) are widely adopted to analyse non-Euclidean data, such as chemical networks, brain networks, and social networks, modelling complex relationships and interdependency between objects. Recently, Membership Inference Attack (MIA) against GNNs raises severe privacy concerns, where training data can be leaked from trained GNN models. However, prior studies focus on inferring the membership of only the components in a graph, e.g., an individual node or edge. How to infer the membership of an entire graph record is yet to be explored. In this paper, we take the first step in MIA against GNNs for graph-level classification. Our objective is to infer whether a graph sample has been used for training a GNN model. We present and implement two types of attacks, i.e., training-based attacks and threshold-based attacks from different adversarial capabilities. We perform comprehensive experiments to evaluate our attacks in seven real-world datasets using five representative GNN models. Both our attacks are shown effective and can achieve high performance, i.e., reaching over 0.7 attack F1 scores in most cases. Furthermore, we analyse the implications behind the MIA against GNNs. Our findings confirm that GNNs can be even more vulnerable to MIA than the models with non-graph structures. And unlike the node-level classifier, MIAs on graph-level classification tasks are more co-related with the overfitting level of GNNs rather than the statistic property of their training graphs.
翻訳日:2021-10-19 21:02:04 公開日:2021-10-17
# S-Cyc:ReLUネットワークの反復実行のための学習率スケジュール

S-Cyc: A Learning Rate Schedule for Iterative Pruning of ReLU-based Networks ( http://arxiv.org/abs/2110.08764v1 )

ライセンス: Link先を確認
Shiyu Liu, Chong Min John Tan, Mehul Motani(参考訳) 本稿では,ReLUネットワークの性能向上のために,学習率(LR)スケジュールの適応に向けた新たな視点について検討する。 私たちの仕事と貢献は4つの部分からなる。 (i)ReLUベースのネットワークが反復的に切断されているため、重み勾配の分布はより狭くなる傾向にある。 これにより、ネットワークがスパース化するにつれて、プルーンドネットワークのトレーニングにLRのより大きな値を使用する必要があることが分かる。 そこで,本研究では,S字形におけるLR上界(max_lr)を段階的に増加させることにより,従来のLRスケジュールに適応するS字型LRスケジュール(S字型LRスケジュール)を提案する。 3)提案したS-Cycの性能を評価し,4つのLRスケジュールベンチマークと比較した。 3つの最先端ネットワーク(例えばvgg-19、resnet-20、resnet-50)と2つの人気のあるデータセット(例えばcifar-10、imagenet-200)の実験結果から、s-cycは2.1%から3.4%の改善で一貫して最高のパフォーマンスベンチマークを上回っていることが分かる。 (iv)私たちはS-Cycをオラクルに対して評価し、グリッドサーチによりmax_lrを注意深く調整するオラクルとS-Cycが同等の性能を発揮することを示す。

We explore a new perspective on adapting the learning rate (LR) schedule to improve the performance of the ReLU-based network as it is iteratively pruned. Our work and contribution consist of four parts: (i) We find that, as the ReLU-based network is iteratively pruned, the distribution of weight gradients tends to become narrower. This leads to the finding that as the network becomes more sparse, a larger value of LR should be used to train the pruned network. (ii) Motivated by this finding, we propose a novel LR schedule, called S-Cyclical (S-Cyc) which adapts the conventional cyclical LR schedule by gradually increasing the LR upper bound (max_lr) in an S-shape as the network is iteratively pruned.We highlight that S-Cyc is a method agnostic LR schedule that applies to many iterative pruning methods. (iii) We evaluate the performance of the proposed S-Cyc and compare it to four LR schedule benchmarks. Our experimental results on three state-of-the-art networks (e.g., VGG-19, ResNet-20, ResNet-50) and two popular datasets (e.g., CIFAR-10, ImageNet-200) demonstrate that S-Cyc consistently outperforms the best performing benchmark with an improvement of 2.1% - 3.4%, without substantial increase in complexity. (iv) We evaluate S-Cyc against an oracle and show that S-Cyc achieves comparable performance to the oracle, which carefully tunes max_lr via grid search.
翻訳日:2021-10-19 20:59:35 公開日:2021-10-17
# 記憶による時間的知識グラフ推論

Temporal Knowledge Graph Reasoning Triggered by Memories ( http://arxiv.org/abs/2110.08765v1 )

ライセンス: Link先を確認
Mengnan Zhao, Lihe Zhang, Yuqiu Kong, Baocai Yin(参考訳) 時間的知識グラフに欠けている事実を推測することは重要な課題であり、広く研究されている。 時間的推論タスクの補間はより困難であり、予測のための直接的な歴史事実がないため、研究者の注意を徐々に惹きつける。 これまでの研究は、外挿問題を解くために進化的表現学習を適用しようと試みた。 しかし、これらの手法は、様々なタイムアウェアな属性表現を明示的に活用していない。 本研究では, 時間依存を緩和するために, 過渡記憶, 長期記憶, 深層記憶を組み込んだ MTDM (Memory-Triggered decision-making) ネットワークを提案する。 具体的には、過渡学習ネットワークは、過渡記憶を静的な知識グラフとみなし、タイムアウェア・リカレント進化ネットワークは、長期記憶から一連の反復進化単位を通して表現を学習する。 各進化単位は、エッジ情報を集約する構造エンコーダと、エンティティの属性表現を更新するゲーティングユニットを備えたタイムエンコーダから構成される。 MTDMは, 構造エンコーダとして残留多重相関アグリゲータを用いて, マルチホップカバレッジ問題を解決する。 また,イベント溶解過程の理解を深めるために,溶解学習制約を導入する。 MTDMは履歴依存を緩和し,最先端の予測性能を実現する。 さらに,最も先進的なベースラインと比較して,MTDMはより高速な収束速度とトレーニング速度を示す。

Inferring missing facts in temporal knowledge graphs is a critical task and has been widely explored. Extrapolation in temporal reasoning tasks is more challenging and gradually attracts the attention of researchers since no direct history facts for prediction. Previous works attempted to apply evolutionary representation learning to solve the extrapolation problem. However, these techniques do not explicitly leverage various time-aware attribute representations, i.e. the reasoning performance is significantly affected by the history length. To alleviate the time dependence when reasoning future missing facts, we propose a memory-triggered decision-making (MTDM) network, which incorporates transient memories, long-short-term memories, and deep memories. Specifically, the transient learning network considers transient memories as a static knowledge graph, and the time-aware recurrent evolution network learns representations through a sequence of recurrent evolution units from long-short-term memories. Each evolution unit consists of a structural encoder to aggregate edge information, a time encoder with a gating unit to update attribute representations of entities. MTDM utilizes the crafted residual multi-relational aggregator as the structural encoder to solve the multi-hop coverage problem. We also introduce the dissolution learning constraint for better understanding the event dissolution process. Extensive experiments demonstrate the MTDM alleviates the history dependence and achieves state-of-the-art prediction performance. Moreover, compared with the most advanced baseline, MTDM shows a faster convergence speed and training speed.
翻訳日:2021-10-19 20:59:00 公開日:2021-10-17
# 深層強化学習のためのダンプアンダーソン混合:加速,収束,安定化

Damped Anderson Mixing for Deep Reinforcement Learning: Acceleration, Convergence, and Stabilization ( http://arxiv.org/abs/2110.08896v1 )

ライセンス: Link先を確認
Ke Sun, Yafei Wang, Yi Liu, Yingnan Zhao, Bo Pan, Shangling Jui, Bei Jiang, Linglong Kong(参考訳) アンダーソン混合は、収束を加速し、深部RLのサンプリング効率を向上させるための強化学習(RL)アルゴリズムにヒューリスティックに応用されている。 収束のヒューリスティックな改善にもかかわらず、アンダーソン混合の RL における利益に対する厳密な数学的正当化はまだ行われていない。 本稿では,アンダーソン混合を基礎として,深部RLアルゴリズムの収束性を改善する一連の加速スキームについて,より深い知見を提供する。 本研究では,アンダーソン混合法と準ニュートン法を結びつけ,アンダーソン混合法が政策反復計画の収束半径を余分な収縮係数で増加させることを示す。 解析の鍵となる焦点は、RLの固定点反復性にある。 さらに,アンダーソン混合における安定正規化項と,より高速収束とより安定な挙動を両立できる可微分非拡張メルローマックス作用素を導入することで安定化戦略を提案する。 大規模な実験により,提案手法はRLアルゴリズムの収束,安定性,性能を向上させることが示された。

Anderson mixing has been heuristically applied to reinforcement learning (RL) algorithms for accelerating convergence and improving the sampling efficiency of deep RL. Despite its heuristic improvement of convergence, a rigorous mathematical justification for the benefits of Anderson mixing in RL has not yet been put forward. In this paper, we provide deeper insights into a class of acceleration schemes built on Anderson mixing that improve the convergence of deep RL algorithms. Our main results establish a connection between Anderson mixing and quasi-Newton methods and prove that Anderson mixing increases the convergence radius of policy iteration schemes by an extra contraction factor. The key focus of the analysis roots in the fixed-point iteration nature of RL. We further propose a stabilization strategy by introducing a stable regularization term in Anderson mixing and a differentiable, non-expansive MellowMax operator that can allow both faster convergence and more stable behavior. Extensive experiments demonstrate that our proposed method enhances the convergence, stability, and performance of RL algorithms.
翻訳日:2021-10-19 20:58:37 公開日:2021-10-17
# 自動機械学習による重力波の伝播

Gravitational wave surrogates through automated machine learning ( http://arxiv.org/abs/2110.08901v1 )

ライセンス: Link先を確認
Dami\'an Barsotti, Franco Cerino, Manuel Tiglio, Aar\'on Villanueva(参考訳) 我々は,100の可能な回帰モデルから自動機械学習(AutoML)に基づくコンパクトバイナリからの重力波形の予測を,面倒で手動のケースバイケース分析や微調整に頼ることなく,解析する。 この論文の特別な研究は、初期準円軌道における2つのスピンレスブラックホールの衝突によって生じる重力波の文脈内にある。 例えば、核としてのラジアル基底によるガウス過程の回帰のようなアプローチは、計算評価コストの低い複数の次元に一般化可能な十分正確な解を提供する。 以上の結果から,AutoMLは重力波形のサロゲート領域における回帰の枠組みを提供する可能性が示唆された。 本研究では, 減少基底と経験的補間法に基づく数値相対論シミュレーションのサロゲートの文脈内にあり, 解析されたautomlは, nrシミュレーション自体と本質的に区別できないサロゲートを生成することができることがわかった。

We analyze a prospect for predicting gravitational waveforms from compact binaries based on automated machine learning (AutoML) from around a hundred different possible regression models, without having to resort to tedious and manual case-by-case analyses and fine-tuning. The particular study of this article is within the context of the gravitational waves emitted by the collision of two spinless black holes in initial quasi-circular orbit. We find, for example, that approaches such as Gaussian process regression with radial bases as kernels do provide a sufficiently accurate solution, an approach which is generalizable to multiple dimensions with low computational evaluation cost. The results here presented suggest that AutoML might provide a framework for regression in the field of surrogates for gravitational waveforms. Our study is within the context of surrogates of numerical relativity simulations based on Reduced Basis and the Empirical Interpolation Method, where we find that for the particular case analyzed AutoML can produce surrogates which are essentially indistinguishable from the NR simulations themselves.
翻訳日:2021-10-19 20:58:21 公開日:2021-10-17
# 医学研究における翻訳的影響の予測

Deep forecasting of translational impact in medical research ( http://arxiv.org/abs/2110.08904v1 )

ライセンス: Link先を確認
Amy PK Nelson, Robert J Gray, James K Ruffle, Henry C Watkins, Daniel Herron, Nick Sorros, Danil Mikhailov, M. Jorge Cardoso, Sebastien Ourselin, Nick McNally, Bryan Williams, Geraint E. Rees and Parashkev Nachev(参考訳) バイオメディカルリサーチの価値 - 年間17兆ドルの投資 - は、最終的に下流の現実世界の影響によって決定される。 現在の客観的な予測は、現実の翻訳との関連性が未定である紙引用率のような、プロキシ、還元的拡散指標に影響を与えている。 ここでは,バイオメディカル出版の抽象的内容と引用,メタデータのみの複雑なモデルから,特許,ガイドライン,政策文書に含めることで,将来的な現実世界の翻訳の予測可能性を比較することを試みた。 我々は、1990年から2019年にかけてMicrosoft Academic Graphが収集したバイオメディカル研究のコーパス全体を用いて、マルチスケールの出版データの表現的および差別的な数学的モデルを開発し、すべてのドメインにわたる4330万の論文を包含する。 引用は, 特許, ガイドライン, 政策文書の包含によって判断されるように, 翻訳の影響を適度に予測するのみである。 対照的に、出版物のタイトル、要約、メタデータの高次元モデルは高い忠実度(auroc > 0.9)を示し、時間と主題領域をまたいで一般化し、ノーベル賞受賞者の論文を認識するタスクに移される。 特許、ガイドライン、あるいはポリシー文書への含意によってインデックスされた論文の翻訳的影響は、出版メタデータや引用メトリクスのモデルよりも、抽象レベルのコンテンツの複雑なモデルからかなり高い忠実さで予測できる。 我々は、コンテンツベースの影響モデルは、従来の引用に基づく尺度よりも性能が優れており、翻訳ポテンシャルの客観的測定に対するより強い証拠に基づく主張を維持していると主張する。

The value of biomedical research--a $1.7 trillion annual investment--is ultimately determined by its downstream, real-world impact. Current objective predictors of impact rest on proxy, reductive metrics of dissemination, such as paper citation rates, whose relation to real-world translation remains unquantified. Here we sought to determine the comparative predictability of future real-world translation--as indexed by inclusion in patents, guidelines or policy documents--from complex models of the abstract-level content of biomedical publications versus citations and publication meta-data alone. We develop a suite of representational and discriminative mathematical models of multi-scale publication data, quantifying predictive performance out-of-sample, ahead-of-time, across major biomedical domains, using the entire corpus of biomedical research captured by Microsoft Academic Graph from 1990 to 2019, encompassing 43.3 million papers across all domains. We show that citations are only moderately predictive of translational impact as judged by inclusion in patents, guidelines, or policy documents. By contrast, high-dimensional models of publication titles, abstracts and metadata exhibit high fidelity (AUROC > 0.9), generalise across time and thematic domain, and transfer to the task of recognising papers of Nobel Laureates. The translational impact of a paper indexed by inclusion in patents, guidelines, or policy documents can be predicted--out-of-sa mple and ahead-of-time--with substantially higher fidelity from complex models of its abstract-level content than from models of publication meta-data or citation metrics. We argue that content-based models of impact are superior in performance to conventional, citation-based measures, and sustain a stronger evidence-based claim to the objective measurement of translational potential.
翻訳日:2021-10-19 20:58:04 公開日:2021-10-17
# 臨床薬品表現を用いた静止予測の死亡率と長さの改善

Using Clinical Drug Representations for Improving Mortality and Length of Stay Predictions ( http://arxiv.org/abs/2110.08918v1 )

ライセンス: Link先を確認
Batuhan Bardak and Mehmet Tan(参考訳) 薬物表現は化学情報学において重要な役割を担っている。 しかし、医療分野では、高次元の薬物表現の複雑さと、臨床薬をその表現に変換するための適切なパイプラインの欠如により、Electronic Health Record(EHR)データと比較して薬物表現が過小評価されている。 経時的バイタルサイン、検査結果、関連する時系列信号は、一般的に臨床結果を予測するために使用される。 本研究では,他の臨床特徴に加えて臨床薬品表現を用いることにより,死亡率と滞在期間(los)モデルが向上する可能性が示唆された。 本研究は,2種類の薬物表現法(Extended-Connectivi ty Fingerprint-ECFPとSMILES-Transformer Embedding)を臨床成績予測に応用した。 以上の結果から, 提案手法は, 基礎モデルよりも臨床課題が大幅に向上することが示された。 追加機能として臨床薬品表現を使用することで、受信者動作特性(auroc)下の領域のロス予測を約%6、精度リコール曲線(auprc)下の領域を約5%改善できる。 さらに, 死亡予測タスクでは, 時系列ベースラインよりもAUROCで約2%, AUPRCで約%3.5の改善が見られた。 提案手法のコードはhttps://github.com/t anlab/MIMIC-III-Clin ical-Drug-Representa tionsで公開されている。

Drug representations have played an important role in cheminformatics. However, in the healthcare domain, drug representations have been underused relative to the rest of Electronic Health Record (EHR) data, due to the complexity of high dimensional drug representations and the lack of proper pipeline that will allow to convert clinical drugs to their representations. Time-varying vital signs, laboratory measurements, and related time-series signals are commonly used to predict clinical outcomes. In this work, we demonstrated that using clinical drug representations in addition to other clinical features has significant potential to increase the performance of mortality and length of stay (LOS) models. We evaluate the two different drug representation methods (Extended-Connectivi ty Fingerprint-ECFP and SMILES-Transformer embedding) on clinical outcome predictions. The results have shown that the proposed multimodal approach achieves substantial enhancement on clinical tasks over baseline models. Using clinical drug representations as additional features improve the LOS prediction for Area Under the Receiver Operating Characteristics (AUROC) around %6 and for Area Under Precision-Recall Curve (AUPRC) by around %5. Furthermore, for the mortality prediction task, there is an improvement of around %2 over the time series baseline in terms of AUROC and %3.5 in terms of AUPRC. The code for the proposed method is available at https://github.com/t anlab/MIMIC-III-Clin ical-Drug-Representa tions.
翻訳日:2021-10-19 20:57:31 公開日:2021-10-17
# エントロピー規則化によるマルコフ決定過程の2次的アプローチ

A Dual Approach to Constrained Markov Decision Processes with Entropy Regularization ( http://arxiv.org/abs/2110.08923v1 )

ライセンス: Link先を確認
Donghao Ying, Yuhao Ding, Javad Lavaei(参考訳) ソフトマックスパラメータ化の下で,エントロピー正規化制約付きマルコフ決定過程(CMDP)について検討し,期待される全ユーティリティの制約を満たすとともに,エントロピー正規化値関数の最大化を目指す。 エントロピー正則化を利用することで,ラグランジアン双対関数は滑らかであり,ラグランジアン双対性ギャップは原始最適性ギャップと制約違反に分解可能であることを示す。 さらに, エントロピー正規化cmdpの高速化手法を提案する。 我々は,エントロピー規則化CMDPに対する最適性ギャップと制約違反の両方に対して,この手法が大域収束率$\widetilde{\mathcal{O}}(1/T)$を達成することを証明した。 また,1つの制約を持つCMDPの線形収束率についても論じる。

We study entropy-regularized constrained Markov decision processes (CMDPs) under the soft-max parameterization, in which an agent aims to maximize the entropy-regularized value function while satisfying constraints on the expected total utility. By leveraging the entropy regularization, our theoretical analysis shows that its Lagrangian dual function is smooth and the Lagrangian duality gap can be decomposed into the primal optimality gap and the constraint violation. Furthermore, we propose an accelerated dual-descent method for entropy-regularized CMDPs. We prove that our method achieves the global convergence rate $\widetilde{\mathcal{O}}(1/T)$ for both the optimality gap and the constraint violation for entropy-regularized CMDPs. A discussion about a linear convergence rate for CMDPs with a single constraint is also provided.
翻訳日:2021-10-19 20:57:06 公開日:2021-10-17
# MeronymNet: 統一および制御可能なマルチカテゴリオブジェクト生成のための階層的アプローチ

MeronymNet: A Hierarchical Approach for Unified and Controllable Multi-Category Object Generation ( http://arxiv.org/abs/2110.08818v1 )

ライセンス: Link先を確認
Rishabh Baghel, Abhishek Trivedi, Tejas Ravichandran, Ravi Kiran Sarvadevabhatla(参考訳) 単一統一モデルを用いて、制御可能な部分ベースの複数カテゴリオブジェクト生成のための新しい階層的アプローチであるMeonymNetを紹介する。 我々は,境界ボックスレイアウトのセマンティックな条件付き生成,ピクセルレベルの部分レイアウト,そして最終的にはオブジェクト自体の描写を含む粗大な戦略を採用した。 グラフ畳み込みネットワーク,ディープリカレントネットワーク,およびカスタム設計の条件付き変分自動エンコーダを用いて,柔軟で多種多様な2次元オブジェクトを制御方法で生成する。 生成されたオブジェクトのパフォーマンススコアは、複数の強力なベースラインとアブレイティブ変種と比較してmeronymnetの優れたパフォーマンスを反映している。 また,MeronymNetの制御可能なオブジェクト生成や対話型オブジェクト編集に,さまざまな構造的およびセマンティックな粒度で適していることを示す。

We introduce MeronymNet, a novel hierarchical approach for controllable, part-based generation of multi-category objects using a single unified model. We adopt a guided coarse-to-fine strategy involving semantically conditioned generation of bounding box layouts, pixel-level part layouts and ultimately, the object depictions themselves. We use Graph Convolutional Networks, Deep Recurrent Networks along with custom-designed Conditional Variational Autoencoders to enable flexible, diverse and category-aware generation of 2-D objects in a controlled manner. The performance scores for generated objects reflect MeronymNet's superior performance compared to multiple strong baselines and ablative variants. We also showcase MeronymNet's suitability for controllable object generation and interactive object editing at various levels of structural and semantic granularity.
翻訳日:2021-10-19 20:54:19 公開日:2021-10-17
# AE-StyleGAN:スタイルベースオートエンコーダの訓練改善

AE-StyleGAN: Improved Training of Style-Based Auto-Encoders ( http://arxiv.org/abs/2110.08718v1 )

ライセンス: Link先を確認
Ligong Han, Sri Harsha Musunuri, Martin Renqiang Min, Ruijiang Gao, Yu Tian, Dimitris Metaxas(参考訳) StyleGANは近年、データ生成と操作に関して驚くべき成果を上げている。 プリトレーニングされたジェネレータの反転には多くの取り組みがなされており、2段階の方法でジェネレータを訓練した後、エンコーダをアドホックで訓練する。 本稿では,そのような生成器に実データを再構成させると,より不連続な潜在空間が生まれ,画像から潜在空間への反転処理が容易になるか,という科学的な問いに焦点をあてる。 本稿では,エンコーダとジェネレータをエンドツーエンドに最適化したスタイルベースのオートエンコーダをトレーニングする手法を提案する。 提案モデルは,画像インバージョンと生成品質において,ベースラインを一貫して上回っていることを示す。 追加、コード、事前訓練されたモデルはプロジェクトのウェブサイトで入手できる。

StyleGANs have shown impressive results on data generation and manipulation in recent years, thanks to its disentangled style latent space. A lot of efforts have been made in inverting a pretrained generator, where an encoder is trained ad hoc after the generator is trained in a two-stage fashion. In this paper, we focus on style-based generators asking a scientific question: Does forcing such a generator to reconstruct real data lead to more disentangled latent space and make the inversion process from image to latent space easy? We describe a new methodology to train a style-based autoencoder where the encoder and generator are optimized end-to-end. We show that our proposed model consistently outperforms baselines in terms of image inversion and generation quality. Supplementary, code, and pretrained models are available on the project website.
翻訳日:2021-10-19 18:15:53 公開日:2021-10-17
# 注意W-Net: より良い表現のためのスキップ接続の改善

Attention W-Net: Improved Skip Connections for better Representations ( http://arxiv.org/abs/2110.08811v1 )

ライセンス: Link先を確認
Shikhar Mohan, Saumik Bhattacharya, Sayantari Ghosh(参考訳) 眼底鏡視下網膜像におけるマクロ・微小血管構造の分離は,多発網膜・全身疾患の検出において重要な役割を担っているが,解決は困難である。 このタスクの最も深い学習アプローチは、オートエンコーダベースのアーキテクチャであるが、十分なパラメータの不足、十分なパラメータがある場合の過度な適合、内部機能空間間の非互換性など、いくつかの問題に直面している。 そのため、これらの手法は、これらのタスクに存在する限られたデータから最良の意味情報を抽出することができない。 本稿では,網膜血管セグメンテーションのための新しいU-NetアーキテクチャであるAttention W-Netを提案する。 laddernetバックボーンを備えたこのアーキテクチャでは、注意ブロックと正規化尺度という2つの大きな貢献があります。 我々のアテンションブロックは、エンコーダ機能を利用して、アップサンプリング中のスキップ接続からエンコーダ機能に応答し、エンコーダ機能とデコーダ機能を追加すると高い互換性が得られます。 当社のレギュラー化対策には、画像の拡張とResNetブロックの変更が含まれています。 これらの追加により、AUCとF1スコアの0.8407と0.9833が観測され、LadderNetのバックボーンよりも大幅に改善され、現代の最先端メソッド間の競争性能が向上した。

Segmentation of macro and microvascular structures in fundoscopic retinal images plays a crucial role in detection of multiple retinal and systemic diseases, yet it is a difficult problem to solve. Most deep learning approaches for this task involve an autoencoder based architecture, but they face several issues such as lack of enough parameters, overfitting when there are enough parameters and incompatibility between internal feature-spaces. Due to such issues, these techniques are hence not able to extract the best semantic information from the limited data present for such tasks. We propose Attention W-Net, a new U-Net based architecture for retinal vessel segmentation to address these problems. In this architecture with a LadderNet backbone, we have two main contributions: Attention Block and regularisation measures. Our Attention Block uses decoder features to attend over the encoder features from skip-connections during upsampling, resulting in higher compatibility when the encoder and decoder features are added. Our regularisation measures include image augmentation and modifications to the ResNet Block used, which prevent overfitting. With these additions, we observe an AUC and F1-Score of 0.8407 and 0.9833 - a sizeable improvement over its LadderNet backbone as well as competitive performance among the contemporary state-of-the-art methods.
翻訳日:2021-10-19 18:14:21 公開日:2021-10-17
# 多相性mriと多相mriを用いた肝病変の局在・分化・不確かさ推定のための深層学習パイプライン

A deep learning pipeline for localization, differentiation, and uncertainty estimation of liver lesions using multi-phasic and multi-sequence MRI ( http://arxiv.org/abs/2110.08817v1 )

ライセンス: Link先を確認
Peng Wang, Yuhsuan Wu, Bolin Lai, Xiao-Yun Zhou, Le Lu, Wendi Liu, Huabang Zhou, Lingyun Huang, Jing Xiao, Adam P. Harrison, Ningyang Jia, Heping Hu(参考訳) 目的: 肝病変評価のための完全自動コンピュータ支援診断(CAD)ソリューションを提案する。 方法:肝切除または生検を施行し,肝細胞癌(HCC),肝内胆管癌,二次転移と診断された400例を2006年から2019年まで登録した。 各患者はT1WI,T2WI,T1WI静脈相(T2WI-V),T1WI動脈相(T1WI-A),DWIMRIで検索した。 キースライス解析を用いて3次元MRI画像から病変を局所化し,その診断に信頼性を提供する完全自動深部CADパイプラインを提案する。 以上の結果から,5倍のクロスバリデーションを用いて評価し,上肝放射線科医,下肝放射線科医,腹部放射線科医の3名と比較した。 結果: 提案するcad溶液は, 平均f1スコアが 0.62 となり, 腹部放射線科医 (0.47) を上回り, ジュニア肝学放射線科医 (0.61) と一致し, 高齢者肝学放射線科医 (0.68) を上回った。 CADシステムは、診断信頼度を情報的に評価することができる。すなわち、最も確実な70%のケースでのみ評価した場合、平均f1スコアと感度を、それぞれ0.62から0.71と0.84から0.92に引き上げる。 結論: 提案した完全自動CADソリューションは, 肝病変の発見と鑑別における情報的信頼性評価をMRIで行うことにより, 良好な診断性能が得られる。

Objectives: to propose a fully-automatic computer-aided diagnosis (CAD) solution for liver lesion characterization, with uncertainty estimation. Methods: we enrolled 400 patients who had either liver resection or a biopsy and was diagnosed with either hepatocellular carcinoma (HCC), intrahepatic cholangiocarcinoma, or secondary metastasis, from 2006 to 2019. Each patient was scanned with T1WI, T2WI, T1WI venous phase (T2WI-V), T1WI arterial phase (T1WI-A), and DWI MRI sequences. We propose a fully-automatic deep CAD pipeline that localizes lesions from 3D MRI studies using key-slice parsing and provides a confidence measure for its diagnoses. We evaluate using five-fold cross validation and compare performance against three radiologists, including a senior hepatology radiologist, a junior hepatology radiologist and an abdominal radiologist. Results: the proposed CAD solution achieves a mean F1 score of 0.62, outperforming the abdominal radiologist (0.47), matching the junior hepatology radiologist (0.61), and underperforming the senior hepatology radiologist (0.68). The CAD system can informatively assess its diagnostic confidence, i.e., when only evaluating on the 70% most confident cases the mean f1 score and sensitivity at 80% specificity for HCC vs. others are boosted from 0.62 to 0.71 and 0.84 to 0.92, respectively. Conclusion: the proposed fully-automatic CAD solution can provide good diagnostic performance with informative confidence assessments in finding and discriminating liver lesions from MRI studies.
翻訳日:2021-10-19 18:13:58 公開日:2021-10-17
# リアルタイムUAV追跡のためのシームズ変圧器ピラミッド網

Siamese Transformer Pyramid Networks for Real-Time UAV Tracking ( http://arxiv.org/abs/2110.08822v1 )

ライセンス: Link先を確認
Daitao Xing, Nikolaos Evangeliou, Athanasios Tsoukalas and Anthony Tzes(参考訳) 最近のオブジェクト追跡手法はディープネットワークや畳み込みアーキテクチャに依存している。 これらのトラッカーのほとんどは、限られたコンピューティングリソースでモバイルプラットフォームでリアルタイム処理の要件を満たせない。 本稿では,CNNとTransformerアーキテクチャの両方の利点を継承するSiamTPN(Siamese Transformer Pyramid Network)を紹介する。 具体的には、軽量ネットワーク(ShuffleNetV2)の固有の特徴ピラミッドを利用してトランスフォーマーで強化し、ロバストなターゲット固有の外観モデルを構築する。 横方向のクロスアテンションを付加した集中型アーキテクチャは高階特徴写像を構築するために開発された。 トランスフォーマーでピラミッド表現を融合させながら計算やメモリ強度を回避するため,ロバスト性を改善しながらメモリと時間の複雑さを著しく低減するプールアテンションモジュールを導入する。 SiamTPNの有効性を実証し, 高速動作中の空中および高頻度追跡ベンチマークの総合的な実験結果を得た。 さらに、1つのCPUコア上で30Hz以上で動作し、LaSOTデータセット上で58.1%のAUCスコアを取得する。 ソースコードはhttps://github.com/R ISCNYUAD/SiamTPNTrac kerで入手できる。

Recent object tracking methods depend upon deep networks or convoluted architectures. Most of those trackers can hardly meet real-time processing requirements on mobile platforms with limited computing resources. In this work, we introduce the Siamese Transformer Pyramid Network (SiamTPN), which inherits the advantages from both CNN and Transformer architectures. Specifically, we exploit the inherent feature pyramid of a lightweight network (ShuffleNetV2) and reinforce it with a Transformer to construct a robust target-specific appearance model. A centralized architecture with lateral cross attention is developed for building augmented high-level feature maps. To avoid the computation and memory intensity while fusing pyramid representations with the Transformer, we further introduce the pooling attention module, which significantly reduces memory and time complexity while improving the robustness. Comprehensive experiments on both aerial and prevalent tracking benchmarks achieve competitive results while operating at high speed, demonstrating the effectiveness of SiamTPN. Moreover, our fastest variant tracker operates over 30 Hz on a single CPU-core and obtaining an AUC score of 58.1% on the LaSOT dataset. Source codes are available at https://github.com/R ISCNYUAD/SiamTPNTrac ker
翻訳日:2021-10-19 18:13:25 公開日:2021-10-17
# 畳み込みニューラルネットワークにおけるエッジ保存特徴マップの新しいプーリング戦略の検討

Exploring Novel Pooling Strategies for Edge Preserved Feature Maps in Convolutional Neural Networks ( http://arxiv.org/abs/2110.08842v1 )

ライセンス: Link先を確認
Adithya Sineesh and Mahesh Raveendranatha Panicker(参考訳) アンチエイリアス化された畳み込みニューラルネットワーク(CNN)の導入により、CNNにおけるプーリングの実施方法の再検討が再燃している。 アンチエイリアス化cnnの基本構成ブロックは、プール操作前にガウス平滑化を適用してエイリアス化による歪みを低減し、cnnを不変にすることである。 ウェーブレットに基づくアプローチは、付加的なノイズ除去機能の可能性として提案され、セグメンテーションタスクでも興味深い結果が得られた。 しかし、提案されている全てのアプローチはノイズであると仮定して高周波成分を完全に除去する。 しかし、高周波成分を取り除くことにより、特徴マップのエッジも平滑化される。 本稿では,エッジ保存プーリングオプションを用いた分類,セグメンテーション,オートエンコーダの徹底的な解析を行う。 注意付きラプラシアン・ガウシアン結合 (lgca) と、注意付き近似分割係数結合 (wadca) という2つの新しいアプローチが提示されている。 その結果,提案手法は,分類,セグメンテーション,自動エンコーダのぼかしプーリングと同様に,従来のプーリングよりも優れていることが示唆された。

With the introduction of anti-aliased convolutional neural networks (CNN), there has been some resurgence in relooking the way pooling is done in CNNs. The fundamental building block of the anti-aliased CNN has been the application of Gaussian smoothing before the pooling operation to reduce the distortion due to aliasing thereby making CNNs shift invariant. Wavelet based approaches have also been proposed as a possibility of additional noise removal capability and gave interesting results for even segmentation tasks. However, all the approaches proposed completely remove the high frequency components under the assumption that they are noise. However, by removing high frequency components, the edges in the feature maps are also smoothed. In this work, an exhaustive analysis of the edge preserving pooling options for classification, segmentation and autoencoders are presented. Two novel pooling approaches are presented such as Laplacian-Gaussian Concatenation with Attention (LGCA) pooling and Wavelet based approximate-detailed coefficient concatenation with attention (WADCA) pooling. The results suggest that the proposed pooling approaches outperform the conventional pooling as well as blur pooling for classification, segmentation and autoencoders.
翻訳日:2021-10-19 18:13:06 公開日:2021-10-17
# 帰納的関係推論のための関係経路コントラストを用いた一階規則の学習

Learning First-Order Rules with Relational Path Contrast for Inductive Relation Reasoning ( http://arxiv.org/abs/2110.08810v1 )

ライセンス: Link先を確認
Yudai Pan, Jun Liu, Lingling Zhang, Xin Hu, Tianzhe Zhao and Qika Lin(参考訳) 知識グラフ(KGs)における関係推論は、不完全三重項における欠落関係を予測することを目的としており、一方で支配的なパラダイムは、帰納的設定に制限され、帰納的状況において見当たらないエンティティの処理に制限がある関係と実体の埋め込みを学習することである。 従来のインダクティブメソッドはスケーラブルで、リソースの消費も少ない。 彼らは、単体と三重グラフの構造を利用して帰納的能力を持つ。 しかし, より優れた推論結果を得るためには, 潜在ルールにおける実体に依存しない関係意味論を取得し, サブグラフにおけるルールの不足に起因する欠陥管理を解決する必要がある。 これらの問題に対処するため,我々は RPC-IR という,新しいグラフ畳み込みネットワーク (GCN) を用いた帰納的推論手法を提案する。 RPC-IRは、まず2つの実体間の関係経路を抽出し、それらの表現を学習し、その後、正および負の関係経路を構築することで、対照的な戦略を革新的に導入する。 また,教師付き情報とコントラスト情報の両方を考慮した共同学習戦略を提案する。 3つの帰納的データセットに関する総合的な実験は、RPC-IRが最新の帰納的推論手法と比較して卓越した性能を達成し、解釈可能性に関する論理ルールを明示的に表現できることを示している。

Relation reasoning in knowledge graphs (KGs) aims at predicting missing relations in incomplete triples, whereas the dominant paradigm is learning the embeddings of relations and entities, which is limited to a transductive setting and has restriction on processing unseen entities in an inductive situation. Previous inductive methods are scalable and consume less resource. They utilize the structure of entities and triples in subgraphs to own inductive ability. However, in order to obtain better reasoning results, the model should acquire entity-independent relational semantics in latent rules and solve the deficient supervision caused by scarcity of rules in subgraphs. To address these issues, we propose a novel graph convolutional network (GCN)-based approach for interpretable inductive reasoning with relational path contrast, named RPC-IR. RPC-IR firstly extracts relational paths between two entities and learns representations of them, and then innovatively introduces a contrastive strategy by constructing positive and negative relational paths. A joint training strategy considering both supervised and contrastive information is also proposed. Comprehensive experiments on three inductive datasets show that RPC-IR achieves outstanding performance comparing with the latest inductive reasoning methods and could explicitly represent logical rules for interpretability.
翻訳日:2021-10-19 17:43:39 公開日:2021-10-17
# 埋込ベクトル予測による時間ビュー合成における解離の探索

Revealing Disocclusions in Temporal View Synthesis through Infilling Vector Prediction ( http://arxiv.org/abs/2110.08805v1 )

ライセンス: Link先を確認
Vijayalakshmi Kanchana, Nagabhushan Somraj, Suraj Yadwad, Rajiv Soundararajan(参考訳) 本研究では,深度と相対的カメラ動作の知識を用いて,過去のフレームから将来の映像フレームを予測することを目的とした時間的視点合成の問題を考える。 インフィル化の強度に基づくインフィル化による不透明領域の解明とは対照的に, インフィルへのインフィル化ベクトルの考え方を, 合成ビュー内の非拡散領域を指差して検討する。 カメラの動きによって生じる非閉塞構造を生かし, 2つの重要な手がかり, 浸透方向と深さの時間的相関に頼っている。 ネットワークへの入力として過去の埋め込み方向と正規化深度マップを反映した時間的事前計算により、埋め込みベクトルを予測するための学習フレームワークを設計する。 我々は、SceneNet RGB-Dデータセットに加えて、時間的ビュー合成を評価するために構築した大規模データセットに関する広範な実験を行う。 実験により,本手法は文献の他の手法と比較して,定量および定性的埋込性能に優れることを示した。

We consider the problem of temporal view synthesis, where the goal is to predict a future video frame from the past frames using knowledge of the depth and relative camera motion. In contrast to revealing the disoccluded regions through intensity based infilling, we study the idea of an infilling vector to infill by pointing to a non-disoccluded region in the synthesized view. To exploit the structure of disocclusions created by camera motion during their infilling, we rely on two important cues, temporal correlation of infilling directions and depth. We design a learning framework to predict the infilling vector by computing a temporal prior that reflects past infilling directions and a normalized depth map as input to the network. We conduct extensive experiments on a large scale dataset we build for evaluating temporal view synthesis in addition to the SceneNet RGB-D dataset. Our experiments demonstrate that our infilling vector prediction approach achieves superior quantitative and qualitative infilling performance compared to other approaches in literature.
翻訳日:2021-10-19 17:26:10 公開日:2021-10-17
# 確率遷移行列を用いた画像分類におけるノイズラベル効果の緩和

Alleviating Noisy-label Effects in Image Classification via Probability Transition Matrix ( http://arxiv.org/abs/2110.08866v1 )

ライセンス: Link先を確認
Ziqi Zhang, Yuexiang Li, Hongxin Wei, Kai Ma, Tao Xu, Yefeng Zheng(参考訳) ディープラーニングに基づく画像分類フレームワークは、しばしば、サーバ間変動に起因するノイズの多いラベル問題に悩まされる。 近年の研究では、学習から学習までのパラダイム(コティーチングやJoCoRなど)を用いて、トレーニングセットからノイズのあるラベルでサンプルをフィルタリングしている。 しかし,ほとんどの場合,ノイズラベル識別基準として単純なクロスエントロピー損失を用いる。 分類器学習に有益であるハードサンプルは、ハードサンプルとノイズラベルの両方が容易なケースよりも比較的大きな損失値をもたらすため、この設定では誤ってノイズとして扱われることが多い。 本稿では,ノイズ無視ブロック (NIB) と呼ばれる,確率遷移行列とクラス間相関 (IC) 損失からなるプラグインモジュールを提案する。 具体的には、ネットワーク予測と確率遷移行列によって生成された累積ソフトラベルとのクルバック・リーブラー分岐として、IC損失を算出する。 これにより、ic損失の値が低い場合には、誤記の場合と容易に区別することができる。 自然・医用画像データセット(CIFAR-10、ISIC 2019)について大規模な実験を行った。 実験の結果,NIBモジュールは最先端のロバストなトレーニング手法の性能を一貫して改善することがわかった。

Deep-learning-based image classification frameworks often suffer from the noisy label problem caused by the inter-observer variation. Recent studies employed learning-to-learn paradigms (e.g., Co-teaching and JoCoR) to filter the samples with noisy labels from the training set. However, most of them use a simple cross-entropy loss as the criterion for noisy label identification. The hard samples, which are beneficial for classifier learning, are often mistakenly treated as noises in such a setting since both the hard samples and ones with noisy labels lead to a relatively larger loss value than the easy cases. In this paper, we propose a plugin module, namely noise ignoring block (NIB), consisting of a probability transition matrix and an inter-class correlation (IC) loss, to separate the hard samples from the mislabeled ones, and further boost the accuracy of image classification network trained with noisy labels. Concretely, our IC loss is calculated as Kullback-Leibler divergence between the network prediction and the accumulative soft label generated by the probability transition matrix. Such that, with the lower value of IC loss, the hard cases can be easily distinguished from mislabeled cases. Extensive experiments are conducted on natural and medical image datasets (CIFAR-10 and ISIC 2019). The experimental results show that our NIB module consistently improves the performances of the state-of-the-art robust training methods.
翻訳日:2021-10-19 17:25:52 公開日:2021-10-17
# ビデオアノテーションのない時間安定なビデオセグメンテーション

Temporally stable video segmentation without video annotations ( http://arxiv.org/abs/2110.08893v1 )

ライセンス: Link先を確認
Aharon Azulay, Tavi Halperin, Orestis Vantzos, Nadav Bornstein, Ofir Bibi(参考訳) 時間的に一貫性のある密集したビデオアノテーションは少なく、収集が難しい。 対照的に、イメージセグメンテーションデータセット(および事前訓練されたモデル)はユビキタスであり、新しいタスクのラベル付けが容易である。 本稿では,光学的フローベース一貫性尺度を用いて,静止画像分割モデルを教師なしの方法で映像に適応させる手法を提案する。 推定されたセグメンテーション映像が実際により安定して見えるようにするため,ユーザ調査により,一貫性尺度が人間の判断とよく相関していることを確認した。 この尺度を損失として用いた新しいマルチ入力マルチアウトプットデコーダの訓練と,現在の画像セグメンテーションデータセットと時間重み付きガイド付きフィルタの精錬技術を用いて,生成したセグメンテーションビデオの安定性向上を最小の精度で観測した。

Temporally consistent dense video annotations are scarce and hard to collect. In contrast, image segmentation datasets (and pre-trained models) are ubiquitous, and easier to label for any novel task. In this paper, we introduce a method to adapt still image segmentation models to video in an unsupervised manner, by using an optical flow-based consistency measure. To ensure that the inferred segmented videos appear more stable in practice, we verify that the consistency measure is well correlated with human judgement via a user study. Training a new multi-input multi-output decoder using this measure as a loss, together with a technique for refining current image segmentation datasets and a temporal weighted-guided filter, we observe stability improvements in the generated segmented videos with minimal loss of accuracy.
翻訳日:2021-10-19 17:25:32 公開日:2021-10-17
# セルフィー美容フィルタが顔検出と認識に及ぼす影響について

On the Effect of Selfie Beautification Filters on Face Detection and Recognition ( http://arxiv.org/abs/2110.08934v1 )

ライセンス: Link先を確認
Pontus Hedman, Vasilios Skepetzis, Kevin Hernandez-Diaz, Josef Bigun, Fernando Alonso-Fernandez(参考訳) 美化と拡張現実フィルターは、スマートフォンやパーソナルデバイスで撮影された自撮り写真を使用するアプリケーションで非常に人気がある。 しかし、生体的特徴を歪ませたり修正したりすることができ、個人のアイデンティティを認識したり、顔を検出する能力に深刻な影響を及ぼす。 そこで,このようなフィルタが顔の自動検出と認識の精度に与える影響について考察する。 ソーシャルメディアイメージフィルタは、画像のコントラストや照明を変更したり、顔の一部(例えば人工眼鏡や動物の鼻)を遮ったりした。 これらのフィルターの効果は、顔検出と識別の両方に有害であり、特に目や鼻を(より少ない範囲まで)難解にした場合に有効である。 このような対策として,U-NETセグメンテーションネットワークの修正版を用いて適用操作を再構築する手法を開発した。 これは、顔の検出と認識の精度の向上に寄与する。 認識の観点からは、顔を認識するために訓練されたresnet-34ネットワークを用いて抽出された特徴に適用される距離測定と訓練された機械学習アルゴリズムを用いる。 また、機械学習のトレーニングセットにフィルタ画像を統合することが、アイデンティティ認識に有用かどうかを評価する。 その結果,フィルタが重要なランドマーク,特に目(識別精度99%,EER<2%)を阻害しない場合,良好な認識が得られた。 提案手法の併用効果は, 顔の一部を遮蔽するフィルタによる効果を緩和し, 摂動の大部分で92%以上, eer <8%の識別精度を達成する。 改善の余地はあるものの、U-NET再構成やフィルター画像によるトレーニングが適用されない場合、眼球障害を伴うフィルターの精度は<72%(識別)と>12%(EER)である。

Beautification and augmented reality filters are very popular in applications that use selfie images captured with smartphones or personal devices. However, they can distort or modify biometric features, severely affecting the capability of recognizing individuals' identity or even detecting the face. Accordingly, we address the effect of such filters on the accuracy of automated face detection and recognition. The social media image filters studied either modify the image contrast or illumination or occlude parts of the face with for example artificial glasses or animal noses. We observe that the effect of some of these filters is harmful both to face detection and identity recognition, specially if they obfuscate the eye or (to a lesser extent) the nose. To counteract such effect, we develop a method to reconstruct the applied manipulation with a modified version of the U-NET segmentation network. This is observed to contribute to a better face detection and recognition accuracy. From a recognition perspective, we employ distance measures and trained machine learning algorithms applied to features extracted using a ResNet-34 network trained to recognize faces. We also evaluate if incorporating filtered images to the training set of machine learning approaches are beneficial for identity recognition. Our results show good recognition when filters do not occlude important landmarks, specially the eyes (identification accuracy >99%, EER<2%). The combined effect of the proposed approaches also allow to mitigate the effect produced by filters that occlude parts of the face, achieving an identification accuracy of >92% with the majority of perturbations evaluated, and an EER <8%. Although there is room for improvement, when neither U-NET reconstruction nor training with filtered images is applied, the accuracy with filters that severely occlude the eye is <72% (identification) and >12% (EER)
翻訳日:2021-10-19 17:25:16 公開日:2021-10-17
# InfAnFace:野生における顔のランドマーク推定における幼児と成人の領域ギャップを埋める

InfAnFace: Bridging the infant-adult domain gap in facial landmark estimation in the wild ( http://arxiv.org/abs/2110.08935v1 )

ライセンス: Link先を確認
M. Wan, S. Zhu, P. Gulati, L. Luan, X. Huang, R. Schwartz-Mette, M. Hayes, E. Zimmerman, and S. Ostadabbas(参考訳) 乳幼児, 小児発達障害, その他の病態における早期予測に, アルゴリズム的顔面ランドマーク推定の応用には有望な可能性がある。 しかし、これらの深層学習アルゴリズムの性能は幼児データの不足によって著しく損なわれている。 幼児用顔ランドマークシステムの開発を促進するために,乳幼児の顔の多様でリッチな注釈付きデータセットであるinfanfaceを紹介する。 InfAnFaceを用いて、成人の顔にトレーニングされた既存の顔ランドマーク推定アルゴリズムのパフォーマンスをベンチマークし、幼児と成人の顔に適用した場合に、これらのアルゴリズムが学習した表現の間に大きな領域ギャップがあることを実証する。 最後に、私たちはそのギャップを埋めるための次のステップを進めました。

There is promising potential in the application of algorithmic facial landmark estimation to the early prediction, in infants, of pediatric developmental disorders and other conditions. However, the performance of these deep learning algorithms is severely hampered by the scarcity of infant data. To spur the development of facial landmarking systems for infants, we introduce InfAnFace, a diverse, richly-annotated dataset of infant faces. We use InfAnFace to benchmark the performance of existing facial landmark estimation algorithms that are trained on adult faces and demonstrate there is a significant domain gap between the representations learned by these algorithms when applied on infant vs. adult faces. Finally, we put forward the next potential steps to bridge that gap.
翻訳日:2021-10-19 17:24:45 公開日:2021-10-17
# MG-GCN: スケーラブルマルチGPUGCNトレーニングフレームワーク

MG-GCN: Scalable Multi-GPU GCN Training Framework ( http://arxiv.org/abs/2110.08688v1 )

ライセンス: Link先を確認
Muhammed Fatih Bal{\i}n and Kaan Sancak and \"Umit V. \c{C}ataly\"urek(参考訳) Graph Convolutional Network(GCN)モデルの完全なバッチトレーニングは、数千万の頂点を含む巨大なグラフのための単一のGPUでは実現できない。 最近の研究によると、機械学習コミュニティで使用されるグラフでは、通信がボトルネックとなり、単一のマシン体制の外でスケーリングがブロックされる。 そこで我々は,マルチGPUシステムに存在するGPU間の高速通信リンクを利用したマルチGPUGCNトレーニングフレームワークMG-GCNを提案する。 MG-GCNは、GNNモデルのメモリフットプリントを減らすためにメモリバッファの効率的な再使用や、通信と計算の重複など、複数の高性能コンピューティング最適化を採用している。 これらの最適化は、通常、最先端の実装で単一のgpuのメモリに適合しない、より大きなデータセット上での実行を可能にする。 さらに、最先端に比べて優れたスピードアップを達成するのに寄与する。 例えば、MG-GCNはDGX-1(V100)とDGX-A100の両方のRedditグラフ上で、DGLに関する超線形スピードアップを達成する。

Full batch training of Graph Convolutional Network (GCN) models is not feasible on a single GPU for large graphs containing tens of millions of vertices or more. Recent work has shown that, for the graphs used in the machine learning community, communication becomes a bottleneck and scaling is blocked outside of the single machine regime. Thus, we propose MG-GCN, a multi-GPU GCN training framework taking advantage of the high-speed communication links between the GPUs present in multi-GPU systems. MG-GCN employs multiple High-Performance Computing optimizations, including efficient re-use of memory buffers to reduce the memory footprint of training GNN models, as well as communication and computation overlap. These optimizations enable execution on larger datasets, that generally do not fit into memory of a single GPU in state-of-the-art implementations. Furthermore, they contribute to achieve superior speedup compared to the state-of-the-art. For example, MG-GCN achieves super-linear speedup with respect to DGL, on the Reddit graph on both DGX-1 (V100) and DGX-A100.
翻訳日:2021-10-19 17:11:50 公開日:2021-10-17
# GNNの不均衡に対処する

Tackling the Imbalance for GNNs ( http://arxiv.org/abs/2110.08690v1 )

ライセンス: Link先を確認
Rui Wang and Weixuan Xiong and Qinghu Hou and Ou Wu(参考訳) 非グラフデータ分類のためのディープニューラルネットワークとは異なり、グラフニューラルネットワーク(GNN)はノードを表すノード(またはサンプル)間の情報交換を利用する。 カテゴリの分布は、既存のベンチマークgnnデータセットのほぼすべてにおいて、不均衡あるいは高リスクな傾向を示している。 不均衡分布はマイノリティクラス内のノードの誤分類を引き起こし、データセット全体の分類性能を低下させる。 本研究では,GNNの性能に及ぼす不均衡問題の影響について検討し,その解法を提案する。 まず、不均衡と誤分類の関係を定量的に分析するために、ノードレベルの指標、すなわちラベル差指数(ldi$)を定義する。 クラス内のサンプルが少ないほど、平均$LDI$の値が高くなるほど、サンプルの$LDI$の値が高くなるほど、サンプルは誤分類される可能性が高い。 新しい損失を定義し、$LDI$に基づいた4つの新しいメソッドを提案する。 実験の結果,提案する4つの手法のうち,3つの分類の精度は,トランスダクティブとインダクティブの両方において優れていることがわかった。 LDI$は、他のGNNにも適用される。

Different from deep neural networks for non-graph data classification, graph neural networks (GNNs) leverage the information exchange between nodes (or samples) when representing nodes. The category distribution shows an imbalance or even a highly-skewed trend on nearly all existing benchmark GNN data sets. The imbalanced distribution will cause misclassification of nodes in the minority classes, and even cause the classification performance on the entire data set to decrease. This study explores the effects of the imbalance problem on the performances of GNNs and proposes new methodologies to solve it. First, a node-level index, namely, the label difference index ($LDI$), is defined to quantitatively analyze the relationship between imbalance and misclassification. The less samples in a class, the higher the value of its average $LDI$; the higher the $LDI$ of a sample, the more likely the sample will be misclassified. We define a new loss and propose four new methods based on $LDI$. Experimental results indicate that the classification accuracies of the three among our proposed four new methods are better in both transductive and inductive settings. The $LDI$ can be applied to other GNNs.
翻訳日:2021-10-19 17:11:33 公開日:2021-10-17
# バッチ正規化をもつ2層ニューラルネットワークのリーマン平均場定式化

A Riemannian Mean Field Formulation for Two-layer Neural Networks with Batch Normalization ( http://arxiv.org/abs/2110.08725v1 )

ライセンス: Link先を確認
Chao Ma and Lexing Ying(参考訳) バッチ正規化(BN)を伴う2層ニューラルネットワークのトレーニングダイナミクスについて検討した。 これはリーマン多様体上のBNを持たないニューラルネットワークのトレーニング力学として記述される。 したがって、パラメータ空間における計量を変更するBNの効果を同定する。 その後、BNを持つ二層ニューラルネットワークの無限幅限界を考慮し、トレーニング力学に平均場定式化を導出する。 平均場定式化の訓練力学は多様体上のワッサーシュタイン勾配流であることが示されている。 理論的解析は、ワッサーシュタイン勾配流の適切さと収束性に基づいて行われる。

The training dynamics of two-layer neural networks with batch normalization (BN) is studied. It is written as the training dynamics of a neural network without BN on a Riemannian manifold. Therefore, we identify BN's effect of changing the metric in the parameter space. Later, the infinite-width limit of the two-layer neural networks with BN is considered, and a mean-field formulation is derived for the training dynamics. The training dynamics of the mean-field formulation is shown to be the Wasserstein gradient flow on the manifold. Theoretical analysis are provided on the well-posedness and convergence of the Wasserstein gradient flow.
翻訳日:2021-10-19 17:11:15 公開日:2021-10-17
# 多段階逆ダイナミクスを用いた外因性ディトラクタを用いた確率RL

Provable RL with Exogenous Distractors via Multistep Inverse Dynamics ( http://arxiv.org/abs/2110.08847v1 )

ライセンス: Link先を確認
Yonathan Efroni, Dipendra Misra, Akshay Krishnamurthy, Alekh Agarwal, John Langford(参考訳) 強化学習(RL)の現実的な応用の多くは、メガピクセルカメラから生成されたような高次元の観測をエージェントが処理する必要がある。 従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出し、効率的に計画することができる。 しかし、そのような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。 我々は,これらの外因性ノイズ源の存在下での潜伏状態発見の形式的研究を,リッチな観測RLのための新しいモデルであるEX-BMDPによって開始する。 まず、先行表現学習に基づくアプローチの失敗事例を強調することで、いくつかのネガティブな結果を確立します。 次に,逆ダイナミクスの一般化を学習し,内在的状態ダイナミクスが決定論的に近い場合,元bmdpsにおいて実証的かつ計算効率の高い予測経路除去(ppe)アルゴリズムを提案する。 PPEのサンプルの複雑さは、観測空間のサイズや外因性状態空間に直接依存せず、潜在内因性状態空間のサイズに多項式的に依存する。 我々のアプローチが実証的に機能することを示す、挑戦的な探索問題に関する実験を提供する。

Many real-world applications of reinforcement learning (RL) require the agent to deal with high-dimensional observations such as those generated from a megapixel camera. Prior work has addressed such problems with representation learning, through which the agent can provably extract endogenous, latent state information from raw observations and subsequently plan efficiently. However, such approaches can fail in the presence of temporally correlated noise in the observations, a phenomenon that is common in practice. We initiate the formal study of latent state discovery in the presence of such exogenous noise sources by proposing a new model, the Exogenous Block MDP (EX-BMDP), for rich observation RL. We start by establishing several negative results, by highlighting failure cases of prior representation learning based approaches. Then, we introduce the Predictive Path Elimination (PPE) algorithm, that learns a generalization of inverse dynamics and is provably sample and computationally efficient in EX-BMDPs when the endogenous state dynamics are near deterministic. The sample complexity of PPE depends polynomially on the size of the latent endogenous state space while not directly depending on the size of the observation space, nor the exogenous state space. We provide experiments on challenging exploration problems which show that our approach works empirically.
翻訳日:2021-10-19 17:11:07 公開日:2021-10-17
# テキスト分類におけるタスク特化情報の定量化

Quantifying the Task-Specific Information in Text-Based Classifications ( http://arxiv.org/abs/2110.08931v1 )

ライセンス: Link先を確認
Zining Zhu, Aparna Balagopalan, Marzyeh Ghassemi, Frank Rudzicz(参考訳) 近年,ニューラル自然言語モデルが様々なタスクで最先端のパフォーマンスを達成しているが,そのハイパフォーマンスは表面的かつ表面的な手がかり(bender, koller, 2020, niven and kao, 2020)から生じる可能性がある。 これらのサーフェスキューは、データセットに固有の `shortcuts' のように、分類タスクの *task-specific information* (TSI) に寄与しない。 モデルのパフォーマンスを見ることは不可欠ですが、データセットを理解することも重要です。 ショートカット機能によって導入された情報とは別に、データセットを分類するのにどれだけのタスク固有の情報が必要か? この量を情報理論の枠組みで定式化する。 この量は計算が難しいが、高速で安定した方法で近似する。 TSIは、事前に定義されたショートカットのセットを修飾する言語知識の量を定量化し、各データセットからサンプルを分類するのに寄与する。 このフレームワークはデータセット間の比較を可能にし、‘shortcut features’のセットとは別に、Multi-NLIタスクの各サンプルの分類には、Quora Question Pairよりも約0.4NatのTSIが含まれている、と述べている。

Recently, neural natural language models have attained state-of-the-art performance on a wide variety of tasks, but the high performance can result from superficial, surface-level cues (Bender and Koller, 2020; Niven and Kao, 2020). These surface cues, as the ``shortcuts'' inherent in the datasets, do not contribute to the *task-specific information* (TSI) of the classification tasks. While it is essential to look at the model performance, it is also important to understand the datasets. In this paper, we consider this question: Apart from the information introduced by the shortcut features, how much task-specific information is required to classify a dataset? We formulate this quantity in an information-theoreti c framework. While this quantity is hard to compute, we approximate it with a fast and stable method. TSI quantifies the amount of linguistic knowledge modulo a set of predefined shortcuts -- that contributes to classifying a sample from each dataset. This framework allows us to compare across datasets, saying that, apart from a set of ``shortcut features'', classifying each sample in the Multi-NLI task involves around 0.4 nats more TSI than in the Quora Question Pair.
翻訳日:2021-10-19 16:42:37 公開日:2021-10-17
# SIN:スーパーピクセル補間ネットワーク

SIN:Superpixel Interpolation Network ( http://arxiv.org/abs/2110.08702v1 )

ライセンス: Link先を確認
Qing Yuan, Songfeng Lu, Yan Huang, Wuxin Sha(参考訳) スーパーピクセルは、その表現効率と計算効率のためにコンピュータビジョンタスクで広く使われている。 一方、ディープラーニングとエンドツーエンドフレームワークはコンピュータビジョンを含む様々な分野で大きな進歩を遂げている。 しかし、既存のスーパーピクセルアルゴリズムは、エンドツーエンドで後続のタスクに統合することはできない。 従来のアルゴリズムとディープラーニングベースのアルゴリズムは、スーパーピクセルセグメンテーションの主要な2つのストリームである。 前者は非微分可能であり、後者は、スーパーピクセルと下流タスクの統合を制約する接続を強制するために、非微分後処理ステップが必要である。 本稿では,エンド・ツー・エンド方式で下流タスクと統合可能な深層学習に基づくスーパーピクセルセグメンテーションアルゴリズムSINを提案する。 ビジュアルトラッキングなどの下流タスクでは、リアルタイムな速度を必要とするため、スーパーピクセルの生成速度も重要である。 処理後のステップを取り除くために,本アルゴリズムでは,初期から空間接続を強制する。 スーパーピクセルはサンプルされたピクセルによって初期化され、他のピクセルは複数の更新ステップを通じてスーパーピクセルに割り当てられる。 各ステップは水平および垂直の補間で構成されており、空間的接続を強制する鍵となる。 完全畳み込みネットワークの多層出力を用いて補間のための相関スコアを予測する。 実験の結果,提案手法は80fpsで動作し,最先端の手法に対して良好に動作していることがわかった。 さらに,学習時間を短縮する簡易かつ効果的な損失関数を設計する。 スーパーピクセルに基づくタスクの改善は,アルゴリズムの有効性を示す。 SINをエンドツーエンドでダウンストリームタスクに統合し、スーパーピクセルベースのコミュニティに恩恵をもたらすことを期待しています。 コードは以下の通り。 \href{https://github.com/y uanqqq/SIN}{https://github.com/y uanqq/SIN}。

Superpixels have been widely used in computer vision tasks due to their representational and computational efficiency. Meanwhile, deep learning and end-to-end framework have made great progress in various fields including computer vision. However, existing superpixel algorithms cannot be integrated into subsequent tasks in an end-to-end way. Traditional algorithms and deep learning-based algorithms are two main streams in superpixel segmentation. The former is non-differentiable and the latter needs a non-differentiable post-processing step to enforce connectivity, which constraints the integration of superpixels and downstream tasks. In this paper, we propose a deep learning-based superpixel segmentation algorithm SIN which can be integrated with downstream tasks in an end-to-end way. Owing to some downstream tasks such as visual tracking require real-time speed, the speed of generating superpixels is also important. To remove the post-processing step, our algorithm enforces spatial connectivity from the start. Superpixels are initialized by sampled pixels and other pixels are assigned to superpixels through multiple updating steps. Each step consists of a horizontal and a vertical interpolation, which is the key to enforcing spatial connectivity. Multi-layer outputs of a fully convolutional network are utilized to predict association scores for interpolations. Experimental results show that our approach runs at about 80fps and performs favorably against state-of-the-art methods. Furthermore, we design a simple but effective loss function which reduces much training time. The improvements of superpixel-based tasks demonstrate the effectiveness of our algorithm. We hope SIN will be integrated into downstream tasks in an end-to-end way and benefit the superpixel-based community. Code is available at: \href{https://github.com/y uanqqq/SIN}{https://github.com/y uanqqq/SIN}.
翻訳日:2021-10-19 16:31:55 公開日:2021-10-17
# 咬合映像に対するグループスパルシティーを用いたロバストな歩行者属性認識

Robust Pedestrian Attribute Recognition Using Group Sparsity for Occlusion Videos ( http://arxiv.org/abs/2110.08708v1 )

ライセンス: Link先を確認
Geonu Lee, Kimin Yun, Jungchan Cho(参考訳) 閉塞処理は歩行者属性認識(PAR)において重要な問題である。 それにもかかわらず、既存のビデオベースのPARメソッドは、まだ隠蔽処理を深く考慮していない。 本稿では,非閉塞フレームを,混み合ったビデオの時空間的注目度として定式化する。 このように、隠されたフレームに注意を払わないようにモデルが導かれる。 しかし、時間的間隔は、閉塞が発生したときの属性間の相関を含まない。 例えば「ブーツ」や「靴の色」は足が見えないときに認識できない。 また,非相関的な注意課題を解決するために,グループ空間に基づく時間的注意モジュールを提案する。 グループ間隔は、関連属性の注意重みを越えて適用される。 したがって、グループ内の注意重みは同じフレームに注意を払わなければならない。 実験の結果,提案手法は2つのビデオベースPARデータセットと5つの閉塞シナリオの最先端手法よりも高いF1スコアを達成した。

Occlusion processing is a key issue in pedestrian attribute recognition (PAR). Nevertheless, several existing video-based PAR methods have not yet considered occlusion handling in depth. In this paper, we formulate finding non-occluded frames as sparsity-based temporal attention of a crowded video. In this manner, a model is guided not to pay attention to the occluded frame. However, temporal sparsity cannot include a correlation between attributes when occlusion occurs. For example, "boots" and "shoe color" cannot be recognized when the foot is invisible. To solve the uncorrelated attention issue, we also propose a novel group sparsity-based temporal attention module. Group sparsity is applied across attention weights in correlated attributes. Thus, attention weights in a group are forced to pay attention to the same frames. Experimental results showed that the proposed method achieved a higher F1-score than the state-of-the-art methods on two video-based PAR datasets and five occlusion scenarios.
翻訳日:2021-10-19 16:31:33 公開日:2021-10-17
# loveda: ドメイン適応意味セグメンテーションのためのリモートセンシング土地被覆データセット

LoveDA: A Remote Sensing Land-Cover Dataset for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2110.08733v1 )

ライセンス: Link先を確認
Junjue Wang, Zhuo zheng, Ailong Ma, Xiaoyan Lu and Yanfei Zhong(参考訳) 深層学習アプローチは、リモートセンシング高空間解像度(HSR)土地被覆マッピングにおいて有望な結果を示している。 しかし、都市と農村の風景は全く異なる地理的景観を示し、これらのアルゴリズムの不十分な一般化は、都市レベルのマッピングや国家レベルのマッピングを妨げる。 既存のHSRランドカバーデータセットのほとんどは、主に学習意味表現の研究を促進し、モデル転送可能性を無視している。 本稿では,ランドカバードメイン適応意味セグメンテーション(loveda)データセットを導入し,セマンティクスと転送可能な学習を前進させる。 LoveDAデータセットには、5927個のHSR画像と166768個の注釈付きオブジェクトが含まれている。 既存のデータセットと比較して、loveaデータセットは2つのドメイン(都市と農村)を包含している。 1) マルチスケールオブジェクト 2) 複雑な背景サンプル,及び 3) 一貫性のないクラス分布。 LoveDAデータセットは、土地被覆セマンティックセグメンテーションと教師なしドメイン適応(UDA)タスクの両方に適している。 その結果,11つのセマンティックセグメンテーション手法と8つのUDA手法でLoveDAデータセットをベンチマークした。 これらの課題に対処するために,マルチスケールアーキテクチャや戦略,追加の背景監督,擬似ラベル分析などの探索的な研究も行われた。 コードとデータはhttps://github.com/j unjue-wang/lovedaで入手できる。

Deep learning approaches have shown promising results in remote sensing high spatial resolution (HSR) land-cover mapping. However, urban and rural scenes can show completely different geographical landscapes, and the inadequate generalizability of these algorithms hinders city-level or national-level mapping. Most of the existing HSR land-cover datasets mainly promote the research of learning semantic representation, thereby ignoring the model transferability. In this paper, we introduce the Land-cOVEr Domain Adaptive semantic segmentation (LoveDA) dataset to advance semantic and transferable learning. The LoveDA dataset contains 5927 HSR images with 166768 annotated objects from three different cities. Compared to the existing datasets, the LoveDA dataset encompasses two domains (urban and rural), which brings considerable challenges due to the: 1) multi-scale objects; 2) complex background samples; and 3) inconsistent class distributions. The LoveDA dataset is suitable for both land-cover semantic segmentation and unsupervised domain adaptation (UDA) tasks. Accordingly, we benchmarked the LoveDA dataset on eleven semantic segmentation methods and eight UDA methods. Some exploratory studies including multi-scale architectures and strategies, additional background supervision, and pseudo-label analysis were also carried out to address these challenges. The code and data are available at https://github.com/J unjue-Wang/LoveDA.
翻訳日:2021-10-19 16:31:20 公開日:2021-10-17
# 半教師付き医用画像分割における不確実性推定

Inconsistency-aware Uncertainty Estimation for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2110.08762v1 )

ライセンス: Link先を確認
Yinghuan Shi, Jian Zhang, Tong Ling, Jiwen Lu, Yefeng Zheng, Qian Yu, Lei Qi, Yang Gao(参考訳) 半教師付き医療画像のセグメンテーションにおいて、ほとんどの以前の研究はエントロピーがより高い不確実性を意味するという一般的な仮定に基づいている。 本稿では,不確かさを推定する新しい手法について検討する。 異なる分類コストを一定範囲で割り当てると、ピクセルのセグメンテーション結果が一貫性に欠けると、このピクセルはそのセグメンテーションにおける相対的不確実性を示す。 そこで我々は,不確実性推定と個別の自己学習戦略に基づいて,新たな半教師付きセグメンテーションモデル,すなわち保守的ラジカルネットワーク(略してCoraNet)を提案する。 特に,我々のCoraNetモデルは,保守的ラジカルモジュール(CRM),特定の領域分割ネットワーク(C-SN),不確実な領域分割ネットワーク(UC-SN)の3つの主要コンポーネントから構成される。 acdcデータセット上のct pancreas,mr endocardium,mr multi-structures segmentationなどのベンチマークデータセットを用いて,様々なセグメンテーションタスクの手法を広範囲に評価した。 現在の技術と比較すると、ColaNetは優れたパフォーマンスを示しています。 また,半監督医用画像セグメント化における従来の不確実性推定手法との関連性や差異も分析した。

In semi-supervised medical image segmentation, most previous works draw on the common assumption that higher entropy means higher uncertainty. In this paper, we investigate a novel method of estimating uncertainty. We observe that, when assigned different misclassification costs in a certain degree, if the segmentation result of a pixel becomes inconsistent, this pixel shows a relative uncertainty in its segmentation. Therefore, we present a new semi-supervised segmentation model, namely, conservative-radical network (CoraNet in short) based on our uncertainty estimation and separate self-training strategy. In particular, our CoraNet model consists of three major components: a conservative-radical module (CRM), a certain region segmentation network (C-SN), and an uncertain region segmentation network (UC-SN) that could be alternatively trained in an end-to-end manner. We have extensively evaluated our method on various segmentation tasks with publicly available benchmark datasets, including CT pancreas, MR endocardium, and MR multi-structures segmentation on the ACDC dataset. Compared with the current state of the art, our CoraNet has demonstrated superior performance. In addition, we have also analyzed its connection with and difference from conventional methods of uncertainty estimation in semi-supervised medical image segmentation.
翻訳日:2021-10-19 16:30:58 公開日:2021-10-17
# 動的畳み込みによる言語誘導視覚認識

Towards Language-guided Visual Recognition via Dynamic Convolutions ( http://arxiv.org/abs/2110.08797v1 )

ライセンス: Link先を確認
Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Xinghao Ding, Yongjian Wu, Feiyue Huang, Yue Gao, Rongrong Ji(参考訳) 本稿では,言語誘導型視覚認識の探索を通じて,統合型・エンドツーエンドのマルチモーダルネットワークの構築を約束する。 そこで我々はまず,Language-dependent Convolution (LaConv)と呼ばれる新しいマルチモーダル畳み込みモジュールを提案する。 畳み込みカーネルは自然言語情報に基づいて動的に生成され、異なるマルチモーダルの例に対して視覚的特徴を抽出するのに役立つ。 laconvモジュールに基づいて,1つのフォワード構造における視覚認識とマルチモーダル推論を統一する,laconvnetと呼ばれる,言語駆動型畳み込みネットワークを新たに構築する。 LaConvとLaConvNetを検証するために、視覚的質問応答(VQA)と表現理解(REC)という2つの視覚・言語的タスクの4つのベンチマークデータセットについて広範な実験を行った。 実験結果は、既存のマルチモーダルモジュールと比較してLaConvの性能向上を示すだけでなく、コンパクトネットワーク、高一般化能力、優れたパフォーマンス(RefCOCO+の+4.7%)を含む統一ネットワークとしてのLaConvNetのメリットも示した。

In this paper, we are committed to establishing an unified and end-to-end multi-modal network via exploring the language-guided visual recognition. To approach this target, we first propose a novel multi-modal convolution module called Language-dependent Convolution (LaConv). Its convolution kernels are dynamically generated based on natural language information, which can help extract differentiated visual features for different multi-modal examples. Based on the LaConv module, we further build the first fully language-driven convolution network, termed as LaConvNet, which can unify the visual recognition and multi-modal reasoning in one forward structure. To validate LaConv and LaConvNet, we conduct extensive experiments on four benchmark datasets of two vision-and-language tasks, i.e., visual question answering (VQA) and referring expression comprehension (REC). The experimental results not only shows the performance gains of LaConv compared to the existing multi-modal modules, but also witness the merits of LaConvNet as an unified network, including compact network, high generalization ability and excellent performance, e.g., +4.7% on RefCOCO+.
翻訳日:2021-10-19 16:30:36 公開日:2021-10-17
# 部分線形時間における端子埋め込み

Terminal Embeddings in Sublinear Time ( http://arxiv.org/abs/2110.08691v1 )

ライセンス: Link先を確認
Yeshwanth Cherapanamjeri, Jelani Nelson(参考訳) 最近 (elkin, filtser, neiman 2017) は、ある計量空間 $(x,d_x)$ から別の $(y,d_y)$ への、指定された端末のセット $t\subset x$ への埋め込みの概念を導入した。 そのような埋め込み $f$ が歪み $\rho\ge 1$ を持つとは、$\rho$ が定数 $C>0$ が存在して、x\in T\ \forall q\in X,\ C d_X(x, q) \le d_Y(f(x), f(q)) \le C \rho d_X(x, q) を満たすような最小値である。 \end{equation*} $X,Y$ がともに Euclidean 計量で$Y$ が $m$-dimensional である場合(Narayananan, Nelson 2019)、(Mahabadi, Makarychev, Makarychev, Razenshteyn 2018)、$m = O(\epsilon^{-2}\log n)$ for $n := |T|$ で埋め込んだような端末で 1+\epsilon$ の歪みが達成可能であることを示した。 これはジョンソン・リンデンシュトラウス補題を一般化し、これは空間の残りの部分から$T$の範囲内でしか距離を保たない。 欠点は、$q\in \mathbb{r}^d$ の埋め込みを評価するには$m$変数の$\theta(n)$制約で半定義のプログラムを解く必要があり、従って超線形$\mathrm{poly}(n)$ ランタイムが必要となることである。 この研究の主な貢献は、端末埋め込みを計算するための新しいデータ構造を提供することです。 我々は,準線形時間 $n^{1-\theta(\epsilon^2)+o(1)} + dn^{o(1)}$ における任意の$q\in\mathbb{r}^d$ の端末埋め込み画像の計算をサポートする略線形空間データ構造を得るために,$t$ を前処理する方法を示す。 これを実現するために,近い近傍探索の文脈で開発されたツールを活用する。

Recently (Elkin, Filtser, Neiman 2017) introduced the concept of a {\it terminal embedding} from one metric space $(X,d_X)$ to another $(Y,d_Y)$ with a set of designated terminals $T\subset X$. Such an embedding $f$ is said to have distortion $\rho\ge 1$ if $\rho$ is the smallest value such that there exists a constant $C>0$ satisfying \begin{equation*} \forall x\in T\ \forall q\in X,\ C d_X(x, q) \le d_Y(f(x), f(q)) \le C \rho d_X(x, q) . \end{equation*} In the case that $X,Y$ are both Euclidean metrics with $Y$ being $m$-dimensional, recently (Narayanan, Nelson 2019), following work of (Mahabadi, Makarychev, Makarychev, Razenshteyn 2018), showed that distortion $1+\epsilon$ is achievable via such a terminal embedding with $m = O(\epsilon^{-2}\log n)$ for $n := |T|$. This generalizes the Johnson-Lindenstraus s lemma, which only preserves distances within $T$ and not to $T$ from the rest of space. The downside is that evaluating the embedding on some $q\in \mathbb{R}^d$ required solving a semidefinite program with $\Theta(n)$ constraints in $m$ variables and thus required some superlinear $\mathrm{poly}(n)$ runtime. Our main contribution in this work is to give a new data structure for computing terminal embeddings. We show how to pre-process $T$ to obtain an almost linear-space data structure that supports computing the terminal embedding image of any $q\in\mathbb{R}^d$ in sublinear time $n^{1-\Theta(\epsilon^2)+o(1)} + dn^{o(1)}$. To accomplish this, we leverage tools developed in the context of approximate nearest neighbor search.
翻訳日:2021-10-19 15:39:09 公開日:2021-10-17
# 複雑木形3次元物体の統計的解析について

On the Statistical Analysis of Complex Tree-shaped 3D Objects ( http://arxiv.org/abs/2110.08693v1 )

ライセンス: Link先を確認
Guan Wang, Hamid Laga, Anuj Srivastava(参考訳) 複雑な幾何学的・トポロジカルな変動を示すニューロンや植物木といった詳細な3d生体オブジェクトをどうやって分析できるのか? 本稿では,木のような3次元オブジェクトの形状間の測地変形を表現,比較,計算するための新しい数学的枠組みを開発する。 サブツリーの階層構造はこれらのオブジェクトを特徴付ける -- 各サブツリーはメインブランチを持ち、いくつかのサイドブランチが付属している -- 。 まず,ユークリッド曲線向けに開発された正方根速度関数(srvf)を木形3dオブジェクトに拡張した新しい表現法を提案する。 次に、一方の木の形の物体を他方に変形させるために必要な曲げ、伸展、分岐スライディングを定量化する新しい計量を定義する。 QED(Quotient Euclidean Distance)やTED(Tree Edit Distance)といった現在のメトリクスと比較すると、提案された表現とメトリクスは、枝の完全な弾力性(屈曲と伸張)と位相的変動(分岐死・産出・すべり)を捉えている。 QEDおよびTEDメトリクスのエッジ崩壊とノード分割操作による縮小を完全に回避する。 本稿では,ニューロンや植物木などの生物オブジェクト間の測地学の比較,マッチング,計算において,このフレームワークの有用性を示す。 このフレームワークは様々な形状分析タスクにも適用できる。 (i)木形3次元物体の対称性解析と対称性 二 木形3Dオブジェクトの集団の計算概要統計(意味と変動のモード) (iii)そのような集団にパラメトリック確率分布を適合させること。 (iv)推定確率分布からランダムサンプリングにより、新しい木形3dオブジェクトを合成する。

How can one analyze detailed 3D biological objects, such as neurons and botanical trees, that exhibit complex geometrical and topological variation? In this paper, we develop a novel mathematical framework for representing, comparing, and computing geodesic deformations between the shapes of such tree-like 3D objects. A hierarchical organization of subtrees characterizes these objects -- each subtree has the main branch with some side branches attached -- and one needs to match these structures across objects for meaningful comparisons. We propose a novel representation that extends the Square-Root Velocity Function (SRVF), initially developed for Euclidean curves, to tree-shaped 3D objects. We then define a new metric that quantifies the bending, stretching, and branch sliding needed to deform one tree-shaped object into the other. Compared to the current metrics, such as the Quotient Euclidean Distance (QED) and the Tree Edit Distance (TED), the proposed representation and metric capture the full elasticity of the branches (i.e., bending and stretching) as well as the topological variations (i.e., branch death/birth and sliding). It completely avoids the shrinkage that results from the edge collapse and node split operations of the QED and TED metrics. We demonstrate the utility of this framework in comparing, matching, and computing geodesics between biological objects such as neurons and botanical trees. The framework is also applied to various shape analysis tasks: (i) symmetry analysis and symmetrization of tree-shaped 3D objects, (ii) computing summary statistics (means and modes of variations) of populations of tree-shaped 3D objects, (iii) fitting parametric probability distributions to such populations, and (iv) finally synthesizing novel tree-shaped 3D objects through random sampling from estimated probability distributions.
翻訳日:2021-10-19 15:38:09 公開日:2021-10-17
# pixelpyramids:ロスレス画像ピラミッドによる正確な推論モデル

PixelPyramids: Exact Inference Models from Lossless Image Pyramids ( http://arxiv.org/abs/2110.08787v1 )

ライセンス: Link先を確認
Shweta Mahajan, Stefan Roth(参考訳) 自己回帰モデル(autoregressive models)は、高度に柔軟な機能形式を持つ正確な推論アプローチのクラスであり、自然画像に対する最先端の密度推定をもたらす。 しかし、次元の逐次順序付けによってこれらのモデルは計算コストが高くなり、低解像度画像への適用性が制限される。 本研究では,画像画素の結合分布を符号化するために,スケール固有表現を用いたロスレスピラミッド分解を用いたブロック自己回帰手法であるpixel-pyramidsを提案する。 重要なことは、完全に自己回帰的なアプローチに比べて、スペーサーの依存関係構造を持つ。 我々のPixelPyramidsは様々な画像データセット、特に高解像度データの密度推定に最先端の結果をもたらす。 CelebA-HQ 1024 x 1024では, 並列化可能なフローベースモデルよりもサンプリング速度が優れているにもかかわらず, 密度推定(ビット/ディム)がベースラインの約44%に改善されている。

Autoregressive models are a class of exact inference approaches with highly flexible functional forms, yielding state-of-the-art density estimates for natural images. Yet, the sequential ordering on the dimensions makes these models computationally expensive and limits their applicability to low-resolution imagery. In this work, we propose Pixel-Pyramids, a block-autoregressive approach employing a lossless pyramid decomposition with scale-specific representations to encode the joint distribution of image pixels. Crucially, it affords a sparser dependency structure compared to fully autoregressive approaches. Our PixelPyramids yield state-of-the-art results for density estimation on various image datasets, especially for high-resolution data. For CelebA-HQ 1024 x 1024, we observe that the density estimates (in terms of bits/dim) are improved to ~44% of the baseline despite sampling speeds superior even to easily parallelizable flow-based models.
翻訳日:2021-10-19 15:35:24 公開日:2021-10-17
# 慢性関節リウマチ : 関節x線障害の自動スコア

Rheumatoid Arthritis: Automated Scoring of Radiographic Joint Damage ( http://arxiv.org/abs/2110.08812v1 )

ライセンス: Link先を確認
Yan Ming Tan, Raphael Quek Hao Chong, Carol Anne Hargreaves(参考訳) 関節リウマチ(英: rheumatoiditis)は、滑膜と呼ばれる軟部組織の炎症による関節損傷を引き起こす自己免疫疾患である。 関節損傷をできるだけ早く特定し、早期に治療を行い、骨構造へのさらなる損傷を防ぐことが不可欠である。 ラジオグラフは、しばしば関節損傷の程度を評価するために使われる。 現在、X線写真による共同損傷のスコアは専門知識、努力、時間を要する。 関節リウマチに伴う関節損傷も臨床において定量化されておらず、主観的記述子を用いる。 本研究では, 関節リウマチの関節損傷を画像から自動的に同定し, 評価する深層学習モデルのパイプラインについて述べる。 私たちの自動ツールは、非常に高いバランスの正確なスコアを数分で生成できることが示され、これを利用することで、人間のレビュワー間のスコアの主観性を取り除きます。

Rheumatoid arthritis is an autoimmune disease that causes joint damage due to inflammation in the soft tissue lining the joints known as the synovium. It is vital to identify joint damage as soon as possible to provide necessary treatment early and prevent further damage to the bone structures. Radiographs are often used to assess the extent of the joint damage. Currently, the scoring of joint damage from the radiograph takes expertise, effort, and time. Joint damage associated with rheumatoid arthritis is also not quantitated in clinical practice and subjective descriptors are used. In this work, we describe a pipeline of deep learning models to automatically identify and score rheumatoid arthritic joint damage from a radiographic image. Our automatic tool was shown to produce scores with extremely high balanced accuracy within a couple of minutes and utilizing this would remove the subjectivity of the scores between human reviewers.
翻訳日:2021-10-19 15:35:08 公開日:2021-10-17
# 視覚・視覚埋め込みのコントラスト学習

Contrastive Learning of Visual-Semantic Embeddings ( http://arxiv.org/abs/2110.08872v1 )

ライセンス: Link先を確認
Anurag Jain and Yashaswi Verma(参考訳) コントラスト学習は意味的に独特で幾何学的に不変な表現を学習する強力な技術である。 初期のアプローチのほとんどは、画像分類などの単一モダリティ学習タスクにおいて有効性を示しているが、近年、このアイデアをマルチモーダルデータに拡張する試みがいくつかある。 本稿では,正規化されたクロスエントロピーに基づく2つの損失関数を提案する。 バッチでは、あるモダリティから与えられたアンカーポイントに対して、その負は別のモダリティからのみ考慮し、全ての負によって生じる予想される違反に基づいて、最初の対照的な損失を定義する。 次に、この損失を更新し、最も厳しい負のみによる違反に基づいて、第2のコントラスト損失を定義する。 我々は,MS-COCOデータセットとFlickr30Kデータセットを用いて,モーダルな画像とテキスト,テキストと画像の検索タスクに対する既存のビジュアル・セマンティックな埋め込み手法との比較を行った。

Contrastive learning is a powerful technique to learn representations that are semantically distinctive and geometrically invariant. While most of the earlier approaches have demonstrated its effectiveness on single-modality learning tasks such as image classification, recently there have been a few attempts towards extending this idea to multi-modal data. In this paper, we propose two loss functions based on normalized cross-entropy to perform the task of learning joint visual-semantic embedding using batch contrastive training. In a batch, for a given anchor point from one modality, we consider its negatives only from another modality, and define our first contrastive loss based on expected violations incurred by all the negatives. Next, we update this loss and define the second contrastive loss based on the violation incurred only by the hardest negative. We compare our results with existing visual-semantic embedding methods on cross-modal image-to-text and text-to-image retrieval tasks using the MS-COCO and Flickr30K datasets, where we outperform the state-of-the-art on the MS-COCO dataset and achieve comparable results on the Flickr30K dataset.
翻訳日:2021-10-19 15:34:53 公開日:2021-10-17
# リンク予測のためのネットワーク形成パターンの理解

Understanding the network formation pattern for better link prediction ( http://arxiv.org/abs/2110.08850v1 )

ライセンス: Link先を確認
Jiating Yu and Ling-Yun Wu(参考訳) 複雑なネットワークの分野における古典的な問題として、リンク予測は研究者から多くの注目を集めており、ネットワークの進化と動的発達メカニズムを理解する上で非常に重要である。 リンク予測問題に取り組むために様々なネットワークタイプ固有アルゴリズムが提案されているが、そのほとんどはネットワーク構造が三進閉包原理によって支配されていると考えている。 潜在的なリンクを予測するために、ネットワーク形成パターンを適応的かつ包括的に理解することはできません。 また、ネットワークローカル情報の利用方法についても検討する価値がある。 そこで本研究では,複数順序局所情報(moli)を用いたリンク予測という新しい手法を提案する。これは異なる距離の近傍からの局所情報を活用し,事前知識に基づいて事前駆動可能なパラメータや,観測ネットワーク上での最適化問題を解いてデータ駆動する手法である。 MOLIは、グラフ上のランダムウォークを通じてローカルネットワーク拡散プロセスを定義し、ネットワーク情報の利用を向上した。 シミュレーションと実世界の11種類のネットワークにおいて,MOLIが他の11種類のリンク予測アルゴリズムよりも優れていることを示す。 また,ソーシャルネットワーク,コミュニケーションネットワーク,生体ネットワークなど,ネットワーク毎に異なる局所的情報利用パターンが存在することを結論づけた。 特に、古典的な隣人ベースのアルゴリズムは、知覚されるすべてのソーシャルネットワークに適応できるわけではなく、代わりに、ソーシャルネットワークのいくつかは、長さ3の経路を優先的に接続する四分法的閉鎖原理に従う。

As a classical problem in the field of complex networks, link prediction has attracted much attention from researchers, which is of great significance to help us understand the evolution and dynamic development mechanisms of networks. Although various network type-specific algorithms have been proposed to tackle the link prediction problem, most of them suppose that the network structure is dominated by the Triadic Closure Principle. We still lack an adaptive and comprehensive understanding of network formation patterns for predicting potential links. In addition, it is valuable to investigate how network local information can be better utilized. To this end, we proposed a novel method named Link prediction using Multiple Order Local Information (MOLI) that exploits the local information from the neighbors of different distances, with parameters that can be a prior-driven based on prior knowledge, or data-driven by solving an optimization problem on observed networks. MOLI defined a local network diffusion process via random walks on the graph, resulting in better use of network information. We show that MOLI outperforms the other 11 widely used link prediction algorithms on 11 different types of simulated and real-world networks. We also conclude that there are different patterns of local information utilization for different networks, including social networks, communication networks, biological networks, etc. In particular, the classical common neighbor-based algorithm is not as adaptable to all social networks as it is perceived to be; instead, some of the social networks obey the Quadrilateral Closure Principle which preferentially connects paths of length three.
翻訳日:2021-10-19 15:31:03 公開日:2021-10-17
# 次元還元による説得

Persuasion by Dimension Reduction ( http://arxiv.org/abs/2110.08884v1 )

ライセンス: Link先を確認
Semyon Malamud and Andreas Schrimpf(参考訳) エージェント(送信者)が多次元データ(状態ベクトル)を観察して、他のエージェントに望ましい行動を取るように説得するにはどうすればよいのか? 状態ベクトルを「最適情報多様体」と呼ぶ低次元オブジェクトに投影することにより、送信者が(非線形)次元の縮小を行うのが常に最適であることを示す。 この多様体の幾何学的性質を特徴付け、送信者の選好と結びつける。 最適ポリシーは情報を「良い」コンポーネントと「悪い」コンポーネントに分割する。 送信者の限界効用が線形であるとき、良い情報の完全な大きさを明らかにすることは常に最適である。 対照的に、凹凸の限界効用では、最適情報設計は良い情報の極端な実現を隠蔽し、その方向のみを明らかにする(図)。 これらの効果は、複数の多次元ベイズ的説得問題を明示的に解くことで説明できる。

How should an agent (the sender) observing multi-dimensional data (the state vector) persuade another agent to take the desired action? We show that it is always optimal for the sender to perform a (non-linear) dimension reduction by projecting the state vector onto a lower-dimensional object that we call the "optimal information manifold." We characterize geometric properties of this manifold and link them to the sender's preferences. Optimal policy splits information into "good" and "bad" components. When the sender's marginal utility is linear, revealing the full magnitude of good information is always optimal. In contrast, with concave marginal utility, optimal information design conceals the extreme realizations of good information and only reveals its direction (sign). We illustrate these effects by explicitly solving several multi-dimensional Bayesian persuasion problems.
翻訳日:2021-10-19 15:30:40 公開日:2021-10-17
# Pareto Navigation Gradient Descent: Pareto Setにおける最適化のための一階アルゴリズム

Pareto Navigation Gradient Descent: a First-Order Algorithm for Optimization in Pareto Set ( http://arxiv.org/abs/2110.08713v1 )

ライセンス: Link先を確認
Mao Ye, Qiang Liu(参考訳) マルチタスク学習のような現代の機械学習アプリケーションは、対立する可能性のある複数の目的関数をトレードオフするために最適なモデルパラメータを見つける必要がある。 パレート集合の概念は、厳密に改善できない(しばしば無限個の)モデルの集合に焦点を合わせることを可能にする。 しかし、実用ユーザーに戻るために1つまたはいくつかの特別なモデルを選択するための実行可能な手順を提供していません。 本稿では、パレート集合内の余剰基準関数を最適化するパレートモデルを見つける問題であるパレート集合(OPT-in-Pareto)における \emph{optimization を考える。 この関数は、ユーザからの特定の好みをエンコードするか、パレート集合全体の代表となる多角化パレートモデルのセットを取得するための一般的な多様性尺度を表すことができる。 残念ながら、非常に有用なフレームワークであるにもかかわらず、OPT-in-Paretoの効率的なアルゴリズムは、特に大規模、非凸、およびディープラーニングにおける非線形目的のために、ほとんど失われている。 ナイーブなアプローチは、パレート集合にリーマン多様体の勾配降下を適用することであるが、これはヘッセン行列の固有計算の必要性から高い計算コストをもたらす。 勾配情報のみを用いてOPT-in-Paretoを近似的に解く1次アルゴリズムを提案する。 実験により,本手法は多様なマルチタスク関連問題に対して有効であることを示す。

Many modern machine learning applications, such as multi-task learning, require finding optimal model parameters to trade-off multiple objective functions that may conflict with each other. The notion of the Pareto set allows us to focus on the set of (often infinite number of) models that cannot be strictly improved. But it does not provide an actionable procedure for picking one or a few special models to return to practical users. In this paper, we consider \emph{optimization in Pareto set (OPT-in-Pareto)}, the problem of finding Pareto models that optimize an extra reference criterion function within the Pareto set. This function can either encode a specific preference from the users, or represent a generic diversity measure for obtaining a set of diversified Pareto models that are representative of the whole Pareto set. Unfortunately, despite being a highly useful framework, efficient algorithms for OPT-in-Pareto have been largely missing, especially for large-scale, non-convex, and non-linear objectives in deep learning. A naive approach is to apply Riemannian manifold gradient descent on the Pareto set, which yields a high computational cost due to the need for eigen-calculation of Hessian matrices. We propose a first-order algorithm that approximately solves OPT-in-Pareto using only gradient information, with both high practical efficiency and theoretically guaranteed convergence property. Empirically, we demonstrate that our method works efficiently for a variety of challenging multi-task-related problems.
翻訳日:2021-10-19 15:05:43 公開日:2021-10-17
# TIP:知的システムのタスクインフォームド動作予測

TIP: Task-Informed Motion Prediction for Intelligent Systems ( http://arxiv.org/abs/2110.08750v1 )

ライセンス: Link先を確認
Xin Huang, Guy Rosman, Ashkan Jasour, Stephen G. McGill, John J. Leonard, Brian C. Williams(参考訳) 運動予測は知的運転システムにおいて重要であり、将来の道路エージェントの挙動の分布を提供し、様々な意思決定タスクをサポートする。 既存の動き予測器はしばしば、予測精度に基づいてタスクに依存しない測定によって最適化され評価される。 このような措置は、下流タスクでの予測の使用を考慮せず、最適以下のタスクパフォーマンスをもたらす可能性がある。 本稿では,予測精度とタスクユーティリティを共に考慮し,その予測を通じて下流タスクをより良く支援するタスクインフォームドモーション予測フレームワークを提案する。 タスクユーティリティ関数はタスク情報を完全に必要とせず、むしろタスクのユーティリティの仕様であり、広範囲の下流タスクに役立ちます。 タスクユーティリティの2つのユースケースに関するフレームワークを,自律運転と並列自律という文脈で実証し,Waymo Open Motionデータセット上のタスクに依存しないものよりもタスクインフォームド予測の利点を示す。

Motion prediction is important for intelligent driving systems, providing the future distributions of road agent behaviors and supporting various decision making tasks. Existing motion predictors are often optimized and evaluated via task-agnostic measures based on prediction accuracy. Such measures fail to account for the use of prediction in downstream tasks, and could result in sub-optimal task performance. We propose a task-informed motion prediction framework that jointly reasons about prediction accuracy and task utility, to better support downstream tasks through its predictions. The task utility function does not require the full task information, but rather a specification of the utility of the task, resulting in predictors that serve a wide range of downstream tasks. We demonstrate our framework on two use cases of task utilities, in the context of autonomous driving and parallel autonomy, and show the advantage of task-informed predictors over task-agnostic ones on the Waymo Open Motion dataset.
翻訳日:2021-10-19 15:05:17 公開日:2021-10-17
# LSTMによる注意機構によるプラジャリズム検出と不均衡クラスによる事前学習パラメータに対する集団ベースアプローチ

An LSTM-based Plagiarism Detection via Attention Mechanism and a Population-based Approach for Pre-Training Parameters with imbalanced Classes ( http://arxiv.org/abs/2110.08771v1 )

ライセンス: Link先を確認
Seyed Vahid Moravvej, Seyed Jalaleddin Mousavirad, Mahshid Helali Moghadam, Mehrdad Saadatmand(参考訳) プラジャリズムは学術的および産業的環境における主要な問題の1つであり、その目標は典型的な文書やソースコードに類似した項目を見つけることである。 本稿では,LSTM(Long Short-Term Memory)とLSTM-AM-ABCと呼ばれるアテンション機構に基づくアーキテクチャを提案する。 バックプロパゲーション(bp)のような勾配に基づく最適化アルゴリズムは、lstm、アテンション機構、フィードフォワードニューラルネットワークの学習プロセスに関する文献で広く使われているが、局所視機能に詰まるなどの問題に苦しんでいる。 この問題に対処するために、人口ベースメタヒューリスティック(PBMH)アルゴリズムを用いることができる。 そこで本研究では,pbmhアルゴリズムである人工蜂コロニー(abc)を用いてこの問題を緩和する。 提案アルゴリズムは,全てのLSTM,アテンション機構,フィードフォワードニューラルネットワークにおいて,モデル学習の初期値を同時に求めることができる。 言い換えれば、ABCアルゴリズムはBPアルゴリズムを始める上で有望な点を見つける。 評価のために,提案手法を従来の手法と人口ベース手法を比較した。 その結果,提案手法は競争性能を向上できることが示された。

Plagiarism is one of the leading problems in academic and industrial environments, which its goal is to find the similar items in a typical document or source code. This paper proposes an architecture based on a Long Short-Term Memory (LSTM) and attention mechanism called LSTM-AM-ABC boosted by a population-based approach for parameter initialization. Gradient-based optimization algorithms such as back-propagation (BP) are widely used in the literature for learning process in LSTM, attention mechanism, and feed-forward neural network, while they suffer from some problems such as getting stuck in local optima. To tackle this problem, population-based metaheuristic (PBMH) algorithms can be used. To this end, this paper employs a PBMH algorithm, artificial bee colony (ABC), to moderate the problem. Our proposed algorithm can find the initial values for model learning in all LSTM, attention mechanism, and feed-forward neural network, simultaneously. In other words, ABC algorithm finds a promising point for starting BP algorithm. For evaluation, we compare our proposed algorithm with both conventional and population-based methods. The results clearly show that the proposed method can provide competitive performance.
翻訳日:2021-10-19 15:05:00 公開日:2021-10-17
# 多感度脱バイアスパイプラインによる新しいフェアローン予測器DualFairの開発

Developing a novel fair-loan-predictor through a multi-sensitive debiasing pipeline: DualFair ( http://arxiv.org/abs/2110.08944v1 )

ライセンス: Link先を確認
Arashdeep Singh, Jashandeep Singh, Ariba Khan, and Amar Gupta(参考訳) 機械学習(ml)モデルは、人々の生活に大きな影響を与える高リスクアプリケーションのためにますます使われています。 使用にもかかわらず、これらのモデルは人種、性別、民族に基づいて特定の社会集団に偏る可能性がある。 多くの先行研究は、トレーニングデータ(前処理)の更新、モデル学習プロセスの変更(内処理)、モデル出力の操作(後処理)によって、この「モデル識別」を緩和しようと試みている。 しかし、これらの研究はまだマルチセンシティブなパラメータとセンシティブなオプション(MSPSO)の領域にまで拡張されておらず、センシティブなパラメータは(人種など)区別できる属性であり、センシティブなオプションはセンシティブなパラメータ(例えば、黒や白など)のオプションであり、現実のユーザビリティに制限を与えている。 フェアネスにおける以前の作業は、正確さと公正さの両方が高いことを防ぐ正確さのトレードオフにも悩まされてきた。 さらに、過去の文献は、MSPSOで動作する全体的公正度指標を提供しなかった。 本稿では,これら3つの問題をすべて解決する。 (a)デュアルフェアという,新しいバイアス緩和技術の作成 (b)mspsoを扱うことができる新しい公平度指標(すなわちawi)の開発。 最後に,米国の包括的住宅ローン貸付データセットを用いて,新たな緩和手法を検証し,この分類器,すなわち公正貸付予測器が,現在の最先端モデルよりも公平性と精度の指標を得ることを示す。

Machine learning (ML) models are increasingly used for high-stake applications that can greatly impact people's lives. Despite their use, these models have the potential to be biased towards certain social groups on the basis of race, gender, or ethnicity. Many prior works have attempted to mitigate this "model discrimination" by updating the training data (pre-processing), altering the model learning process (in-processing), or manipulating model output (post-processing). However, these works have not yet been extended to the realm of multi-sensitive parameters and sensitive options (MSPSO), where sensitive parameters are attributes that can be discriminated against (e.g race) and sensitive options are options within sensitive parameters (e.g black or white), thus giving them limited real-world usability. Prior work in fairness has also suffered from an accuracy-fairness tradeoff that prevents both the accuracy and fairness from being high. Moreover, previous literature has failed to provide holistic fairness metrics that work with MSPSO. In this paper, we solve all three of these problems by (a) creating a novel bias mitigation technique called DualFair and (b) developing a new fairness metric (i.e. AWI) that can handle MSPSO. Lastly, we test our novel mitigation method using a comprehensive U.S mortgage lending dataset and show that our classifier, or fair loan predictor, obtains better fairness and accuracy metrics than current state-of-the-art models.
翻訳日:2021-10-19 15:04:40 公開日:2021-10-17
# サンプリングargmaxによる局在化

Localization with Sampling-Argmax ( http://arxiv.org/abs/2110.08825v1 )

ライセンス: Link先を確認
Jiefeng Li, Tong Chen, Ruiqi Shi, Yujing Lou, Yong-Lu Li, Cewu Lu(参考訳) Soft-argmax操作は、ターゲット位置を異なる方法でローカライズする検出ベースの手法で一般的に採用されている。 しかし、ソフトargmaxでニューラルネットワークをトレーニングすると、確率マップの形が拘束されない。 その結果、トレーニング中にマップを通してピクセル単位での監視が欠如し、パフォーマンスが低下する。 本研究では,局所化誤差の期待を最小化して,確率マップの形状に暗黙の制約を課す,微分可能な学習法であるサンプリング・argmaxを提案する。 そこで本研究では,出力分布を連続的に定式化し,微分可能なサンプリングプロセスを開発する。 予測は、出力分布から引き出された全てのサンプルの平均誤差を計算することで近似することができる。 サンプリング-argmaxは,従来のソフトargmax操作を様々な局所化タスクでシームレスに置き換えることができることを示す。 総合実験により,提案手法の有効性と柔軟性が実証された。 コードはhttps://github.com/J eff-sjtu/sampling-ar gmaxで入手できる。

Soft-argmax operation is commonly adopted in detection-based methods to localize the target position in a differentiable manner. However, training the neural network with soft-argmax makes the shape of the probability map unconstrained. Consequently, the model lacks pixel-wise supervision through the map during training, leading to performance degradation. In this work, we propose sampling-argmax, a differentiable training method that imposes implicit constraints to the shape of the probability map by minimizing the expectation of the localization error. To approximate the expectation, we introduce a continuous formulation of the output distribution and develop a differentiable sampling process. The expectation can be approximated by calculating the average error of all samples drawn from the output distribution. We show that sampling-argmax can seamlessly replace the conventional soft-argmax operation on various localization tasks. Comprehensive experiments demonstrate the effectiveness and flexibility of the proposed method. Code is available at https://github.com/J eff-sjtu/sampling-ar gmax
翻訳日:2021-10-19 14:31:42 公開日:2021-10-17
# 連成分類器学習による二元ネットワークの自己教師付き学習

Self-Supervised Learning for Binary Networks by Joint Classifier Training ( http://arxiv.org/abs/2110.08851v1 )

ライセンス: Link先を確認
Dahyun Kim, Jonghyun Choi(参考訳) 大きな浮動小数点ネットワークによる自己教師型学習の成功にもかかわらず、そのようなネットワークはエッジデバイスに簡単には展開できない。 下流タスクのエッジデバイスへのモデル展開を,教師なし表現学習により高速化するために,バイナリネットワークのための自己教師付き学習手法を提案する。 特に,事前訓練された浮動小数点特徴抽出器に付加されたランダム初期化分類器を目標とし,バイナリネットワークと共同で訓練する。 バイナリネットワークのトレーニングを改善するために,特徴的類似性損失,損失項の動的バランススキーム,多段階学習の修正を提案する。 私たちのメソッドをBSSLと呼びます。 実証実験により、BSSLは、下流タスクにおけるバイナリネットワークの自己教師付き学習ベースラインよりも優れ、特定のタスクにおける教師付き事前学習よりも優れています。

Despite the great success of self-supervised learning with large floating point networks, such networks are not readily deployable to edge devices. To accelerate deployment of models to edge devices for various downstream tasks by unsupervised representation learning, we propose a self-supervised learning method for binary networks. In particular, we propose to use a randomly initialized classifier attached to a pretrained floating point feature extractor as targets and jointly train it with a binary network. For better training of the binary network, we propose a feature similarity loss, a dynamic balancing scheme of loss terms, and modified multi-stage training. We call our method as BSSL. Our empirical validations show that BSSL outperforms self-supervised learning baselines for binary networks in various downstream tasks and outperforms supervised pretraining in certain tasks.
翻訳日:2021-10-19 14:31:26 公開日:2021-10-17
# 候補者投票によるオンライン連続学習

Online Continual Learning Via Candidates Voting ( http://arxiv.org/abs/2110.08855v1 )

ライセンス: Link先を確認
Jiangpeng He and Fengqing Zhu(参考訳) オンラインシナリオにおける継続的な学習は、トレーニングのために各データのみを使用して、データストリームから新しいタスクのシーケンスを学習することを目的としている。 しかし、この問題は、モデルが推論中にこれまで見てきたすべてのクラスを分類する、難易度の高いクラスインクリメンタルな設定ではまだ未解決である。 特にパフォーマンスは、各タスクについて学ぶべきタスク数や追加クラスの増加に苦しむ。 加えて、既存のほとんどのメソッドは、知識の再生の例として元のデータを格納する必要があるが、メモリ予算やプライバシー上の懸念がある特定のアプリケーションでは実現できない。 そこで本研究では,各学習課題から候補を選抜し,元のデータを例に代えて保存した特徴埋め込みを前もって導入することで,授業環境下でのオンライン連続学習を効果的かつメモリ効率良く行う手法を提案する。 提案手法は,CIFAR-10, CIFAR-100, CORE-50などのオンライン連続学習用ベンチマークデータセットを用いて, 既存の作業に比べてメモリリソースの削減を図っている。

Continual learning in online scenario aims to learn a sequence of new tasks from data stream using each data only once for training, which is more realistic than in offline mode assuming data from new task are all available. However, this problem is still under-explored for the challenging class-incremental setting in which the model classifies all classes seen so far during inference. Particularly, performance struggles with increased number of tasks or additional classes to learn for each task. In addition, most existing methods require storing original data as exemplars for knowledge replay, which may not be feasible for certain applications with limited memory budget or privacy concerns. In this work, we introduce an effective and memory-efficient method for online continual learning under class-incremental setting through candidates selection from each learned task together with prior incorporation using stored feature embeddings instead of original data as exemplars. Our proposed method implemented for image classification task achieves the best results under different benchmark datasets for online continual learning including CIFAR-10, CIFAR-100 and CORE-50 while requiring much less memory resource compared with existing works.
翻訳日:2021-10-19 14:31:10 公開日:2021-10-17
# グラフなしニューラルネットワーク:蒸留による古いMLPの新しいトリックを教える

Graph-less Neural Networks: Teaching Old MLPs New Tricks via Distillation ( http://arxiv.org/abs/2110.08727v1 )

ライセンス: Link先を確認
Shichang Zhang, Yozen Liu, Yizhou Sun, Neil Shah(参考訳) グラフニューラルネットワーク(GNN)はグラフ機械学習で最近人気となり、幅広いノード分類タスクにおいて大きな成果を上げている。 しかし、GNNはデータ依存によって引き起こされるスケーラビリティ上の課題のため、業界における実践的なデプロイメントではあまり人気がない。 すなわち、GNN推論は、隣ノードの複数のホップをターゲットから遠ざけ、これらのノードをフェッチすることで、レイテンシに制約のあるアプリケーションに負担をかける。 プルーニングや量子化のような既存の推論高速化手法は、乗算と蓄積(MAC)操作を減らすことで、GNNをある程度高速化することができる。 しかし、データ依存が解決されないため、改善は限られている。 逆に、マルチ層パーセプトロン(MLP)はグラフデータに依存せず、一般にノード分類においてGNNよりも正確ではないにもかかわらず、GNNよりもはるかに高速である。 これらの相補的な強みと弱みによって、我々は知識蒸留(KD)を通じてGNNとMLPをまとめる。 本研究は, GNN KD による MLP の性能向上が期待できることを示す。 推論グラフに依存しないため、蒸留したMLPをGLNN(Graph-less Neural Networks)と呼ぶ。 競争性能を持つGLNNは,146X-273XでGNNよりも高速で,14X-27Xで他の加速度法よりも高速であることを示す。 一方、トランスダクティブとインダクティブの予測を7つのデータセットで含むプロダクション環境では、GLNNの精度はスタンドアローンのMLPよりも平均12.36%向上し、6/7データセットでGNNと一致している。 GLNNの包括的な分析は、GLNNがGNNと競合する結果が得られる時期と理由を示し、レイテンシに制約のあるアプリケーションにとって便利な選択肢として、GLNNを提案する。

Graph Neural Networks (GNNs) have recently become popular for graph machine learning and have shown great results on wide node classification tasks. Yet, GNNs are less popular for practical deployments in the industry owing to their scalability challenges incurred by data dependency. Namely, GNN inference depends on neighbor nodes multiple hops away from the target, and fetching these nodes burdens latency-constrained applications. Existing inference acceleration methods like pruning and quantization can speed up GNNs to some extent by reducing Multiplication-and-A Ccumulation (MAC) operations. However, their improvements are limited given the data dependency is not resolved. Conversely, multi-layer perceptrons (MLPs) have no dependency on graph data and infer much faster than GNNs, even though they are less accurate than GNNs for node classification in general. Motivated by these complementary strengths and weaknesses, we bring GNNs and MLPs together via knowledge distillation (KD). Our work shows that the performance of MLPs can be improved by large margins with GNN KD. We call the distilled MLPs Graph-less Neural Networks (GLNNs) as they have no inference graph dependency. We show that GLNN with competitive performance infer faster than GNNs by 146X-273X and faster than other acceleration methods by 14X-27X. Meanwhile, under a production setting involving both transductive and inductive predictions across 7 datasets, GLNN accuracies improve over stand alone MLPs by 12.36% on average and match GNNs on 6/7 datasets. A comprehensive analysis of GLNN shows when and why GLNN can achieve competitive results to GNNs and suggests GLNN as a handy choice for latency-constrained applications.
翻訳日:2021-10-19 14:15:39 公開日:2021-10-17
# ジェネレーティブ・ディバイサル・ネットワークを用いた長距離時系列予測の改善に向けて

Towards Better Long-range Time Series Forecasting using Generative Adversarial Networks ( http://arxiv.org/abs/2110.08770v1 )

ライセンス: Link先を確認
Shiyu Liu, Mehul Motani(参考訳) 時系列データの正確な長距離予測は、エネルギー、医療、金融など多くの分野において重要な問題である。 近年、GAN(Generative Adversarial Networks)は多くの問題に対して革命的なアプローチを提供している。 しかし、長距離時系列予測を改善するためにGANを用いることは、いまだに未定である。 本稿では,CWGAN(Conditional Wasserstein GAN)を用いてエラーペナルティ項を増大させ,CWGAN-TSと呼ばれる高品質な合成時系列データを生成するための新たな生成モデルを提案する。 このような合成データを用いて、生成予測(GenF)と呼ばれる3つのコンポーネントからなる長距離予測手法を開発する。 i)CWGAN-TSは、次の数ステップで合成データを生成する。 (2)生成データと観測データに基づいて長距離予測を行う予測器。 三 情報理論クラスタリング(ITC)アルゴリズムにより、CWGAN-TSと予測器をより良く訓練する。 公開データセットの3つの実験結果から,genfが最先端ベンチマークや古典的アプローチをはるかに上回っていることが分かりました。 ほとんどの場合、予測性能(絶対誤差)が6%から12%向上し、最高のパフォーマンスベンチマークに比べてパラメータが37%減少しています。 最後に,CWGAN-TSとITCアルゴリズムの有効性を示すためのアブレーション研究を行った。

Accurate long-range forecasting of time series data is an important problem in many sectors, such as energy, healthcare, and finance. In recent years, Generative Adversarial Networks (GAN) have provided a revolutionary approach to many problems. However, the use of GAN to improve long-range time series forecasting remains relatively unexplored. In this paper, we utilize a Conditional Wasserstein GAN (CWGAN) and augment it with an error penalty term, leading to a new generative model which aims to generate high-quality synthetic time series data, called CWGAN-TS. By using such synthetic data, we develop a long-range forecasting approach, called Generative Forecasting (GenF), consisting of three components: (i) CWGAN-TS to generate synthetic data for the next few time steps. (ii) a predictor which makes long-range predictions based on generated and observed data. (iii) an information theoretic clustering (ITC) algorithm to better train the CWGAN-TS and the predictor. Our experimental results on three public datasets demonstrate that GenF significantly outperforms a diverse range of state-of-the-art benchmarks and classical approaches. In most cases, we find a 6% - 12% improvement in predictive performance (mean absolute error) and a 37% reduction in parameters compared to the best performing benchmark. Lastly, we conduct an ablation study to demonstrate the effectiveness of the CWGAN-TS and the ITC algorithm.
翻訳日:2021-10-19 14:15:08 公開日:2021-10-17
# ブートストラップの遠心近似

Centroid Approximation for Bootstrap ( http://arxiv.org/abs/2110.08720v1 )

ライセンス: Link先を確認
Mao Ye, Qiang Liu(参考訳) ブートストラップ(bootstrap)は、不確実性定量化のための原理的かつ強力な頻繁な統計ツールである。 残念なことに、標準的なブートストラップ法は、理想的なブートストラップ分布を近似するために大きなi.i.d.ブートストラップサンプルを描画する必要があるため、計算量が多い。 本研究では, 理想ブートストラップ分布をよりよく近似するために, 高品質な"中心点"の小さな集合を明示的に \emph{optimize} する効率的な手法を提案する。 我々は、イデアルブートストラップ分布に対するワッサーシュタイン距離に漸近的に同値な単純目的関数を最小化することでこれを達成する。 これにより、少数のブートストラップセントロイドで不確かさを正確に推定することができ、単純なサンプリング手法よりも優れている。 経験的に、本手法は様々なアプリケーションにおいてbootstrapの性能を高めることができることを示す。

Bootstrap is a principled and powerful frequentist statistical tool for uncertainty quantification. Unfortunately, standard bootstrap methods are computationally intensive due to the need of drawing a large i.i.d. bootstrap sample to approximate the ideal bootstrap distribution; this largely hinders their application in large-scale machine learning, especially deep learning problems. In this work, we propose an efficient method to explicitly \emph{optimize} a small set of high quality "centroid" points to better approximate the ideal bootstrap distribution. We achieve this by minimizing a simple objective function that is asymptotically equivalent to the Wasserstein distance to the ideal bootstrap distribution. This allows us to provide an accurate estimation of uncertainty with a small number of bootstrap centroids, outperforming the naive i.i.d. sampling approach. Empirically, we show that our method can boost the performance of bootstrap in a variety of applications.
翻訳日:2021-10-19 14:11:19 公開日:2021-10-17
# ノイズロバストクラスタリング

Noise-robust Clustering ( http://arxiv.org/abs/2110.08871v1 )

ライセンス: Link先を確認
Rahmat Adesunkanmi, Ratnesh Kumar(参考訳) 本稿では,教師なし機械学習におけるノイズロバストクラスタリング手法を提案する。 ノイズや一貫性、その他の曖昧さに関する不確実性は、データ分析において深刻な障害となる可能性がある。 その結果、ビッグデータを扱う場合、データ品質、クリーニング、管理、ガバナンスは重要な規律のままである。 この複雑さにより、古典的な設定のように決定論的にデータを扱うのに十分ではなく、ノイズ分布とデータサンプル値への影響を考慮することが意味を持つようになった。 古典的なクラスタリング手法は、データをその相対距離や基礎空間の類似度に応じて「類似クラス」に分類する。 本稿では,古典的な$K$-meansと$K$-medoidsを拡張して,(生データではなく)データ分散をクラスタリングすることでこの問題に対処する。 これには、最適質量輸送(ワッサーシュタイン距離、$W_2$とも表記される)と、確率変数距離(EDと表記される)の期待値である新しい距離測度という2種類の測度を用いて分布間の距離を測定することが含まれる。 提示された分散ベースの$k$-meansと$k$-medoidsアルゴリズムは、まずデータ分布をクラスタ化し、次に各生データをデータの分散クラスタに割り当てる。

This paper presents noise-robust clustering techniques in unsupervised machine learning. The uncertainty about the noise, consistency, and other ambiguities can become severe obstacles in data analytics. As a result, data quality, cleansing, management, and governance remain critical disciplines when working with Big Data. With this complexity, it is no longer sufficient to treat data deterministically as in a classical setting, and it becomes meaningful to account for noise distribution and its impact on data sample values. Classical clustering methods group data into "similarity classes" depending on their relative distances or similarities in the underlying space. This paper addressed this problem via the extension of classical $K$-means and $K$-medoids clustering over data distributions (rather than the raw data). This involves measuring distances among distributions using two types of measures: the optimal mass transport (also called Wasserstein distance, denoted $W_2$) and a novel distance measure proposed in this paper, the expected value of random variable distance (denoted ED). The presented distribution-based $K$-means and $K$-medoids algorithms cluster the data distributions first and then assign each raw data to the cluster of data's distribution.
翻訳日:2021-10-19 14:11:05 公開日:2021-10-17
# VoteHMR:部分点雲からのロバストな3次元メッシュ復元のためのオクルージョン対応投票ネットワーク

VoteHMR: Occlusion-Aware Voting Network for Robust 3D Human Mesh Recovery from Partial Point Clouds ( http://arxiv.org/abs/2110.08729v1 )

ライセンス: Link先を確認
Guanze Liu, Yu Rong, Lu Sheng(参考訳) ポイントクラウドからの3Dヒューマンメッシュのリカバリは、AR/VRや人間の行動理解など、さまざまなタスクに不可欠である。 この分野でのこれまでの作業では、高品質な3Dスキャンやシーケンシャルな点雲が必要であり、消費者レベルの深度センサーが捉えた低品質の3Dスキャンには簡単に適用できない。 本稿では,単一フレーム部分点雲から信頼性の高い3次元形状を復元する最初の試みを行い,VoteHMRというエンドツーエンドの学習方法を提案する。 VoteHMRのコアは、新しいオクルージョン対応投票ネットワークで、入力された部分点雲から可視的な関節レベルの特徴を確実に生成し、人間の骨格の運動木を通して関節レベルの特徴を完成させる。 従来の作品と比べ、関節レベルの特徴は人間の幾何学的情報を効果的にエンコードするだけでなく、自己閉塞と欠落した領域を持つノイズの多い入力にも頑丈である。 入力点雲からの連立レベルの特徴と大域的特徴の豊富な補完的手がかりを利用することで,SMPLなどの統計的3次元人体モデルに対する信頼度と不整合パラメータ予測が促進される。 提案手法は,SURREALとDFAUSTという2つの大規模データセット上での最先端性能を実現する。 さらに、VoteHMRは、バークレーMHADのような実世界のデータセットに優れた一般化能力を示す。

3D human mesh recovery from point clouds is essential for various tasks, including AR/VR and human behavior understanding. Previous works in this field either require high-quality 3D human scans or sequential point clouds, which cannot be easily applied to low-quality 3D scans captured by consumer-level depth sensors. In this paper, we make the first attempt to reconstruct reliable 3D human shapes from single-frame partial point clouds.To achieve this, we propose an end-to-end learnable method, named VoteHMR. The core of VoteHMR is a novel occlusion-aware voting network that can first reliably produce visible joint-level features from the input partial point clouds, and then complete the joint-level features through the kinematic tree of the human skeleton. Compared with holistic features used by previous works, the joint-level features can not only effectively encode the human geometry information but also be robust to noisy inputs with self-occlusions and missing areas. By exploiting the rich complementary clues from the joint-level features and global features from the input point clouds, the proposed method encourages reliable and disentangled parameter predictions for statistical 3D human models, such as SMPL. The proposed method achieves state-of-the-art performances on two large-scale datasets, namely SURREAL and DFAUST. Furthermore, VoteHMR also demonstrates superior generalization ability on real-world datasets, such as Berkeley MHAD.
翻訳日:2021-10-19 14:04:58 公開日:2021-10-17
# 多言語NLPモデルの性能予測

Predicting the Performance of Multilingual NLP Models ( http://arxiv.org/abs/2110.08875v1 )

ライセンス: Link先を確認
Anirudh Srinivasan, Sunayana Sitaram, Tanuja Ganu, Sandipan Dandapat, Kalika Bali, Monojit Choudhury(参考訳) NLPの最近の進歩は、100以上の言語に対応可能なmBERTやXLMRのようなモデルを与えてくれました。 しかし、これらのモデルで評価される言語はごく少数であり、評価データセットがこれらのモデルがサポートする全ての言語をカバーする可能性は低い。 データセット作成のコストのかかる問題に対する潜在的な解決策は、データセットを新しい言語に翻訳するか、テンプレートフィリングベースの技術を使って作成することです。 本稿では、特定のタスクがテストセットを持つ言語において、モデルの既存のパフォーマンススコアを利用する言語をまたいでモデルを評価するための代替ソリューションを提案する。 我々はこれらの性能スコアの予測器を訓練し、この予測器を用いて異なる評価設定でモデルの性能を予測する。 提案手法は,既存の言語に対する評価のギャップを埋めるのに有効であるが,未知の言語に一般化したい場合,さらなる改善が必要である可能性がある。

Recent advancements in NLP have given us models like mBERT and XLMR that can serve over 100 languages. The languages that these models are evaluated on, however, are very few in number, and it is unlikely that evaluation datasets will cover all the languages that these models support. Potential solutions to the costly problem of dataset creation are to translate datasets to new languages or use template-filling based techniques for creation. This paper proposes an alternate solution for evaluating a model across languages which make use of the existing performance scores of the model on languages that a particular task has test sets for. We train a predictor on these performance scores and use this predictor to predict the model's performance in different evaluation settings. Our results show that our method is effective in filling the gaps in the evaluation for an existing set of languages, but might require additional improvements if we want it to generalize to unseen languages.
翻訳日:2021-10-19 13:59:59 公開日:2021-10-17
# データフリー自己蒸留によるインクリメンタル言語モデルの再検討

Reminding the Incremental Language Model via Data-Free Self-Distillation ( http://arxiv.org/abs/2110.08745v1 )

ライセンス: Link先を確認
Han Wang, Ruiliu Fu, Chengzhang Li, Xuejun Zhang, Jun Zhou, Yonghong Yan(参考訳) 擬似データによる増分学習は、ニューラルネットワークにおける破滅的な忘れを軽減できる。 しかし、より優れた性能を得るためには、以前のメソッドは、以前のタスクの擬似データに対する要求が高い。 擬似データが少ないと性能が劇的に低下する。 さらに、擬似データの分布は、異なるタスクの逐次学習によって、実データから徐々に逸脱する。 より多くのタスクが学習されれば、偏差はより大きくなります。 これらの問題に対処するために、地球Moverの距離と隠れデータ拡張に基づく自己蒸留を含むデータフリー自己蒸留(DFSD)によるインクリメンタル言語モデルを提案する。 GPT-2のすべての層における知識分布を推定し、それを教師モデルから生徒モデルに変換することにより、アースモーバー距離に基づく自己蒸留は擬似データの需要を著しく減少させる。 隠れデータ拡張は、擬似データの生成を隠されたデータ拡張プロセスとしてモデル化することにより、偏差による破滅的な忘れを著しく軽減することができる。 実験の結果,擬似データの最大減少率が90%であっても,DFSDは従来の最先端手法を超過できることがわかった。

Incremental language learning with pseudo-data can alleviate catastrophic forgetting in neural networks. However, to obtain better performance, former methods have higher demands for pseudo-data of the previous tasks. The performance dramatically decreases when fewer pseudo-data are employed. In addition, the distribution of pseudo-data gradually deviates from the real data with the sequential learning of different tasks. The deviation will be greater with more tasks learned, which results in more serious catastrophic forgetting. To address these issues, we propose reminding incremental language model via data-free self-distillation (DFSD), which includes self-distillation based on the Earth Mover's Distance and hidden data augmentation. By estimating the knowledge distribution in all layers of GPT-2 and transforming it from teacher model to student model, the Self-distillation based on the Earth Mover's Distance can significantly reduce the demand for pseudo-data. Hidden data augmentation can greatly alleviate the catastrophic forgetting caused by deviations via modeling the generation of pseudo-data as a hidden data augmentation process, where each sample is a mixture of all trained task data. The experimental results demonstrate that our DFSD can exceed the previous state-of-the-art methods even if the maximum decrease in pseudo-data is 90%.
翻訳日:2021-10-19 13:30:27 公開日:2021-10-17
# ペシミズムを用いた最適オフライン強化学習に向けて

Towards Instance-Optimal Offline Reinforcement Learning with Pessimism ( http://arxiv.org/abs/2110.08695v1 )

ライセンス: Link先を確認
Ming Yin and Yu-Xiang Wang(参考訳) オフライン強化学習(オフラインRL)問題について検討し,その目的は未知のマルコフ決定プロセス(MDP)における報酬最大化ポリシーをポリシー$\mu$から得られるデータを用いて学習することである。 特に、有限水平 MDP に対するオフライン RL のサンプル複雑性問題を考察する。 先行研究は、異なるデータカバレッジ仮定に基づいてこの問題を研究し、その学習保証は、システム量の明示的な特徴付けを欠いた被覆係数によって表現される。 本研究では,適応悲観的値反復法 (APVI) のアルゴリズムを解析し, ほぼ一致する準最適上限を導出する。 \[O\left(\sum_{h=1}^H\sum_{s_h,a_h}d^{\pi^\star}_h(s_h,a_h)\sqrt {\frac {\mathrm{Var}_{P_{s_h,a_h}}{(V^\star_{h+1}+r_h)}}{d^\mu_h(s_h,a_h)}}\sqrt {\frac{1}{n}}\right。 \] 相補的に、d^\mu_h(s_h,a_h)>0$ if $d^{\pi^\star}_h(s_h,a_h)>0$という弱い仮定の下で、インスタンスごとの情報-理論的下界も証明する。 以前のミニマックス下限と異なり、(局所ミニマックスによる)インスタンスごとの低限境界は個々のインスタンスに対して独立に適用されるより強い基準である。 ここで、$\pi^\star$は最適ポリシー、$\mu$は行動ポリシー、$d_h^\mu$は限界状態反応確率である。 私たちは、上記の方程式を本質的オフライン強化学習境界と呼ぶ。それは、すべての既存の最適結果を直接含んでいる:一様データ被覆仮定の下でのミニマックスレート、地平線なし設定、単一ポリシー集中可能性、および厳密な問題依存結果である。 その後、結果を仮定なしのレジーム(ここでは$ \mu$ を仮定しない)に拡張し、仮定なしの内在境界を得る。 その汎用的な形式のため、本質的な境界は特定の問題を難しくするものを照明し、オフラインRLにおける根本的な課題を明らかにするのに役立つと信じている。

We study the offline reinforcement learning (offline RL) problem, where the goal is to learn a reward-maximizing policy in an unknown Markov Decision Process (MDP) using the data coming from a policy $\mu$. In particular, we consider the sample complexity problems of offline RL for finite-horizon MDPs. Prior works study this problem based on different data-coverage assumptions, and their learning guarantees are expressed by the covering coefficients which lack the explicit characterization of system quantities. In this work, we analyze the Adaptive Pessimistic Value Iteration (APVI) algorithm and derive the suboptimality upper bound that nearly matches \[ O\left(\sum_{h=1}^H\sum_{s_h,a_h}d^{\pi^\star}_h(s_h,a_h)\sqrt{\frac{\mathrm{Var}_{P_{s_h,a_h}}{(V^\star_{h+1}+r_h)}}{d^\mu_h(s_h,a_h)}}\sqrt{\frac{1}{n}}\right). \] In complementary, we also prove a per-instance information-theoreti cal lower bound under the weak assumption that $d^\mu_h(s_h,a_h)>0$ if $d^{\pi^\star}_h(s_h,a_h)>0$. Different from the previous minimax lower bounds, the per-instance lower bound (via local minimaxity) is a much stronger criterion as it applies to individual instances separately. Here $\pi^\star$ is a optimal policy, $\mu$ is the behavior policy and $d_h^\mu$ is the marginal state-action probability. We call the above equation the intrinsic offline reinforcement learning bound since it directly implies all the existing optimal results: minimax rate under uniform data-coverage assumption, horizon-free setting, single policy concentrability, and the tight problem-dependent results. Later, we extend the result to the assumption-free regime (where we make no assumption on $ \mu$) and obtain the assumption-free intrinsic bound. Due to its generic form, we believe the intrinsic bound could help illuminate what makes a specific problem hard and reveal the fundamental challenges in offline RL.
翻訳日:2021-10-19 13:27:42 公開日:2021-10-17
# 深層学習における一般化の解説 : 進歩と基本的限界

Explaining generalization in deep learning: progress and fundamental limits ( http://arxiv.org/abs/2110.08922v1 )

ライセンス: Link先を確認
Vaishnavh Nagarajan(参考訳) この論文は、ディープラーニング理論における根本的なオープンな課題を研究している。なぜ深層ネットワークは過度にパラメータ化され、非正規化され、トレーニングデータをゼロエラーに適合させながら、うまく一般化するのか? 論文の前半では、確率勾配勾配による深層ネットワークのトレーニングがネットワークの容量を暗黙的に制御する方法を実証的に研究する。 その後、これがどのようにより良い一般化につながるかを示すために、パラメータ数への依存性を改善した一般化境界を導出する。 統一収束は、その単純さと汎用性のおかげで、ディープラーニング文学で最も広く使われているツールである。 その人気を考えると、この論文では、一般化を説明するツールとして一様収束の基本的な限界を特定するために一歩後退する。 特に、ある例において過パラメータ化された設定において、一様収束境界は空の一般化境界のみを与えることを示す。 この実現を念頭に置いて、論文の最終部では、方針を変更し、ラベルなしのデータを用いて一般化を推定する「emexperiative」テクニックを導入する。 我々の手法は一様収束に基づく複雑性の概念に頼らず、極めて正確である。 理論上は、我々の技術がなぜこのような精度を享受するのかを示そう。 今後の研究は、一般化境界(ラベルなしデータの形式など)に分布仮定を組み込む新しい方法を模索し、また、おそらく一様収束を変更するか、完全に新しいツールを開発することによって、境界を導出するための他のツールを探求する。

This dissertation studies a fundamental open challenge in deep learning theory: why do deep networks generalize well even while being overparameterized, unregularized and fitting the training data to zero error? In the first part of the thesis, we will empirically study how training deep networks via stochastic gradient descent implicitly controls the networks' capacity. Subsequently, to show how this leads to better generalization, we will derive {\em data-dependent} {\em uniform-convergence- based} generalization bounds with improved dependencies on the parameter count. Uniform convergence has in fact been the most widely used tool in deep learning literature, thanks to its simplicity and generality. Given its popularity, in this thesis, we will also take a step back to identify the fundamental limits of uniform convergence as a tool to explain generalization. In particular, we will show that in some example overparameterized settings, {\em any} uniform convergence bound will provide only a vacuous generalization bound. With this realization in mind, in the last part of the thesis, we will change course and introduce an {\em empirical} technique to estimate generalization using unlabeled data. Our technique does not rely on any notion of uniform-convergece-b ased complexity and is remarkably precise. We will theoretically show why our technique enjoys such precision. We will conclude by discussing how future work could explore novel ways to incorporate distributional assumptions in generalization bounds (such as in the form of unlabeled data) and explore other tools to derive bounds, perhaps by modifying uniform convergence or by developing completely new tools altogether.
翻訳日:2021-10-19 13:26:44 公開日:2021-10-17
# Tiny Deep Learningのためのネットワーク拡張

Network Augmentation for Tiny Deep Learning ( http://arxiv.org/abs/2110.08890v1 )

ライセンス: Link先を確認
Han Cai, Chuang Gan, Ji Lin, Song Han(参考訳) 本稿では,小型ニューラルネットワークの性能向上のための新しい学習手法であるネットワーク拡張(netaug)を提案する。 既存の正規化技術(例えば、データ拡張、ドロップアウト)は、過適合を克服するためにノイズを追加することで、大規模なニューラルネットワーク(例えば、ResNet50)で大きな成功を収めている。 しかし、これらの技術が小さなニューラルネットワークの性能を損なうことがわかった。 私たちは、小さなモデルをトレーニングすることは、大きなモデルと違う、と主張する。 データを拡張するのではなく、モデルを強化するべきだ。 この問題を軽減するため、NetAugはデータセットやネットワークにノイズを挿入する代わりに、ネットワーク(リバースドロップアウト)を拡張する。 小さなモデルを大きなモデルに置き、独立したモデルとして機能するだけでなく、より大きなモデルのサブモデルとして機能するように促す。 テスト時には、推論には小さなモデルのみを使用し、推論オーバーヘッドはゼロになる。 画像分類と物体検出におけるNetAugの有効性を示す。 NetAugは小さなモデルの性能を一貫して改善し、ImageNetでは2.1%、車では4.3%の精度向上を実現している。 Pascal VOCでは、NetAugは同じ計算コストで2.96%のmAP改善を提供する。

We introduce Network Augmentation (NetAug), a new training method for improving the performance of tiny neural networks. Existing regularization techniques (e.g., data augmentation, dropout) have shown much success on large neural networks (e.g., ResNet50) by adding noise to overcome over-fitting. However, we found these techniques hurt the performance of tiny neural networks. We argue that training tiny models are different from large models: rather than augmenting the data, we should augment the model, since tiny models tend to suffer from under-fitting rather than over-fitting due to limited capacity. To alleviate this issue, NetAug augments the network (reverse dropout) instead of inserting noise into the dataset or the network. It puts the tiny model into larger models and encourages it to work as a sub-model of larger models to get extra supervision, in addition to functioning as an independent model. At test time, only the tiny model is used for inference, incurring zero inference overhead. We demonstrate the effectiveness of NetAug on image classification and object detection. NetAug consistently improves the performance of tiny models, achieving up to 2.1% accuracy improvement on ImageNet, and 4.3% on Cars. On Pascal VOC, NetAug provides 2.96% mAP improvement with the same computational cost.
翻訳日:2021-10-19 13:25:18 公開日:2021-10-17