このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211229となっている論文です。

PDF登録状況(公開日: 20211229)

TitleAuthorsAbstract論文公表日・翻訳日
# 摂動による敵文の修復

Repairing Adversarial Texts through Perturbation ( http://arxiv.org/abs/2201.02504v1 )

ライセンス: Link先を確認
Guoliang Dong, Jingyi Wang, Jun Sun, Sudipta Chattopadhyay, Xinyu Wang, Ting Dai, Jie Shi and Jin Song Dong(参考訳) ニューラルネットワークは、逆の摂動、すなわち間違った予測を誘発するために摂動によって悪意を持って作り出された入力によって攻撃を受けることが知られている。 さらに、このような攻撃は、敵の訓練のような緩和方法を適用した後も、敵の摂動を排除できない。 画像領域において、このような逆入力を検出して拒否する複数のアプローチが開発されている。 しかし、不審な入力を拒絶することは、常に実現可能あるいは理想であるとは限らない。 まず、検出アルゴリズムによって生成された誤報により、通常の入力は拒否される。 第二に、サービス拒否攻撃は、そのようなシステムに敵対的な入力を与えて行うことができる。 このギャップに対処するため,本研究では,実行時に相手テキストを自動的に修復する手法を提案する。 逆行性が疑われるテキストが与えられた場合,複数の逆行性摂動法を正の方法で適用することで,ニューラルネットワークが正しく分類する,わずかに変化するが意味的に等価なテキストの修正を識別する。 提案手法は自然言語処理タスクのために訓練された複数のモデルを用いて実験され,本手法が有効であることを示す。 さらに, 応用摂動法によっては, 平均1秒程度で逆行文を補修することが可能であった。

It is known that neural networks are subject to attacks through adversarial perturbations, i.e., inputs which are maliciously crafted through perturbations to induce wrong predictions. Furthermore, such attacks are impossible to eliminate, i.e., the adversarial perturbation is still possible after applying mitigation methods such as adversarial training. Multiple approaches have been developed to detect and reject such adversarial inputs, mostly in the image domain. Rejecting suspicious inputs however may not be always feasible or ideal. First, normal inputs may be rejected due to false alarms generated by the detection algorithm. Second, denial-of-service attacks may be conducted by feeding such systems with adversarial inputs. To address the gap, in this work, we propose an approach to automatically repair adversarial texts at runtime. Given a text which is suspected to be adversarial, we novelly apply multiple adversarial perturbation methods in a positive way to identify a repair, i.e., a slightly mutated but semantically equivalent text that the neural network correctly classifies. Our approach has been experimented with multiple models trained for natural language processing tasks and the results show that our approach is effective, i.e., it successfully repairs about 80\% of the adversarial texts. Furthermore, depending on the applied perturbation method, an adversarial text could be repaired in as short as one second on average.
翻訳日:2022-01-16 16:19:37 公開日:2021-12-29
# (参考訳) PowerGraph: ニューラルネットワークと主成分を用いた統計パワートレードオフの多変量化 [全文訳有]

PowerGraph: Using neural networks and principal components to multivariate statistical power trade-offs ( http://arxiv.org/abs/2201.00719v1 )

ライセンス: CC BY 4.0
Ajinkya K Mulay, Sean Lane and Erin Hennes(参考訳) 複数のモデルパラメータを持つ計画研究における事前の統計パワー推定は本質的に多変量問題である。 興味のある個々のパラメータのパワーは、あるパラメータに対して説明されたサンプリング、相関、分散が他のパラメータのパワーに影響を与えるため、一変量で確実に見積もることはできない。 このような場合、特に多くのパラメータを持つモデルの場合、明示的な解は非現実的か不可能かのいずれかであり、研究者はパワーをシミュレートする手法が一般的である。 しかし、モデルパラメータのベクトルの点推定は不確かであり、不正確性の影響も不明である。 この場合、可観測パラメータベクトルの複数の組み合わせをシミュレートしてパワートレードオフを理解するように感度解析が推奨される。 このアプローチの限界は、社会科学者が推定するモデルの高次元空間におけるパワートレードオフ関数を正確にマッピングするために十分な感度の組み合わせを生成するのに計算コストがかかることである。 本稿では,様々なモデルパラメータの組み合わせについて,統計的パワーの効率的な推定とグラフ化について検討する。 研究を最適に力づけることは、仮説的な効果を見つけるための最小の確率を確保するために不可欠である。 まず,特定の関心値に対するパワーに対するパラメータ値の変動の影響を実証し,与えられた精度レベルに対するグラフ計算の計算強度を定量化する。 最後に,計算コストをブリュート・フォース・アプローチ(brute force approach)と呼ばれる7\%未満に削減するための,単純で一般化可能な機械学習インスパイア・ソリューションを提案する。 abridged (複数形 abridgeds)

It is increasingly acknowledged that a priori statistical power estimation for planned studies with multiple model parameters is inherently a multivariate problem. Power for individual parameters of interest cannot be reliably estimated univariately because sampling variably in, correlation with, and variance explained relative to one parameter will impact the power for another parameter, all usual univariate considerations being equal. Explicit solutions in such cases, especially for models with many parameters, are either impractical or impossible to solve, leaving researchers with the prevailing method of simulating power. However, point estimates for a vector of model parameters are uncertain, and the impact of inaccuracy is unknown. In such cases, sensitivity analysis is recommended such that multiple combinations of possible observable parameter vectors are simulated to understand power trade-offs. A limitation to this approach is that it is computationally expensive to generate sufficient sensitivity combinations to accurately map the power trade-off function in increasingly high dimensional spaces for the models that social scientists estimate. This paper explores the efficient estimation and graphing of statistical power for a study over varying model parameter combinations. Optimally powering a study is crucial to ensure a minimum probability of finding the hypothesized effect. We first demonstrate the impact of varying parameter values on power for specific hypotheses of interest and quantify the computational intensity of computing such a graph for a given level of precision. Finally, we propose a simple and generalizable machine learning inspired solution to cut the computational cost to less than 7\% of what could be called a brute force approach. [abridged]
翻訳日:2022-01-09 14:17:49 公開日:2021-12-29
# ウェアラブル脳波の伝達学習技術の改良としての特徴マッチング

Feature matching as improved transfer learning technique for wearable EEG ( http://arxiv.org/abs/2201.00644v1 )

ライセンス: Link先を確認
Elisabeth R. M. Heremans, Huy Phan, Amir H. Ansari, Pascal Borz\'ee, Bertien Buyse, Dries Testelmans, Maarten De Vos(参考訳) 目的:非従来型電極構成のウェアラブル睡眠監視デバイスが急速に普及する中、少量のラベル付きデータを使用して、構成で睡眠ステージングを行う自動化アルゴリズムが必要となる。 転送学習は、ソースモダリティ(例えば、標準電極配置)から新しいターゲットモダリティ(例えば、非コンベンション電極配置)にニューラルネットワークの重みを適応する能力を持つ。 方法: 一般的なファインタニング手法に代わる新しい伝達学習戦略である特徴マッチングを提案する。 この方法は、ソースモダリティからの大量のデータと、ソースモダリティとターゲットモダリティのペアサンプルの少ないモデルでトレーニングする。 これらのペア化されたサンプルに対して、モデルは対象のモダリティの特徴を抽出し、ソースのモダリティの対応するサンプルから特徴とマッチングする。 結果: 特徴マッチングと3つの異なるターゲットドメイン,2つの異なるニューラルネットワークアーキテクチャ,およびさまざまなトレーニングデータとの微調整を比較した。 特に、小さなコホート(例:2 - 5のラベル付き録音)では、異なるシナリオやデータセットの精度の0.4%から4.7%の相対的な差で、系統的に特徴マッチングが優れている。 結論: 特徴マッチングは, 非常に低いデータ構造において, 伝達学習アプローチとして微調整に優れることが示唆された。 意義:本研究は,新しいデバイスを用いたウェアラブル睡眠ステージングにおいて,機能マッチングが有望な新しい手法であると結論づける。

Objective: With the rapid rise of wearable sleep monitoring devices with non-conventional electrode configurations, there is a need for automated algorithms that can perform sleep staging on configurations with small amounts of labeled data. Transfer learning has the ability to adapt neural network weights from a source modality (e.g. standard electrode configuration) to a new target modality (e.g. non-conventional electrode configuration). Methods: We propose feature matching, a new transfer learning strategy as an alternative to the commonly used finetuning approach. This method consists of training a model with larger amounts of data from the source modality and few paired samples of source and target modality. For those paired samples, the model extracts features of the target modality, matching these to the features from the corresponding samples of the source modality. Results: We compare feature matching to finetuning for three different target domains, with two different neural network architectures, and with varying amounts of training data. Particularly on small cohorts (i.e. 2 - 5 labeled recordings in the non-conventional recording setting), feature matching systematically outperforms finetuning with mean relative differences in accuracy ranging from 0.4% to 4.7% for the different scenarios and datasets. Conclusion: Our findings suggest that feature matching outperforms finetuning as a transfer learning approach, especially in very low data regimes. Significance: As such, we conclude that feature matching is a promising new method for wearable sleep staging with novel devices.
翻訳日:2022-01-09 13:33:43 公開日:2021-12-29
# NLOSチャネルを用いた位置ベースビームフォーミングのための深層学習

Deep learning for location based beamforming with NLOS channels ( http://arxiv.org/abs/2201.01386v1 )

ライセンス: Link先を確認
Luc Le Magoarou (IRT b-com), Taha Yassine (IRT b-com, INSA Rennes, IETR), St\'ephane Paquelet (IRT b-com), Matthieu Crussi\`ere (IRT b-com, INSA Rennes, IETR)(参考訳) 大規模なMIMOシステムは高効率であるが、適切なプリコーダを決定するために基地局の正確なチャネル状態情報(CSI)に依存している。 csi取得には、重要なオーバーヘッドを引き起こすパイロットシンボルの送信が必要である。 本稿では,ユーザの位置に関する知識から適切なプリコーダを決定することを目的とした手法を提案する。 このようなプリコーダを決定する方法は、位置ベースのビームフォーミングとして知られている。 位置の取得方法によって、パイロットシンボルの必要性を減らしたり、取り除いたりすることができる。 提案手法は,位置からプリコーダへの直接マッピングを教師付き方式で学習する。 ランダムなフーリエ特徴に基づく特定の構造を持つニューラルネットワークで、高い空間周波数を含む関数を学習する。 実証的に評価され、現実的な合成チャネル上で有望な結果が得られる。 従来提案されていた手法とは対照的に、LOS(line-of-sight)チャネルとNLOS(non-line-of-igh t)チャネルの両方を扱える。

Massive MIMO systems are highly efficient but critically rely on accurate channel state information (CSI) at the base station in order to determine appropriate precoders. CSI acquisition requires sending pilot symbols which induce an important overhead. In this paper, a method whose objective is to determine an appropriate precoder from the knowledge of the user's location only is proposed. Such a way to determine precoders is known as location based beamforming. It allows to reduce or even eliminate the need for pilot symbols, depending on how the location is obtained. the proposed method learns a direct mapping from location to precoder in a supervised way. It involves a neural network with a specific structure based on random Fourier features allowing to learn functions containing high spatial frequencies. It is assessed empirically and yields promising results on realistic synthetic channels. As opposed to previously proposed methods, it allows to handle both line-of-sight (LOS) and non-line-of-sight (NLOS) channels.
翻訳日:2022-01-09 13:32:49 公開日:2021-12-29
# 短期負荷予測における人工知能と統計的手法

Artificial Intelligence and Statistical Techniques in Short-Term Load Forecasting: A Review ( http://arxiv.org/abs/2201.00437v1 )

ライセンス: Link先を確認
Ali Bou Nassif, Bassel Soudan, Mohammad Azzeh, Imtinan Attilli, Omar AlMulla(参考訳) 電気事業は、生産と流通を積極的に調整する短期需要予測に依存する。 この体系的なレビューは、2000年から2019年にかけて学術誌に掲載された240の著作を分析し、人工知能(AI)、統計モデル、ハイブリッドモデルを短期負荷予測(STLF)に適用することに焦点を当てている。 この作品は、この主題に関する作品の最も包括的なレビューである。 文献の完全な分析は、既存のギャップだけでなく、最もポピュラーで正確な技術を特定するために行われる。 この結果は、ANN(Artificial Neural Networks)が最も一般的に使われているスタンドアロン技術であり続けているが、研究者は個々の手法の利点を利用するために、異なる手法のハイブリッド組み合わせを過度に選択していることを示している。 これらのハイブリッドの組み合わせにより,99%以上の予測精度を達成することが可能であることを示す。 短期予測の最も成功した期間は、1時間間隔で1日の期間の予測と同定されている。 レビューでは、モデルのトレーニングに必要なデータセットへのアクセス不足が特定されている。 アジア、ヨーロッパ、北アメリカ、オーストラリア以外の地域では大きな差が認められている。

Electrical utilities depend on short-term demand forecasting to proactively adjust production and distribution in anticipation of major variations. This systematic review analyzes 240 works published in scholarly journals between 2000 and 2019 that focus on applying Artificial Intelligence (AI), statistical, and hybrid models to short-term load forecasting (STLF). This work represents the most comprehensive review of works on this subject to date. A complete analysis of the literature is conducted to identify the most popular and accurate techniques as well as existing gaps. The findings show that although Artificial Neural Networks (ANN) continue to be the most commonly used standalone technique, researchers have been exceedingly opting for hybrid combinations of different techniques to leverage the combined advantages of individual methods. The review demonstrates that it is commonly possible with these hybrid combinations to achieve prediction accuracy exceeding 99%. The most successful duration for short-term forecasting has been identified as prediction for a duration of one day at an hourly interval. The review has identified a deficiency in access to datasets needed for training of the models. A significant gap has been identified in researching regions other than Asia, Europe, North America, and Australia.
翻訳日:2022-01-09 12:58:29 公開日:2021-12-29
# 真正かつエネルギー効率の良い自律航空データ配信のためのニューラルマイソンオークション

Neural Myerson Auction for Truthful and Energy-Efficient Autonomous Aerial Data Delivery ( http://arxiv.org/abs/2201.01170v1 )

ライセンス: Link先を確認
Haemin Lee, Sean Kwon, Soyi Jung, and Joongheon Kim(参考訳) ドローンの配備の成功は、監視システムに理想的なソリューションを提供する。 監視にドローンを使用することで、人間や内陸の車両が特定の対象の画像や映像を収集するのが困難または不可能な地域へのアクセスが可能になる。 そこで本研究では,厳密な通信条件下で収集した監視データを転送するデータ配信ドローンを提案する。 本稿では,バッテリ制限と長期飛行制約を考慮した監視システムにおける,航空分散データプラットフォームにおけるMyersonオークションに基づく非同期データ配信を提案する。 本稿では、複数の配送ドローンが1台の固定位置監視ドローンにデータ転送を競う。 提案アルゴリズムは, 真正な第2価格オークション(SPA)をベースラインとして, 個人合理性とインセンティブの両立を図り, 真正な操作を追求しながら販売者の収益を最大化することを目的としている。 これらのSPAベースの運用に加えて、ディープラーニングベースのフレームワークもデリバリのパフォーマンス向上のために設計されている。

A successful deployment of drones provides an ideal solution for surveillance systems. Using drones for surveillance can provide access to areas that may be difficult or impossible to reach by humans or in-land vehicles gathering images or video recordings of a specific target in their coverage. Therefore, we introduces a data delivery drone to transfer collected surveillance data in harsh communication conditions. This paper proposes a Myerson auction-based asynchronous data delivery in an aerial distributed data platform in surveillance systems taking battery limitation and long flight constraints into account. In this paper, multiple delivery drones compete to offer data transfer to a single fixed-location surveillance drone. Our proposed Myerson auction-based algorithm, which uses the truthful second-price auction (SPA) as a baseline, is to maximize the seller's revenue while meeting several desirable properties, i.e., individual rationality and incentive compatibility while pursuing truthful operations. On top of these SPA-based operations, a deep learning-based framework is additionally designed for delivery performance improvements.
翻訳日:2022-01-09 12:57:50 公開日:2021-12-29
# 干渉抑制を最適化したエンドツーエンドオートエンコーダ通信

End-to-End Autoencoder Communications with Optimized Interference Suppression ( http://arxiv.org/abs/2201.01388v1 )

ライセンス: Link先を確認
Kemal Davaslioglu, Tugba Erpek, Yalin E. Sagduyu(参考訳) 直交周波数分割多重化(ofdm)に基づくエンドツーエンド通信システムは、送信(符号化、変調)と受信(変調、復号)をそれぞれエンコーダとデコーダのディープニューラルネットワーク(dnn)として表現するオートエンコーダ(ae)としてモデル化される。 このAE通信方式は,通信路や干渉効果,トレーニングデータ,組込み実装制約といった現実的なシナリオにおいて,従来の通信よりもBER(bit error rate)の方が優れていることを示す。 GAN(Generative Adversarial Network)は、トレーニングデータが不十分な場合にトレーニングデータを増強するように訓練される。 また、DNNモデル量子化および組込み実装における対応するメモリ要件の観点から性能を評価する。 次に、干渉訓練とランダムな平滑化を導入し、潜在的に複数のOFDMシンボルに対して未知かつダイナミックな干渉(ジャミング)効果の下でAE通信を訓練する。 従来の通信と比較して、4つのチャネル再利用のための最大36dB干渉抑制は、干渉訓練とランダムな平滑化によるAE通信によって達成できる。 AE通信は、Multiple-Input Multiple-output (MIMO) ケースにも拡張され、従来のMIMO通信と比較して、干渉効果のないBER性能向上を示す。

An end-to-end communications system based on Orthogonal Frequency Division Multiplexing (OFDM) is modeled as an autoencoder (AE) for which the transmitter (coding and modulation) and receiver (demodulation and decoding) are represented as deep neural networks (DNNs) of the encoder and decoder, respectively. This AE communications approach is shown to outperform conventional communications in terms of bit error rate (BER) under practical scenarios regarding channel and interference effects as well as training data and embedded implementation constraints. A generative adversarial network (GAN) is trained to augment the training data when there is not enough training data available. Also, the performance is evaluated in terms of the DNN model quantization and the corresponding memory requirements for embedded implementation. Then, interference training and randomized smoothing are introduced to train the AE communications to operate under unknown and dynamic interference (jamming) effects on potentially multiple OFDM symbols. Relative to conventional communications, up to 36 dB interference suppression for a channel reuse of four can be achieved by the AE communications with interference training and randomized smoothing. AE communications is also extended to the multiple-input multiple-output (MIMO) case and its BER performance gain with and without interference effects is demonstrated compared to conventional MIMO communications.
翻訳日:2022-01-09 12:57:21 公開日:2021-12-29
# VDPC:変動密度ピーククラスタリングアルゴリズム

VDPC: Variational Density Peak Clustering Algorithm ( http://arxiv.org/abs/2201.00641v1 )

ライセンス: Link先を確認
Yizhang Wang, Di Wang, You Zhou, Xiaofeng Zhang, Chai Quek(参考訳) 広く応用された密度ピーククラスタリング(DPC)アルゴリズムは、クラスタセンターが局所密度の低いデータポイントに囲まれ、局所密度の低い他のデータポイントから遠く離れているという直感的なクラスタ形成を仮定する。 しかし、この仮定は、密度の低いクラスターを高密度の他のクラスターに容易にマージできるため、しばしば問題となるという1つの制限に悩まされている。 結果として、DPCは変動密度のクラスタを特定できない可能性がある。 この問題に対処するために,様々な種類の密度分布を持つデータセット上で,クラスタリングタスクを系統的かつ自律的に実行するための変分密度ピーククラスタリング(VDPC)アルゴリズムを提案する。 具体的には,まず,すべてのデータポイント間の代表者を識別し,特定された代表者に基づいて初期クラスタを構築し,クラスタの特性のさらなる分析を行う新しい手法を提案する。 さらに,DPCとDBSCANの両方の利点を組み合わせることで,各データポイントを局所密度に応じて異なるレベルに分割し,統一クラスタリングフレームワークを提案する。 したがって、異なる密度レベルにまたがる識別された初期クラスターはすべて、最終クラスターを形成するために体系的に処理される。 提案アルゴリズムの有効性を評価するため、8つの合成、6つの実世界、6つの画像データセットを含む20のデータセットを用いて広範な実験を行った。 実験の結果、VDPCは2つの古典的アルゴリズム(DPCとDBSCAN)と4つの最先端拡張DPCアルゴリズムより優れていた。

The widely applied density peak clustering (DPC) algorithm makes an intuitive cluster formation assumption that cluster centers are often surrounded by data points with lower local density and far away from other data points with higher local density. However, this assumption suffers from one limitation that it is often problematic when identifying clusters with lower density because they might be easily merged into other clusters with higher density. As a result, DPC may not be able to identify clusters with variational density. To address this issue, we propose a variational density peak clustering (VDPC) algorithm, which is designed to systematically and autonomously perform the clustering task on datasets with various types of density distributions. Specifically, we first propose a novel method to identify the representatives among all data points and construct initial clusters based on the identified representatives for further analysis of the clusters' property. Furthermore, we divide all data points into different levels according to their local density and propose a unified clustering framework by combining the advantages of both DPC and DBSCAN. Thus, all the identified initial clusters spreading across different density levels are systematically processed to form the final clusters. To evaluate the effectiveness of the proposed VDPC algorithm, we conduct extensive experiments using 20 datasets including eight synthetic, six real-world and six image datasets. The experimental results show that VDPC outperforms two classical algorithms (i.e., DPC and DBSCAN) and four state-of-the-art extended DPC algorithms.
翻訳日:2022-01-09 12:42:33 公開日:2021-12-29
# 特徴選択・分類・知識表現のための効率的かつ正確なラフセット

An Efficient and Accurate Rough Set for Feature Selection, Classification and Knowledge Representation ( http://arxiv.org/abs/2201.00436v1 )

ライセンス: Link先を確認
Shuyin Xia, Xinyu Bai, Guoyin Wang, Deyu Meng, Xinbo Gao, Zizhong Chen, Elisabeth Giem(参考訳) 本稿では, 特徴選択, 分類, 知識表現を同時に実現する, 粗集合に基づく強力なデータマイニング手法を提案する。 ラフ集合は高い解釈性を持ち、特徴選択の一般的な方法である。 しかし、効率の低さと精度の低さが、アプリケーションの能力を制限する主な欠点である。 本稿では, ノイズ属性の処理において, 過フィッティングによる粗集合の非効率性を見いだし, 相対的重要性と呼ばれる属性の頑健な測定法を提案し, 知識表現と分類のための「粗概念木」の概念を提案した。 公開ベンチマークデータセットによる実験結果から,提案フレームワークは7つの人気や最先端の機能選択手法よりも精度が高いことがわかった。

This paper present a strong data mining method based on rough set, which can realize feature selection, classification and knowledge representation at the same time. Rough set has good interpretability, and is a popular method for feature selections. But low efficiency and low accuracy are its main drawbacks that limits its application ability. In this paper,corresponding to the accuracy, we first find the ineffectiveness of rough set because of overfitting, especially in processing noise attribute, and propose a robust measurement for an attribute, called relative importance.we proposed the concept of "rough concept tree" for knowledge representation and classification. Experimental results on public benchmark data sets show that the proposed framework achieves higher accurcy than seven popular or the state-of-the-art feature selection methods.
翻訳日:2022-01-09 12:41:31 公開日:2021-12-29
# (参考訳) 深層学習とライブ検出:最近の進歩と課題

Deep Learning meets Liveness Detection: Recent Advancements and Challenges ( http://arxiv.org/abs/2112.14796v1 )

ライセンス: CC BY 4.0
Arian Sabaghi, Marzieh Oghbaie, Kooshan Hashemifard and Mohammad Akbari(参考訳) 顔認証は近年,従来の認証システムの代替として注目されている。 その結果、悪意のある試みを検出することは極めて重要であり、顔の反偽造(FAS)、つまり顔の提示攻撃の検出に関する広範な研究につながった。 手作りの機能とは対照的に、深い特徴学習と技術はFASシステムの精度を劇的に向上させることを約束し、そのようなシステムの現実的な応用を現実化する上で重要な課題に取り組む。 そのため、より一般化されたモデルや正確なモデルの開発を扱う新たな研究領域が、研究コミュニティや産業の注目を集めている。 本稿では,2017年以降の深層機能に基づくfas手法に関する文献の包括的調査を行う。 この話題を浮き彫りにするために、様々な特徴と学習方法論に基づく意味分類が表現されている。 さらに,FASの時系列的な公開データセット,その進化過程,評価基準(データセット内およびデータセット間)についても概説した。 最後に,オープンな研究課題と今後の方向性について論じる。

Facial biometrics has been recently received tremendous attention as a convenient replacement for traditional authentication systems. Consequently, detecting malicious attempts has found great significance, leading to extensive studies in face anti-spoofing~(FAS), i.e., face presentation attack detection. Deep feature learning and techniques, as opposed to hand-crafted features, have promised a dramatic increase in the FAS systems' accuracy, tackling the key challenges of materializing the real-world application of such systems. Hence, a new research area dealing with the development of more generalized as well as accurate models is increasingly attracting the attention of the research community and industry. In this paper, we present a comprehensive survey on the literature related to deep-feature-based FAS methods since 2017. To shed light on this topic, a semantic taxonomy based on various features and learning methodologies is represented. Further, we cover predominant public datasets for FAS in chronological order, their evolutional progress, and the evaluation criteria (both intra-dataset and inter-dataset). Finally, we discuss the open research challenges and future directions.
翻訳日:2022-01-04 06:11:29 公開日:2021-12-29
# (参考訳) deepn$^2$:深層学習に基づく非ニュートン流体力学モデル [全文訳有]

DeePN$^2$: A deep learning-based non-Newtonian hydrodynamic model ( http://arxiv.org/abs/2112.14798v1 )

ライセンス: CC BY 4.0
Lidong Fang, Pei Ge, Lei Zhang, Huan Lei, Weinan E(参考訳) 非ニュートン流体力学のモデリングにおける長年の問題は、基礎となるマイクロスケールの高分子力学を忠実にエンコードする信頼性と解釈可能な流体力学モデルが利用できることである。 主な合併症は、長いポリマーの緩和時間、複雑な分子構造、不均質な相互作用から生じる。 深層学習に基づく非ニュートン流体力学モデルであるDeePN$^2$が提案され、マイクロスケール構造力学情報を単純なポリマー配座と結合電位を持つ懸濁液のマクロスケール流体力学に体系的に渡すことに成功した。 このモデルは、ポリマー構成を対称性保存マクロスケールの特徴の集合にマッピングすることで、マルチスケール性を維持している。 これらのマクロスケール特徴に対する拡張構成則は、マイクロスケール特徴の運動学から直接学べる。 本稿では,より複雑なミクロ構造モデルを用いたDeePN$^2$のさらなる研究を行う。 DeePN$^2$は、人間の介入なしに特定の分子構造力学から生じる広く見過ごされた粘弾性差を忠実に捉えることができることを示す。

A long standing problem in the modeling of non-Newtonian hydrodynamics is the availability of reliable and interpretable hydrodynamic models that faithfully encode the underlying micro-scale polymer dynamics. The main complication arises from the long polymer relaxation time, the complex molecular structure, and heterogeneous interaction. DeePN$^2$, a deep learning-based non-Newtonian hydrodynamic model, has been proposed and has shown some success in systematically passing the micro-scale structural mechanics information to the macro-scale hydrodynamics for suspensions with simple polymer conformation and bond potential. The model retains a multi-scaled nature by mapping the polymer configurations into a set of symmetry-preserving macro-scale features. The extended constitutive laws for these macro-scale features can be directly learned from the kinetics of their micro-scale counterparts. In this paper, we carry out further study of DeePN$^2$ using more complex micro-structural models. We show that DeePN$^2$ can faithfully capture the broadly overlooked viscoelastic differences arising from the specific molecular structural mechanics without human intervention.
翻訳日:2022-01-04 06:10:11 公開日:2021-12-29
# (参考訳) 画像合成と画像認識のための学習開始注意 [全文訳有]

Learning Inception Attention for Image Synthesis and Image Recognition ( http://arxiv.org/abs/2112.14804v1 )

ライセンス: CC BY 4.0
Jianghao Shen and Tianfu Wu(参考訳) 画像合成と画像認識は目覚ましい進歩をみせたが、しばしば計算に高価な訓練と推論を犠牲にしている。 軽量で表現力のある深層モデルを学ぶことは、重要で興味深い方向として現れています。 本稿では,画像合成モデルの効率的な学習を容易にするスキップ層インセプションモジュール (slim) と,画像認識のためのよく知られたresnextsの強力な代替として,同層変種 (dubbed as slim too) を提案する。 スリムでは、入力特徴マップはまず複数のグループ(例:4)に分割される。 それぞれのグループは、(チャネルワイズによる)潜伏型ベクトルと(空間的注意による)潜伏型空間マスクに変換される。 学習した潜伏マスクと潜伏型ベクトルを集約して目標特徴写像を変調する。 ジェネレーティブラーニングのために、SLIMは、最近提案された、スキップ層励起(SLE)モジュールを示す軽量なジェネレーティブ・アドバイサル・ネットワーク(FastGAN)上に構築されている。 数ショットの画像合成タスクにおいて,提案するSLIMは,SLE処理やその他の関連手法よりも優れた性能を実現する。 ワンショット画像合成タスクでは、SinGANsのような先行技術よりも画像構造を保存できることが示される。 画像分類タスクでは、提案したSLIMがResNetsの畳み込み層(ResNeXtのようなモデルで表現される)のドロップイン置換として使用され、ImageNet-1000データセットの精度が向上し、モデルの複雑さが大幅に小さくなった。

Image synthesis and image recognition have witnessed remarkable progress, but often at the expense of computationally expensive training and inference. Learning lightweight yet expressive deep model has emerged as an important and interesting direction. Inspired by the well-known split-transform-aggr egate design heuristic in the Inception building block, this paper proposes a Skip-Layer Inception Module (SLIM) that facilitates efficient learning of image synthesis models, and a same-layer variant (dubbed as SLIM too) as a stronger alternative to the well-known ResNeXts for image recognition. In SLIM, the input feature map is first split into a number of groups (e.g., 4).Each group is then transformed to a latent style vector(via channel-wise attention) and a latent spatial mask (via spatial attention). The learned latent masks and latent style vectors are aggregated to modulate the target feature map. For generative learning, SLIM is built on a recently proposed lightweight Generative Adversarial Networks (i.e., FastGANs) which present a skip-layer excitation(SLE) module. For few-shot image synthesis tasks, the proposed SLIM achieves better performance than the SLE work and other related methods. For one-shot image synthesis tasks, it shows stronger capability of preserving images structures than prior arts such as the SinGANs. For image classification tasks, the proposed SLIM is used as a drop-in replacement for convolution layers in ResNets (resulting in ResNeXt-like models) and achieves better accuracy in theImageNet-1000 dataset, with significantly smaller model complexity
翻訳日:2022-01-04 05:51:59 公開日:2021-12-29
# (参考訳) 能動学習に基づく科学的実験設計の最適化 [全文訳有]

Active Learning-Based Optimization of Scientific Experimental Design ( http://arxiv.org/abs/2112.14811v1 )

ライセンス: CC BY 4.0
Ruoyu Wang(参考訳) アクティブラーニング(AL)は、クエリ戦略によって反復的かつヒューリスティックに選択された最も価値のあるラベル付きデータにラベルを付ける能力を持つために、ラベル付きトレーニングインスタンスを減らしてより精度の高い機械学習アルゴリズムである。 近年の科学実験は、ますます自動化されつつあるが、まだ設計プロセスや実験空間での徹底的な探索に人間の関与に苦しんでいる。 本稿では,最小二乗(ALS)とディープニューラルネットワーク(DNN)を交互に行う行列因数分解法からなるALスキームを用いて,薬物応答データセットの振り返り研究を行う。 本稿では,損失最小化に基づくALクエリ戦略を提案する。 その結果,手動で設定する代わりに科学的実験設計をALで最適化できることが示され,提案したクエリストラテジー ELM サンプリングは,ランダムサンプリングや不確実サンプリングなどの他の手法よりも優れた実験性能を示す。

Active learning (AL) is a machine learning algorithm that can achieve greater accuracy with fewer labeled training instances, for having the ability to ask oracles to label the most valuable unlabeled data chosen iteratively and heuristically by query strategies. Scientific experiments nowadays, though becoming increasingly automated, are still suffering from human involvement in the designing process and the exhaustive search in the experimental space. This article performs a retrospective study on a drug response dataset using the proposed AL scheme comprised of the matrix factorization method of alternating least square (ALS) and deep neural networks (DNN). This article also proposes an AL query strategy based on expected loss minimization. As a result, the retrospective study demonstrates that scientific experimental design, instead of being manually set, can be optimized by AL, and the proposed query strategy ELM sampling shows better experimental performance than other ones such as random sampling and uncertainty sampling.
翻訳日:2022-01-04 05:25:47 公開日:2021-12-29
# (参考訳) 階層的時間記憶理論の文書分類への応用 [全文訳有]

Application of Hierarchical Temporal Memory Theory for Document Categorization ( http://arxiv.org/abs/2112.14820v1 )

ライセンス: CC BY 4.0
Deven Shah, Pinak Ghate, Manali Paranjape, Amit Kumar(参考訳) 本研究は,テキストと文書の自動分類のための階層的時間記憶理論(HTM)の性能について検討することを目的としている。 HTMはヒト新皮質の作用原理に基づく生物学的に着想を得た理論である。 本研究は,HTM理論における空間プール学習アルゴリズムを用いた文書分類のための代替フレームワークの提供を目的とする。 HTMはバイナリデータのストリームのみを入力として受け入れるため、Latent Semantic Indexing(LSI)技術は入力から上位特徴を抽出しバイナリ形式に変換するために使用される。 空間プールアルゴリズムは、2進入力を重なり合う空間パターンを持つ類似の入力テキストでスパースパターンに変換し、パターンをカテゴリに分類しやすくする。 その結果、HTM理論は初期段階にあるものの、一般的な機械学習ベースの分類器のほとんどと同等に機能することが証明された。

The current work intends to study the performance of the Hierarchical Temporal Memory(HTM) theory for automated classification of text as well as documents. HTM is a biologically inspired theory based on the working principles of the human neocortex. The current study intends to provide an alternative framework for document categorization using the Spatial Pooler learning algorithm in the HTM Theory. As HTM accepts only a stream of binary data as input, Latent Semantic Indexing(LSI) technique is used for extracting the top features from the input and converting them into binary format. The Spatial Pooler algorithm converts the binary input into sparse patterns with similar input text having overlapping spatial patterns making it easy for classifying the patterns into categories. The results obtained prove that HTM theory, although is in its nascent stages, performs at par with most of the popular machine learning based classifiers.
翻訳日:2022-01-04 05:18:44 公開日:2021-12-29
# 隠れ線形ダイナミクスによる時間変化回帰

Time varying regression with hidden linear dynamics ( http://arxiv.org/abs/2112.14862v1 )

ライセンス: Link先を確認
Ali Jadbabaie, Horia Mania, Devavrat Shah, Suvrit Sra(参考訳) 線形力学系に従って未知のパラメータが進化することを前提とした時間変化線形回帰モデルを再検討する。 直観的に言うと、基礎となる力学が安定である場合、このモデルのパラメータは2つの通常の最小二乗推定を組み合わせることでデータから推定できる。 我々は,提案手法の誤差を有限サンプルで保証し,先行研究で提案される主要なアプローチである期待最大化(EM)に対する利点について論じる。

We revisit a model for time-varying linear regression that assumes the unknown parameters evolve according to a linear dynamical system. Counterintuitively, we show that when the underlying dynamics are stable the parameters of this model can be estimated from data by combining just two ordinary least squares estimates. We offer a finite sample guarantee on the estimation error of our method and discuss certain advantages it has over Expectation-Maximiza tion (EM), which is the main approach proposed by prior work.
翻訳日:2022-01-03 15:49:27 公開日:2021-12-29
# 非凸フラックス関数をもつ双曲バックリー・レベレット問題の解に対するピン

PINNs for the Solution of the Hyperbolic Buckley-Leverett Problem with a Non-convex Flux Function ( http://arxiv.org/abs/2112.14826v1 )

ライセンス: Link先を確認
Waleed Diab and Mohammed Al Kobaisi(参考訳) 2つの非混和性流体の変位は多孔質媒質中の流体の一般的な問題である。 そのような問題は、一般にBuckley-Leverett (B-L) 問題と呼ばれる部分微分方程式(PDE)として表すことができる。 B-L問題は非線形双曲保存法であり、従来の数値法で解くのが難しいことが知られている。 本稿では,物理インフォームドニューラルネットワーク(PINN)を用いた非凸フラックス関数を用いて,前方双曲型B-L問題に対処する。 この論文の貢献は2つある。 まず,オレイニクエントロピー条件をニューラルネットワーク残基に埋め込むことにより,双曲的B-L問題を解決するためのPINN手法を提案する。 残留損失には拡散項(人工粘度)は使用しないが、PDEの強い形式に依存している。 第2に,残差ベース適応改良(rar)アルゴリズムを用いたadamオプティマイザを用いて,重みを伴わずに超低損失を実現する。 提案手法は, 衝撃面を正確に捕捉し, 全体解を正確に生成する。 2 x 10-2 の L2 検証誤差と 1 x 10-6 の L2 損失を報告した。 提案手法では, 正規化や損失の重み付けを必要とせず, 正確な解を得ることができる。

The displacement of two immiscible fluids is a common problem in fluid flow in porous media. Such a problem can be posed as a partial differential equation (PDE) in what is commonly referred to as a Buckley-Leverett (B-L) problem. The B-L problem is a non-linear hyperbolic conservation law that is known to be notoriously difficult to solve using traditional numerical methods. Here, we address the forward hyperbolic B-L problem with a nonconvex flux function using physics-informed neural networks (PINNs). The contributions of this paper are twofold. First, we present a PINN approach to solve the hyperbolic B-L problem by embedding the Oleinik entropy condition into the neural network residual. We do not use a diffusion term (artificial viscosity) in the residual-loss, but we rely on the strong form of the PDE. Second, we use the Adam optimizer with residual-based adaptive refinement (RAR) algorithm to achieve an ultra-low loss without weighting. Our solution method can accurately capture the shock-front and produce an accurate overall solution. We report a L2 validation error of 2 x 10-2 and a L2 loss of 1x 10-6. The proposed method does not require any additional regularization or weighting of losses to obtain such accurate solution.
翻訳日:2022-01-03 15:49:13 公開日:2021-12-29
# 通信ネットワークのためのグラフニューラルネットワーク:コンテキスト,ユースケース,機会

Graph Neural Networks for Communication Networks: Context, Use Cases and Opportunities ( http://arxiv.org/abs/2112.14792v1 )

ライセンス: Link先を確認
Jos\'e Su\'arez-Varela, Paul Almasan, Miquel Ferriol-Galm\'es, Krzysztof Rusek, Fabien Geyer, Xiangle Cheng, Xiang Shi, Shihan Xiao, Franco Scarselli, Albert Cabellos-Aparicio, Pere Barlet-Ros(参考訳) グラフニューラルネットワーク(GNN)は、データがグラフ(例えば、化学、生物学、レコメンデーションシステム)として表される多くの分野において、優れた応用を示している。 この流れの中で、通信ネットワークは、グラフ構造で自然に表現される多くの基本的なコンポーネント(トポロジー、構成、トラフィックフローなど)で構成されている。 本稿では,通信ネットワークのモデリング,制御,管理の基本的なツールとして,GNNを紹介する。 GNNは、実際のネットワークの背後にある複雑な振る舞いを正確に学習し、再現できる新しい世代のデータ駆動モデルである。 その結果、このようなモデルは、計画、オンライン最適化、トラブルシューティングなど、さまざまなネットワークユースケースに適用することができる。 従来のニューラルネットワークに対するGNNの主な利点は、トレーニング中に見つからない他のネットワークや構成に適用する場合、前例のない一般化能力である。 本稿では、GNNとその通信ネットワークへの応用に関する簡単なチュートリアルを紹介する。 本技術の可能性を示すために,有線ネットワークと無線ネットワークに適用した最先端のGNNモデルを用いた2つのユースケースを提案する。 最後に、この新しい研究領域ではまだ探求されていない重要なオープンチャレンジと機会について考察する。

Graph neural networks (GNN) have shown outstanding applications in many fields where data is fundamentally represented as graphs (e.g., chemistry, biology, recommendation systems). In this vein, communication networks comprise many fundamental components that are naturally represented in a graph-structured manner (e.g., topology, configurations, traffic flows). This position article presents GNNs as a fundamental tool for modeling, control and management of communication networks. GNNs represent a new generation of data-driven models that can accurately learn and reproduce the complex behaviors behind real networks. As a result, such models can be applied to a wide variety of networking use cases, such as planning, online optimization, or troubleshooting. The main advantage of GNNs over traditional neural networks lies in its unprecedented generalization capabilities when applied to other networks and configurations unseen during training, which is a critical feature for achieving practical data-driven solutions for networking. This article comprises a brief tutorial on GNNs and their possible applications to communication networks. To showcase the potential of this technology, we present two use cases with state-of-the-art GNN models respectively applied to wired and wireless networks. Lastly, we delve into the key open challenges and opportunities yet to be explored in this novel research area.
翻訳日:2022-01-03 15:43:16 公開日:2021-12-29
# AutoFITS:不規則時系列の自動特徴工学

AutoFITS: Automatic Feature Engineering for Irregular Time Series ( http://arxiv.org/abs/2112.14806v1 )

ライセンス: Link先を確認
Pedro Costa, Vitor Cerqueira, Jo\~ao Vinagre(参考訳) 時系列は、時間とともに収集された観測の集合を表す。 通常、これらの観測は均一なサンプリング周波数(例えば毎日)で撮影される。 データポイントが不均一な時間間隔で観測されると、時系列は不規則または断続と呼ばれる。 このようなシナリオでは、最も一般的な解決策は、時系列を正規に再構成し、断続性を取り除くことである。 我々は、不規則な時系列において、各観測が収集される時間はデータのダイナミクスを要約し、予測性能を向上させるのに役立つと仮定する。 本稿では,この視点からの情報,すなわち各インスタンスが収集された際の情報抽出に焦点を当てた,新しい自動特徴工学フレームワークを開発することにより,このアイデアを考察する。 時系列予測ワークフローに組み込むことで,この情報の価値を検証し,時系列予測のための最新手法との比較や補完方法について検討する。 最後に、これまで無視されていた角度から時系列の特徴工学に取り組む新しいフレームワークを提供することで貢献する。 提案手法は,予測性能を著しく向上させる時系列情報をさらに抽出する可能性があることを示す。

A time series represents a set of observations collected over time. Typically, these observations are captured with a uniform sampling frequency (e.g. daily). When data points are observed in uneven time intervals the time series is referred to as irregular or intermittent. In such scenarios, the most common solution is to reconstruct the time series to make it regular, thus removing its intermittency. We hypothesise that, in irregular time series, the time at which each observation is collected may be helpful to summarise the dynamics of the data and improve forecasting performance. We study this idea by developing a novel automatic feature engineering framework, which focuses on extracting information from this point of view, i.e., when each instance is collected. We study how valuable this information is by integrating it in a time series forecasting workflow and investigate how it compares to or complements state-of-the-art methods for regular time series forecasting. In the end, we contribute by providing a novel framework that tackles feature engineering for time series from an angle previously vastly ignored. We show that our approach has the potential to further extract more information about time series that significantly improves forecasting performance.
翻訳日:2022-01-03 15:06:56 公開日:2021-12-29
# セプティブ・オピニオン・スパム分類のための注意に基づく双方向lstm

Attention-based Bidirectional LSTM for Deceptive Opinion Spam Classification ( http://arxiv.org/abs/2112.14789v1 )

ライセンス: Link先を確認
Ashish Salunkhe(参考訳) オンラインレビューは、意思決定のためのeコマースにおいて重要な役割を果たす。 住民の多くは、それぞれのプラットフォームに投稿されたレビューに基づいて、どの場所、訪問するレストラン、購入する場所、購入する場所を決定する。 不正なレビューまたは意見スパムは、真偽または偽りのレビューとして分類される。 商品やレストランの肯定的なレビューは、顧客を引きつけるのに役立ち、営業の増加につながるが、ネガティブなレビューは、レストランの進行や製品の販売を妨げ、評判と損失を損なう。 不正なレビューは様々なオンラインレビュープラットフォームに意図的に投稿され、顧客が商品やレストランを購入したり、訪ねたり、気を散らしたりする。 製品の評判を賞賛したり、信用を損ねたりするためにも書かれています。 この研究は、レビューを偽りまたは真偽として検出し分類することを目的としている。 レビューの分類に様々なディープラーニング技術を使用し、レビューのセマンティック情報に関連する問題に対処するため、アテンションベースの双方向LSTMを含む提案手法の概要とレビュー分類のためのベースライン機械学習技術の比較研究を含む。

Online Reviews play a vital role in e commerce for decision making. Much of the population makes the decision of which places, restaurant to visit, what to buy and from where to buy based on the reviews posted on the respective platforms. A fraudulent review or opinion spam is categorized as an untruthful or deceptive review. Positive reviews of a product or a restaurant helps attract customers and thereby lead to an increase in sales whereas negative reviews may hamper the progress of a restaurant or sales of a product and thereby lead to defamed reputation and loss. Fraudulent reviews are deliberately posted on various online review platforms to trick customers to buy, visit or distract against a product or a restaurant. They are also written to commend or discredit the product's repute. The work aims at detecting and classifying the reviews as deceptive or truthful. It involves use of various deep learning techniques for classifying the reviews and an overview of proposed approach involving Attention based Bidirectional LSTM to tackle issues related to semantic information in reviews and a comparative study over baseline machine learning techniques for review classification.
翻訳日:2022-01-03 14:27:06 公開日:2021-12-29
# コモンセンス変換器の物質化知識ベース

Materialized Knowledge Bases from Commonsense Transformers ( http://arxiv.org/abs/2112.14815v1 )

ライセンス: Link先を確認
Tuan-Phong Nguyen, Simon Razniewski(参考訳) Bosselut et al. (2019)によるCOMET方法論から始め、事前訓練された言語モデルから直接常識知識を生成することが近年注目されている。 驚いたことに、これまでこの方法で生成された常識知識の実体化されたリソースは公開されていない。 本稿では,このギャップを埋め,物質化資源を用いて,精度とリコールの観点から,このアプローチの可能性の詳細な分析を行う。 さらに,一般的な問題を特定し,具体化資源によって実現されるユースケースを概説する。 我々は,これらの資源の利用可能性は,その強みと弱みに関するさらなる分析だけでなく,得られた知識を本質的に活用することを可能にするため,分野の進歩に重要であると仮定する。

Starting from the COMET methodology by Bosselut et al. (2019), generating commonsense knowledge directly from pre-trained language models has recently received significant attention. Surprisingly, up to now no materialized resource of commonsense knowledge generated this way is publicly available. This paper fills this gap, and uses the materialized resources to perform a detailed analysis of the potential of this approach in terms of precision and recall. Furthermore, we identify common problem cases, and outline use cases enabled by materialized resources. We posit that the availability of these resources is important for the advancement of the field, as it enables an off-the-shelf-use of the resulting knowledge, as well as further analyses on its strengths and weaknesses.
翻訳日:2022-01-03 14:26:47 公開日:2021-12-29
# サンプリングに基づく大規模データセットの効率的なクラスタリング

A sampling-based approach for efficient clustering in large datasets ( http://arxiv.org/abs/2112.14793v1 )

ライセンス: Link先を確認
Georgios Exarchakis, Omar Oubari, Gregor Lenz(参考訳) 本稿では,クラスタ数が多い高次元データに対して,簡便で効率的なクラスタリング手法を提案する。 このアルゴリズムは、クラスタセンタのサブセットとデータポイントの距離を評価することで、高性能を実現する。 当社のコントリビューションは,データポイントとクラスタのすべての比較を必要とせず,k-meansよりもはるかに効率的です。 近似の最適解は、正確な解と同じであることを示す。 しかし,本手法は,最先端技術と比較して,これらのクラスタを抽出する上で極めて効率的である。 我々は、一連の標準化クラスタリングタスクにおける正確なk平均および代替近似手法と比較する。 評価のために,収束に対する演算数や結果の安定性など,アルゴリズムの複雑さを考察する。

We propose a simple and efficient clustering method for high-dimensional data with a large number of clusters. Our algorithm achieves high-performance by evaluating distances of datapoints with a subset of the cluster centres. Our contribution is substantially more efficient than k-means as it does not require an all to all comparison of data points and clusters. We show that the optimal solutions of our approximation are the same as in the exact solution. However, our approach is considerably more efficient at extracting these clusters compared to the state-of-the-art. We compare our approximation with the exact k-means and alternative approximation approaches on a series of standardised clustering tasks. For the evaluation, we consider the algorithmic complexity, including number of operations to convergence, and the stability of the results.
翻訳日:2022-01-03 14:11:13 公開日:2021-12-29
# 双対相関低減によるディープグラフクラスタリング

Deep Graph Clustering via Dual Correlation Reduction ( http://arxiv.org/abs/2112.14772v1 )

ライセンス: Link先を確認
Yue Liu, Wenxuan Tu, Sihang Zhou, Xinwang Liu, Linxuan Song, Xihong Yang, En Zhu(参考訳) 近年,グラフ構造を明らかにし,ノードを異なるグループに分割することを目的としたディープグラフクラスタリングが注目されている。 しかし、ノードエンコーディングの過程で、既存のメソッドは、すべてのデータを同じ表現にマップする傾向がある表現の崩壊に苦しんでいるのを観察する。 その結果、ノード表現の識別能力は制限され、不満足なクラスタリング性能をもたらす。 この問題に対処するために,情報相関を二重に減らし,DCRN(Dual correlation Reduction Network)と呼ばれる自己教師付き深層グラフクラスタリング手法を提案する。 具体的には,まず,サンプルを符号化するシアムネットワークを設計する。 次に、クロスビューサンプル相関行列とクロスビュー特徴相関行列をそれぞれ2つのアイデンティティ行列に近似させることで、両レベルの情報相関を低減し、結果として得られる特徴の識別能力を向上させる。 さらに,GCNの過度な平滑化による表現の崩壊を軽減するため,ネットワークが浅いネットワーク構造で長距離情報を得るための伝搬正規化項を導入する。 6つのベンチマークデータセットの広範な実験結果は、既存の最先端手法に対するdcrnの有効性を示している。

Deep graph clustering, which aims to reveal the underlying graph structure and divide the nodes into different groups, has attracted intensive attention in recent years. However, we observe that, in the process of node encoding, existing methods suffer from representation collapse which tends to map all data into the same representation. Consequently, the discriminative capability of the node representation is limited, leading to unsatisfied clustering performance. To address this issue, we propose a novel self-supervised deep graph clustering method termed Dual Correlation Reduction Network (DCRN) by reducing information correlation in a dual manner. Specifically, in our method, we first design a siamese network to encode samples. Then by forcing the cross-view sample correlation matrix and cross-view feature correlation matrix to approximate two identity matrices, respectively, we reduce the information correlation in the dual-level, thus improving the discriminative capability of the resulting features. Moreover, in order to alleviate representation collapse caused by over-smoothing in GCN, we introduce a propagation regularization term to enable the network to gain long-distance information with the shallow network structure. Extensive experimental results on six benchmark datasets demonstrate the effectiveness of the proposed DCRN against the existing state-of-the-art methods.
翻訳日:2022-01-03 13:20:36 公開日:2021-12-29
# (参考訳) 相反例の伝達可能性について -異なるモデルにどのように差をつけるか- [全文訳有]

Closer Look at the Transferability of Adversarial Examples: How They Fool Different Models Differently ( http://arxiv.org/abs/2112.14337v1 )

ライセンス: CC BY 4.0
Futa Waseda, Sosuke Nishikawa, Trung-Nghia Le, Huy H. Nguyen, and Isao Echizen(参考訳) 深層ニューラルネットワークは、敵対的な転送可能性を持つ敵の例(AE)に対して脆弱である:ソースモデルのために生成されたAEは、別の(ターゲット)モデルの予測を誤解させる可能性がある。 しかし、どのクラス対象モデルの予測が誤解されたか(すなわち、クラス認識の転送可能性)の観点からは、転送性は理解されていない。 本稿では,対象モデルがソースモデル(「同じ間違い」)や異なる間違ったクラス(「異なる間違い」)と同じ間違ったクラスを予測して解析し,そのメカニズムを説明する場合との違いを区別する。 まず,(1)同一の誤りが「非目標伝達可能性」と相関し,(2)摂動サイズに関係なく類似モデル間で異なる誤りが発生することを示した。 第二に、同一の誤りと異なる誤りの違いは、予測的だが人間の解釈不能なパターンによって説明できることを示す: 異なる誤りは、AEにおける非破壊的特徴がモデルによって異なる場合に起こる。 非ロバストな特徴は、AEのクラス認識転送可能性について一貫した説明を提供することができる。

Deep neural networks are vulnerable to adversarial examples (AEs), which have adversarial transferability: AEs generated for the source model can mislead another (target) model's predictions. However, the transferability has not been understood from the perspective of to which class target model's predictions were misled (i.e., class-aware transferability). In this paper, we differentiate the cases in which a target model predicts the same wrong class as the source model ("same mistake") or a different wrong class ("different mistake") to analyze and provide an explanation of the mechanism. First, our analysis shows (1) that same mistakes correlate with "non-targeted transferability" ; and (2) that different mistakes occur between similar models regardless of the perturbation size. Second, we present evidence that the difference in same and different mistakes can be explained by non-robust features, predictive but human-uninterpretabl e patterns: different mistakes occur when non-robust features in AEs are used differently by models. Non-robust features can thus provide consistent explanations for the class-aware transferability of AEs.
翻訳日:2021-12-30 23:57:39 公開日:2021-12-29
# (参考訳) インセンティブ付きオンライン学習のための社会的最適メカニズム設計 [全文訳有]

Socially-Optimal Mechanism Design for Incentivized Online Learning ( http://arxiv.org/abs/2112.14338v1 )

ライセンス: CC BY 4.0
Zhiyuan Wang and Lin Gao and Jianwei Huang(参考訳) マルチアームバンディット(multi-arm bandit、mab)は、不確定な環境での逐次意思決定を研究する、古典的なオンライン学習フレームワークである。 しかし、MABフレームワークは、意思決定者が直接アクション(例えば、腕を引っ張る)を行うことができないシナリオを見落としている。 これは、スペクトル共有、クラウドセンシング、エッジコンピューティングなど、多くのアプリケーションにおいて事実上重要なシナリオである。 これらの適用において、意思決定者は、他の利己的なエージェントに望ましい行動(すなわち、意思決定者に代わって腕を引く)を行うようインセンティブを与える。 本稿では,このシナリオに対するインセンティブ付きオンライン学習(IOL)フレームワークを確立する。 IOLフレームワークを設計する上で重要な課題は、未知の環境学習と非対称情報公開の密結合にある。 そこで本研究では,IOLフレームワークの社会的最適メカニズムを提案する,特別なラグランジアン関数を構築した。 本機構は, エージェントフェアネス, インセンティブ適合性, 自発的参加など, 様々な望ましい特性を満たす。 余分な情報を必要とする最先端のベンチマークと同じ漸近的なパフォーマンスを実現している。 より大きなエージェントの群衆は、私たちのメカニズムをより密接に社会のパフォーマンスの理論的上限にアプローチできるようにします。 計算結果は,大規模エッジコンピューティングにおける機構の利点を示す。

Multi-arm bandit (MAB) is a classic online learning framework that studies the sequential decision-making in an uncertain environment. The MAB framework, however, overlooks the scenario where the decision-maker cannot take actions (e.g., pulling arms) directly. It is a practically important scenario in many applications such as spectrum sharing, crowdsensing, and edge computing. In these applications, the decision-maker would incentivize other selfish agents to carry out desired actions (i.e., pulling arms on the decision-maker's behalf). This paper establishes the incentivized online learning (IOL) framework for this scenario. The key challenge to design the IOL framework lies in the tight coupling of the unknown environment learning and asymmetric information revelation. To address this, we construct a special Lagrangian function based on which we propose a socially-optimal mechanism for the IOL framework. Our mechanism satisfies various desirable properties such as agent fairness, incentive compatibility, and voluntary participation. It achieves the same asymptotic performance as the state-of-art benchmark that requires extra information. Our analysis also unveils the power of crowd in the IOL framework: a larger agent crowd enables our mechanism to approach more closely the theoretical upper bound of social performance. Numerical results demonstrate the advantages of our mechanism in large-scale edge computing.
翻訳日:2021-12-30 23:44:19 公開日:2021-12-29
# (参考訳) 偽物か本物か? 偽レビュー検出のための文脈化テキスト表現 [全文訳有]

Fake or Genuine? Contextualised Text Representation for Fake Review Detection ( http://arxiv.org/abs/2112.14343v1 )

ライセンス: CC BY 4.0
Rami Mohawesh, Shuxiang Xu, Matthew Springer, Muna Al-Hawawreh and Sumbal Maqsood(参考訳) オンラインレビューは、顧客による製品やサービスの購入決定に大きな影響を与える。 しかし、偽レビューは消費者と企業の両方を誤解させる可能性がある。 機械学習を用いて偽レビューを検出するために、いくつかのモデルが開発された。 これらのモデルの多くは、偽レビューと偽レビューを区別する精度にいくつかの制限がある。 これらのモデルは、偽レビューを検出するための言語的特徴のみに焦点を当て、レビューの意味を捉えられなかった。 そこで本研究では,トランスフォーマーアーキテクチャを用いて,偽レビューのシーケンス中の隠れパターンを発見し,正確に検出する新しいアンサンブルモデルを提案する。 提案手法は,3つのトランスフォーマーモデルを組み合わせて,偽の行動プロファイルとモデル作成のロバスト性を改善し,偽のレビューを検出する。 半実ベンチマークデータセットを用いた実験の結果,提案モデルが最先端モデルよりも優れていることがわかった。

Online reviews have a significant influence on customers' purchasing decisions for any products or services. However, fake reviews can mislead both consumers and companies. Several models have been developed to detect fake reviews using machine learning approaches. Many of these models have some limitations resulting in low accuracy in distinguishing between fake and genuine reviews. These models focused only on linguistic features to detect fake reviews and failed to capture the semantic meaning of the reviews. To deal with this, this paper proposes a new ensemble model that employs transformer architecture to discover the hidden patterns in a sequence of fake reviews and detect them precisely. The proposed approach combines three transformer models to improve the robustness of fake and genuine behaviour profiling and modelling to detect fake reviews. The experimental results using semi-real benchmark datasets showed the superiority of the proposed model over state-of-the-art models.
翻訳日:2021-12-30 23:25:06 公開日:2021-12-29
# (参考訳) 最近のニュースレコメンデーションモデルにおける未利用文脈特徴の概観的意義について [全文訳有]

On the Overlooked Significance of Underutilized Contextual Features in Recent News Recommendation Models ( http://arxiv.org/abs/2112.14370v1 )

ライセンス: CC BY 4.0
Sungmin Cho, Hongjun Lim, Keunchan Park, Sungjoo Yoo, Eunhyeok Park(参考訳) パーソナライズされたニュースレコメンデーションは、特定の記事をクリックする確率を予測することによって、読者に魅力的な記事を提供することを目的としている。 この確率を正確に予測するために、単語、カテゴリ、エンティティなどの記事の特徴を積極的に活用する研究が数多く提案されている。 しかし,CTR(クリックスルー率),人気度,新鮮度といった記事の文脈的特徴は,近年無視されているか,利用されていないかのどちらかであった。 その結果,近年のディープラーニングモデルとナイーブな文脈モデルとの広範な比較を行った結果,後者が前者よりも容易に優れていることが判明した。 さらに,近年,文脈的特徴に高度に高度なディープラーニング操作を適用する傾向が,推薦性能を妨げていることが明らかとなった。 この知識から、我々は、従来のニュースレコメンデーションモデルを大きなマージンで強化できる、目的的にシンプルなコンテキストモジュールを設計する。

Personalized news recommendation aims to provide attractive articles for readers by predicting their likelihood of clicking on a certain article. To accurately predict this probability, plenty of studies have been proposed that actively utilize content features of articles, such as words, categories, or entities. However, we observed that the articles' contextual features, such as CTR (click-through-rate) , popularity, or freshness, were either neglected or underutilized recently. To prove that this is the case, we conducted an extensive comparison between recent deep-learning models and naive contextual models that we devised and surprisingly discovered that the latter easily outperforms the former. Furthermore, our analysis showed that the recent tendency to apply overly sophisticated deep-learning operations to contextual features was actually hindering the recommendation performance. From this knowledge, we design a purposefully simple contextual module that can boost the previous news recommendation models by a large margin.
翻訳日:2021-12-30 23:11:57 公開日:2021-12-29
# (参考訳) 逆β-リオウビル混合モデルの変分学習とそのテキスト分類への応用 [全文訳有]

Variational Learning for the Inverted Beta-Liouville Mixture Model and Its Application to Text Categorization ( http://arxiv.org/abs/2112.14375v1 )

ライセンス: CC BY 4.0
Yongfa Ling, Wenbo Guan, Qiang Ruan, Heping Song, Yuping Lai(参考訳) 有限逆β-Liouville混合モデル(IBLMM)はその正のデータモデリング能力のために最近注目を集めている。 従来の変分推論(vi)の枠組みでは、変分対象関数は難解なモーメントの評価を伴うため、変分後分布の最適化に対する解析的に扱いやすい解は得られない。 最近提案された拡張変分推論(EVI)フレームワークにより、難解なモーメント計算を避けるために、元の変分オブジェクト関数を置き換える新しい関数が提案され、IBLMMの解析的抽出可能な解がエレガントな方法で導出される。 提案手法の優れた性能は、合成データと実世界のアプリケーション、すなわちテキスト分類による実験によって実証される。

The finite invert Beta-Liouville mixture model (IBLMM) has recently gained some attention due to its positive data modeling capability. Under the conventional variational inference (VI) framework, the analytically tractable solution to the optimization of the variational posterior distribution cannot be obtained, since the variational object function involves evaluation of intractable moments. With the recently proposed extended variational inference (EVI) framework, a new function is proposed to replace the original variational object function in order to avoid intractable moment computation, so that the analytically tractable solution of the IBLMM can be derived in an elegant way. The good performance of the proposed approach is demonstrated by experiments with both synthesized data and a real-world application namely text categorization.
翻訳日:2021-12-30 22:55:14 公開日:2021-12-29
# (参考訳) unbiased long-tailed classificationにおけるクロスドメイン経験的リスク最小化 [全文訳有]

Cross-Domain Empirical Risk Minimization for Unbiased Long-tailed Classification ( http://arxiv.org/abs/2112.14380v1 )

ライセンス: CC BY 4.0
Beier Zhu, Yulei Niu, Xian-Sheng Hua, Hanwang Zhang(参考訳) 我々は、既存のロングテール分類法において見過ごされすぎている不偏性に対処する: テスト分布がバランスが取れていると仮定されるため、全体的な改善の要因は主にテールオーバーヘッドの偏りによるが、テストがロングテールトレーニングデータと同じくらい不均衡である場合 -- テストはzipfの自然法則を尊重する -- 、テールバイアスはヘッドメジャーを損なうため、全体としては益がない。 本稿では,両テスト分布の強力な性能を達成するために,偏りのないモデルを訓練するためのクロスドメイン経験的リスク最小化(xerm)を提案する。 因果性に基づいて、XERMが不偏性を達成する理由を理論的に説明し、不均衡領域と不均衡な領域に対する経験的リスクを調整することにより、ドメイン選択によるバイアスを除去する。 コードはhttps://github.com/b eierzhu/xermで入手できる。

We address the overlooked unbiasedness in existing long-tailed classification methods: we find that their overall improvement is mostly attributed to the biased preference of tail over head, as the test distribution is assumed to be balanced; however, when the test is as imbalanced as the long-tailed training data -- let the test respect Zipf's law of nature -- the tail bias is no longer beneficial overall because it hurts the head majorities. In this paper, we propose Cross-Domain Empirical Risk Minimization (xERM) for training an unbiased model to achieve strong performances on both test distributions, which empirically demonstrates that xERM fundamentally improves the classification by learning better feature representation rather than the head vs. tail game. Based on causality, we further theoretically explain why xERM achieves unbiasedness: the bias caused by the domain selection is removed by adjusting the empirical risks on the imbalanced domain and the balanced but unseen domain. Codes are available at https://github.com/B eierZhu/xERM.
翻訳日:2021-12-30 22:45:28 公開日:2021-12-29
# (参考訳) adaptive multi adversarial trainingによるモード崩壊の克服 [全文訳有]

Overcoming Mode Collapse with Adaptive Multi Adversarial Training ( http://arxiv.org/abs/2112.14406v1 )

ライセンス: CC BY 4.0
Karttikeya Mangalam, Rohin Garg(参考訳) GAN(Generative Adversarial Networks)は、様々なアプリケーションで使用される生成モデルの一種であるが、ターゲット分布のモードがジェネレータによって無視されるモード崩壊問題に悩まされていることが知られている。 新たなデータ生成手法を用いた調査研究により、ジェネレータのモード崩壊は、識別器が以前に見られたサンプルの分類精度を維持できないことによるものであることが示された。 この観察に動機づけられ,従来の世代を記憶するための識別器を適応的に生成する新しい訓練手順を提案する。 いくつかのデータセットでは、既存のGANフレームワークにトレーニングスキームをプラグインしてモード崩壊を緩和し、GAN評価のための標準メトリクスを改善することができる。

Generative Adversarial Networks (GANs) are a class of generative models used for various applications, but they have been known to suffer from the mode collapse problem, in which some modes of the target distribution are ignored by the generator. Investigative study using a new data generation procedure indicates that the mode collapse of the generator is driven by the discriminator's inability to maintain classification accuracy on previously seen samples, a phenomenon called Catastrophic Forgetting in continual learning. Motivated by this observation, we introduce a novel training procedure that adaptively spawns additional discriminators to remember previous modes of generation. On several datasets, we show that our training scheme can be plugged-in to existing GAN frameworks to mitigate mode collapse and improve standard metrics for GAN evaluation.
翻訳日:2021-12-30 22:26:48 公開日:2021-12-29
# (参考訳) 可逆画像データセット保護 [全文訳有]

Invertible Image Dataset Protection ( http://arxiv.org/abs/2112.14420v1 )

ライセンス: CC BY 4.0
Kejiang Chen, Xianhan Zeng, Qichao Ying, Sheng Li, Zhenxing Qian and Xinpeng Zhang(参考訳) 深層学習は様々な産業用途で大きな成功を収めた。 企業は、自分の貴重なデータを悪質な従業員が盗んで海賊モデルを訓練することを望んでいない。 競合他社が分析したデータをオンライン上で使うことも望まない。 本稿では,このシナリオにおけるデータセット保護のための新しい解決策を提案する。 我々は,従来の分類モデルを騙すために,画像にわずかな変化をもたらす可逆的逆例生成器 (RAEG) を開発した。 悪意のある攻撃は保護された画像の防御バージョンに基づいて海賊モデルを訓練するが、RAEGはこれらのモデルの機能を著しく弱めることができる。 一方、RAEGの可逆性は、認可されたモデルの性能を保証する。 大規模実験により、RAEGは従来の方法よりも若干の歪曲でデータを保護できることが示された。

Deep learning has achieved enormous success in various industrial applications. Companies do not want their valuable data to be stolen by malicious employees to train pirated models. Nor do they wish the data analyzed by the competitors after using them online. We propose a novel solution for dataset protection in this scenario by robustly and reversibly transform the images into adversarial images. We develop a reversible adversarial example generator (RAEG) that introduces slight changes to the images to fool traditional classification models. Even though malicious attacks train pirated models based on the defensed versions of the protected images, RAEG can significantly weaken the functionality of these models. Meanwhile, the reversibility of RAEG ensures the performance of authorized models. Extensive experiments demonstrate that RAEG can better protect the data with slight distortion against adversarial defense than previous methods.
翻訳日:2021-12-30 21:54:51 公開日:2021-12-29
# (参考訳) 大規模MIMOシステムにおけるスペクトル効率予測のための機械学習手法 [全文訳有]

Machine Learning Methods for Spectral Efficiency Prediction in Massive MIMO Systems ( http://arxiv.org/abs/2112.14423v1 )

ライセンス: CC BY 4.0
Evgeny Bobrov (1, 3), Sergey Troshin (2), Nadezhda Chirkova (2), Ekaterina Lobacheva (2), Sviatoslav Panchenko (3, 5), Dmitry Vetrov (2, 4), Dmitry Kropotov (1, 2) ((1) Lomonosov MSU, Russia, (2) HSE University, Russia, (3) MRC, Huawei Technologies, Russia, (4) AIRI, Russia, (5) MIPT, Russia)(参考訳) 無線複数入力多重出力(mimo)システムにおけるチャネルデコード、チャネル検出、チャネル評価、リソース管理は、機械学習(ml)がうまく適用できる問題の例である。 本稿では,特定のプリコーディング方式のスペクトル効率(SE)値を最短時間で推定するML手法について検討する。 平均パーセンテージ誤差(MAPE)の最も良い結果は、ソートされた特徴よりも勾配が上昇し、線形モデルは予測精度が悪くなることを示す。 ニューラルネットワークは勾配向上と同様に機能するが、ハイパーパラメータチューニングと頻繁な再トレーニングのため、リソースと時間を要する。 本稿では,quadrigaシミュレータが生成する幅広いシナリオにおける提案アルゴリズムの実用的適用性について検討する。 ほぼすべてのシナリオにおいて、勾配ブースティングとニューラルネットワークを使用して達成されたMAPEは10%未満である。

Channel decoding, channel detection, channel assessment, and resource management for wireless multiple-input multiple-output (MIMO) systems are all examples of problems where machine learning (ML) can be successfully applied. In this paper, we study several ML approaches to solve the problem of estimating the spectral efficiency (SE) value for a certain precoding scheme, preferably in the shortest possible time. The best results in terms of mean average percentage error (MAPE) are obtained with gradient boosting over sorted features, while linear models demonstrate worse prediction quality. Neural networks perform similarly to gradient boosting, but they are more resource- and time-consuming because of hyperparameter tuning and frequent retraining. We investigate the practical applicability of the proposed algorithms in a wide range of scenarios generated by the Quadriga simulator. In almost all scenarios, the MAPE achieved using gradient boosting and neural networks is less than 10\%.
翻訳日:2021-12-30 21:43:12 公開日:2021-12-29
# (参考訳) DP-FP:大規模モデルのための微分プライベートフォワードプロパゲーション [全文訳有]

DP-FP: Differentially Private Forward Propagation for Large Models ( http://arxiv.org/abs/2112.14430v1 )

ライセンス: CC BY 4.0
Jian Du and Haitao Mi(参考訳) 大規模学習問題に適用した場合、従来のプライバシー保護の深層学習に関する知恵(DP-SGD)は、非プライバシに比べてパフォーマンスが著しく低下し、メモリオーバーヘッドが高いため、限られた成功を収めている。 DP-SGDを新しいDPフォワード・プロパゲーション(DP-FP)に置き換えて,非DPオプティマイザを用いた性能低下を緩和する方法を示す。 DP-FP では,(1) 表現のクリッピング,(2) サブサンプリングによるマイクロバッチ構築により,DP 増幅を実現し,ノイズパワーを1/M$ に減らし,M$ はマイクロバッチのステップ数である。 分類モデルのトレーニングでは,表象上のプライバシー保護操作を全て行うDP-FPには,勾配バイアスやモデルサイズに比例する全ノイズ,DP-SGDのメモリ問題などが生まれない。 その結果,DP-FPはプライバシー水準を保ちながら最先端のDP-SGDより優れ,非プライベートなベースラインに近づき,最先端のDP-SGDよりも大幅に優れていた。 例えば4つの下流タスクでRoBERTa-largeに適用されると、DP-FPは3未満のプライバシー予算で平均91.34\%の精度を達成し、最先端のDP-SGDよりも3.81\%の性能向上を示し、非プライベートベースラインに比べて0.9\%の損失しか得られないが、プライバシー漏洩リスクは著しく低い。

When applied to large-scale learning problems, the conventional wisdom on privacy-preserving deep learning, known as Differential Private Stochastic Gradient Descent (DP-SGD), has met with limited success due to significant performance degradation and high memory overhead when compared to the non-privacy counterpart. We show how to mitigate the performance drop by replacing the DP-SGD with a novel DP Forward-Propagation (DP-FP) followed by an off-the-shelf non-DP optimizer. Our DP-FP employs novel (1) representation clipping followed by noise addition in the forward propagation stage, as well as (2) micro-batch construction via subsampling to achieve DP amplification and reduce noise power to $1/M$, where $M$ is the number of micro-batch in a step. When training a classification model, our DP-FP with all of the privacy-preserving operations on the representation is innately free of gradient bias, total noise proportionally to model size, and memory issues in DP-SGD. As a result, our DP-FP outperforms cutting-edge DP-SGD while retaining the same level of privacy, and it approaches non-private baselines and significantly outperforms state-of-the-art DP-SGD variants. When applied to RoBERTa-large on four downstream tasks, for example, DP-FP achieves an average accuracy of 91.34\% with privacy budgets less than 3, representing a 3.81\% performance improvement over the state-of-the-art DP-SGD and only a 0.9\% loss compared to the non-private baseline but with a significantly lower privacy leakage risk.
翻訳日:2021-12-30 21:25:12 公開日:2021-12-29
# (参考訳) 深部時系列異常検出のためのモンテカルロem [全文訳有]

Monte Carlo EM for Deep Time Series Anomaly Detection ( http://arxiv.org/abs/2112.14436v1 )

ライセンス: CC BY 4.0
Fran\c{c}ois-Xavier Aubet, Daniel Z\"ugner, Jan Gasthaus(参考訳) 時系列データは、しばしば外れ値や他の種類の異常によって破壊される。 異常点を特定することは、独自の目標(異常検出)、または他の時系列タスク(例えば予測)のパフォーマンスを改善する手段である。 近年のディープラーニングによる異常検出と予測へのアプローチでは、トレーニングデータ内の異常の割合は無視できるほど小さく、ラベルなしデータを名目データ分布から来ているとみなすのが一般的である。 本稿では,既存の時系列モデルを拡張し,トレーニングデータの異常を明示的に考慮する簡易かつ効果的な手法を提案する。 モンテカルロEMを用いたモデルトレーニングにおいて,分布が推定される潜在異常指標変数を用いてトレーニングデータを増強することにより,モデル性能を向上しつつ,異常点を同時に推定する。 簡単なフィードフォワード予測モデルと組み合わせることで,提案手法の有効性を示す。 時系列異常検出に一般的に使用される予測モデルのトレーニングに列車の異常がどのように影響するかを調査し,この手法がモデルのトレーニングを改善することを示す。

Time series data are often corrupted by outliers or other kinds of anomalies. Identifying the anomalous points can be a goal on its own (anomaly detection), or a means to improving performance of other time series tasks (e.g. forecasting). Recent deep-learning-based approaches to anomaly detection and forecasting commonly assume that the proportion of anomalies in the training data is small enough to ignore, and treat the unlabeled data as coming from the nominal data distribution. We present a simple yet effective technique for augmenting existing time series models so that they explicitly account for anomalies in the training data. By augmenting the training data with a latent anomaly indicator variable whose distribution is inferred while training the underlying model using Monte Carlo EM, our method simultaneously infers anomalous points while improving model performance on nominal data. We demonstrate the effectiveness of the approach by combining it with a simple feed-forward forecasting model. We investigate how anomalies in the train set affect the training of forecasting models, which are commonly used for time series anomaly detection, and show that our method improves the training of the model.
翻訳日:2021-12-30 21:07:01 公開日:2021-12-29
# (参考訳) 周波数サブバンド選択に基づくカラー画像ステガノグラフィ [全文訳有]

A Color Image Steganography Based on Frequency Sub-band Selection ( http://arxiv.org/abs/2112.14437v1 )

ライセンス: CC BY 4.0
Hai Su, Shan Yang, Shuqing Zhang, and Songsen Yu(参考訳) 深層学習に基づくカラー画像ステガノグラフィーは、カラー画像に隠された情報を隠蔽する技術である。 その中でも、画像隠蔽ステガノグラフィー(画像付きハイディング画像)は、ステガノグラフィの能力の高さから近年注目を集めている。 しかし、画像隠蔽ステガノグラフィによって生成された画像は、明らかな色歪や人工的なテクスチャの痕跡を示す可能性がある。 本稿では,周波数サブバンド選択に基づくカラー画像ステガノグラフィーモデルを提案する。 まず,異なる色空間/周波数サブバンドの特性と生成画像の品質の関係について検討する。 次に、RGB画像のBチャネルを埋め込みチャネルとし、高周波サブバンドを埋め込み領域として選択する。 DWT(離散ウェーブレット変換)は、Bチャネル情報とシークレットグレー画像とを周波数領域情報に変換し、シークレット画像を埋め込み、周波数領域に抽出する。 総合的な実験により,本モデルが生成する画像の画質が向上し,感度が著しく向上することを示した。

Color image steganography based on deep learning is the art of hiding information in the color image. Among them, image hiding steganography(hiding image with image) has attracted much attention in recent years because of its great steganographic capacity. However, images generated by image hiding steganography may show some obvious color distortion or artificial texture traces. We propose a color image steganographic model based on frequency sub-band selection to solve the above problems. Firstly, we discuss the relationship between the characteristics of different color spaces/frequency sub-bands and the generated image quality. Then, we select the B channel of the RGB image as the embedding channel and the high-frequency sub-band as the embedding domain. DWT(discrete wavelet transformation) transforms B channel information and secret gray image into frequency domain information, and then the secret image is embedded and extracted in the frequency domain. Comprehensive experiments demonstrate that images generated by our model have better image quality, and the imperceptibility is significantly increased.
翻訳日:2021-12-30 20:57:04 公開日:2021-12-29
# (参考訳) Baihe: AI駆動データベースのためのSysMLフレームワーク [全文訳有]

Baihe: SysML Framework for AI-driven Databases ( http://arxiv.org/abs/2112.14460v1 )

ライセンス: CC BY 4.0
Andreas Pfadler, Rong Zhu, Wei Chen, Botong Huang, Tianjing Zeng, Bolin Ding, Jingren Zhou(参考訳) 我々はAI駆動データベースのためのSysMLフレームワークBaiheを紹介する。 Baiheを使用すると、既存のリレーショナルデータベースシステムは、クエリ最適化やその他の一般的なタスク(例えば、学習されたインデクシングの構造)に学習されたコンポーネントを使用するように再構成される。 Baiheの実用性と現実的な適用性を保証するため、そのハイレベルアーキテクチャは、コアシステムからの分離、最小限のサードパーティ依存性、ロバスト性、安定性とフォールトトレランス、安定性と構成性といった要件に基づいている。 ハイレベルなアーキテクチャに基づいて、postgresql用のbaiheの具体的な実装を説明し、学習したクエリオプティマイザのユースケースを例示する。 DBとAI4DBコミュニティの研究者の両方にサービスを提供するため、PostgreSQLのBaiheはオープンソースライセンスでリリースされる。

We present Baihe, a SysML Framework for AI-driven Databases. Using Baihe, an existing relational database system may be retrofitted to use learned components for query optimization or other common tasks, such as e.g. learned structure for indexing. To ensure the practicality and real world applicability of Baihe, its high level architecture is based on the following requirements: separation from the core system, minimal third party dependencies, Robustness, stability and fault tolerance, as well as stability and configurability. Based on the high level architecture, we then describe a concrete implementation of Baihe for PostgreSQL and present example use cases for learned query optimizers. To serve both practitioners, as well as researchers in the DB and AI4DB community Baihe for PostgreSQL will be released under open source license.
翻訳日:2021-12-30 20:32:37 公開日:2021-12-29
# (参考訳) 連合学習におけるビザンチン攻撃緩和の課題とアプローチ [全文訳有]

Challenges and approaches for mitigating byzantine attacks in federated learning ( http://arxiv.org/abs/2112.14468v1 )

ライセンス: CC BY 4.0
Shengshan Hu and Jianrong Lu and Wei Wan and Leo Yu Zhang(参考訳) 近年出現したフェデレートラーニング(FL)は、多くの無線エンドユーザーデバイスが、データを自動同期したグローバルモデルをトレーニングできる、魅力的な分散学習フレームワークである。 集中ストレージのためにユーザデータを収集する従来の機械学習フレームワークと比較すると、通信の負担が大きくなり、データプライバシが懸念されるため、このアプローチはネットワーク帯域幅を節約できるだけでなく、データのプライバシも保護できる。 将来性はあるものの、従来の分散ネットワークの難易度の高い脅威であるビザンチン攻撃はFLにも有効であることが判明した。 本稿では,FLにおけるビザンチン攻撃を防御するための最先端戦略を包括的に調査する。 まず、使用した技術に従って、既存の防衛ソリューションに対して分類を提供し、その後、全体比較と議論を行う。 次に,これらの防衛計画を打ち破るために,重み攻撃と呼ばれる新しいビザンチン攻撃法を提案し,その脅威を実証するための実験を行う。 その結果、既存の防衛ソリューションは豊富ではあるが、flを完全に保護するには程遠いことが判明した。 最後に,重み攻撃対策の可能性を示し,flにおけるビザンチン攻撃の軽減に向けたいくつかの課題と今後の研究方向について述べる。

Recently emerged federated learning (FL) is an attractive distributed learning framework in which numerous wireless end-user devices can train a global model with the data remained autochthonous. Compared with the traditional machine learning framework that collects user data for centralized storage, which brings huge communication burden and concerns about data privacy, this approach can not only save the network bandwidth but also protect the data privacy. Despite the promising prospect, byzantine attack, an intractable threat in conventional distributed network, is discovered to be rather efficacious against FL as well. In this paper, we conduct a comprehensive investigation of the state-of-the-art strategies for defending against byzantine attacks in FL. We first provide a taxonomy for the existing defense solutions according to the techniques they used, followed by an across-the-board comparison and discussion. Then we propose a new byzantine attack method called weight attack to defeat those defense schemes, and conduct experiments to demonstrate its threat. The results show that existing defense solutions, although abundant, are still far from fully protecting FL. Finally, we indicate possible countermeasures for weight attack, and highlight several challenges and future research directions for mitigating byzantine attacks in FL.
翻訳日:2021-12-30 20:19:02 公開日:2021-12-29
# (参考訳) テンポラルアテンション強化変圧器ホークスプロセス [全文訳有]

Temporal Attention Augmented Transformer Hawkes Process ( http://arxiv.org/abs/2112.14472v1 )

ライセンス: CC BY 4.0
Lu-ning Zhang, Jian-wei Liu, Zhi-yan Song, Xin Zuo(参考訳) 近年、ホークスプロセスによる非同期シーケンスからの知識のマイニングは、引き続き注目に値するテーマであり、ニューラルネットワークに基づくホークスプロセスは、特にrecurrent neural network(rnn)に基づいて、徐々に最もホットな研究分野となっている。 しかしながら、これらのモデルには、勾配の消滅や爆発、長期依存性の問題など、RNNの固有の欠点がある。 一方,自己注意に基づくトランスフォーマーは,テキスト処理や音声認識といった逐次モデリングにおいて大きな成功を収めている。 トランスフォーマーホークスプロセス(THP)は大幅な性能向上を図っているが、THPは非同期イベントの時間情報を効果的に利用していないが、これらの非同期シーケンスではイベント発生の瞬間はイベントの種類と同じくらい重要であり、従来のTHPは時間情報を位置符号化に変換して変換器の入力として追加する。 これを念頭に置いて,新しい種類のトランスフォーマティブ・ホークス・プロセスモデルであるtemporal attention augmented transformer hawkes process (taa-thp)を考案し,従来のドット製品アテンション構造を変更し,テンポラリエンコーディングをアテンション構造に導入した。 提案するtaa-thpモデルの性能を検証するために,多種多様な合成データと実時間データセットについて実験を行い,テストデータセット上でのログライク性,イベントタイプと発生時刻の予測精度など,既存のベースラインモデルと比較して大幅に改善した。 さらに, アブレーション研究を通じて, 時間的注意を伴わないモデルの性能を時間的注意と比べることで, 時間的注意を加えるメリットを鮮明に示す。

In recent years, mining the knowledge from asynchronous sequences by Hawkes process is a subject worthy of continued attention, and Hawkes processes based on the neural network have gradually become the most hotly researched fields, especially based on the recurrence neural network (RNN). However, these models still contain some inherent shortcomings of RNN, such as vanishing and exploding gradient and long-term dependency problems. Meanwhile, Transformer based on self-attention has achieved great success in sequential modeling like text processing and speech recognition. Although the Transformer Hawkes process (THP) has gained huge performance improvement, THPs do not effectively utilize the temporal information in the asynchronous events, for these asynchronous sequences, the event occurrence instants are as important as the types of events, while conventional THPs simply convert temporal information into position encoding and add them as the input of transformer. With this in mind, we come up with a new kind of Transformer-based Hawkes process model, Temporal Attention Augmented Transformer Hawkes Process (TAA-THP), we modify the traditional dot-product attention structure, and introduce the temporal encoding into attention structure. We conduct numerous experiments on a wide range of synthetic and real-life datasets to validate the performance of our proposed TAA-THP model, significantly improvement compared with existing baseline models on the different measurements is achieved, including log-likelihood on the test dataset, and prediction accuracies of event types and occurrence times. In addition, through the ablation studies, we vividly demonstrate the merit of introducing additional temporal attention by comparing the performance of the model with and without temporal attention.
翻訳日:2021-12-30 20:06:35 公開日:2021-12-29
# (参考訳) 事象不確実性予測のためのベイズニューラルホークス過程 [全文訳有]

Bayesian Neural Hawkes Process for Event Uncertainty Prediction ( http://arxiv.org/abs/2112.14474v1 )

ライセンス: CC BY 4.0
Manisha Dubey, Ragja Palakkadavath, P.K. Srijith(参考訳) 多くのアプリケーションは、イベント発生時のイベントデータのシーケンスで構成されている。 発生時刻を予測するモデルは、ソーシャルネットワーク、金融取引、ヘルスケア、人間の移動といった様々なアプリケーションにおいて重要な役割を果たす。 最近の研究は、イベント時間のモデリングのためのニューラルネットワークベースのポイントプロセスを導入し、イベント時間の予測に最先端のパフォーマンスを提供することを示した。 しかし、ニューラルネットワークは予測の不確かさの定量化に乏しく、外挿の間に自信過剰な予測をする傾向がある。 適切な不確実性定量化は多くの実用用途に不可欠である。 そこで本研究では,ベイズモデルの不確実性モデリング能力とニューラルネットワークの一般化能力を利用する,新しい点過程モデルBayesian Neural Hawkesを提案する。 このモデルは事象発生時間に対する認識の不確実性を予測することができ、シミュレーションおよび実世界のデータセット上での有効性を実証する。

Many applications comprise of sequences of event data with the time of occurrence of the events. Models for predicting time of occurrence play a significant role in a diverse set of applications like social networks, financial transactions, healthcare, and human mobility. Recent works have introduced neural network based point process for modeling event-times, and were shown to provide state-of-the-art performance in predicting event-times. However, neural networks are poor at quantifying predictive uncertainty and tend to produce overconfident predictions during extrapolation. A proper uncertainty quantification is crucial for many practical applications. Therefore, we propose a novel point process model, Bayesian Neural Hawkes process which leverages uncertainty modelling capability of Bayesian models and generalization capability of the neural networks. The model is capable of predicting epistemic uncertainty over the event occurrence time and its effectiveness is demonstrated for on simulated and real-world datasets.
翻訳日:2021-12-30 19:53:54 公開日:2021-12-29
# (参考訳) 適応的再帰イテレーションによるユニバーサルトランスフォーマーホークプロセス [全文訳有]

Universal Transformer Hawkes Process with Adaptive Recursive Iteration ( http://arxiv.org/abs/2112.14479v1 )

ライセンス: CC BY 4.0
Lu-ning Zhang, Jian-wei Liu, Zhi-yan Song, Xin Zuo(参考訳) 非同期イベントシーケンスは、自然界に広く分布し、地震記録、ソーシャルメディアでのユーザ活動など人間の活動も行われている。 これらの不規則なデータから情報を抽出する方法は、研究者が注目する永続的なトピックである。 最も有用なモデルの1つは点過程モデルであり、それに基づいて、研究者は多くの顕著な結果を得る。 また,近年では,ニューラルネットワーク,特にrecurrent neural networks (rnn) の基盤となる点過程モデルが提案され,従来のモデルと比較すると,その性能は大幅に向上している。 再帰的および畳み込み構造を必要とせず、効率的にシーケンスデータを学習できるトランスモデルにより、トランスフォーマーホークスプロセスが登場し、最先端の性能を達成する。 しかし, 変圧器における再帰的計算の再現により, 変圧器の性能が向上することを示す研究もある。 そこで我々は、再帰的機構と自己認識機構の両方を含む新しいタイプのトランスフォーマーホークスプロセスモデルUTHP(Universal Transformer Hawkes Process Model)を考案し、モデルの局所的な知覚能力を向上させるために、位置対応型フォワード部分に畳み込みニューラルネットワーク(CNN)を導入する。 我々は,UTHPの有効性を検証するためにいくつかのデータセットの実験を行い,再帰的機構の導入後の変化について検討する。 複数のデータセットに対するこれらの実験により,提案した新モデルの性能は,従来の最先端モデルと比較してある程度改善されていることが示された。

Asynchronous events sequences are widely distributed in the natural world and human activities, such as earthquakes records, users activities in social media and so on. How to distill the information from these seemingly disorganized data is a persistent topic that researchers focus on. The one of the most useful model is the point process model, and on the basis, the researchers obtain many noticeable results. Moreover, in recent years, point process models on the foundation of neural networks, especially recurrent neural networks (RNN) are proposed and compare with the traditional models, their performance are greatly improved. Enlighten by transformer model, which can learning sequence data efficiently without recurrent and convolutional structure, transformer Hawkes process is come out, and achieves state-of-the-art performance. However, there is some research proving that the re-introduction of recursive calculations in transformer can further improve transformers performance. Thus, we come out with a new kind of transformer Hawkes process model, universal transformer Hawkes process (UTHP), which contains both recursive mechanism and self-attention mechanism, and to improve the local perception ability of the model, we also introduce convolutional neural network (CNN) in the position-wise-feed-f orward part. We conduct experiments on several datasets to validate the effectiveness of UTHP and explore the changes after the introduction of the recursive mechanism. These experiments on multiple datasets demonstrate that the performance of our proposed new model has a certain improvement compared with the previous state-of-the-art models.
翻訳日:2021-12-30 19:36:39 公開日:2021-12-29
# (参考訳) 人間中心人工知能の基礎的側面について [全文訳有]

On some Foundational Aspects of Human-Centered Artificial Intelligence ( http://arxiv.org/abs/2112.14480v1 )

ライセンス: CC BY 4.0
Luciano Serafini, Raul Barbosa, Jasmin Grosinger, Luca Iocchi, Christian Napoli, Salvatore Rinzivillo, Jacques Robin, Alessandro Saffiotti, Teresa Scantamburlo, Peter Schueller, Paolo Traverso, Javier Vazquez-Salceda(参考訳) AIの急成長は、AI技術は「人間中心」であるべきだという勧告を促している。 しかし、人間中心人工知能(Human Centered Artificial Intelligence)や略してHCAIの意味を明確に定義することはできない。 本稿では,HCAIの基本的側面に対処することで,この状況を改善することを目的とする。 HCAIエージェントという用語は、AIコンポーネントを備えた任意の物理またはソフトウェア計算エージェントを指し、人間と対話したり、協力したりすることができる。 この記事では、HCAIエージェントに参加する5つの主要な概念的要素、すなわち、観察、要求、行動、説明、モデルを特定する。 HCAIエージェントの概念は、そのコンポーネントや機能とともに、人間中心のAIに関する技術的および非技術的議論を橋渡しする手段であると考えています。 本稿では,人間の存在下で動的環境で動作する単一のエージェントからなるシナリオに着目した分析を行う。

The burgeoning of AI has prompted recommendations that AI techniques should be "human-centered". However, there is no clear definition of what is meant by Human Centered Artificial Intelligence, or for short, HCAI. This paper aims to improve this situation by addressing some foundational aspects of HCAI. To do so, we introduce the term HCAI agent to refer to any physical or software computational agent equipped with AI components and that interacts and/or collaborates with humans. This article identifies five main conceptual components that participate in an HCAI agent: Observations, Requirements, Actions, Explanations and Models. We see the notion of HCAI agent, together with its components and functions, as a way to bridge the technical and non-technical discussions on human-centered AI. In this paper, we focus our analysis on scenarios consisting of a single agent operating in dynamic environments in presence of humans.
翻訳日:2021-12-30 19:21:55 公開日:2021-12-29
# (参考訳) GPS:グラフ表現学習のためのポリシー駆動サンプリングアプローチ [全文訳有]

GPS: A Policy-driven Sampling Approach for Graph Representation Learning ( http://arxiv.org/abs/2112.14482v1 )

ライセンス: CC BY 4.0
Tiehua Zhang, Yuze Liu, Xin Chen, Xiaowei Huang, Feng Zhu, Xi Zheng(参考訳) グラフ表現学習は近年注目を集めており、特に分類とレコメンデーションタスクのためのノードレベルとグラフレベルの低次元埋め込みを学習している。 実世界における大規模グラフデータの表現を学習するために、多くの研究がトレーニングプロセスを容易にする様々なサンプリング戦略の開発に重点を置いている。 本稿では,適応相関計算によって局所近傍の各ノードの影響を実現した適応グラフポリシー駆動サンプリングモデル(gps)を提案する。 具体的には、隣人の選択は適応ポリシーアルゴリズムによって誘導され、メッセージアグリゲーション、ノード埋め込み更新、グラフレベルの読み込みステップに直接寄与する。 次に,様々な観点から,グラフ分類タスクのベースライン手法に対する総合的な実験を行う。 提案モデルは,既存のベンチマークを3%~8%上回って,実世界のデータセットで最先端のパフォーマンスを実現している。

Graph representation learning has drawn increasing attention in recent years, especially for learning the low dimensional embedding at both node and graph level for classification and recommendations tasks. To enable learning the representation on the large-scale graph data in the real world, numerous research has focused on developing different sampling strategies to facilitate the training process. Herein, we propose an adaptive Graph Policy-driven Sampling model (GPS), where the influence of each node in the local neighborhood is realized through the adaptive correlation calculation. Specifically, the selections of the neighbors are guided by an adaptive policy algorithm, contributing directly to the message aggregation, node embedding updating, and graph level readout steps. We then conduct comprehensive experiments against baseline methods on graph classification tasks from various perspectives. Our proposed model outperforms the existing ones by 3%-8% on several vital benchmarks, achieving state-of-the-art performance in real-world datasets.
翻訳日:2021-12-30 19:09:24 公開日:2021-12-29
# (参考訳) CNNを用いたカメラトラップ画像分類のための二相訓練によるクラス不均衡軽減 [全文訳有]

Two-phase training mitigates class imbalance for camera trap image classification with CNNs ( http://arxiv.org/abs/2112.14491v1 )

ライセンス: CC BY 4.0
Farjad Malik, Simon Wouters, Ruben Cartuyvels, Erfan Ghadery, Marie-Francine Moens(参考訳) ディープラーニングを利用して自動的にカメラトラップ画像を分類することで、生態学者は生態系に対する生物多様性の保全と気候変動の影響をより効率的に監視することができる。 カメラトラップデータセットの不均衡なクラス分布のため、現在のモデルは多数派に偏っている。 その結果、少数のクラスでは良いパフォーマンスを得たが、多くのマイノリティクラスではパフォーマンスが低かった。 マイノリティクラスのパフォーマンス向上のため,2段階のトレーニングを行った。 ベースラインモデルの横に,高度に不均衡なスナップショットであるserengetiデータセットのサブセット上で,異なるバージョンの2相トレーニングを実装した4つのモデルをトレーニングした。 以上の結果から,2段階学習は少数クラスの性能向上に寄与し,他クラスのパフォーマンス低下を抑えることが示唆された。 多数決アンサンプに基づく2段階トレーニングはクラス固有のF1スコアを最大3.0%増加させる。 また,f1-scoreでは,オーバーサンプリングやアンダーサンプリングのみを用いた2相トレーニングの方が平均6.1%高い値を示した。 最後に、オーバーサンプリングとアンダーサンプリングの組み合わせは、個別に使用するよりも優れたパフォーマンスをもたらすことが分かりました。

By leveraging deep learning to automatically classify camera trap images, ecologists can monitor biodiversity conservation efforts and the effects of climate change on ecosystems more efficiently. Due to the imbalanced class-distribution of camera trap datasets, current models are biased towards the majority classes. As a result, they obtain good performance for a few majority classes but poor performance for many minority classes. We used two-phase training to increase the performance for these minority classes. We trained, next to a baseline model, four models that implemented a different versions of two-phase training on a subset of the highly imbalanced Snapshot Serengeti dataset. Our results suggest that two-phase training can improve performance for many minority classes, with limited loss in performance for the other classes. We find that two-phase training based on majority undersampling increases class-specific F1-scores up to 3.0%. We also find that two-phase training outperforms using only oversampling or undersampling by 6.1% in F1-score on average. Finally, we find that a combination of over- and undersampling leads to a better performance than using them individually.
翻訳日:2021-12-30 18:56:53 公開日:2021-12-29
# (参考訳) グラフニューラルネットワークのトポロジ設計:新しい特徴融合の視点から [全文訳有]

Designing the Topology of Graph Neural Networks: A Novel Feature Fusion Perspective ( http://arxiv.org/abs/2112.14531v1 )

ライセンス: CC BY 4.0
Lanning Wei, Huan Zhao, Zhiqiang He(参考訳) 近年、グラフニューラルネットワーク(GNN)は様々な現実世界のアプリケーションにおいて優れた性能を示している。 GNNトポロジ設計は,アグリゲーション操作の設計に加えて,モデルのキャパシティ向上のためにも重要である。 一般に、2つの主要なGNNトポロジー設計方法がある。 まず、高度な機能を得るために集約処理をスタックするが、ネットワークが深くなると簡単にパフォーマンスが低下する。 次に、複数のアグリゲーション操作を各レイヤで活用し、各レイヤに適切な独立した特徴抽出ステージを提供しつつ、高レベル情報を得るコストを高くする。 これらの2つの方法の欠点を緩和しつつ、その利点を享受するために、我々はF$^2$GNNと呼ばれる新しい特徴融合の観点からGNNのトポロジを設計することを学ぶ。 具体的には,GNNトポロジ設計における機能融合の視点を提供し,既存のトポロジ設計を特徴選択と融合戦略で統一する新しいフレームワークを提案する。 次に,検索空間における一連の選択・融合操作と改良された微分可能探索アルゴリズムを含む統一フレームワーク上に,ニューラルネットワーク探索法を開発した。 8つの実世界のデータセットのパフォーマンス向上は、F$^2$GNNの有効性を示す。 さらに、F$^2$GNNが、既存のGNNトポロジ設計手法の欠陥を軽減しつつ、モデルのキャパシティを向上できることを示す実験を行い、特に過度なスムーシング問題を緩和し、異なるレベルの特徴を適応的に活用することを示した。

In recent years, Graph Neural Networks (GNNs) have shown superior performance on diverse real-world applications. To improve the model capacity, besides designing aggregation operations, GNN topology design is also very important. In general, there are two mainstream GNN topology design manners. The first one is to stack aggregation operations to obtain the higher-level features but easily got performance drop as the network goes deeper. Secondly, the multiple aggregation operations are utilized in each layer which provides adequate and independent feature extraction stage on local neighbors while are costly to obtain the higher-level information. To enjoy the benefits while alleviating the corresponding deficiencies of these two manners, we learn to design the topology of GNNs in a novel feature fusion perspective which is dubbed F$^2$GNN. To be specific, we provide a feature fusion perspective in designing GNN topology and propose a novel framework to unify the existing topology designs with feature selection and fusion strategies. Then we develop a neural architecture search method on top of the unified framework which contains a set of selection and fusion operations in the search space and an improved differentiable search algorithm. The performance gains on eight real-world datasets demonstrate the effectiveness of F$^2$GNN. We further conduct experiments to show that F$^2$GNN can improve the model capacity while alleviating the deficiencies of existing GNN topology design manners, especially alleviating the over-smoothing problem, by utilizing different levels of features adaptively.
翻訳日:2021-12-30 18:41:31 公開日:2021-12-29
# (参考訳) 深層ニューラルネットワークを用いた衛星画像からのuav基地局高度最適化 [全文訳有]

Altitude Optimization of UAV Base Stations from Satellite Images Using Deep Neural Network ( http://arxiv.org/abs/2112.14551v1 )

ライセンス: CC BY 4.0
Ibrahim Shoer, Bahadir K. Gunturk, Hasan F. Ates, Tuncer Baykas(参考訳) 無人航空機(UAV)が将来の通信システムにおいて重要な役割を果たすことが期待されている。 基地局として機能するUAVの最適位置決めは、興味のある領域の3Dモデルが利用できる場合に、広範囲なフィールド計測やレイトレーシングシミュレーションによって行うことができる。 本稿では,uav基地局高度を地域ごとに最適化するための代替手法を提案する。 アプローチはディープラーニングに基づいており、具体的には、ターゲット領域の2D衛星画像が深層ニューラルネットワークに入力され、異なるUAV高度の経路損失分布を予測する。 予測された経路分布を用いて地域の範囲を計算し、その範囲を最大化する最適な高度を決定する。 ニューラルネットワークは、単一の推論で複数の経路損失分布を生成するように設計され、訓練されているため、高度ごとに別々のネットワークを訓練する必要はない。

It is expected that unmanned aerial vehicles (UAVs) will play a vital role in future communication systems. Optimum positioning of UAVs, serving as base stations, can be done through extensive field measurements or ray tracing simulations when the 3D model of the region of interest is available. In this paper, we present an alternative approach to optimize UAV base station altitude for a region. The approach is based on deep learning; specifically, a 2D satellite image of the target region is input to a deep neural network to predict path loss distributions for different UAV altitudes. The predicted path distributions are used to calculate the coverage in the region; and the optimum altitude, maximizing the coverage, is determined. The neural network is designed and trained to produce multiple path loss distributions in a single inference; thus, it is not necessary to train a separate network for each altitude.
翻訳日:2021-12-30 18:22:02 公開日:2021-12-29
# (参考訳) carlaにおける実世界運転体験を用いたddpg車追従モデル [全文訳有]

DDPG car-following model with real-world human driving experience in CARLA ( http://arxiv.org/abs/2112.14602v1 )

ライセンス: CC BY 4.0
Dianzhao Li and Ostap Okhrin(参考訳) 自律運転分野では、人間の知識を深層強化学習(DRL)に融合させることは、シミュレーション環境で記録された人間の実演に基づいていることが多い。 これにより、現実世界のトラフィックにおけるアプリケーションの一般化と実現性が制限される。 そこで本研究では,実世界の人間の運転から学習し,純粋なDRLエージェントよりも優れた性能を実現するための2段階DRL手法を提案する。 DRLエージェントのトレーニングは、ロボットオペレーティングシステム(ROS)を使用したCARLAのフレームワーク内で行われる。 評価のために、提案した2段DRLエージェントと純粋なDRLエージェントを比較するために、異なる実世界の運転シナリオを設計した。 信号交差点での予測などの「良い」動作を人間の運転者から抽出した後、エージェントはより効率的になり、より安全に運転し、この自律エージェントは人間-ロボットインタラクション(HRI)のトラフィックに適応する。

In the autonomous driving field, the fusion of human knowledge into Deep Reinforcement Learning (DRL) is often based on the human demonstration recorded in the simulated environment. This limits the generalization and the feasibility of application in real-world traffic. We proposed a two-stage DRL method, that learns from real-world human driving to achieve performance that is superior to the pure DRL agent. Training a DRL agent is done within a framework for CARLA with Robot Operating System (ROS). For evaluation, we designed different real-world driving scenarios to compare the proposed two-stage DRL agent with the pure DRL agent. After extracting the 'good' behavior from the human driver, such as anticipation in a signalized intersection, the agent becomes more efficient and drives safer, which makes this autonomous agent more adapt to Human-Robot Interaction (HRI) traffic.
翻訳日:2021-12-30 18:10:52 公開日:2021-12-29
# (参考訳) 医療用ピアインフルエンスのためのshapley値グラフフレームワークに向けて [全文訳有]

Towards a Shapley Value Graph Framework for Medical peer-influence ( http://arxiv.org/abs/2112.14624v1 )

ライセンス: CC BY 4.0
Jamie Duell, Monika Seisenberger, Gert Aarts, Shangming Zhou and Xiuyi Fan(参考訳) eXplainable Artificial Intelligence (XAI)は、AI研究の最前線にある人工知能(AI)のサブフィールドである。 XAIの特徴帰属法では、特徴の重要性という形で説明ができる。 既存の特徴帰属法の制限は、介入の結果に対する説明の欠如である。 特定の予測への貢献は強調されるが、特徴と介入の結果が与える影響については触れられていない。 本稿では,ブラックボックス機械学習(ml)モデルの解釈性向上とインフォメーション介入の改善を目的として,特徴間インタラクションにグラフ表現を用いた説明を深く掘り下げる新たなフレームワークを提案する。

eXplainable Artificial Intelligence (XAI) is a sub-field of Artificial Intelligence (AI) that is at the forefront of AI research. In XAI feature attribution methods produce explanations in the form of feature importance. A limitation of existing feature attribution methods is that there is a lack of explanation towards the consequence of intervention. Although contribution towards a certain prediction is highlighted, the influence between features and the consequence of intervention is not addressed. The aim of this paper is to introduce a new framework to look deeper into explanations using graph representation for feature-to-feature interactions to improve the interpretability of black-box Machine Learning (ML) models and inform intervention.
翻訳日:2021-12-30 17:37:32 公開日:2021-12-29
# (参考訳) 前立腺癌診断のための3次元マルチパラメトリックmriによる畳み込みニューラルネットワークアーキテクチャの実装 [全文訳有]

Implementation of Convolutional Neural Network Architecture on 3D Multiparametric Magnetic Resonance Imaging for Prostate Cancer Diagnosis ( http://arxiv.org/abs/2112.14644v1 )

ライセンス: CC BY 4.0
Ping-Chang Lin, Teodora Szasz, and Hakizumwami B. Runesha(参考訳) 前立腺癌は、男性のがん死の最も一般的な原因の1つである。 臨床における現在の標準前立腺がんリスクアセスメントを促進する非侵襲的かつ正確な診断方法に対する需要が高まっている。 それでもマルチパラメトリック磁気共鳴画像からの前立腺がん診断におけるコンピュータ支援分類ツールの開発は課題である。 本研究では,2段階のマルチストリーム畳み込みニューラルネットワーク(CNN)に基づくアーキテクチャ構築により,対応する磁気共鳴画像における前立腺病変の自動分類のための新しいディープラーニング手法を提案する。 画像前処理ステップやサードパーティ製ソフトウェアを実装せずに,受信者動作特性(ROC)曲線値0.87の領域で分類性能を達成した。 その結果、提案された手法のほとんどを上回り、ProSTATEX Challengeの主催者が報告した最も高い価値を共有した。 前立腺癌における医用画像の解釈支援と不要な生検の削減の可能性を反映したcnnベースの枠組みを提案する。

Prostate cancer is one of the most common causes of cancer deaths in men. There is a growing demand for noninvasively and accurately diagnostic methods that facilitate the current standard prostate cancer risk assessment in clinical practice. Still, developing computer-aided classification tools in prostate cancer diagnostics from multiparametric magnetic resonance images continues to be a challenge. In this work, we propose a novel deep learning approach for automatic classification of prostate lesions in the corresponding magnetic resonance images by constructing a two-stage multimodal multi-stream convolutional neural network (CNN)-based architecture framework. Without implementing sophisticated image preprocessing steps or third-party software, our framework achieved the classification performance with the area under a Receiver Operating Characteristic (ROC) curve value of 0.87. The result outperformed most of the submitted methods and shared the highest value reported by the PROSTATEx Challenge organizer. Our proposed CNN-based framework reflects the potential of assisting medical image interpretation in prostate cancer and reducing unnecessary biopsies.
翻訳日:2021-12-30 17:13:44 公開日:2021-12-29
# DeepHAM: 凝集衝撃を伴う不均一エージェントモデルのグローバル解法

DeepHAM: A Global Solution Method for Heterogeneous Agent Models with Aggregate Shocks ( http://arxiv.org/abs/2112.14377v1 )

ライセンス: Link先を確認
Jiequn Han, Yucheng Yang, Weinan E(参考訳) 本稿では,ヘテロジニアスエージェントモデルのための効率的で信頼性が高く解釈可能なグローバルソリューション法である$\textit{deep Learning-based algorithm for Heterogeneous Agent Models, DeepHAM}$を提案する。 状態分布は、概して最適な一般化モーメントの集合で表される。 ディープニューラルネットワークは、値とポリシー関数の近似に使用され、目的が直接シミュレーションされたパスに最適化される。 正確なグローバルソルバであることに加えて、このメソッドには3つの追加機能がある。 第一に、複素不均一なエージェントモデルを解くのに計算効率が高く、次元の呪いに苦しむことはない。 第二に、個々の状態上の分布の一般的かつ解釈可能な表現を提供しており、マクロ経済学において不均一性が重要であるかどうかという古典的な問題に対処するために重要である。 第三に、競争均衡と同じくらい容易に制約された効率問題を解き、これは集合ショックを伴う異種エージェントモデルにおいて最適な金融政策と財政政策を研究する新たな可能性を開く。

We propose an efficient, reliable, and interpretable global solution method, $\textit{Deep learning-based algorithm for Heterogeneous Agent Models, DeepHAM}$, for solving high dimensional heterogeneous agent models with aggregate shocks. The state distribution is approximately represented by a set of optimal generalized moments. Deep neural networks are used to approximate the value and policy functions, and the objective is optimized over directly simulated paths. Besides being an accurate global solver, this method has three additional features. First, it is computationally efficient for solving complex heterogeneous agent models, and it does not suffer from the curse of dimensionality. Second, it provides a general and interpretable representation of the distribution over individual states; and this is important for addressing the classical question of whether and how heterogeneity matters in macroeconomics. Third, it solves the constrained efficiency problem as easily as the competitive equilibrium, and this opens up new possibilities for studying optimal monetary and fiscal policies in heterogeneous agent models with aggregate shocks.
翻訳日:2021-12-30 16:36:24 公開日:2021-12-29
# 生徒の行動, そのアプローチ, 感情, 課題難易度がオンラインコーディング活動におけるパフォーマンス予測, 評価, 学習過程に及ぼす影響

The impact of students behaviour, their approach, emotions and problem difficulty level on the performance prediction, evaluation and overall learning process during online coding activities ( http://arxiv.org/abs/2112.14407v1 )

ライセンス: Link先を確認
Dr. Hardik Patel, Dr. Purvi Koringa(参考訳) コーディング問題を解きながらプロセスを学ぶことは、非常に複雑です。 コーディングを学ぶ際に必要とされるスキルを理解することは極めて重要です。 プログラミング学習における学生の行動とアプローチを理解するための第一歩として、オンラインコーディングの課題と競技を1時間以内で行う。 各コーディングテストの最後に調査が行われ、さまざまな質問に対する回答が収集された。 コーディング問題を解きながら学習過程を理解するために,深い統計解析を行う。 これには、学生の行動、そのアプローチ、コーディング問題の難易度など、多くのパラメータが含まれる。 気分や感情に関連する質問を取り入れることで、全体的な予測性能は向上するが、提出状況の予測では難易度が問題となる。 229(ファーストコーディングコンペティションデータセット)と325(セカンドコーディングコンペティションデータセット)のデータポイントに関する詳細な調査を通じて、2つのコーディングアサインやコンペティションが分析される。 主な結果は有望であり、これらの結果は、コーディング問題を解決するための学習が学生の行動、アプローチ、感情、問題難易度によってどのように影響を受けるかについて深い洞察を与える。

Learning process while solving coding problems is quite complex to understand. It is extremely important to understand the skills which are required and gained during learning to code. As a first step to understand the students behaviour and approach during learning coding, two online coding assignments or competitions are conducted with a 1-hour time limit. A survey has been conducted at the end of each coding test and answers to different questions have been collected. In depth statistical analysis is done to understand the learning process while solving the coding problems. It involves lots of parameters including students behaviour, their approach and difficulty level of coding problems. The inclusion of mood and emotions related questions can improve overall prediction performance but difficulty level matters in the submission status prediction. Two coding assignments or competitions are analyzed through in-depth research on 229 (first coding competition dataset) and 325 (second coding competition dataset) data points. The primary results are promising and these results give in depth insights about how learning to solve coding problems is affected by students behaviour, their approach, emotions and problem difficulty level.
翻訳日:2021-12-30 16:36:05 公開日:2021-12-29
# データ駆動計算によるアトラクション領域の計算法とズボフ方程式

Data-Driven Computational Methods for the Domain of Attraction and Zubov's Equation ( http://arxiv.org/abs/2112.14415v1 )

ライセンス: Link先を確認
Wei Kang, Kai Sun, Liang Xu(参考訳) 本稿では、特別な種類のリャプノフ函数、すなわちズボフ方程式の解を扱う。 そのような関数は、通常の微分方程式系のアトラクション領域を特徴付けるのに使うことができる。 我々はズボフ方程式の積分形式解を導出し、証明する。 数値計算では,2つのデータ駆動手法を開発した。 1つは微分方程式の強化システムの統合に基づくもので、もう1つはディープラーニングに基づくものである。 前者は比較的低い状態空間次元を持つシステムに有効であり、後者は高次元問題に有効である。 深層学習法はニューイングランドの10世代電力系統モデルに適用される。 電力系統のリアプノフ関数に対して、近似誤差が生成器数の立方多項式であるようなニューラルネットワーク近似が存在することを証明した。 ニューロンの数であるnの関数としての誤差収束速度が証明される。

This paper deals with a special type of Lyapunov functions, namely the solution of Zubov's equation. Such a function can be used to characterize the domain of attraction for systems of ordinary differential equations. We derive and prove an integral form solution to Zubov's equation. For numerical computation, we develop two data-driven methods. One is based on the integration of an augmented system of differential equations; and the other one is based on deep learning. The former is effective for systems with a relatively low state space dimension and the latter is developed for high dimensional problems. The deep learning method is applied to a New England 10-generator power system model. We prove that a neural network approximation exists for the Lyapunov function of power systems such that the approximation error is a cubic polynomial of the number of generators. The error convergence rate as a function of n, the number of neurons, is proved.
翻訳日:2021-12-30 16:35:44 公開日:2021-12-29
# 簡易インスタンスの差分生成クラスタリング

Differentially-Priva te Clustering of Easy Instances ( http://arxiv.org/abs/2112.14445v1 )

ライセンス: Link先を確認
Edith Cohen, Haim Kaplan, Yishay Mansour, Uri Stemmer, Eliad Tsfadia(参考訳) データ分析におけるクラスタリングは根本的な問題である。 異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。 重大な研究の進展にもかかわらず、この問題は実際的な解決策に抵抗していた。 本研究では,クラスタ間の分離が著しい場合など,データの“容易”な場合に有用性を提供する,簡易な実装可能な差分プライベートクラスタリングアルゴリズムを提供することを目標としている。 我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに結合するフレームワークを提案する。 ガウス混合と$k$-meansのいくつかの場合において、サンプルの複雑さ境界を改善することができる。 我々は合成データに関する経験的評価で理論解析を補完する。

Clustering is a fundamental problem in data analysis. In differentially private clustering, the goal is to identify $k$ cluster centers without disclosing information on individual data points. Despite significant research progress, the problem had so far resisted practical solutions. In this work we aim at providing simple implementable differentially private clustering algorithms that provide utility when the data is "easy," e.g., when there exists a significant separation between the clusters. We propose a framework that allows us to apply non-private clustering algorithms to the easy instances and privately combine the results. We are able to get improved sample complexity bounds in some cases of Gaussian mixtures and $k$-means. We complement our theoretical analysis with an empirical evaluation on synthetic data.
翻訳日:2021-12-30 16:35:05 公開日:2021-12-29
# (参考訳) metagraspnet:物理に基づくメタバース合成によるビジョン駆動ロボット把持のための大規模ベンチマークデータセット [全文訳有]

MetaGraspNet: A Large-Scale Benchmark Dataset forVision-driven Robotic Grasping via Physics-basedMetaver se Synthesis ( http://arxiv.org/abs/2112.14663v1 )

ライセンス: CC BY 4.0
Yuhao Chen, E. Zhixuan Zeng, Maximilian Gilles, Alexander Wong(参考訳) ロボットシステムを活用したスマートファクトリーへの関心が高まっている。 ロボット工学を駆使したスマートファクトリアプリケーションでは、ロボットアームを使って、さまざまな環境でオブジェクトを自律的に把握する。 ロボットの把握には、オブジェクト検出、セグメンテーション、把握予測、ピックプランニングなど、さまざまなコンピュータビジョンタスクが必要である。 ロボットの把持、特にディープラーニングに機械学習を活用することには大きな進歩があったが、大規模で高品質なrgbdデータセットが必要であり、多様なシナリオと順列をカバーしている。 この巨大で多様なデータ問題に対処するために、私たちはメタバースの概念の近年の台頭に触発され、仮想世界と物理世界の間に大きなギャップを埋めました。 メタバースは、実世界の製造シナリオのデジタルツインを作り、トレーニングモデルのために大量のデータを生成できるさまざまなシナリオを仮想的に作成することを可能にする。 本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットMetaGraspNetを提案する。 提案するデータセットは、10万の画像と25の異なるオブジェクトタイプを含み、異なる把握シナリオでオブジェクトの検出とセグメンテーションモデルのパフォーマンスを評価する5つの困難に分割される。 また,既存の汎用性能指標と比較してロボット把持アプリケーションに適するように,オブジェクト検出とセグメンテーション性能を評価するためのデータセットと並行して,新しいレイアウト重み付け性能指標を提案する。 ベンチマークデータセットはKaggle上でオープンソースとして公開されており、第1フェーズは詳細なオブジェクト検出、セグメンテーション、レイアウトアノテーション、レイアウト重み付けされたパフォーマンスメトリックスクリプトで構成されています。

There has been increasing interest in smart factories powered by robotics systems to tackle repetitive, laborious tasks. One impactful yet challenging task in robotics-powered smart factory applications is robotic grasping: using robotic arms to grasp objects autonomously in different settings. Robotic grasping requires a variety of computer vision tasks such as object detection, segmentation, grasp prediction, pick planning, etc. While significant progress has been made in leveraging of machine learning for robotic grasping, particularly with deep learning, a big challenge remains in the need for large-scale, high-quality RGBD datasets that cover a wide diversity of scenarios and permutations. To tackle this big, diverse data problem, we are inspired by the recent rise in the concept of metaverse, which has greatly closed the gap between virtual worlds and the physical world. Metaverses allow us to create digital twins of real-world manufacturing scenarios and to virtually create different scenarios from which large volumes of data can be generated for training models. In this paper, we present MetaGraspNet: a large-scale benchmark dataset for vision-driven robotic grasping via physics-based metaverse synthesis. The proposed dataset contains 100,000 images and 25 different object types and is split into 5 difficulties to evaluate object detection and segmentation model performance in different grasping scenarios. We also propose a new layout-weighted performance metric alongside the dataset for evaluating object detection and segmentation performance in a manner that is more appropriate for robotic grasp applications compared to existing general-purpose performance metrics. Our benchmark dataset is available open-source on Kaggle, with the first phase consisting of detailed object detection, segmentation, layout annotations, and a layout-weighted performance metric script.
翻訳日:2021-12-30 16:33:21 公開日:2021-12-29
# 希少疾患予測のための特徴文脈駆動フェデレーションメタラーニング

Feature-context driven Federated Meta-Learning for Rare Disease Prediction ( http://arxiv.org/abs/2112.14364v1 )

ライセンス: Link先を確認
Bingyang Chen, Tao Chen, Xingjie Zeng, Weishan Zhang, Qinghua Lu, Zhaoxiang Hou, Jiehan Zhou and Sumi Helal (IEEE Fellow)(参考訳) 世界中で何百万人もの患者がまれな病気に苦しんでいる。 しかし、まれな疾患のサンプルは一般的な疾患のサンプルよりもはるかに小さい。 さらに、医療データの感度のため、病院は通常、プライバシー上の懸念から、データ融合のために患者情報を共有することを避けている。 これらの課題は、従来のaiモデルが疾患予測のために希少な疾患の特徴を抽出するのを困難にしている。 本稿では,フェデレーションメタラーニングに基づく稀な疾患予測のための新しい手法を提案することで,この限界を克服する。 希少疾患の予測精度を向上させるために,学習者の測定した訓練効果に応じて異なる課題に対する注意を動的に調整する注意型メタラーニング(atml)手法を考案する。 さらに,各局所モデルの精度に基づいてクライアントを動的に選択するフェデレーション学習の精度を向上させるために,動的重み付けに基づく融合戦略を提案する。 実験の結果,本手法は5ショット程度の精度でオリジナルのフェデレーションメタラーニングアルゴリズムよりも精度と速度が優れていることがわかった。 各病院の局所モデルと比較すると,提案モデルの平均予測精度は13.28%向上した。

Millions of patients suffer from rare diseases around the world. However, the samples of rare diseases are much smaller than those of common diseases. In addition, due to the sensitivity of medical data, hospitals are usually reluctant to share patient information for data fusion citing privacy concerns. These challenges make it difficult for traditional AI models to extract rare disease features for the purpose of disease prediction. In this paper, we overcome this limitation by proposing a novel approach for rare disease prediction based on federated meta-learning. To improve the prediction accuracy of rare diseases, we design an attention-based meta-learning (ATML) approach which dynamically adjusts the attention to different tasks according to the measured training effect of base learners. Additionally, a dynamic-weight based fusion strategy is proposed to further improve the accuracy of federated learning, which dynamically selects clients based on the accuracy of each local model. Experiments show that with as few as five shots, our approach out-performs the original federated meta-learning algorithm in accuracy and speed. Compared with each hospital's local model, the proposed model's average prediction accuracy increased by 13.28%.
翻訳日:2021-12-30 16:23:38 公開日:2021-12-29
# 伝達学習による渦誘発振動の物理インフォームドニューラルネットワークモデル

A transfer learning enhanced the physics-informed neural network model for vortex-induced vibration ( http://arxiv.org/abs/2112.14448v1 )

ライセンス: Link先を確認
Hesheng Tang, Hu Yang, Yangyang Liao, Liyu Xie(参考訳) 渦誘起振動(VIV)は典型的な非線形流体構造相互作用現象であり、実用工学(フレキシブルライザー、ブリッジ、航空機翼など)に広く存在している。 従来の有限要素モデル(FEM)に基づく、VIV分析のためのデータ駆動型アプローチは、しばしば計算コストとデータセットの取得の課題に悩まされる。 本稿では、VIV(2D)を研究するために、物理情報ニューラルネットワーク(PINN)モデルを用いた転送学習を提案する。 物理インフォームドニューラルネットワークは、転送学習法と併用することにより、学習効率を高め、大量のデータセットを必要とせずに、ソースモデルからの共通特性知識による目標タスクの予測可能性を維持する。 viv実験から得られたデータセットを2つの部分(ソースドメインとターゲットドメイン)を均等に分割し、モデルの性能を評価する。 提案手法は,学習モデルで得られたデータセットの量が徐々に小さくなりつつも,従来のPINNアルゴリズムを用いて文献で得られる結果と密接に一致している。 このモデルの応用は、実用プロジェクトにおける監視装置と方法の限界を破り、VIVの詳細な研究を促進することができる。

Vortex-induced vibration (VIV) is a typical nonlinear fluid-structure interaction phenomenon, which widely exists in practical engineering (the flexible riser, the bridge and the aircraft wing, etc). The conventional finite element model (FEM)-based and data-driven approaches for VIV analysis often suffer from the challenges of the computational cost and acquisition of datasets. This paper proposed a transfer learning enhanced the physics-informed neural network (PINN) model to study the VIV (2D). The physics-informed neural network, when used in conjunction with the transfer learning method, enhances learning efficiency and keeps predictability in the target task by common characteristics knowledge from the source model without requiring a huge quantity of datasets. The datasets obtained from VIV experiment are divided evenly two parts (source domain and target domain), to evaluate the performance of the model. The results show that the proposed method match closely with the results available in the literature using conventional PINN algorithms even though the quantity of datasets acquired in training model gradually becomes smaller. The application of the model can break the limitation of monitoring equipment and methods in the practical projects, and promote the in-depth study of VIV.
翻訳日:2021-12-30 16:23:21 公開日:2021-12-29
# 量子系ハミルトニアンのアクティブラーニングはクエリの利点をもたらす

Active Learning of Quantum System Hamiltonians yields Query Advantage ( http://arxiv.org/abs/2112.14553v1 )

ライセンス: Link先を確認
Arkopal Dutt, Edwin Pednault, Chai Wah Wu, Sarah Sheldon, John Smolin, Lev Bishop, Isaac L. Chuang(参考訳) ハミルトン学習は量子システムの同定、校正、量子コンピュータの動作成功において重要な手順である。 量子システムへの問い合わせを通じて、この手順は与えられたハミルトニアンのモデルのパラメータとノイズ源の記述を求める。 ハミルトン学習の標準的な手法は、標準量子限界による学習誤差$\epsilon$を達成するために、クエリと$o(\epsilon^{-2})$クエリを注意深く設計する必要がある。 学習誤差である$\epsilon$を最小クエリで効率的に正確に推定することを目的として,学習例の最初のセットと,量子システムをインタラクティブにクエリし,新たなトレーニングデータを生成する能力を備えたアクティブラーナを提案する。 我々は,4種類の超伝導IBM量子デバイス上で2ビット交叉共振ハミルトンの6つのパラメータを学習するために,このハミルトン能動学習(HAL)アルゴリズムの性能を正式に規定し,実験的に評価した。 同じ問題と特定の学習誤差の標準的なテクニックと比較して、HALは要求されるクエリの99.8\%の削減と、同等の非適応学習アルゴリズムに対する99.1\%の削減を実現している。 さらに、ハミルトンパラメータのサブセットに関する事前情報にアクセスし、学習中に線形(または指数関数的に)長いシステム相互作用時間でクエリを選択する能力を与えると、HALは標準量子限界を超え、学習中にハイゼンベルク(またはスーパーハイゼンベルク)制限収束率を達成することができる。

Hamiltonian learning is an important procedure in quantum system identification, calibration, and successful operation of quantum computers. Through queries to the quantum system, this procedure seeks to obtain the parameters of a given Hamiltonian model and description of noise sources. Standard techniques for Hamiltonian learning require careful design of queries and $O(\epsilon^{-2})$ queries in achieving learning error $\epsilon$ due to the standard quantum limit. With the goal of efficiently and accurately estimating the Hamiltonian parameters within learning error $\epsilon$ through minimal queries, we introduce an active learner that is given an initial set of training examples and the ability to interactively query the quantum system to generate new training data. We formally specify and experimentally assess the performance of this Hamiltonian active learning (HAL) algorithm for learning the six parameters of a two-qubit cross-resonance Hamiltonian on four different superconducting IBM Quantum devices. Compared with standard techniques for the same problem and a specified learning error, HAL achieves up to a $99.8\%$ reduction in queries required, and a $99.1\%$ reduction over the comparable non-adaptive learning algorithm. Moreover, with access to prior information on a subset of Hamiltonian parameters and given the ability to select queries with linearly (or exponentially) longer system interaction times during learning, HAL can exceed the standard quantum limit and achieve Heisenberg (or super-Heisenberg) limited convergence rates during learning.
翻訳日:2021-12-30 16:23:02 公開日:2021-12-29
# 循環式養殖システムにおけるクラゲの空間分布パターン

Spatial Distribution Patterns of Clownfish in Recirculating Aquaculture Systems ( http://arxiv.org/abs/2112.14513v1 )

ライセンス: Link先を確認
Fahad Aljehani, Ibrahima N'Doye, Micaela S. Justo, John E. Majoris, Michael L. Berumen, Taous-Meriem Laleg-Kirati(参考訳) 魚の行動のモニタリングと検出は、魚の福祉に関する重要な情報を提供し、グローバルな養殖におけるインテリジェントな生産に寄与する。 本研究は,水族館で飼育されている幼魚の空間分布と行動パターンを3つのストッキング密度(1,5,10個体/水族館)で解析するための効率的なアプローチを提案する。 この推定変位は, 循環式養殖システムにおいて, 魚の空間分布と移動挙動を表わすために, 分散と速度を評価する上で重要な要因である。 実際,魚の行動のモニタリングと同定を効率的に行うために,光学フロー法を用いて速度,大きさ,旋回角を計算することを目的としている。 水族館で飼育されている幼魚の2日間のビデオストリームを含むデータベース上でシステム設計をテストする。 提案した変位推定は, トウガラシの動きと分散特性を測定する上で優れた性能を示す。 また,本手法は,朝と午後に撮影された記録から得られた魚の行動量の変動を定量化する効果を示す。

Monitoring and detecting fish behaviors provide essential information on fish welfare and contribute to achieving intelligent production in global aquaculture. This work proposes an efficient approach to analyze the spatial distribution status and motion patterns of juvenile clownfish (Amphiprion bicinctus) maintained in aquaria at three stocking densities (1, 5, and 10 individuals/aquarium ). The estimated displacement is the key factor in assessing the dispersion and velocity to express the clownfish's spatial distribution and movement behavior in a recirculating aquaculture system. Indeed, we aim at computing the velocity, magnitude, and turning angle using an optical flow method to assist aquaculturists in efficiently monitoring and identifying fish behavior. We test the system design on a database containing two days of video streams of juvenile clownfish maintained in aquaria. The proposed displacement estimation reveals good performance in measuring clownfish's motion and dispersion characteristics. Furthermore, we demonstrate the effectiveness of the proposed technique for quantifying variation in clownfish activity levels between recordings taken in the morning and afternoon.
翻訳日:2021-12-30 16:22:02 公開日:2021-12-29
# 相対的ポース推定の不安定性とRANSACの役割について

On the Instability of Relative Pose Estimation and RANSAC's Role ( http://arxiv.org/abs/2112.14651v1 )

ライセンス: Link先を確認
Hongyi Fan, Joe Kileel, Benjamin Kimia(参考訳) 本稿では,多視点幾何学における基本行列および基本行列推定のための5点および7点問題の数値不安定性について検討する。 いずれの場合も、エピポーラ推定の条件数が無限である不測の世界シーンを特徴付ける。 また,与えられた画像データを用いて,不適切なインスタンスを特徴付ける。 これらの結果を達成するために,多視点幾何学における最小問題の条件付けをリーマン多様体に基づいて解析する一般的な枠組みを提案する。 SfM(Structure-from-M otion)のRANSAC(Random Sample Consensus)は、外乱を除去するだけでなく、RANSACは、我々の理論が予測する不測の軌跡から十分に分離した、十分に条件の整った画像データを選択する。 今後,画像データのみを検査することで,RANSACの成功を加速し,向上させることが期待できる。

In this paper we study the numerical instabilities of the 5- and 7-point problems for essential and fundamental matrix estimation in multiview geometry. In both cases we characterize the ill-posed world scenes where the condition number for epipolar estimation is infinite. We also characterize the ill-posed instances in terms of the given image data. To arrive at these results, we present a general framework for analyzing the conditioning of minimal problems in multiview geometry, based on Riemannian manifolds. Experiments with synthetic and real-world data then reveal a striking conclusion: that Random Sample Consensus (RANSAC) in Structure-from-Motio n (SfM) does not only serve to filter out outliers, but RANSAC also selects for well-conditioned image data, sufficiently separated from the ill-posed locus that our theory predicts. Our findings suggest that, in future work, one could try to accelerate and increase the success of RANSAC by testing only well-conditioned image data.
翻訳日:2021-12-30 16:21:46 公開日:2021-12-29
# (参考訳) 海洋環境における航法不確実性克服のための部分情報を用いた動的プログラミング [全文訳有]

Dynamic programming with partial information to overcome navigational uncertainty in a nautical environment ( http://arxiv.org/abs/2112.14657v1 )

ライセンス: CC BY 4.0
Chris Beeler, Xinkai Li, Mark Crowley, Maia Fraser, Isaac Tamblyn(参考訳) おもちゃの航海環境を用いて,部分観察マルコフ決定過程(pomdp)に関する部分的情報のみを知っていれば,動的プログラミングが利用できることを示す。 モデルに不確実性を組み込むことで,安全を維持するためのナビゲーションポリシーを構築することができることを示す。 制御されたセンシング手法を加えることで,これらのポリシーは同時に測定コストを低減できることを示す。

Using a toy nautical navigation environment, we show that dynamic programming can be used when only partial information about a partially observed Markov decision process (POMDP) is known. By incorporating uncertainty into our model, we show that navigation policies can be constructed that maintain safety. Adding controlled sensing methods, we show that these policies can also lower measurement costs at the same time.
翻訳日:2021-12-30 16:19:38 公開日:2021-12-29
# PIVOTを用いた高次元状態空間における効率的な信念空間計画:予測的インクリメンタル変動順序付け手法

Efficient Belief Space Planning in High-Dimensional State Spaces using PIVOT: Predictive Incremental Variable Ordering Tactic ( http://arxiv.org/abs/2112.14428v1 )

ライセンス: Link先を確認
Khen Elimelech, Vadim Indelman(参考訳) 本研究では,信頼空間における計画として定式化した不確実性下でのオンライン意思決定の問題を検討する。 高次元状態(例えば全軌跡)における信念(すなわち分布)の維持は、精度を著しく向上させるだけでなく、情報理論の目的による計画も可能で、アクティブSLAMのタスクや情報収集に必要である。 それでも、この“スムーズ”パラダイムの下での計画は計算の複雑さが高く、オンラインソリューションでは困難である。 計画する前に、最初の信念に基づいてスタンドアロンの状態変数の再順序付け手順を実行し、予測されたループ閉包変数をすべて "push forwards" する。 初期変数順序は、受信した更新によって影響を受ける部分集合を決定するため、この再順序付けにより、影響を受ける変数の総数を最小化し、計画中の候補評価の計算複雑性を低減できる。 このアプローチを PIVOT: Predictive Incremental Variable Ordering Tactic と呼ぶ。 この戦略を適用することで、状態推論の効率も向上する。計画セッションの後にピボット順序を維持する場合、実際に発生した場合も同様にループクロージャのコストを削減すべきである。 その効果を示すために,pivotを現実的なアクティブslamシミュレーションに適用し,計画と推論の両方の計算時間を大幅に削減した。 このアプローチは一般分布に適用でき、精度を損なうことはない。

In this work, we examine the problem of online decision making under uncertainty, which we formulate as planning in the belief space. Maintaining beliefs (i.e., distributions) over high-dimensional states (e.g., entire trajectories) was not only shown to significantly improve accuracy, but also allows planning with information-theoreti c objectives, as required for the tasks of active SLAM and information gathering. Nonetheless, planning under this "smoothing" paradigm holds a high computational complexity, which makes it challenging for online solution. Thus, we suggest the following idea: before planning, perform a standalone state variable reordering procedure on the initial belief, and "push forwards" all the predicted loop closing variables. Since the initial variable order determines which subset of them would be affected by incoming updates, such reordering allows us to minimize the total number of affected variables, and reduce the computational complexity of candidate evaluation during planning. We call this approach PIVOT: Predictive Incremental Variable Ordering Tactic. Applying this tactic can also improve the state inference efficiency; if we maintain the PIVOT order after the planning session, then we should similarly reduce the cost of loop closures, when they actually occur. To demonstrate its effectiveness, we applied PIVOT in a realistic active SLAM simulation, where we managed to significantly reduce the computation time of both the planning and inference sessions. The approach is applicable to general distributions, and induces no loss in accuracy.
翻訳日:2021-12-30 16:12:51 公開日:2021-12-29
# メタ解釈学習を伴わない高次プログラムの学習

Learning Higher-Order Programs without Meta-Interpretive Learning ( http://arxiv.org/abs/2112.14603v1 )

ライセンス: Link先を確認
Stanis{\l}aw J. Purga{\l}, David M. Cerna, Cezary Kaliszyk(参考訳) インダクティブ・ロジック・プログラミング(ILP)による複雑なプログラムの学習は依然として困難な課題である。 既存の高次有効型IPPシステムは精度と学習性能が向上しているが、基礎となる学習メカニズムの限界によって妨げられている。 実験結果から,高次定義による多元的学習失敗パラダイムの拡張は,既存システムに必要な人的指導を伴わずに学習性能を著しく向上させることが示された。 さらに、拡張によって処理される高階定義のクラスをキャプチャする理論的枠組みを提供する。

Learning complex programs through inductive logic programming (ILP) remains a formidable challenge. Existing higher-order enabled ILP systems show improved accuracy and learning performance, though remain hampered by the limitations of the underlying learning mechanism. Experimental results show that our extension of the versatile Learning From Failures paradigm by higher-order definitions significantly improves learning performance without the burdensome human guidance required by existing systems. Furthermore, we provide a theoretical framework capturing the class of higher-order definitions handled by our extension.
翻訳日:2021-12-30 16:12:25 公開日:2021-12-29
# オンライン校正による現場非視線イメージング

Onsite Non-Line-of-Sight Imaging via Online Calibrations ( http://arxiv.org/abs/2112.14555v1 )

ライセンス: Link先を確認
Zhengqing Pan, Ruiqian Li, Tian Gao, Zi Wang, Ping Liu, Siyuan Shen, Tao Wu, Jingyi Yu, Shiying Li(参考訳) 障害物の後方で物体を回収するための非視線イメージングシステム(NLOS)の展開への関心が高まっている。 既存のソリューションは一般に、隠れたオブジェクトをスキャンする前にシステムを事前に調整する。 occluder, object, scanningパターンのオンサイト調整には再校正が必要である。 オンラインキャリブレーション手法により,LOSと隠されたコンポーネントのオンサイトスキャンにおいて,取得したトランジェントを直接分離する。 前者はシーン/オブスタクル構成、スキャン領域、スキャンパターンの変化に基づいてシステムを直接(再)調整し、後者は空間的、周波数的、あるいは学習に基づく手法による隠れたオブジェクトのリカバリを行う。 本手法は,鏡やチェッカーボードなどの補助キャリブレーション装置の使用を回避し,実験検証と実世界の展開の両方をサポートする。

There has been an increasing interest in deploying non-line-of-sight (NLOS) imaging systems for recovering objects behind an obstacle. Existing solutions generally pre-calibrate the system before scanning the hidden objects. Onsite adjustments of the occluder, object and scanning pattern require re-calibration. We present an online calibration technique that directly decouples the acquired transients at onsite scanning into the LOS and hidden components. We use the former to directly (re)calibrate the system upon changes of scene/obstacle configurations, scanning regions, and scanning patterns whereas the latter for hidden object recovery via spatial, frequency or learning based techniques. Our technique avoids using auxiliary calibration apparatus such as mirrors or checkerboards and supports both laboratory validations and real-world deployments.
翻訳日:2021-12-30 16:07:12 公開日:2021-12-29
# 知識ベースリーダー追従ネットワークの同期化における非線形ダイナミクスの学習

Learning nonlinear dynamics in synchronization of knowledge-based leader-following networks ( http://arxiv.org/abs/2112.14676v1 )

ライセンス: Link先を確認
Shimin Wang, Xiangyu Meng, Hongwei Zhang, Frank L. Lewis(参考訳) ヘテロジニアス非線形マルチエージェントシステムの知識ベースリーダー追従同期問題は、リーダーの動的情報が全てのフォロワノードで未知であるため、困難である。 本稿では,非線形リーダシステムにおいて,リーダのダイナミクスと状態を同時に学習できる学習ベースの完全分散オブザーバを提案する。 ここで考えるリーダーダイナミクスのクラスは、有界ヤコビ行列を必要としない。 この学習に基づく分散オブザーバに基づいて,不確定な非線形リーダシステムに属する複数のオイラーラグランジュシステムのリーダ追従同期問題を解決するための適応分散制御則をさらに合成する。 結果はシミュレーションの例で示されます。

Knowledge-based leader-following synchronization problem of heterogeneous nonlinear multi-agent systems is challenging since the leader's dynamic information is unknown to all follower nodes. This paper proposes a learning-based fully distributed observer for a class of nonlinear leader systems, which can simultaneously learn the leader's dynamics and states. The class of leader dynamics considered here does not require a bounded Jacobian matrix. Based on this learning-based distributed observer, we further synthesize an adaptive distributed control law for solving the leader-following synchronization problem of multiple Euler-Lagrange systems subject to an uncertain nonlinear leader system. The results are illustrated by a simulation example.
翻訳日:2021-12-30 16:06:35 公開日:2021-12-29
# (参考訳) 事前学習型視覚言語モデルによるゼロショットセマンティックセマンティックセグメンテーションのための簡易ベースライン [全文訳有]

A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained Vision-language Model ( http://arxiv.org/abs/2112.14757v1 )

ライセンス: CC BY 4.0
Mengde Xu, Zheng Zhang, Fangyun Wei, Yutong Lin, Yue Cao, Han Hu, Xiang Bai(参考訳) 近年,視覚言語前訓練によるゼロショット画像分類が驚くべき成果を示しており,このモデルでは,そのカテゴリの付加注釈画像を見ることなく任意のカテゴリを分類できる。 しかし、オブジェクト検出やセマンティックセグメンテーションなど、より広範な視覚問題に対して、ゼロショット認識をうまく機能させる方法はまだ不明である。 本稿では,既成の視覚言語モデル,すなわちクリップ上に構築することで,ゼロショット意味セグメンテーションを目標とする。 セマンティックセグメンテーションとCLIPモデルは、画像上でCLIPが実行される間、画素上でセマンティックセグメンテーションプロセスを実行するため、難しい。 粒度処理の相違を解消するため,我々は,一般的な一段階のfcnベースのフレームワークの使用を拒否し,第1段階は汎用マスクの提案を抽出し,第2段階は画像に基づくクリップモデルを利用して第1段階のマスク画像作物に対してゼロショット分類を行う2段階のセマンティックセグメンテーションフレームワークを提唱する。 この単純なフレームワークはPascal VOC 2012データセットでは+29.5 hIoU、COCO Stuffデータセットでは+8.9 hIoUである。 そのシンプルさと強力なパフォーマンスにより、私たちはこのフレームワークが将来の研究を促進するベースラインになることを期待しています。

Recently, zero-shot image classification by vision-language pre-training has demonstrated incredible achievements, that the model can classify arbitrary category without seeing additional annotated images of that category. However, it is still unclear how to make the zero-shot recognition working well on broader vision problems, such as object detection and semantic segmentation. In this paper, we target for zero-shot semantic segmentation, by building it on an off-the-shelf pre-trained vision-language model, i.e., CLIP. It is difficult because semantic segmentation and the CLIP model perform on different visual granularity, that semantic segmentation processes on pixels while CLIP performs on images. To remedy the discrepancy on processing granularity, we refuse the use of the prevalent one-stage FCN based framework, and advocate a two-stage semantic segmentation framework, with the first stage extracting generalizable mask proposals and the second stage leveraging an image based CLIP model to perform zero-shot classification on the masked image crops which are generated in the first stage. Our experimental results show that this simple framework surpasses previous state-of-the-arts by a large margin: +29.5 hIoU on the Pascal VOC 2012 dataset, and +8.9 hIoU on the COCO Stuff dataset. With its simplicity and strong performance, we hope this framework to serve as a baseline to facilitate the future research.
翻訳日:2021-12-30 16:04:56 公開日:2021-12-29
# 一般化ゼロショット学習のための意味的特徴抽出

Semantic Feature Extraction for Generalized Zero-shot Learning ( http://arxiv.org/abs/2112.14478v1 )

ライセンス: Link先を確認
Junhan Kim, Kyuhong Shim, and Byonghyo Shim(参考訳) 一般化ゼロショット学習(gzsl)は、属性を使って未知のクラスを識別するためにディープラーニングモデルをトレーニングするテクニックである。 本稿では,GZSL分類性能を大幅に向上させる新しいGZSL手法を提案する。 提案手法の主な考え方は,意味特徴抽出に基づくGZSL (SE-GZSL) と呼ばれ,属性関連情報のみを含む意味特徴を用いて画像と属性の関係を学習することである。 そうすることで、画像機能に含まれる属性の無関係な情報によって引き起こされる干渉を取り除くことができる。 意味的特徴を抽出するネットワークを訓練するために,2つの新しい損失関数を提案する。 1)画像の特徴のすべての属性関連情報を捕捉する相互情報に基づく損失 2) 類似性に基づく不必要な属性関連情報を除去する損失。 各種データセットを用いた広範囲な実験から,提案手法が従来のGZSL手法よりも大きなマージンで優れていることを示す。

Generalized zero-shot learning (GZSL) is a technique to train a deep learning model to identify unseen classes using the attribute. In this paper, we put forth a new GZSL technique that improves the GZSL classification performance greatly. Key idea of the proposed approach, henceforth referred to as semantic feature extraction-based GZSL (SE-GZSL), is to use the semantic feature containing only attribute-related information in learning the relationship between the image and the attribute. In doing so, we can remove the interference, if any, caused by the attribute-irrelevant information contained in the image feature. To train a network extracting the semantic feature, we present two novel loss functions, 1) mutual information-based loss to capture all the attribute-related information in the image feature and 2) similarity-based loss to remove unwanted attribute-irrelevant information. From extensive experiments using various datasets, we show that the proposed SE-GZSL technique outperforms conventional GZSL approaches by a large margin.
翻訳日:2021-12-30 15:48:45 公開日:2021-12-29
# ヘアスタイル, メイクアップ, 顔面形態で説明される顔認識精度の性差

Gendered Differences in Face Recognition Accuracy Explained by Hairstyles, Makeup, and Facial Morphology ( http://arxiv.org/abs/2112.14656v1 )

ライセンス: Link先を確認
V\'itor Albiero, Kai Zhang, Michael C. King, Kevin W. Bowyer(参考訳) メディアの報道は、顔の認識が「偏見」「性差別」「人種差別」だと非難している。 研究文献では、偽の一致率と偽の非一致率の両方が高い女性に対して、顔認識精度が低いという見解が一致している。 しかし、女性に対する低い精度の原因を特定するための研究はほとんど発表されていない。 例えば、幅広いアルゴリズムとデータセットで女性の精度を低くする2019 Face Recognition Vendor Testでは、"Analyze cause and effect"という見出しで"What We did not'"を列挙している。 以上の結果が得られたデータセットを用いて,女性における顔認識精度の低下の主な原因を特定するための最初の実験的検討を行った。 テスト画像中の可視面の等しい量の制御は、女性にとって明らかに高い偽非一致率を緩和する。 さらなる分析により、メークアップバランスデータセットは女性を更に改善し、偽の非マッチング率を低下させることが示された。 最後に、クラスタリング実験は、2つの異なる女性の画像が2つの異なるオスと本質的に類似していることを示し、おそらくは偽の一致率の違いを考慮に入れている。

Media reports have accused face recognition of being ''biased'', ''sexist'' and ''racist''. There is consensus in the research literature that face recognition accuracy is lower for females, who often have both a higher false match rate and a higher false non-match rate. However, there is little published research aimed at identifying the cause of lower accuracy for females. For instance, the 2019 Face Recognition Vendor Test that documents lower female accuracy across a broad range of algorithms and datasets also lists ''Analyze cause and effect'' under the heading ''What we did not do''. We present the first experimental analysis to identify major causes of lower face recognition accuracy for females on datasets where previous research has observed this result. Controlling for equal amount of visible face in the test images mitigates the apparent higher false non-match rate for females. Additional analysis shows that makeup-balanced datasets further improves females to achieve lower false non-match rates. Finally, a clustering experiment suggests that images of two different females are inherently more similar than of two different males, potentially accounting for a difference in false match rates.
翻訳日:2021-12-30 15:48:28 公開日:2021-12-29
# クロスブロック油水層同定のためのフェデレート学習

Federated Learning for Cross-block Oil-water Layer Identification ( http://arxiv.org/abs/2112.14359v1 )

ライセンス: Link先を確認
Bingyang Chena, Xingjie Zenga, Weishan Zhang(参考訳) 石油開発にはクロスブロック油水層(OWL)の同定が不可欠である。 従来の手法は、主に人間の経験によって主観的要因に大きく影響を受ける。 AIに基づく手法はOWL識別の開発を促進する。 しかし,ブロック間の地質的な違いや,高度に長い尾の分布(クラス不均衡)が著しいため,既存の人工知能(AI)モデルの識別効果は限られている。 本稿では,フクロウ識別のための動的融合型フェデレーション学習(fl)を提案することで,この制限に対処する。 地質学的差異を克服するために,モデルの融合と一般的なOWL識別モデルを訓練するための動的重み付き戦略を提案する。 さらに、F1スコアに基づく再重み付け方式を設計し、理論上新しい損失関数を導出し、このデータ長期化問題を解く。 さらに, モデル特徴抽出を強化するために, 地質知識に基づくマスアテンション機構を提案する。 我々の知る限りでは、FLを用いてOWLを識別するのはこれが初めてである。 提案手法は,油田からの坑井検層データセットと公共の3wデータセットを用いて評価した。 実験の結果,本手法は他のAI手法よりも有意に優れていた。

Cross-block oil-water layer(OWL) identification is essential for petroleum development. Traditional methods are greatly affected by subjective factors due to depending mainly on the human experience. AI-based methods have promoted the development of OWL identification. However, because of the significant geological differences across blocks and the severe long-tailed distribution(class imbalanced), the identification effects of existing artificial intelligence(AI) models are limited. In this paper, we address this limitation by proposing a dynamic fusion-based federated learning(FL) for OWL identification. To overcome geological differences, we propose a dynamic weighted strategy to fuse models and train a general OWL identification model. In addition, an F1 score-based re-weighting scheme is designed and a novel loss function is derived theoretically to solve the data long-tailed problem. Further, a geological knowledge-based mask-attention mechanism is proposed to enhance model feature extraction. To our best knowledge, this is the first work to identify OWL using FL. We evaluate the proposed approach with an actual well logging dataset from the oil field and a public 3W dataset. Experimental results demonstrate that our approach significantly out-performs other AI methods.
翻訳日:2021-12-30 15:44:51 公開日:2021-12-29
# 適応性と非定常性:オンライン凸最適化における問題依存動的後悔

Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization ( http://arxiv.org/abs/2112.14368v1 )

ライセンス: Link先を確認
Peng Zhao, Yu-Jie Zhang, Lijun Zhang, Zhi-Hua Zhou(参考訳) 非定常環境におけるオンライン凸最適化について検討し,オンラインアルゴリズムが生み出す累積損失と,実現可能なコンパレータシーケンスとの差として定義した性能指標として, 'emph{dynamic regret} を選択する。 T$を時間軸とし、$P_T$を環境の非定常性を本質的に反映するパス長とし、最先端の動的後悔は$\mathcal{O}(\sqrt{T(1+P_T)})$とする。 この境界は凸関数に対してミニマックス最適であることが証明されているが,本稿では,簡単な問題,特にオンライン関数が滑らかである場合の保証をさらに強化できることを実証する。 具体的には, 損失関数の勾配の変動, コンパレータ列の累積損失, および前2項の最小値によって, 滑らかさを生かして, 動的後悔における$t$への依存を<emph{problem-dependent} 量に置き換える, オンラインアルゴリズムを提案する。 これらの量は少なくとも$\mathcal{O}(T)$であるが、良質な環境ではずっと小さい。 したがって,本研究の結果は,既往の結果よりも厳密であり,かつ最悪の場合において同じ確率を保証できるため,本問題の本質的な難易度に適応する。 このアルゴリズムは静的な後悔を最適化するために開発された手法と同じ勾配クエリの複雑さを共有する。 さらなる応用として、全情報設定から2点フィードバックによる包絡最適化までの結果を拡張し、そのような包絡タスクに対する最初の問題依存動的後悔を実現する。

We investigate online convex optimization in non-stationary environments and choose the \emph{dynamic regret} as the performance measure, defined as the difference between cumulative loss incurred by the online algorithm and that of any feasible comparator sequence. Let $T$ be the time horizon and $P_T$ be the path-length that essentially reflects the non-stationarity of environments, the state-of-the-art dynamic regret is $\mathcal{O}(\sqrt{T(1+P_T)})$. Although this bound is proved to be minimax optimal for convex functions, in this paper, we demonstrate that it is possible to further enhance the guarantee for some easy problem instances, particularly when online functions are smooth. Specifically, we propose novel online algorithms that can leverage smoothness and replace the dependence on $T$ in the dynamic regret by \emph{problem-dependent} quantities: the variation in gradients of loss functions, the cumulative loss of the comparator sequence, and the minimum of the previous two terms. These quantities are at most $\mathcal{O}(T)$ while could be much smaller in benign environments. Therefore, our results are adaptive to the intrinsic difficulty of the problem, since the bounds are tighter than existing results for easy problems and meanwhile guarantee the same rate in the worst case. Notably, our algorithm requires only \emph{one} gradient per iteration, which shares the same gradient query complexity with the methods developed for optimizing the static regret. As a further application, we extend the results from the full-information setting to bandit convex optimization with two-point feedback and thereby attain the first problem-dependent dynamic regret for such bandit tasks.
翻訳日:2021-12-30 15:44:35 公開日:2021-12-29
# 変形可能なグラフ畳み込みネットワーク

Deformable Graph Convolutional Networks ( http://arxiv.org/abs/2112.14438v1 )

ライセンス: Link先を確認
Jinyoung Park, Sungdong Yoo, Jihwan Park, Hyunwoo J. Kim(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの表現能力を大幅に改善した。 最近のGNNの成功にもかかわらず、ほとんどのGNNにおけるグラフの畳み込みには2つの制限がある。 グラフ畳み込みは入力グラフ上の小さなローカル近傍で実行されるため、本質的には距離ノード間の長距離依存関係をキャプチャできない。 さらに、ノードが異なるクラス、すなわちヘテロフィリに属する隣人を持っている場合、それらの集約されたメッセージは、しばしば表現学習に悪影響を及ぼす。 本稿では,複数の潜在空間における畳み込みを適応的に実行し,ノード間の短距離・長距離の依存関係をキャプチャする,変形可能なグラフ畳み込みネットワーク (deformable gcns) を提案する。 ノード表現(機能)から分離したフレームワークは,ノードの位置埋め込み(コーディネート)を同時に学習し,ノード間の関係をエンドツーエンドで決定する。 ノードの位置によっては、畳み込み核は変形ベクトルによって変形し、隣接するノードに異なる変換を適用する。 広範な実験により,変形可能なgcnがヘテロフィリを柔軟に処理し,6つのヘテロフィリエイトグラフデータセットのノード分類タスクにおいて最高の性能が得られることを示した。

Graph neural networks (GNNs) have significantly improved the representation power for graph-structured data. Despite of the recent success of GNNs, the graph convolution in most GNNs have two limitations. Since the graph convolution is performed in a small local neighborhood on the input graph, it is inherently incapable to capture long-range dependencies between distance nodes. In addition, when a node has neighbors that belong to different classes, i.e., heterophily, the aggregated messages from them often negatively affect representation learning. To address the two common problems of graph convolution, in this paper, we propose Deformable Graph Convolutional Networks (Deformable GCNs) that adaptively perform convolution in multiple latent spaces and capture short/long-range dependencies between nodes. Separated from node representations (features), our framework simultaneously learns the node positional embeddings (coordinates) to determine the relations between nodes in an end-to-end fashion. Depending on node position, the convolution kernels are deformed by deformation vectors and apply different transformations to its neighbor nodes. Our extensive experiments demonstrate that Deformable GCNs flexibly handles the heterophily and achieve the best performance in node classification tasks on six heterophilic graph datasets.
翻訳日:2021-12-30 15:44:02 公開日:2021-12-29
# 説明可能な$k$-meansクラスタリングのための浅い決定木

Shallow decision trees for explainable $k$-means clustering ( http://arxiv.org/abs/2112.14718v1 )

ライセンス: Link先を確認
Eduardo Laber, Lucas Murtinho, Felipe Oliveira(参考訳) 最近の多くの研究は、k$-meansコスト関数を最小化することを目的とした説明可能なパーティションを構築するために決定木を採用した。 しかし、これらの研究は結果の木の葉の深さに関する指標をほとんど無視しており、決定木の説明可能性がどのようにこれらの深さに依存するかを考えると、おそらく驚くべきことである。 文献のこのギャップを埋めるために,これらの指標を考慮に入れた効率的なアルゴリズムを提案する。 16のデータセットに対する実験では,提案アルゴリズムは決定木クラスタリングアルゴリズムよりも優れた結果が得られる。例えば \cite{dasgupta2020explaina ble}, \cite{frost 2020exkmc}, \cite{laber2021price} や \cite{DBLP:conf/icml/Makar ychevS21} では,比較的浅い木で低コストあるいは同等のコストを得られる。 また, 既存手法の簡単な適応により, $k$-meansコスト関数に対して二分木によって引き起こされる説明可能な分割を構築できる問題は, 近似アルゴリズムやヒューリスティックの探求を正当化する $p=np$ がない限り多項式時間で 1+\epsilon)$-approxima tion を認めないことを示した。

A number of recent works have employed decision trees for the construction of explainable partitions that aim to minimize the $k$-means cost function. These works, however, largely ignore metrics related to the depths of the leaves in the resulting tree, which is perhaps surprising considering how the explainability of a decision tree depends on these depths. To fill this gap in the literature, we propose an efficient algorithm that takes into account these metrics. In experiments on 16 datasets, our algorithm yields better results than decision-tree clustering algorithms such as the ones presented in \cite{dasgupta2020explaina ble}, \cite{frost2020exkmc}, \cite{laber2021price} and \cite{DBLP:conf/icml/Makar ychevS21}, typically achieving lower or equivalent costs with considerably shallower trees. We also show, through a simple adaptation of existing techniques, that the problem of building explainable partitions induced by binary trees for the $k$-means cost function does not admit an $(1+\epsilon)$-approxima tion in polynomial time unless $P=NP$, which justifies the quest for approximation algorithms and/or heuristics.
翻訳日:2021-12-30 15:43:39 公開日:2021-12-29
# (参考訳) 格子データの多変量トレンドフィルタリング

Multivariate Trend Filtering for Lattice Data ( http://arxiv.org/abs/2112.14758v1 )

ライセンス: CC BY 4.0
Veeranjaneyulu Sadhanala, Yu-Xiang Wang, Addison J. Hu, Ryan J. Tibshirani(参考訳) 設計点が$d$次元の格子を形成する場合、Kronecker trend filtering(KTF)と呼ばれるトレンドフィルタリングの多変量バージョンについて検討する。 KTFは単変数トレンドフィルタリング(Steidl et al., 2006; Kim et al., 2009; Tibshirani, 2014)の自然な拡張であり、ペナルティ項が各座標方向に沿って推定されるパラメータの絶対(高次)差を和る最小二乗問題を最小化することによって定義される。 対応するペナルティ演算子は、一変量トレンドフィルタリングペナルティ演算子のクロネッカー積(Kronecker product)で記述することができる。 同様に KTF は、基底関数が分解因数関数のテンソル積である$\ell_1$-penalized basis regression problem や、単変数トレンドフィルタリングの根底をなす分数多項式 (discrete spline) 基底の観点から見ることができる。 本論文は,Sadhanala et al. (2016, 2017)の結果の統一と拡張である。 我々は、$k \geq 0$ と $d \geq 1$ ごとに、$k^{\mathrm{th}}$order kroneckerトレンドフィルタリングを$d$次元で記述する完全な理論結果セットを開発する。 このことは、不均一な滑らかな関数を推定する線形スムーダに対するKTFの優位性や、(高次元から滑らかな側で)線形スムーダが完全に整合しない境界過去の$d=2(k+1)$での相転移など、多くの興味深い現象を明らかにしている。 我々はまた、Tibshirani (2020) の離散スプラインに関する最近の結果、特に離散スプライン補間結果を利用して、KTF推定値を定数時間(格子 $n$ の大きさに依存しない)で任意の非格子位置まで拡張することができる。

We study a multivariate version of trend filtering, called Kronecker trend filtering or KTF, for the case in which the design points form a lattice in $d$ dimensions. KTF is a natural extension of univariate trend filtering (Steidl et al., 2006; Kim et al., 2009; Tibshirani, 2014), and is defined by minimizing a penalized least squares problem whose penalty term sums the absolute (higher-order) differences of the parameter to be estimated along each of the coordinate directions. The corresponding penalty operator can be written in terms of Kronecker products of univariate trend filtering penalty operators, hence the name Kronecker trend filtering. Equivalently, one can view KTF in terms of an $\ell_1$-penalized basis regression problem where the basis functions are tensor products of falling factorial functions, a piecewise polynomial (discrete spline) basis that underlies univariate trend filtering. This paper is a unification and extension of the results in Sadhanala et al. (2016, 2017). We develop a complete set of theoretical results that describe the behavior of $k^{\mathrm{th}}$ order Kronecker trend filtering in $d$ dimensions, for every $k \geq 0$ and $d \geq 1$. This reveals a number of interesting phenomena, including the dominance of KTF over linear smoothers in estimating heterogeneously smooth functions, and a phase transition at $d=2(k+1)$, a boundary past which (on the high dimension-to-smoothn ess side) linear smoothers fail to be consistent entirely. We also leverage recent results on discrete splines from Tibshirani (2020), in particular, discrete spline interpolation results that enable us to extend the KTF estimate to any off-lattice location in constant-time (independent of the size of the lattice $n$).
翻訳日:2021-12-30 15:40:53 公開日:2021-12-29
# 時間差学習の制御論的解析

Control Theoretic Analysis of Temporal Difference Learning ( http://arxiv.org/abs/2112.14417v1 )

ライセンス: Link先を確認
Donghwan Lee(参考訳) 本稿では,線形確率反復アルゴリズムと時間差学習(TD)の制御理論解析について検討する。 td-learning(td-learn ing)は、マルコフ決定過程における与えられたポリシーの価値関数を推定するための線形確率的反復アルゴリズムである。 TD-ラーニングの理論分析で成功した研究はいくつかあるが、研究者が統計効率の保証を発見したのは近年になってからである。 本稿では,線形システム制御コミュニティにおける標準概念を活用した制御理論有限時間解析TD学習を提案する。 そこで本研究では,制御理論における単純な概念と分析ツールを用いたTD学習と強化学習について,さらなる知見を提供する。

The goal of this paper is to investigate a control theoretic analysis of linear stochastic iterative algorithm and temporal difference (TD) learning. TD-learning is a linear stochastic iterative algorithm to estimate the value function of a given policy for a Markov decision process, which is one of the most popular and fundamental reinforcement learning algorithms. While there has been a series of successful works in theoretical analysis of TD-learning, it was not until recently that researchers found some guarantees on its statistical efficiency. In this paper, we propose a control theoretic finite-time analysis TD-learning, which exploits standard notions in linear system control communities. Therefore, the proposed work provides additional insights on TD-learning and reinforcement learning with simple concepts and analysis tools in control theory.
翻訳日:2021-12-30 15:37:29 公開日:2021-12-29
# 逐次エピソード制御

Sequential Episodic Control ( http://arxiv.org/abs/2112.14734v1 )

ライセンス: Link先を確認
Ismael T. Freire, Adri\'an F. Amil, Paul F.M.J. Verschure(参考訳) 最先端の深層強化学習アルゴリズムは、漸近的なパフォーマンスを達成するために必要なエピソードの数が多いため、サンプル非効率である。 哺乳類の海馬にインスパイアされたてんかん強化学習(ERL)アルゴリズムは、通常、過去の出来事から学習をブートストラップしてこのサンプル非効率問題を克服するために拡張メモリシステムを使用する。 しかし、そのようなメモリ拡張はしばしば単なるバッファとして使われ、そこから独立した過去の経験がオフラインで学習するために引き出される(リプレイなど)。 本稿では、エピソディックサンプリングの順序に由来する取得メモリ内容のバイアスを含むことにより、エピソディック制御アルゴリズムのサンプルとメモリ効率の両方が向上することを示す。 我々は,統合エピソードをイベントシーケンスとして保存・使用することで,erl標準ベンチマークであるモデルフリーのエピソドックス制御とは対照的に,より少ないメモリ要件でより高速に学習できることを示すために,フォアージングタスクでシーケンシャルエピソドリック制御(sec)モデルをテストした。 また,メモリ制約がSECアルゴリズムの逐次的および非逐次的バージョンに与える影響についても検討する。 さらに, 海馬のような高速記憶システムが, 哺乳動物の脳において, ゆっくりとした皮質および皮質下学習の習慣形成をブートストラップする方法について議論した。

State of the art deep reinforcement learning algorithms are sample inefficient due to the large number of episodes they require to achieve asymptotic performance. Episodic Reinforcement Learning (ERL) algorithms, inspired by the mammalian hippocampus, typically use extended memory systems to bootstrap learning from past events to overcome this sample-inefficiency problem. However, such memory augmentations are often used as mere buffers, from which isolated past experiences are drawn to learn from in an offline fashion (e.g., replay). Here, we demonstrate that including a bias in the acquired memory content derived from the order of episodic sampling improves both the sample and memory efficiency of an episodic control algorithm. We test our Sequential Episodic Control (SEC) model in a foraging task to show that storing and using integrated episodes as event sequences leads to faster learning with fewer memory requirements as opposed to a standard ERL benchmark, Model-Free Episodic Control, that buffers isolated events only. We also study the effect of memory constraints and forgetting on the sequential and non-sequential version of the SEC algorithm. Furthermore, we discuss how a hippocampal-like fast memory system could bootstrap slow cortical and subcortical learning subserving habit formation in the mammalian brain.
翻訳日:2021-12-30 15:37:17 公開日:2021-12-29
# 非凸確率スケール勾配Descentと一般化固有ベクトル問題

Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector Problems ( http://arxiv.org/abs/2112.14738v1 )

ライセンス: Link先を確認
Chris Junchi Li, Michael I. Jordan(参考訳) オンライン正準相関解析の問題により、一般リーマン多様体上の確率関数の期待を最小化するための \emph{Stochastic Scaled-Gradient Descent} (SSGD) アルゴリズムを提案する。 SSGDは射影確率勾配降下の概念を一般化し、確率勾配の代わりにスケールされた確率勾配を利用することができる。 一般化固有ベクトル問題において生じる球面制約の特別な場合において、非漸近的有限サンプル境界を $\sqrt{1/t}$ と定め、この速度がミニマックス最適であり、関連するパラメータの多対数係数までであることを示す。 漸近的側では、新しい軌道平均論により、ラッパート-ポリアク-ジュディツキー平均法と一致する率で局所漸近正規性を達成することができる。 我々はこれらのアイデアをオンライン正準相関解析に適用し、文献の中で初めて、局所漸近収束率を正規性に比例した最適な1時間スケールのアルゴリズムを導出した。 合成データには正準相関解析の数値的研究も提供される。

Motivated by the problem of online canonical correlation analysis, we propose the \emph{Stochastic Scaled-Gradient Descent} (SSGD) algorithm for minimizing the expectation of a stochastic function over a generic Riemannian manifold. SSGD generalizes the idea of projected stochastic gradient descent and allows the use of scaled stochastic gradients instead of stochastic gradients. In the special case of a spherical constraint, which arises in generalized eigenvector problems, we establish a nonasymptotic finite-sample bound of $\sqrt{1/T}$, and show that this rate is minimax optimal, up to a polylogarithmic factor of relevant parameters. On the asymptotic side, a novel trajectory-averaging argument allows us to achieve local asymptotic normality with a rate that matches that of Ruppert-Polyak-Judit sky averaging. We bring these ideas together in an application to online canonical correlation analysis, deriving, for the first time in the literature, an optimal one-time-scale algorithm with an explicit rate of local asymptotic convergence to normality. Numerical studies of canonical correlation analysis are also provided for synthetic data.
翻訳日:2021-12-30 15:36:34 公開日:2021-12-29
# エッジの高速対向防御のための超高能率超解像

Super-Efficient Super Resolution for Fast Adversarial Defense at the Edge ( http://arxiv.org/abs/2112.14340v1 )

ライセンス: Link先を確認
Kartikeya Bhardwaj, Dibakar Gope, James Ward, Paul Whatmough, Danny Loh(参考訳) 自律システムは、ディープニューラルネットワーク(DNN)に対する様々な敵攻撃に対して非常に脆弱である。 トレーニング不要のモデル非依存のディフェンスは、そのスピード、デプロイの容易さ、多くのDNNで機能する能力により、最近人気を集めている。 この目的のために、画像分類dnnに対する攻撃を緩和する新しい技術、すなわち、スーパーレゾリューションを用いた敵画像の前処理 -- 低品質の入力を高精細な画像にスケールアップする -- が登場した。 この防御には、制約付き自律システム上でイメージ分類器とスーパーレゾリューションモデルの両方を実行する必要がある。 しかし、スーパーレゾリューションには計算コストがかかる。 そこで,本稿では,超解像モデルを用いた場合,画像分類器のロバスト性は低下するのだろうか? そこで本研究では,2倍から330倍のmultiply-accumulate (mac) 演算を必要とし,従来技術と同等あるいは良好な画質を実現する,super- efficient super resolution (sesr) と呼ばれる最近の研究を初めてレビューした。 既存のモデルよりも桁違いに小さいにもかかわらず、SESRはより大規模なネットワークと同じレベルの堅牢性を達成している。 最後に,商用アームethos-u55マイクロnpuにおける超解像度防御のエンドツーエンド性能を推定する。 以上の結果から,SESRはベースラインよりも約3倍高いFPSを達成できる一方で,同様の堅牢性も達成できることがわかった。

Autonomous systems are highly vulnerable to a variety of adversarial attacks on Deep Neural Networks (DNNs). Training-free model-agnostic defenses have recently gained popularity due to their speed, ease of deployment, and ability to work across many DNNs. To this end, a new technique has emerged for mitigating attacks on image classification DNNs, namely, preprocessing adversarial images using super resolution -- upscaling low-quality inputs into high-resolution images. This defense requires running both image classifiers and super resolution models on constrained autonomous systems. However, super resolution incurs a heavy computational cost. Therefore, in this paper, we investigate the following question: Does the robustness of image classifiers suffer if we use tiny super resolution models? To answer this, we first review a recent work called Super-Efficient Super Resolution (SESR) that achieves similar or better image quality than prior art while requiring 2x to 330x fewer Multiply-Accumulate (MAC) operations. We demonstrate that despite being orders of magnitude smaller than existing models, SESR achieves the same level of robustness as significantly larger networks. Finally, we estimate end-to-end performance of super resolution-based defenses on a commercial Arm Ethos-U55 micro-NPU. Our findings show that SESR achieves nearly 3x higher FPS than a baseline while achieving similar robustness.
翻訳日:2021-12-30 15:34:11 公開日:2021-12-29
# 離散データに対する付加的グラフィカルモデル

An additive graphical model for discrete data ( http://arxiv.org/abs/2112.14674v1 )

ライセンス: Link先を確認
Jun Tao, Bing Li, and Lingzhou Xue(参考訳) 加算条件独立性に基づく離散ノード変数の非パラメトリックグラフィカルモデルを提案する。 加法条件付き独立性(addmental conditional independence)は、半グラフ公理を満たすことによって条件付き独立性と類似性を共有する3つの方法の統計関係である。 この関係に基づいて、イジングモデルのようなパラメトリックモデルの制約に苦しむことのない離散変数のための加法的なグラフィカルモデルを構築する。 加算精度演算子の離散バージョンを解析し,超高次元設定下での推定値の整合性を確立することにより,新しいグラフィカルモデルの推定器を開発する。 これらの方法論の発展とともに、離散確率変数の特性を利用して、加法的条件独立と条件独立との深い関係を明らかにする。 新しいグラフィカルモデルは、特定の空間条件下で条件付き独立グラフィカルモデルに還元される。 HIV抗レトロウイルス療法データセットのシミュレーション実験と解析を行い,新しい方法と既存手法との比較を行った。

We introduce a nonparametric graphical model for discrete node variables based on additive conditional independence. Additive conditional independence is a three way statistical relation that shares similar properties with conditional independence by satisfying the semi-graphoid axioms. Based on this relation we build an additive graphical model for discrete variables that does not suffer from the restriction of a parametric model such as the Ising model. We develop an estimator of the new graphical model via the penalized estimation of the discrete version of the additive precision operator and establish the consistency of the estimator under the ultrahigh-dimensiona l setting. Along with these methodological developments, we also exploit the properties of discrete random variables to uncover a deeper relation between additive conditional independence and conditional independence than previously known. The new graphical model reduces to a conditional independence graphical model under certain sparsity conditions. We conduct simulation experiments and analysis of an HIV antiretroviral therapy data set to compare the new method with existing ones.
翻訳日:2021-12-30 15:33:45 公開日:2021-12-29
# ニューラルマシン翻訳のための周波数対応コントラスト学習

Frequency-Aware Contrastive Learning for Neural Machine Translation ( http://arxiv.org/abs/2112.14484v1 )

ライセンス: Link先を確認
Tong Zhang, Wei Ye, Baosong Yang, Long Zhang, Xingzhang Ren, Dayiheng Liu, Jinan Sun, Shikun Zhang, Haibo Zhang, Wen Zhao(参考訳) 現代のニューラルマシン翻訳(nmt)システムでは、低周波単語予測が課題となっている。 近年の適応的学習手法は, 訓練対象の重みを強調することで, 頻繁な単語の出力を促進する。 低頻度単語のリコールが改善されたにもかかわらず、その予測精度は適応目的によって予期せぬほど妨げられている。 低周波単語がよりコンパクトな埋め込み空間を形成するという観察に触発されて、表現学習の観点からこの問題に取り組む。 具体的には,各復号ステップの隠れ状態が,対応する単語頻度に基づいてソフトコントラスト的に他の対象単語の対応状態から遠ざかる,頻度対応トークンレベルのコントラスト学習手法を提案する。 我々は、広く使われているNIST中国語とWMT14英語とドイツ語の翻訳タスクについて実験を行った。 実験の結果,提案手法は翻訳品質を向上するだけでなく,語彙の多様性を高め,単語表現空間を最適化する。 さらに, 適応学習手法と比較して, 低周波単語予測手法の優位性は, 精度を犠牲にすることなく, 異なる周波数におけるトークンレベルのリコールの堅牢性にあることが明らかとなった。

Low-frequency word prediction remains a challenge in modern neural machine translation (NMT) systems. Recent adaptive training methods promote the output of infrequent words by emphasizing their weights in the overall training objectives. Despite the improved recall of low-frequency words, their prediction precision is unexpectedly hindered by the adaptive objectives. Inspired by the observation that low-frequency words form a more compact embedding space, we tackle this challenge from a representation learning perspective. Specifically, we propose a frequency-aware token-level contrastive learning method, in which the hidden state of each decoding step is pushed away from the counterparts of other target words, in a soft contrastive way based on the corresponding word frequencies. We conduct experiments on widely used NIST Chinese-English and WMT14 English-German translation tasks. Empirical results show that our proposed methods can not only significantly improve the translation quality but also enhance lexical diversity and optimize word representation space. Further investigation reveals that, comparing with related adaptive training strategies, the superiority of our method on low-frequency word prediction lies in the robustness of token-level recall across different frequencies without sacrificing precision.
翻訳日:2021-12-30 15:31:30 公開日:2021-12-29
# LeSICiN:インド法典からの自動法規同定のための不均一グラフに基づくアプローチ

LeSICiN: A Heterogeneous Graph-based Approach for Automatic Legal Statute Identification from Indian Legal Documents ( http://arxiv.org/abs/2112.14731v1 )

ライセンス: Link先を確認
Shounak Paul, Pawan Goyal and Saptarshi Ghosh(参考訳) 法規識別タスク(英語: task of legal laws identification,lsi)は、与えられた事実または訴訟の証拠の記載に関連する法規を識別することを目的としている。 既存の手法では、事実と法的記事のテクストコンテンツのみを使用し、そのようなタスクを導く。 しかし、ケース文書と法規間の引用ネットワークは、既存のモデルでは考慮されていない追加情報の豊富な情報源である。 本研究は,LSIタスクにおけるテキストと法的な引用ネットワークの活用に向けた第一歩を踏み出したものである。 いくつかの主要なインド法裁判所の事例と、インド刑法典(IPC)の法令を含む、このタスクのための大きな新しいデータセットをキュレートする。 提案するモデルLeSICiNは,規則や文書を異種グラフとしてモデル化し,リッチテキストやグラフィカルな特徴を学習し,それらの特徴を相互に関連付けることができる。 その後、このモデルはテスト文書(モデルのグラフィカルな特徴が利用できない新しいノード)と法令(既存のノード)の間のリンクを誘導的に予測するのに使うことができる。 データセットに関する広範囲な実験により,本モデルがテキストの特徴とともにグラフィカルな構造を活用し,最先端のベースラインを快適に上回っていることが示された。 データセットとコードはhttps://github.com/L aw-AI/LeSICiN.orgで公開されている。

The task of Legal Statute Identification (LSI) aims to identify the legal statutes that are relevant to a given description of Facts or evidence of a legal case. Existing methods only utilize the textual content of Facts and legal articles to guide such a task. However, the citation network among case documents and legal statutes is a rich source of additional information, which is not considered by existing models. In this work, we take the first step towards utilising both the text and the legal citation network for the LSI task. We curate a large novel dataset for this task, including Facts of cases from several major Indian Courts of Law, and statutes from the Indian Penal Code (IPC). Modeling the statutes and training documents as a heterogeneous graph, our proposed model LeSICiN can learn rich textual and graphical features, and can also tune itself to correlate these features. Thereafter, the model can be used to inductively predict links between test documents (new nodes whose graphical features are not available to the model) and statutes (existing nodes). Extensive experiments on the dataset show that our model comfortably outperforms several state-of-the-art baselines, by exploiting the graphical structure along with textual features. The dataset and our codes are available at https://github.com/L aw-AI/LeSICiN.
翻訳日:2021-12-30 15:31:12 公開日:2021-12-29
# ADAPQUEST:ベイジアンネットワークに基づくWebベースの適応型アンケートソフトウェア

ADAPQUEST: A Software for Web-Based Adaptive Questionnaires based on Bayesian Networks ( http://arxiv.org/abs/2112.14476v1 )

ライセンス: Link先を確認
Claudio Bonesana and Francesca Mangili and Alessandro Antonucci(参考訳) ベイジアンネットワークに基づく適応型アンケートの開発のためにJavaで書かれたソフトウェアツールであるADAPQUESTを紹介する。 ここでは、テストテイクのスキルレベルの進化モデルに基づいて、質問列の動的選択として適応性が意図される。 ベイジアンネットワークは、このようなテストプロセス、特に複数のスキルを扱う場合に、柔軟で解釈可能なフレームワークを提供する。 ADAPQUESTは、アンケートパラメータのエリケーションを簡略化するために、専用のエリケーション戦略を組み込んでいる。 本ツールの精神疾患診断への応用についても,いくつかの実装の詳細とともに論じる。

We introduce ADAPQUEST, a software tool written in Java for the development of adaptive questionnaires based on Bayesian networks. Adaptiveness is intended here as the dynamical choice of the question sequence on the basis of an evolving model of the skill level of the test taker. Bayesian networks offer a flexible and highly interpretable framework to describe such testing process, especially when coping with multiple skills. ADAPQUEST embeds dedicated elicitation strategies to simplify the elicitation of the questionnaire parameters. An application of this tool for the diagnosis of mental disorders is also discussed together with some implementation details.
翻訳日:2021-12-30 15:30:46 公開日:2021-12-29
# 弱教師付きオブジェクトローカライゼーションのためのバックグラウンドアウェア分類活性化マップ

Background-aware Classification Activation Map for Weakly Supervised Object Localization ( http://arxiv.org/abs/2112.14379v1 )

ライセンス: Link先を確認
Lei Zhu, Qi She, Qian Chen, Xiangxi Meng, Mufeng Geng, Lujia Jin, Zhe Jiang, Bin Qiu, Yunfei You, Yibao Zhang, Qiushi Ren, Yanye Lu(参考訳) 弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルの分類マスクを用いて、オブジェクトローカライゼーションのための高密度アノテーションの要求を緩和する。 しかし、現在のWSOLメソッドはバックグラウンドロケーションの過剰な活性化に悩まされており、ローカライゼーションマスクを得るためには後処理が必要である。 本稿では,これらの課題を背景手がかりの認識不能性に起因し,画像レベルのラベルだけで対象と背景の両方のローカライズスコアを同時に学習する背景認識分類活性化マップ(B-CAM)を提案する。 B-CAMでは,2つの画像レベルの特徴を,潜在的背景と対象位置の画素レベルの特徴で集約し,対象特徴を対象背景から精製し,純粋な背景試料の特徴を表現する。 そして、これらの2つの特徴に基づき、オブジェクト分類器と背景分類器の両方を学び、バイナリオブジェクトのローカライゼーションマスクを決定する。 我々のB-CAMは、オブジェクトのローカライゼーションを改善するだけでなく、バックグラウンドアクティベーションを抑えるため、提案したスタガー分類損失に基づいてエンドツーエンドで訓練することができる。 実験の結果,我々のB-CAMはCUB-200,OpenImages,V OC2012データセット上で一段階WSOL法より優れていた。

Weakly supervised object localization (WSOL) relaxes the requirement of dense annotations for object localization by using image-level classification masks to supervise its learning process. However, current WSOL methods suffer from excessive activation of background locations and need post-processing to obtain the localization mask. This paper attributes these issues to the unawareness of background cues, and propose the background-aware classification activation map (B-CAM) to simultaneously learn localization scores of both object and background with only image-level labels. In our B-CAM, two image-level features, aggregated by pixel-level features of potential background and object locations, are used to purify the object feature from the object-related background and to represent the feature of the pure-background sample, respectively. Then based on these two features, both the object classifier and the background classifier are learned to determine the binary object localization mask. Our B-CAM can be trained in end-to-end manner based on a proposed stagger classification loss, which not only improves the objects localization but also suppresses the background activation. Experiments show that our B-CAM outperforms one-stage WSOL methods on the CUB-200, OpenImages and VOC2012 datasets.
翻訳日:2021-12-30 15:22:21 公開日:2021-12-29
# cotreg: 最適なトランスポートベースのポイントクラウド登録

COTReg:Coupled Optimal Transport based Point Cloud Registration ( http://arxiv.org/abs/2112.14381v1 )

ライセンス: Link先を確認
Guofeng Mei, Xiaoshui Huang, Litao Yu, Jian Zhang, and Mohammed Bennamoun(参考訳) 高品質な対応や一致を生成することは、ポイントクラウド登録における最も重要なステップの1つである。 本稿では,3次元クラウド登録の対応性を予測するために,ポイントワイズと構造マッチングを併用して学習フレームワークCOTRegを提案する。 具体的には、2つのマッチングをそれぞれwasserstein距離ベースとgromov-wasserstein距離ベース最適化に変換する。 したがって、対応性を確立するタスクは、結合された最適輸送問題に自然に再形成することができる。 さらに,点群の各点に対する信頼度スコアを予測し,重なり領域情報を提供し,対応関係を生成するネットワークを設計した。 我々の対応予測パイプラインは、FCGFのような学習ベースの機能やFPFHのような伝統的な記述子に簡単に統合できます。 我々は3DMatch,KITTI,3DCSR, ModelNet40ベンチマークの総合的な実験を行い,提案手法の最先端性能を示した。

Generating a set of high-quality correspondences or matches is one of the most critical steps in point cloud registration. This paper proposes a learning framework COTReg by jointly considering the pointwise and structural matchings to predict correspondences of 3D point cloud registration. Specifically, we transform the two matchings into a Wasserstein distance-based and a Gromov-Wasserstein distance-based optimizations, respectively. Thus the task of establishing the correspondences can be naturally reshaped to a coupled optimal transport problem. Furthermore, we design a network to predict the confidence score of being an inlier for each point of the point clouds, which provides the overlap region information to generate correspondences. Our correspondence prediction pipeline can be easily integrated into either learning-based features like FCGF or traditional descriptors like FPFH. We conducted comprehensive experiments on 3DMatch, KITTI, 3DCSR, and ModelNet40 benchmarks, showing the state-of-art performance of the proposed method.
翻訳日:2021-12-30 15:21:59 公開日:2021-12-29
# ACDNet: 単眼パノラマ深さ推定のための適応的拡張畳み込み

ACDNet: Adaptively Combined Dilated Convolution for Monocular Panorama Depth Estimation ( http://arxiv.org/abs/2112.14440v1 )

ライセンス: Link先を確認
Chuanqing Zhuang, Zhengda Lu, Yiqun Wang, Jun Xiao, Ying Wang(参考訳) 近年のパノラマ画像を用いた3次元再構成における深度推定は重要なステップである。 パノラマ画像は完全な空間情報を保持するが、等角射影で歪みをもたらす。 本稿では,単分子パノラマ画像の深度マップを予測するために,適応的に合成された拡張畳み込みに基づくACDNetを提案する。 具体的には、畳み込み核と異なる拡張を組み合わせることで、等角射影の受容体を拡張する。 一方,機能マップを要約し,チャネルに沿った受容野の多様な注意領域を得るための適応型チャネルワイズ融合モジュールを提案する。 適応型チャネル・アズ・フュージョンモジュール構築におけるチャネル・アズ・アテンションの活用により、ネットワークはチャネル間のコンテクスト情報を効率的に捕捉し活用することができる。 最後に,3つのデータセット(仮想および実世界の双方)の深度推定実験を行い,提案したACDNetが現在のSOTA法を大幅に上回っていることを示す。 私たちのコードとモデルパラメータはhttps://github.com/z cq15/ACDNetでアクセスされます。

Depth estimation is a crucial step for 3D reconstruction with panorama images in recent years. Panorama images maintain the complete spatial information but introduce distortion with equirectangular projection. In this paper, we propose an ACDNet based on the adaptively combined dilated convolution to predict the dense depth map for a monocular panoramic image. Specifically, we combine the convolution kernels with different dilations to extend the receptive field in the equirectangular projection. Meanwhile, we introduce an adaptive channel-wise fusion module to summarize the feature maps and get diverse attention areas in the receptive field along the channels. Due to the utilization of channel-wise attention in constructing the adaptive channel-wise fusion module, the network can capture and leverage the cross-channel contextual information efficiently. Finally, we conduct depth estimation experiments on three datasets (both virtual and real-world) and the experimental results demonstrate that our proposed ACDNet substantially outperforms the current state-of-the-art (SOTA) methods. Our codes and model parameters are accessed in https://github.com/z cq15/ACDNet.
翻訳日:2021-12-30 15:21:42 公開日:2021-12-29
# (参考訳) StyleGAN-V:StyleGAN2 の価格、画質、パークを備えた連続ビデオジェネレータ [全文訳有]

StyleGAN-V: A Continuous Video Generator with the Price, Image Quality and Perks of StyleGAN2 ( http://arxiv.org/abs/2112.14683v1 )

ライセンス: CC BY 4.0
Ivan Skorokhodov, Sergey Tulyakov, Mohamed Elhoseiny(参考訳) ビデオは連続的なイベントを表示するが、ビデオ合成フレームワークのほとんどは、時間内にそれらを個別に扱う。 この研究では、それらが何であるべきか、すなわち、時間連続的な信号を考え、神経表現のパラダイムを拡張して、連続的なビデオジェネレータを構築する。 このために,まず位置埋め込みのレンズを通して連続運動表現を設計する。 次に,非常にスパースなビデオのトレーニングについて検討し,良質なジェネレータを1クリップあたり2フレームのフレーム数で学習できることを実証する。 その後、従来の画像とビデオの識別器のペアを再考し、単一のハイパーネットワークベースのものを提案する。 これにより、トレーニングコストが削減され、ジェネレータによりリッチな学習信号を提供し、初めて1024$^2$ビデオを直接トレーニングすることができる。 stylegan2上にモデルを構築していますが、同じ解像度でトレーニングするコストはわずか5%高く、ほぼ同じ画質を実現しています。 さらに, 潜在空間にも同様の特性があり, 時間内に伝搬できる空間操作が可能となる。 任意のフレームレートで任意に長い動画を生成できるが、以前の作業では64フレームを一定レートで生成するのに苦労している。 提案モデルでは,最新の256$^2$ビデオ合成ベンチマークと1024$^2$解像度ベンチマークの4つの結果を得た。 ビデオとソースコードはプロジェクトのwebサイト(https://universome. github.io/stylegan-v .com/)で入手できる。

Videos show continuous events, yet most - if not all - video synthesis frameworks treat them discretely in time. In this work, we think of videos of what they should be - time-continuous signals, and extend the paradigm of neural representations to build a continuous-time video generator. For this, we first design continuous motion representations through the lens of positional embeddings. Then, we explore the question of training on very sparse videos and demonstrate that a good generator can be learned by using as few as 2 frames per clip. After that, we rethink the traditional image and video discriminators pair and propose to use a single hypernetwork-based one. This decreases the training cost and provides richer learning signal to the generator, making it possible to train directly on 1024$^2$ videos for the first time. We build our model on top of StyleGAN2 and it is just 5% more expensive to train at the same resolution while achieving almost the same image quality. Moreover, our latent space features similar properties, enabling spatial manipulations that our method can propagate in time. We can generate arbitrarily long videos at arbitrary high frame rate, while prior work struggles to generate even 64 frames at a fixed rate. Our model achieves state-of-the-art results on four modern 256$^2$ video synthesis benchmarks and one 1024$^2$ resolution one. Videos and the source code are available at the project website: https://universome.g ithub.io/stylegan-v.
翻訳日:2021-12-30 15:20:53 公開日:2021-12-29
# 相関シフト下での絡み合いと一般化

Disentanglement and Generalization Under Correlation Shifts ( http://arxiv.org/abs/2112.14754v1 )

ライセンス: Link先を確認
Christina M. Funke, Paul Vicol, Kuan-Chieh Wang, Matthias K\"ummerer, Richard Zemel and Matthias Bethge(参考訳) 変動要因間の相関は実世界データでよく見られる。 機械学習アルゴリズムは、ノイズの多いデータに対する予測性能を高めることができるため、そのような相関を利用する利点がある。 しかし、そのような相関は堅牢ではないことが多い(例えば、ドメイン、データセット、アプリケーション間で変更される可能性がある)。 ディスタングルメント法は、潜在部分空間の変動の異なる要因を捉える表現を学習することを目的としている。 一般的なアプローチは、潜在部分空間間の相互情報の最小化であり、それぞれが単一の基盤属性を符号化する。 しかし、属性が関連付けられると失敗する。 我々は、利用可能な属性に条件付けされた部分空間間の独立性を強制することにより、トレーニングデータに存在する相関構造に起因しない依存関係のみを除去する。 我々は, カテゴリー変数に対する部分空間間の条件付き相互情報(CMI)を最小化するために, 逆アプローチによりこれを達成した。 まず,CMIの最小化がガウスデータの線形問題に対する頑健な絡み合いのよい目的であることを理論的に示す。 次に,本手法をmnistとcelebaに基づく実世界のデータセットに適用し,弱い教師付き設定を含む相関シフト下で不連続かつ頑健なモデルが得られることを示す。

Correlations between factors of variation are prevalent in real-world data. Machine learning algorithms may benefit from exploiting such correlations, as they can increase predictive performance on noisy data. However, often such correlations are not robust (e.g., they may change between domains, datasets, or applications) and we wish to avoid exploiting them. Disentanglement methods aim to learn representations which capture different factors of variation in latent subspaces. A common approach involves minimizing the mutual information between latent subspaces, such that each encodes a single underlying attribute. However, this fails when attributes are correlated. We solve this problem by enforcing independence between subspaces conditioned on the available attributes, which allows us to remove only dependencies that are not due to the correlation structure present in the training data. We achieve this via an adversarial approach to minimize the conditional mutual information (CMI) between subspaces with respect to categorical variables. We first show theoretically that CMI minimization is a good objective for robust disentanglement on linear problems with Gaussian data. We then apply our method on real-world datasets based on MNIST and CelebA, and show that it yields models that are disentangled and robust under correlation shift, including in weakly supervised settings.
翻訳日:2021-12-30 14:49:16 公開日:2021-12-29
# 単眼3次元顔再建のための自己教師ありロバスト化指導

Self-Supervised Robustifying Guidance for Monocular 3D Face Reconstruction ( http://arxiv.org/abs/2112.14382v1 )

ライセンス: Link先を確認
Hitika Tiwari, Min-Hung Chen, Yi-Min Tsai, Hsien-Kai Kuo, Hung-Jen Chen, Kevin Jou, K. S. Venkatesh, Yong-Sheng Chen(参考訳) 近年のオクルード画像とノイズ画像による3次元顔再構成の進展にもかかわらず,その性能は未だ不十分である。 主な課題の1つは、顔画像の中等度から重度の閉塞に対処することである。 また、顔画像のノイズは、顔属性の正確な捕捉を阻害するので、確実に対応する必要がある。 さらに、既存のメソッドの多くは追加の依存関係に依存しており、トレーニング手順に多くの制約を課している。 そこで本稿では,顔画像の閉塞やノイズに対する堅牢性を得るために,自己改善型RObustifying GUidancE(ROGUE)フレームワークを提案する。 提案するネットワークには 1)清潔な顔の3次元顔係数を得るための誘導パイプライン、及び 2)オクルード画像およびノイズ画像の推定係数とクリーン画像との一貫性を得るためのロバスト化パイプライン。 提案した画像と特徴レベルの損失関数は,ROGUE学習プロセスを支援する。 CelebAのテストデータセットの3つのバリエーションとして,有理オクルージョン,妄想オクルージョン,ノイズの3つの顔画像において,提案手法は現在の最先端手法を大きなマージン(形状に基づく3次元頂点誤差,有理オクルージョンの0.146から0.048,妄想オクルージョンの0.292から0.061,顔画像のノイズの0.269から0.053)で上回り,提案手法の有効性を示した。

Despite the recent developments in 3D Face Reconstruction from occluded and noisy face images, the performance is still unsatisfactory. One of the main challenges is to handle moderate to heavy occlusions in the face images. In addition, the noise in the face images inhibits the correct capture of facial attributes, thus needing to be reliably addressed. Moreover, most existing methods rely on additional dependencies, posing numerous constraints over the training procedure. Therefore, we propose a Self-Supervised RObustifying GUidancE (ROGUE) framework to obtain robustness against occlusions and noise in the face images. The proposed network contains 1) the Guidance Pipeline to obtain the 3D face coefficients for the clean faces, and 2) the Robustification Pipeline to acquire the consistency between the estimated coefficients for occluded or noisy images and the clean counterpart. The proposed image- and feature-level loss functions aid the ROGUE learning process without posing additional dependencies. On the three variations of the test dataset of CelebA: rational occlusions, delusional occlusions, and noisy face images, our method outperforms the current state-of-the-art method by large margins (e.g., for the shape-based 3D vertex errors, a reduction from 0.146 to 0.048 for rational occlusions, from 0.292 to 0.061 for delusional occlusions and from 0.269 to 0.053 for the noise in the face images), demonstrating the effectiveness of the proposed approach.
翻訳日:2021-12-30 14:48:38 公開日:2021-12-29
# ミックスオブサートのためのDense-to-Sparse Gate

Dense-to-Sparse Gate for Mixture-of-Experts ( http://arxiv.org/abs/2112.14397v1 )

ライセンス: Link先を確認
Xiaonan Nie, Shijie Cao, Xupeng Miao, Lingxiao Ma, Jilong Xue, Youshan Miao, Zichao Yang, Zhi Yang, Bin Cui(参考訳) 特に変圧器のモデル品質向上に成功し、moe(mixed-of-experts )が普及している。 sparseゲートでトークンをルーティングすることで、各トークンがフルモデルの一部しか含まないという専門家に、moeはモデルサイズを変更せず、ニューラルネットワークを効果的にスケールする分単位の計算を大幅に削減する。 しかし,現在の訓練専門家とスパースゲートのアプローチは,モデル精度に負の影響をもたらし,高価な大規模モデルトレーニングの効率を低下させることがわかった。 そこで本研究では,moe訓練のためにdtsゲートを提案する。 具体的には、恒久的なスパースゲートを使用する代わりに、DTS-Gateは、トークンをすべての専門家にルートする密集ゲートとして始まり、徐々に適応的にスペーサーとなり、より少ない専門家にルートする。 DTS-GateのMoEは、専門家の訓練とスパースゲートを自然に分離し、すべての専門家を訓練し、スパースゲートを学ぶ。 実験の結果、GPT-MoE(1.5B)モデルとOpenWebTextデータセット(40GB)を比較して、DTS-Gateは同じ検証の難易度に到達するために2.0倍のスピードアップを得ることができ、FLOPの効率は1.42倍に向上した。

Mixture-of-experts (MoE) is becoming popular due to its success in improving the model quality, especially in Transformers. By routing tokens with a sparse gate to a few experts that each only contains part of the full model, MoE keeps the model size unchanged and significantly reduces per-token computation, which effectively scales neural networks. However, we found that the current approach of jointly training experts and the sparse gate introduces a negative impact on model accuracy, diminishing the efficiency of expensive large-scale model training. In this work, we proposed Dense-To-Sparse gate (DTS-Gate) for MoE training. Specifically, instead of using a permanent sparse gate, DTS-Gate begins as a dense gate that routes tokens to all experts, then gradually and adaptively becomes sparser while routes to fewer experts. MoE with DTS-Gate naturally decouples the training of experts and the sparse gate by training all experts at first and then learning the sparse gate. Experiments show that compared with the state-of-the-art Switch-Gate in GPT-MoE(1.5B) model with OpenWebText dataset(40GB), DTS-Gate can obtain 2.0x speed-up to reach the same validation perplexity, as well as higher FLOPs-efficiency of a 1.42x speed-up.
翻訳日:2021-12-30 14:47:31 公開日:2021-12-29
# EiFFFeL:葉をむくことで森林の公正性を高める

EiFFFeL: Enforcing Fairness in Forests by Flipping Leaves ( http://arxiv.org/abs/2112.14435v1 )

ライセンス: Link先を確認
Seyum Assefa Abebe, Claudio Lucchese, Salvatore Orlando(参考訳) 現在、機械学習(ml)技術は多くの社会に敏感なシステムで広く採用されており、そのようなシステムによって取られる決定の公平さを慎重に研究する必要がある。 偏りのあるトレーニングデータセットやアルゴリズム設計から生じる可能性のある個人や特定のグループに対してバイアスを発生させないために、多くのアプローチが提案されている。 そこで,本研究では,木質又は葉質を用いた後処理戦略を利用して,選択した森林の葉をレバーベットする「葉の葉の公正化」手法であるEeiFFFeLを提案する。 実験の結果,本手法は,精度を損なうことなく,ユーザが定義した集団公平度を達成できることがわかった。

Nowadays Machine Learning (ML) techniques are extensively adopted in many socially sensitive systems, thus requiring to carefully study the fairness of the decisions taken by such systems. Many approaches have been proposed to address and to make sure there is no bias against individuals or specific groups which might originally come from biased training datasets or algorithm design. In this regard, we propose a fairness enforcing approach called EiFFFeL:Enforcing Fairness in Forests by Flipping Leaves which exploits tree-based or leaf-based post-processing strategies to relabel leaves of selected decision trees of a given forest. Experimental results show that our approach achieves a user defined group fairness degree without losing a significant amount of accuracy.
翻訳日:2021-12-30 14:46:03 公開日:2021-12-29
# スケールフリーオンラインラーニングへの応用による等質化

Isotuning With Applications To Scale-Free Online Learning ( http://arxiv.org/abs/2112.14586v1 )

ライセンス: Link先を確認
Laurent Orseau, Marcus Hutter(参考訳) 我々は、高速で適応的で、いつでも、スケールフリーなオンライン学習アルゴリズムを設計するために、文学のいくつかのツールを拡張し、組み合わせます。 スケールフリーの後悔境界は、大きな損失と非常に小さな損失の両方に対して、最大損失とともに直線的にスケールしなければならない。 適応的後悔境界(Adaptive regret bounds)は、アルゴリズムが簡単なデータを利用して、繰り返し後悔する可能性があることを示す。 我々は、できるだけ少数のパラメータに依存する高速なアルゴリズム、特にそれらはいつでも存在すべきであり、したがって時間軸に依存しないアルゴリズムの開発を目指している。 私たちの最初の主要なツールは、後悔のトレードオフのバランスをとるという考え方の一般化です。 このような学習率の設計と分析を容易にするツールセットを開発し,後悔率(定数,$o(\log t)$,$o(\sqrt{t})$など)に自動的に適応することを示す。 ) 同一の観測量に対する後視における最適学習率の2因子以内であった。 2つめのツールはオンライン修正で、多くのアルゴリズムで中心境界を得ることができ、ドメインが大きすぎるか、一部しか制約されていない場合に、後悔境界が空白になることを防ぐ。 最後のツールであるnull updateは、アルゴリズムが過度に大規模な更新を実行できないようにする。 我々はこれらのツールを用いて一般的な理論を開発し、いくつかの標準アルゴリズムに適用する。 特に、(ほぼ完全に)非有界領域に対するFTRLの小さな損失に対する適応性を復元し、ミラー・ディクセントの変種に対するスケールフリー適応保証(少なくとも第2引数においてブレグマン偏差が凸である場合)を設計し、証明し、Adapt-ML-Prodをスケールフリー保証に拡張し、Prod、AdaHedge、BOA、Soft-Bayesに関するいくつかの小さな貢献を提供する。

We extend and combine several tools of the literature to design fast, adaptive, anytime and scale-free online learning algorithms. Scale-free regret bounds must scale linearly with the maximum loss, both toward large losses and toward very small losses. Adaptive regret bounds demonstrate that an algorithm can take advantage of easy data and potentially have constant regret. We seek to develop fast algorithms that depend on as few parameters as possible, in particular they should be anytime and thus not depend on the time horizon. Our first and main tool, isotuning, is a generalization of the idea of balancing the trade-off of the regret. We develop a set of tools to design and analyze such learning rates easily and show that they adapts automatically to the rate of the regret (whether constant, $O(\log T)$, $O(\sqrt{T})$, etc.) within a factor 2 of the optimal learning rate in hindsight for the same observed quantities. The second tool is an online correction, which allows us to obtain centered bounds for many algorithms, to prevent the regret bounds from being vacuous when the domain is overly large or only partially constrained. The last tool, null updates, prevents the algorithm from performing overly large updates, which could result in unbounded regret, or even invalid updates. We develop a general theory using these tools and apply it to several standard algorithms. In particular, we (almost entirely) restore the adaptivity to small losses of FTRL for unbounded domains, design and prove scale-free adaptive guarantees for a variant of Mirror Descent (at least when the Bregman divergence is convex in its second argument), extend Adapt-ML-Prod to scale-free guarantees, and provide several other minor contributions about Prod, AdaHedge, BOA and Soft-Bayes.
翻訳日:2021-12-30 14:45:39 公開日:2021-12-29
# Polyak-Ruppert平均Q-Leaningは統計的に効率的である

Polyak-Ruppert Averaged Q-Leaning is Statistically Efficient ( http://arxiv.org/abs/2112.14582v1 )

ライセンス: Link先を確認
Xiang Li, Wenhao Yang, Zhihua Zhang, Michael I. Jordan(参考訳) 我々はPolyak-Ruppert平均Q-leaning(平均Q-leaning)を用いた同期Q-learningを$\gamma$-discounted MDPで検討した。 平均的な反復 $\bar{\boldsymbol{q}}_t$ に対する漸近正規性を確立する。 さらに、$\bar{\boldsymbol{Q}}_T$ は、最も効率的な影響関数を持つ最適な Q-値関数 $\boldsymbol{Q}^*$ に対する正則漸近線型(水平)推定器であることを示す。 つまり、平均的なq-learningイテレーションは、すべてのral推定値の中で最小の漸近的分散を持つ。 さらに、$\ell_{\infty}$ error $\mathbb{E}\|\bar{\boldsymbol{Q}}_T-\boldsymbol{Q}^*\|_{\infty}$に対して非漸近解析を行い、インスタンス依存の下界と最適ミニマックス複雑性の下界とを一致させることを示した。 副生成物として、ベルマンノイズは、標準有界報酬仮定の下では、よく見られる$\mathcal{O}((1-\gamma)^{-1})$の代わりに、分散 $\mathcal{O}((1-\gamma)^{-1})$ のガウス座標を持つ。 サブガウスの結果は多くのrlアルゴリズムのサンプル複雑性を改善する可能性がある。 つまり, 平均q-leaningは統計的に効率的である。

We study synchronous Q-learning with Polyak-Ruppert averaging (a.k.a., averaged Q-leaning) in a $\gamma$-discounted MDP. We establish asymptotic normality for the averaged iteration $\bar{\boldsymbol{Q}}_T$. Furthermore, we show that $\bar{\boldsymbol{Q}}_T$ is actually a regular asymptotically linear (RAL) estimator for the optimal Q-value function $\boldsymbol{Q}^*$ with the most efficient influence function. It implies the averaged Q-learning iteration has the smallest asymptotic variance among all RAL estimators. In addition, we present a non-asymptotic analysis for the $\ell_{\infty}$ error $\mathbb{E}\|\bar{\boldsymbol{Q}}_T-\boldsymbol{Q}^*\|_{\infty}$, showing it matches the instance-dependent lower bound as well as the optimal minimax complexity lower bound. As a byproduct, we find the Bellman noise has sub-Gaussian coordinates with variance $\mathcal{O}((1-\gamma)^{-1})$ instead of the prevailing $\mathcal{O}((1-\gamma)^{-2})$ under the standard bounded reward assumption. The sub-Gaussian result has potential to improve the sample complexity of many RL algorithms. In short, our theoretical analysis shows averaged Q-Leaning is statistically efficient.
翻訳日:2021-12-30 14:44:21 公開日:2021-12-29
# 境界損失を考慮したユニバーサルオンライン学習:バイナリ分類の削減

Universal Online Learning with Bounded Loss: Reduction to Binary Classification ( http://arxiv.org/abs/2112.14638v1 )

ライセンス: Link先を確認
Mo\"ise Blanchard and Romain Cosson(参考訳) オンライン学習の文脈における非i.d.プロセスの普遍的一貫性について研究する。 確率過程は、この過程における計測可能な応答関数に対する消失平均損失を達成する学習者が存在する場合、普遍的一貫性を認めると言われる。 損失関数がアンバウンドであるとき、ブランチャードらは強普遍的一貫性を認める唯一のプロセスは有限個の値を取るプロセスであることを示した。 しかし、損失関数が有界であれば、強い普遍整合性を持つプロセスのクラスはよりリッチになり、その特性は応答設定に依存する(Hanneke)。 本稿では,このプロセスが応答設定から独立してオープンな質問を閉じることを示す(Hanneke, Open Problem 3)。 具体的には,普遍的なオンライン学習を許可する過程のクラスが,可算個のクラスを持つ多クラス分類の場合と同じであることを示す。 これにより、有界損失を持つ出力設定をバイナリ分類に還元することができる。 私たちの削減は建設的で実践的です。 実際、最も近い隣のアルゴリズムは我々の構築によって輸送されることを示す。 強普遍学習を認めるプロセス上の二進分類では、最寄りの近傍が少なくともすべての区間の有限和をうまく学習できることが証明される。

We study universal consistency of non-i.i.d. processes in the context of online learning. A stochastic process is said to admit universal consistency if there exists a learner that achieves vanishing average loss for any measurable response function on this process. When the loss function is unbounded, Blanchard et al. showed that the only processes admitting strong universal consistency are those taking a finite number of values almost surely. However, when the loss function is bounded, the class of processes admitting strong universal consistency is much richer and its characterization could be dependent on the response setting (Hanneke). In this paper, we show that this class of processes is independent from the response setting thereby closing an open question (Hanneke, Open Problem 3). Specifically, we show that the class of processes that admit universal online learning is the same for binary classification as for multiclass classification with countable number of classes. Consequently, any output setting with bounded loss can be reduced to binary classification. Our reduction is constructive and practical. Indeed, we show that the nearest neighbor algorithm is transported by our construction. For binary classification on a process admitting strong universal learning, we prove that nearest neighbor successfully learns at least all finite unions of intervals.
翻訳日:2021-12-30 14:43:58 公開日:2021-12-29
# Res2NetFuse:赤外線と可視画像の融合手法

Res2NetFuse: A Fusion Method for Infrared and Visible Images ( http://arxiv.org/abs/2112.14540v1 )

ライセンス: Link先を確認
Xu Song and Xiao-Jun Wu and Hui Li and Jun Sun and Vasile Palade(参考訳) 本稿では,赤外線および可視画像のためのres2netベースの融合フレームワークを提案する。 提案した融合モデルは,それぞれエンコーダ,フュージョン層,デコーダの3つの部分を有する。 Res2Netベースのエンコーダは、ソースイメージのマルチスケールの特徴を抽出するために使用され、単一のイメージのみを使用するRes2Netベースのエンコーダをトレーニングするための新しいトレーニング戦略を導入する。 そして、注目モデルに基づいて新たな融合戦略を開発する。 そして、デコーダによって融合画像が再構成される。 提案手法も詳細に分析されている。 実験により,本手法は既存手法との比較により,客観的,主観的評価において最先端の融合性能を実現することを示す。

This paper presents a novel Res2Net-based fusion framework for infrared and visible images. The proposed fusion model has three parts: an encoder, a fusion layer and a decoder, respectively. The Res2Net-based encoder is used to extract multi-scale features of source images, the paper introducing a new training strategy for training a Res2Net-based encoder that uses only a single image. Then, a new fusion strategy is developed based on the attention model. Finally, the fused image is reconstructed by the decoder. The proposed approach is also analyzed in detail. Experiments show that our method achieves state-of-the-art fusion performance in objective and subjective assessment by comparing with the existing methods.
翻訳日:2021-12-30 14:42:24 公開日:2021-12-29
# hprn:スペクトル超解像のための総括的事前埋め込み関係ネットワーク

HPRN: Holistic Prior-embedded Relation Network for Spectral Super-Resolution ( http://arxiv.org/abs/2112.14608v1 )

ライセンス: Link先を確認
Chaoxiong Wu, Jiaojiao Li, Rui Song, Yunsong Li and Qian Du(参考訳) スペクトル超解像 (SSR) とは、高スペクトル像(HSI)をRGBから回収することを指す。 SSR問題の1対多の性質のため、単一のRGBイメージを多くのHSIに再プロジェクションすることができる。 この課題に対処する鍵は、天然のRGB空間コンテキスト優先、深部特徴優先、固有のHSI統計優先など、複数ソースの事前情報をプラグインして、再構成されたスペクトルの信頼性と忠実性を改善することである。 しかし、現在のほとんどのアプローチでは、カスタマイズされた畳み込みニューラルネットワーク(CNN)を設計する上で、一般的な、限られた事前しか考慮していない。 この問題に対処するため、我々はSSRのための新しい総合的事前組込み関係ネットワーク(HPRN)を提案する。 基本的に、コアフレームワークは、rgb信号に先立つ低周波コンテンツの伝送と利用を完全に促進する複数のマルチレジデントリレーションブロック(mrbs)によって繊細に組み立てられる。 革新的には、RGB入力のセマンティック先行を導入してカテゴリ属性を識別し、セマンティック駆動空間関係モジュール(SSRM)をフォワードして、セマンティック埋め込み関係行列を用いてクラスタ化された類似特性の特徴集約を行う。 さらに,トランスフォーマスタイルの特徴的相互作用とともに,スカラーをチャネルワイド関係の記述子として使用する習慣を破り,それを特定のベクトルに置き換え,表現をより差別的にサポートするトランスフォーマ方式のチャネルリレーションモジュール(TCRM)を開発した。 高スペクトル帯域間の数学的相関とスペクトル整合性を維持するため、損失関数に2次事前制約(SOPC)を組み込んでHSI再構成プロセスの導出を行う。

Spectral super-resolution (SSR) refers to the hyperspectral image (HSI) recovery from an RGB counterpart. Due to the one-to-many nature of the SSR problem, a single RGB image can be reprojected to many HSIs. The key to tackle this illposed problem is to plug into multi-source prior information such as the natural RGB spatial context-prior, deep feature-prior or inherent HSI statistical-prior, etc., so as to improve the confidence and fidelity of reconstructed spectra. However, most current approaches only consider the general and limited priors in their designing the customized convolutional neural networks (CNNs), which leads to the inability to effectively alleviate the degree of ill-posedness. To address the problematic issues, we propose a novel holistic prior-embedded relation network (HPRN) for SSR. Basically, the core framework is delicately assembled by several multi-residual relation blocks (MRBs) that fully facilitate the transmission and utilization of the low-frequency content prior of RGB signals. Innovatively, the semantic prior of RGB input is introduced to identify category attributes and a semantic-driven spatial relation module (SSRM) is put forward to perform the feature aggregation among the clustered similar characteristics using a semantic-embedded relation matrix. Additionally, we develop a transformer-based channel relation module (TCRM), which breaks the habit of employing scalars as the descriptors of channel-wise relations in the previous deep feature-prior and replaces them with certain vectors, together with Transformerstyle feature interactions, supporting the representations to be more discriminative. In order to maintain the mathematical correlation and spectral consistency between hyperspectral bands, the second-order prior constraints (SOPC) are incorporated into the loss function to guide the HSI reconstruction process.
翻訳日:2021-12-30 14:42:14 公開日:2021-12-29
# 微調整トランスフォーマー:語彙変換

Fine-Tuning Transformers: Vocabulary Transfer ( http://arxiv.org/abs/2112.14569v1 )

ライセンス: Link先を確認
Igor Samenko, Alexey Tikhonov, Borislav Kozlovskii, Ivan P. Yamshchikov(参考訳) トランスフォーマーは、自然言語処理の最近の進歩の大半を担っている。 これらのモデルの実用的な自然言語処理アプリケーションの大部分は、転送学習によって実現される。 本稿では,微調整に用いるコーパス固有のトークン化がモデルの性能を向上させるか検討する。 一連の実験を通して,このようなトークン化と語彙トークンの初期化と微調整戦略が組み合わさって,転送速度が向上し,微調整モデルの性能が向上することを示した。 我々は、転送ファシリテーション・ボキャブラリ・トランスファーのこの側面を呼ぶ。

Transformers are responsible for the vast majority of recent advances in natural language processing. The majority of practical natural language processing applications of these models is typically enabled through transfer learning. This paper studies if corpus-specific tokenization used for fine-tuning improves the resulting performance of the model. Through a series of experiments, we demonstrate that such tokenization combined with the initialization and fine-tuning strategy for the vocabulary tokens speeds up the transfer and boosts the performance of the fine-tuned model. We call this aspect of transfer facilitation vocabulary transfer.
翻訳日:2021-12-30 14:03:43 公開日:2021-12-29
# 説明責任は株主の心にある:説明可能な人工知能の基礎を確立する

Explainability Is in the Mind of the Beholder: Establishing the Foundations of Explainable Artificial Intelligence ( http://arxiv.org/abs/2112.14466v1 )

ライセンス: Link先を確認
Kacper Sokol and Peter Flach(参考訳) 説明可能な人工知能と解釈可能な機械学習は、重要性を増す研究分野である。 しかし、基礎となる概念は幾分分かりやすく、一般的に合意された定義が欠如している。 社会科学からの近年のインスピレーションは、人間の受給者のニーズと期待に再び焦点を合わせてきたが、この分野は具体的な概念化を見逃している。 我々は、人間の説明可能性の哲学的・社会的基盤を見直し、技術的領域に転換することで、この問題に対処する。 特に,アルゴリズム的ブラックボックスの概念と,説明過程や説明者の背景知識によって決定される理解のスペクトルを精査する。 このアプローチにより、説明可能性を、ある背景知識の下で解釈される透明な洞察(ブラックボックス内)に適用される(論理的な)推論として定義することができます。 次に、この概念化を用いて、透明性と予測力の間の非常に論争の多いトレードオフと、アンテホックとポストホックな説明者と、説明可能性によって引き起こされる公正さと説明責任との関係を再考する。 さらに,人間中心の説明可能性から,説明者,対照文,説明過程に焦点をあてて,解釈可能性を必要とする機械学習ワークフローの構成要素について論じる。 私たちの議論は、オープン質問(個々の問題に対処するのではなく)をよりよくナビゲートするために、現在の研究と和解し、補完します。 結論として,アルゴリズムの透明性の要求レベルを達成するために必要な人間中心的説明プロセスについて考察した。

Explainable artificial intelligence and interpretable machine learning are research fields growing in importance. Yet, the underlying concepts remain somewhat elusive and lack generally agreed definitions. While recent inspiration from social sciences has refocused the work on needs and expectations of human recipients, the field still misses a concrete conceptualisation. We take steps towards addressing this challenge by reviewing the philosophical and social foundations of human explainability, which we then translate into the technological realm. In particular, we scrutinise the notion of algorithmic black boxes and the spectrum of understanding determined by explanatory processes and explainees' background knowledge. This approach allows us to define explainability as (logical) reasoning applied to transparent insights (into black boxes) interpreted under certain background knowledge - a process that engenders understanding in explainees. We then employ this conceptualisation to revisit the much disputed trade-off between transparency and predictive power and its implications for ante-hoc and post-hoc explainers as well as fairness and accountability engendered by explainability. We furthermore discuss components of the machine learning workflow that may be in need of interpretability, building on a range of ideas from human-centred explainability, with a focus on explainees, contrastive statements and explanatory processes. Our discussion reconciles and complements current research to help better navigate open questions - rather than attempting to address any individual issue - thus laying a solid foundation for a grounded discussion and future progress of explainable artificial intelligence and interpretable machine learning. We conclude with a summary of our findings, revisiting the human-centred explanatory process needed to achieve the desired level of algorithmic transparency.
翻訳日:2021-12-30 14:03:35 公開日:2021-12-29
# (参考訳) 機械学習因果モデルにおける変数バイアスの省略

Omitted Variable Bias in Machine Learned Causal Models ( http://arxiv.org/abs/2112.13398v2 )

ライセンス: CC BY 4.0
Victor Chernozhukov, Carlos Cinelli, Whitney Newey, Amit Sharma, Vasilis Syrgkanis(参考訳) 我々は、結果の条件付き期待関数の線形汎関数として識別できる幅広い因果パラメータのクラスに対して、省略された変数バイアスの大きさの一般、しかし単純で鋭い境界を導出する。 このような機能には、潜在的な結果の平均(重み付け)、平均的な治療効果(治療効果などのサブグループ効果を含む)、(重み付け)平均微分、および共変量分布のシフトによる政策効果など、因果推論研究における伝統的な研究対象の多くが含まれている。 我々の構成は、対象関数のriesz-frechet表現に依存する。 具体的には、バイアスのバウンドが、結果と興味のあるパラメータのriesz表現子の両方で潜在変数が生成する追加の変動にのみ依存することを示す。 さらに、多くの重要なケース(例えば、部分線形モデルにおける平均的な処理効果、または二元的処理を持つ非分離モデル)において、境界は、容易に解釈できる2つの量に依存することが示される: 非パラメトリックな部分的r^2$ (ピアソンの相関比) である。 したがって、省略変数の最大説明力に関する単純な可能性判断(処理と結果変動の説明)は、バイアスの大きさに全体的な境界を置くのに十分である。 最後に,debiased machine learningを活用することで,観測された分布から識別可能な境界の成分を推定するフレキシブルで効率的な統計的推論手法を提案する。

We derive general, yet simple, sharp bounds on the size of the omitted variable bias for a broad class of causal parameters that can be identified as linear functionals of the conditional expectation function of the outcome. Such functionals encompass many of the traditional targets of investigation in causal inference studies, such as, for example, (weighted) average of potential outcomes, average treatment effects (including subgroup effects, such as the effect on the treated), (weighted) average derivatives, and policy effects from shifts in covariate distribution -- all for general, nonparametric causal models. Our construction relies on the Riesz-Frechet representation of the target functional. Specifically, we show how the bound on the bias depends only on the additional variation that the latent variables create both in the outcome and in the Riesz representer for the parameter of interest. Moreover, in many important cases (e.g, average treatment effects in partially linear models, or in nonseparable models with a binary treatment) the bound is shown to depend on two easily interpretable quantities: the nonparametric partial $R^2$ (Pearson's "correlation ratio") of the unobserved variables with the treatment and with the outcome. Therefore, simple plausibility judgments on the maximum explanatory power of omitted variables (in explaining treatment and outcome variation) are sufficient to place overall bounds on the size of the bias. Finally, leveraging debiased machine learning, we provide flexible and efficient statistical inference methods to estimate the components of the bounds that are identifiable from the observed distribution.
翻訳日:2021-12-30 13:18:59 公開日:2021-12-29
# (参考訳) ViR:Vision Reservoir [全文訳有]

ViR:the Vision Reservoir ( http://arxiv.org/abs/2112.13545v2 )

ライセンス: CC BY 4.0
Xian Wei, Bin Wang, Mingsong Chen, Ji Yuan, Hai Lan, Jiehuang Shi, Xuan Tang, Bo Jin, Guozhang Chen, Dongping Yang(参考訳) 最新の年では、画像分類にViT(Vision Transformer)を適用することに成功した。 しかし、ViTが2つの側面に苦しむことを示す証拠がまだ残っている。 一 大規模データセットにおける事前学習のための複数の変圧器層の適用による高計算とメモリ負担 二 小さいデータセットをスクラッチからトレーニングするときの過度な適合 これらの問題に対処するために,vitと並行して画像分類のための新しい手法であるvision reservoir computing (vir) が提案されている。 各画像を一定長さのトークン列に分割することで、ViRは、ほぼ完全に接続された位相を持つ純粋な貯水池を構築し、ViTのTransformerモジュールを置き換える。 その後、ネットワーク性能を向上させるために2種類のディープViRモデルが提案されている。 いくつかの画像分類ベンチマークにおいて、ViRとViTの比較実験を行った。 事前学習プロセスがなければ、ViRはモデルと計算の複雑さの両方でViTより優れている。 具体的には、ViRのパラメータの数はViTの約15%または5%であり、メモリフットプリントはViTの約20%から40%である。 ViR性能の優位性は、Small-World特性、リアプノフ指数、メモリ容量によって説明される。

The most recent year has witnessed the success of applying the Vision Transformer (ViT) for image classification. However, there are still evidences indicating that ViT often suffers following two aspects, i) the high computation and the memory burden from applying the multiple Transformer layers for pre-training on a large-scale dataset, ii) the over-fitting when training on small datasets from scratch. To address these problems, a novel method, namely, Vision Reservoir computing (ViR), is proposed here for image classification, as a parallel to ViT. By splitting each image into a sequence of tokens with fixed length, the ViR constructs a pure reservoir with a nearly fully connected topology to replace the Transformer module in ViT. Two kinds of deep ViR models are subsequently proposed to enhance the network performance. Comparative experiments between the ViR and the ViT are carried out on several image classification benchmarks. Without any pre-training process, the ViR outperforms the ViT in terms of both model and computational complexity. Specifically, the number of parameters of the ViR is about 15% even 5% of the ViT, and the memory footprint is about 20% to 40% of the ViT. The superiority of the ViR performance is explained by Small-World characteristics, Lyapunov exponents, and memory capacity.
翻訳日:2021-12-30 13:05:19 公開日:2021-12-29
# 分離構造変換によるロバスト・軽量モデルの学習

Learning Robust and Lightweight Model through Separable Structured Transformations ( http://arxiv.org/abs/2112.13551v2 )

ライセンス: Link先を確認
Xian Wei, Yanhui Huang, Yangyu Xu, Mingsong Chen, Hai Lan, Yuanxiang Li, Zhongfeng Wang and Xuan Tang(参考訳) モバイルデバイスやモノのインターネットの普及に伴い、ディープラーニングモデルは、限られたコンピューティングリソースとメモリを持つデバイスにますますデプロイされ、敵対的ノイズの脅威にさらされている。 これらの機器には軽量で堅牢な深層モデルを学ぶ必要がある。 しかし、現在のディープラーニングソリューションでは、これら2つの特性を持つモデルを、どちらか一方を劣化させることなく学習することは困難である。 よく知られているように、完全連結層は畳み込みニューラルネットワークのパラメータの大半に寄与する。 そこでは, 完全連結層の大規模重み行列を, 分離可能な小型行列のテンソル積で分解し, パラメータを小さくするために, 完全連結層の分離可能な構造変換を行う。 画像などのデータは、完全に接続された層に供給される前にフラット化される必要がなくなり、データの貴重な空間幾何学的情報を保持することに注意されたい。 さらに, 軽量性, 堅牢性を両立させるため, これらの分離可能な行列に課される疎度と微分可能な条件数の合同制約を提案する。 MLP, VGG-16, Vision Transformer に対する提案手法の評価を行った。 ImageNet, SVHN, CIFAR-100, CIFAR10などのデータセットを用いた実験結果から, ネットワークパラメータの90%削減に成功し, 頑健な精度損失は1.5%未満であり, 元の完全接続層に基づくSOTA法よりも優れていることがわかった。 興味深いことに、200倍のような高い圧縮速度でも圧倒的な利点が得られる。

With the proliferation of mobile devices and the Internet of Things, deep learning models are increasingly deployed on devices with limited computing resources and memory, and are exposed to the threat of adversarial noise. Learning deep models with both lightweight and robustness is necessary for these equipments. However, current deep learning solutions are difficult to learn a model that possesses these two properties without degrading one or the other. As is well known, the fully-connected layers contribute most of the parameters of convolutional neural networks. We perform a separable structural transformation of the fully-connected layer to reduce the parameters, where the large-scale weight matrix of the fully-connected layer is decoupled by the tensor product of several separable small-sized matrices. Note that data, such as images, no longer need to be flattened before being fed to the fully-connected layer, retaining the valuable spatial geometric information of the data. Moreover, in order to further enhance both lightweight and robustness, we propose a joint constraint of sparsity and differentiable condition number, which is imposed on these separable matrices. We evaluate the proposed approach on MLP, VGG-16 and Vision Transformer. The experimental results on datasets such as ImageNet, SVHN, CIFAR-100 and CIFAR10 show that we successfully reduce the amount of network parameters by 90%, while the robust accuracy loss is less than 1.5%, which is better than the SOTA methods based on the original fully-connected layer. Interestingly, it can achieve an overwhelming advantage even at a high compression rate, e.g., 200 times.
翻訳日:2021-12-30 12:20:46 公開日:2021-12-29