このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211117となっている論文です。

PDF登録状況(公開日: 20211117)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) アタナソフの直観的ファジィ値の空間の位相的および代数的構造 [全文訳有]

Topological and Algebraic Structures of the Space of Atanassov's Intuitionistic Fuzzy Values ( http://arxiv.org/abs/2111.12677v1 )

ライセンス: CC BY 4.0
Xinxing Wu, Tao Wang, Peide Liu, Gul Deniz Cayli, Xu Zhang(参考訳) 直観的ファジィ値(IFV)の空間をスコア関数と精度関数に基づいて線形次数で表し、類似度関数と精度関数に基づいて線形次数によって誘導されるものと同じ代数構造を持つことを示した。 スコア関数と精度関数に基づく線形順序でifvsの新しい演算子を導入することにより,ifvs上ではそのような演算子が強い否定であることを示す。 さらに、IFVs の空間は完全格子であり、新しい作用素を持つクリーネ代数であることが提案される。 また、上の2つの線形順序によって誘導される順序位相を持つIFVの位相空間は分離可能ではなく、距離化可能でコンパクトで連結である。 Atanassov [Intuitionistic Fuzzy Sets: Theory and Applications, Springer, 1999] と [On Intuitionistic Fuzzy Sets Theory, Springer, 2012] によって引き起こされた3つのオープンな問題に、我々の結果は部分的に答えている。 さらに、対応する線形順序の下でIFVsとq-rung整形ファジィ値(q-ROFVs)の間の同型性を構築する。 一方, IFS の特定の順序による許容類似度尺度の概念を導入し, IFS の類似度尺度の以前の定義を拡張し, スコア関数と精度関数に基づく線形順序による許容類似度尺度を構築し, 建築材料の分類に関するパターン認識問題に有効に適用する。

We demonstrate that the space of intuitionistic fuzzy values (IFVs) with the linear order based on a score function and an accuracy function has the same algebraic structure as the one induced by the linear order based on a similarity function and an accuracy function. By introducing a new operator for IFVs via the linear order based on a score function and an accuracy function, we present that such an operator is a strong negation on IFVs. Moreover, we propose that the space of IFVs is a complete lattice and a Kleene algebra with the new operator. We also observe that the topological space of IFVs with the order topology induced by the above two linear orders is not separable and metrizable but compact and connected. From exactly new perspectives, our results partially answer three open problems posed by Atanassov [Intuitionistic Fuzzy Sets: Theory and Applications, Springer, 1999] and [On Intuitionistic Fuzzy Sets Theory, Springer, 2012]. Furthermore, we construct an isomorphism between the spaces of IFVs and q-rung orthopedic fuzzy values (q-ROFVs) under the corresponding linear orders. Meanwhile, we introduce the concept of the admissible similarity measures with particular orders for IFSs, extending the previous definition of the similarity measure for IFSs, and construct an admissible similarity measure with the linear order based on a score function and an accuracy function, which is effectively applied to a pattern recognition problem about the classification of building materials.
翻訳日:2021-11-28 19:47:54 公開日:2021-11-17
# (参考訳) 健康不平等を減らすデータ中心行動機械学習プラットフォーム [全文訳有]

A Data-Centric Behavioral Machine Learning Platform to Reduce Health Inequalities ( http://arxiv.org/abs/2111.11203v1 )

ライセンス: CC BY 4.0
Dexian Tang, Guillem Franc\`es and \'Africa Peri\'a\~nez(参考訳) 低所得国や中所得国における最前線の医療従事者に対して、健康状態を改善するための勧告や予測を提供することは、例えば毎日発生している何千もの母性および新生児の死亡を防ぐことによる医療の不平等の低減に大きな影響を与える可能性がある。 そのために、これらの国で稼働している幅広いモバイルヘルスアプリケーションの行動ログを活用する、データ中心の機械学習プラットフォームを開発しています。 ここでは、データサイエンス目的のソフトウェア開発キットによるデータ取り込みから、データパイプライン、機能エンジニアリング、モデル管理に至るまで、プロセス全体のデータの品質と組織化を最大化するための詳細に焦点を当て、プラットフォームアーキテクチャについて説明する。

Providing front-line health workers in low- and middle- income countries with recommendations and predictions to improve health outcomes can have a tremendous impact on reducing healthcare inequalities, for instance by helping to prevent the thousands of maternal and newborn deaths that occur every day. To that end, we are developing a data-centric machine learning platform that leverages the behavioral logs from a wide range of mobile health applications running in those countries. Here we describe the platform architecture, focusing on the details that help us to maximize the quality and organization of the data throughout the whole process, from the data ingestion with a data-science purposed software development kit to the data pipelines, feature engineering and model management.
翻訳日:2021-11-28 18:17:53 公開日:2021-11-17
# 半スーパービジョンNMFトピックモデルのためのハッシュタググラフによるコミュニティ検出

Community-Detection via Hashtag-Graphs for Semi-Supervised NMF Topic Models ( http://arxiv.org/abs/2111.10401v1 )

ライセンス: Link先を確認
Mattias Luber and Anton Thielmann and Christoph Weisser and Benjamin S\"afken(参考訳) 構造化されていない文書の大規模なコレクションからトピックを抽出することは、現在のNLPアプリケーションやNMF、LDAなどのアルゴリズムにおいて中心的なタスクとなり、その一般化は、その技術の確立された現在の状態である。 しかし、特につぶやきのような短いテキスト文書の場合、これらのアプローチは、しばしば文書機能行列のスパースのために不満足な結果をもたらす。 追加情報を考慮してこのスパーシティを克服するいくつかのアプローチが提案されているが、これらは単に類似した文書の集約と単語共起の推定に焦点を当てているに過ぎない。 これは、一般的なコミュニティ検出アルゴリズムを適用することで、いわゆるハッシュタググラフから多くのトピック情報を取り出すことができるという事実を完全に無視している。 そこで本稿では,ハッシュタググラフのトピック構造を,グラフベースのコミュニティ検出と半教師付きNMFを接続することで,トピックモデルの推定に組み込む方法を提案する。 最近ストリーミングされたTwitterのデータにこのアプローチを適用することで、この手順がより直感的で人間的に解釈可能なトピックにつながることが分かる。

Extracting topics from large collections of unstructured text-documents has become a central task in current NLP applications and algorithms like NMF, LDA as well as their generalizations are the well-established current state of the art. However, especially when it comes to short text documents like Tweets, these approaches often lead to unsatisfying results due to the sparsity of the document-feature matrices. Even though, several approaches have been proposed to overcome this sparsity by taking additional information into account, these are merely focused on the aggregation of similar documents and the estimation of word-co-occurrences. This ultimately completely neglects the fact that a lot of topical-information can be actually retrieved from so-called hashtag-graphs by applying common community detection algorithms. Therefore, this paper outlines a novel approach on how to integrate topic structures of hashtag graphs into the estimation of topic models by connecting graph-based community detection and semi-supervised NMF. By applying this approach on recently streamed Twitter data it will be seen that this procedure actually leads to more intuitive and humanly interpretable topics.
翻訳日:2021-11-28 18:12:15 公開日:2021-11-17
# (参考訳) 手書き文字データセット上でのHMMによるベース分類器の性能向上 [全文訳有]

Augmentation of base classifier performance via HMMs on a handwritten character data set ( http://arxiv.org/abs/2111.10204v1 )

ライセンス: CC BY 4.0
H\'elder Campos and Nuno Paulino(参考訳) 本稿では,近代ラテン語アルファベットの手書き文字認識のためのベース分類器の性能について検討した。 ビタビ系列を決定することにより、ビタビ誤り補正を利用することにより、ベース分類性能をさらに向上する。 隠れマルコフモデル(HMM)モデルは、単語内の文字間の関係を利用して、最も可能性の高い文字列を決定する。 4つの基本分類器と8つの特徴集合を手書きデータセットから抽出した。 修正後の最高の分類性能は89.8%、平均68.1%であった。

This paper presents results of a study of the performance of several base classifiers for recognition of handwritten characters of the modern Latin alphabet. Base classification performance is further enhanced by utilizing Viterbi error correction by determining the Viterbi sequence. Hidden Markov Models (HMMs) models exploit relationships between letters within a word to determine the most likely sequence of characters. Four base classifiers are studied along with eight feature sets extracted from the handwritten dataset. The best classification performance after correction was 89.8%, and the average was 68.1%
翻訳日:2021-11-23 05:58:57 公開日:2021-11-17
# ヘテロジニアス・コミュニティの特徴を活用した都市洪水の時空間グラフ深層学習モデル

A Spatial-temporal Graph Deep Learning Model for Urban Flood Nowcasting Leveraging Heterogeneous Community Features ( http://arxiv.org/abs/2111.08450v2 )

ライセンス: Link先を確認
Hamed Farahmand, Yuanchang Xu, and Ali Mostafavi(参考訳) 本研究の目的は,物理モデルと人間センシング機能の統合による,都市洪水流況予測のための新しい構造的ディープラーニングモデリングフレームワークの開発とテストである。 本稿では,注意に基づく空間-時間グラフ畳み込みネットワーク(astgcn)モデルと,リアルタイムに収集され,事前処理され,モデルに供給されるさまざまなデータストリームを含む,新しい計算モデリングフレームワークを提案する。 The novelty of the computational modeling framework is threefold; first, the model is capable of considering spatial and temporal dependencies in inundation propagation thanks to the spatial and temporal graph convolutional modules; second, it enables capturing the influence of heterogeneous temporal data streams that can signal flooding status, including physics-based features such as rainfall intensity and water elevation, and human-sensed data such as flood reports and fluctuations of human activity. 第三に、その注意機構により、モデルは動的に変化する最も影響力のある特徴に焦点を合わせることができる。 本稿では,テキサス州ハリス郡におけるモデリングフレームワークの適用例と,洪水イベントとしてのハリケーン・ハーベイについて述べる。 以上の結果から, このモデルは, 都市部浸水の発生状況において, 0.808の精度と0.891のリコールで優れた性能を示し, 他の新しいモデルと比較して優れた性能を示した。 さらに、ASTGCNモデルの性能は、物理に基づく特徴のみに依存するモデルに不均一な動的特徴を加えることで改善される。

The objective of this study is to develop and test a novel structured deep-learning modeling framework for urban flood nowcasting by integrating physics-based and human-sensed features. We present a new computational modeling framework including an attention-based spatial-temporal graph convolution network (ASTGCN) model and different streams of data that are collected in real-time, preprocessed, and fed into the model to consider spatial and temporal information and dependencies that improve flood nowcasting. The novelty of the computational modeling framework is threefold; first, the model is capable of considering spatial and temporal dependencies in inundation propagation thanks to the spatial and temporal graph convolutional modules; second, it enables capturing the influence of heterogeneous temporal data streams that can signal flooding status, including physics-based features such as rainfall intensity and water elevation, and human-sensed data such as flood reports and fluctuations of human activity. Third, its attention mechanism enables the model to direct its focus on the most influential features that vary dynamically. We show the application of the modeling framework in the context of Harris County, Texas, as the case study and Hurricane Harvey as the flood event. Results indicate that the model provides superior performance for the nowcasting of urban flood inundation at the census tract level, with a precision of 0.808 and a recall of 0.891, which shows the model performs better compared with some other novel models. Moreover, ASTGCN model performance improves when heterogeneous dynamic features are added into the model that solely relies on physics-based features, which demonstrates the promise of using heterogenous human-sensed data for flood nowcasting,
翻訳日:2021-11-21 14:53:39 公開日:2021-11-17
# (参考訳) GAETS:バッテリパラメータ推定に向けたグラフオートエンコーダ時系列アプローチ [全文訳有]

GAETS: A Graph Autoencoder Time Series Approach Towards Battery Parameter Estimation ( http://arxiv.org/abs/2111.09314v1 )

ライセンス: CC0 1.0
Edward Elson Kosasih, Rucha Bhalchandra Joshi, Janamejaya Channegowda(参考訳) リチウムイオン電池は、現在進行中の輸送電化革命を支えている。 リチウムイオン電池は高いエネルギー密度を持ち、電気化学的特性が好ましいため、電気自動車のエネルギー源として好まれる。 電気自動車の利用可能な範囲を推定するには,バッテリパラメータ(充電容量,電圧など)の正確な推定が不可欠である。 グラフベースの推定手法により、変数の依存関係を理解して見積もりを改善することができる。 本稿では,バッテリパラメータ推定にグラフニューラルネットワークを用いた,ユニークなグラフオートエンコーダ時系列推定手法を提案する。 バッテリ測定の変数は、関心のある変数内のある相関関係において互いに基礎的な関係を持つことが知られている。 グラフオートエンコーダはNOTEARSの非線形バージョンに基づいており、これにより構造を学習する際に勾配差を発生させることができる(組合せ最適化問題として扱う代わりに)。 提案アーキテクチャは,最新のグラフ時系列(GTS)アーキテクチャよりバッテリパラメータ推定に優れる。 我々はgaets(graph autoencoder time series)と呼ぶ。

Lithium-ion batteries are powering the ongoing transportation electrification revolution. Lithium-ion batteries possess higher energy density and favourable electrochemical properties which make it a preferable energy source for electric vehicles. Precise estimation of battery parameters (Charge capacity, voltage etc) is vital to estimate the available range in an electric vehicle. Graph-based estimation techniques enable us to understand the variable dependencies underpinning them to improve estimates. In this paper we employ Graph Neural Networks for battery parameter estimation, we introduce a unique graph autoencoder time series estimation approach. Variables in battery measurements are known to have an underlying relationship with each other in a certain correlation within variables of interest. We use graph autoencoder based on a non-linear version of NOTEARS as this allowed us to perform gradient-descent in learning the structure (instead of treating it as a combinatorial optimisation problem). The proposed architecture outperforms the state-of-the-art Graph Time Series (GTS) architecture for battery parameter estimation. We call our method GAETS (Graph AutoEncoder Time Series).
翻訳日:2021-11-20 01:46:21 公開日:2021-11-17
# (参考訳) BLOOM-Net: スケーラブルで効率的な音声強調に向けたマスキングネットワークのブロックワイズ最適化 [全文訳有]

BLOOM-Net: Blockwise Optimization for Masking Networks Toward Scalable and Efficient Speech Enhancement ( http://arxiv.org/abs/2111.09372v1 )

ライセンス: CC BY 4.0
Sunwoo Kim and Minje Kim(参考訳) 本稿では,スケーラブルな音声強調ネットワークを学習するためのマスキングネットワーク(BLOOM-Net)のブロックワイズ最適化手法を提案する。 本稿では,本ネットワークを残留学習方式で設計し,内部セパレータブロックの逐次学習を行い,拡張性のあるマスキングベース深層ニューラルネットワークによる音声強調を行う。 そのスケーラビリティにより、テスト時間リソースの制約に基づいて実行時の複雑性を調整することができる。 この目的のために、私たちはモデルをモジュール化し、拡張性が増すために最小限のメモリやトレーニングオーバーヘッドを伴って、リソースに対するパフォーマンスと制約を強化するための様々なニーズを柔軟に対応できるようにします。 音声強調実験により,提案手法のブロックワイド最適化は,学習したエンド・ツー・エンドモデルと比較して,若干の性能劣化のみで所望のスケーラビリティを実現することを示した。

In this paper, we present a blockwise optimization method for masking-based networks (BLOOM-Net) for training scalable speech enhancement networks. Here, we design our network with a residual learning scheme and train the internal separator blocks sequentially to obtain a scalable masking-based deep neural network for speech enhancement. Its scalability lets it adjust the run-time complexity based on the test-time resource constraints: once deployed, the model can alter its complexity dynamically depending on the test time environment. To this end, we modularize our models in that they can flexibly accommodate varying needs for enhancement performance and constraints on the resources, incurring minimal memory or training overhead due to the added scalability. Our experiments on speech enhancement demonstrate that the proposed blockwise optimization method achieves the desired scalability with only a slight performance degradation compared to corresponding models trained end-to-end.
翻訳日:2021-11-20 01:38:28 公開日:2021-11-17
# (参考訳) MEDCOD: 医学的精度, 動機, 多様性, 制御可能な対話システム [全文訳有]

MEDCOD: A Medically-Accurate, Emotive, Diverse, and Controllable Dialog System ( http://arxiv.org/abs/2111.09381v1 )

ライセンス: CC BY 4.0
Rhys Compton, Ilya Valmianski, Li Deng, Costa Huang, Namit Katariya, Xavier Amatriain, Anitha Kannan(参考訳) 本稿では,医学的精度,動機,ディバース,制御可能なダイアログシステムであるMEDCODについて,自然言語生成モジュールに対するユニークなアプローチを提案する。 MEDCODは歴史取扱タスクに特化して開発・評価されている。 従来のモジュラーアプローチの利点を活かし、(医学的な)ドメイン知識を現代のディープラーニング技術に組み込んで、柔軟で人間のような自然言語表現を生成する。 MEDCODの自然言語出力の2つの重要な側面を詳述する。 第一に、生成された文章は感情的かつ共感的であり、医師が患者とコミュニケーションをとる方法に似ている。 第2に、所望の医療概念(MEDCODの対話管理モジュールによって提供される)との整合性を維持しつつ、生成された文構造とフレーズは多様で多様である。 実験の結果,人間型医療対話システム構築における提案手法の有効性が実証された。 関連コードはhttps://github.com/c urai/curai-research/ tree/main/MEDCODで公開されている。

We present MEDCOD, a Medically-Accurate, Emotive, Diverse, and Controllable Dialog system with a unique approach to the natural language generator module. MEDCOD has been developed and evaluated specifically for the history taking task. It integrates the advantage of a traditional modular approach to incorporate (medical) domain knowledge with modern deep learning techniques to generate flexible, human-like natural language expressions. Two key aspects of MEDCOD's natural language output are described in detail. First, the generated sentences are emotive and empathetic, similar to how a doctor would communicate to the patient. Second, the generated sentence structures and phrasings are varied and diverse while maintaining medical consistency with the desired medical concept (provided by the dialogue manager module of MEDCOD). Experimental results demonstrate the effectiveness of our approach in creating a human-like medical dialogue system. Relevant code is available at https://github.com/c urai/curai-research/ tree/main/MEDCOD
翻訳日:2021-11-20 01:21:17 公開日:2021-11-17
# (参考訳) 翻訳品質のニューラルメトリックスを用いた最小ベイズリスク復号 [全文訳有]

Minimum Bayes Risk Decoding with Neural Metrics of Translation Quality ( http://arxiv.org/abs/2111.09388v1 )

ライセンス: CC BY-SA 4.0
Markus Freitag, David Grangier, Qijun Tan, Bowen Liang(参考訳) この作業は、翻訳品質の多様な自動メトリクスを最適化するために、最小ベイズリスク(mbr)デコードを適用する。 機械翻訳における自動メトリクスは最近大きな進歩を遂げている。 特に、人間の評価(BLEURTやCOMETなど)を微調整した神経メトリクスは、人間の判断に相関して表面メトリクスよりも優れています。 実験の結果,ニューラル翻訳モデルとニューラルレファレンスに基づくメトリクスBLEURTの組み合わせにより,自動評価と人的評価の大幅な改善が得られた。 この改良は、古典的なビームサーチの出力とは異なる翻訳によって得られる:これらの翻訳はずっと低い可能性を持ち、BLEUのような表面測度にはあまり好まれない。

This work applies Minimum Bayes Risk (MBR) decoding to optimize diverse automated metrics of translation quality. Automatic metrics in machine translation have made tremendous progress recently. In particular, neural metrics, fine-tuned on human ratings (e.g. BLEURT, or COMET) are outperforming surface metrics in terms of correlations to human judgements. Our experiments show that the combination of a neural translation model with a neural reference-based metric, BLEURT, results in significant improvement in automatic and human evaluations. This improvement is obtained with translations different from classical beam-search output: these translations have much lower likelihood and are less favored by surface metrics like BLEU.
翻訳日:2021-11-20 01:01:30 公開日:2021-11-17
# (参考訳) 空中人物検出によるドローンによる捜索救助の再考 [全文訳有]

Rethinking Drone-Based Search and Rescue with Aerial Person Detection ( http://arxiv.org/abs/2111.09406v1 )

ライセンス: CC BY 4.0
Pasi Pyrr\"o, Hassan Naseri, Alexander Jung(参考訳) 航空ドローンの映像の視覚検査は、現在土地捜索救助(SAR)活動に不可欠な部分である。 この検査は人間にとって退屈で退屈な作業であるので,この空中人物検出(APD)タスクを自動化するための新しい深層学習アルゴリズムを提案する。 我々は,モデルアーキテクチャの選択,オンラインデータ拡張,移動学習,画像タイリングなどの手法を実験して,本手法の試験性能を向上する。 本稿では,これらの貢献の組み合わせとして,新しい空中検査網膜 (air) アルゴリズムを提案する。 AIR検出器は、一般的に使用されるSARテストデータセットに対して、精度(約21パーセントのポイント増加)と速度の両方で最先端の性能を示す。 さらに,SARミッションにおけるAPD問題に対する新たな公式定義を提供する。 すなわち,実世界のSARローカライゼーション要件の観点から検出器をランク付けする新しい評価手法を提案する。 最後に、重なり合うバウンディングボックス(MOB)アルゴリズムのマージという、ロバストで近似的なオブジェクトローカライゼーションのための新しいポストプロセッシング手法を提案する。 AIR検出器で使用される最終処理段階は、現実世界のSARミッションでの性能とユーザビリティを著しく向上させる。

The visual inspection of aerial drone footage is an integral part of land search and rescue (SAR) operations today. Since this inspection is a slow, tedious and error-prone job for humans, we propose a novel deep learning algorithm to automate this aerial person detection (APD) task. We experiment with model architecture selection, online data augmentation, transfer learning, image tiling and several other techniques to improve the test performance of our method. We present the novel Aerial Inspection RetinaNet (AIR) algorithm as the combination of these contributions. The AIR detector demonstrates state-of-the-art performance on a commonly used SAR test data set in terms of both precision (~21 percentage point increase) and speed. In addition, we provide a new formal definition for the APD problem in SAR missions. That is, we propose a novel evaluation scheme that ranks detectors in terms of real-world SAR localization requirements. Finally, we propose a novel postprocessing method for robust, approximate object localization: the merging of overlapping bounding boxes (MOB) algorithm. This final processing stage used in the AIR detector significantly improves its performance and usability in the face of real-world aerial SAR missions.
翻訳日:2021-11-20 00:45:02 公開日:2021-11-17
# (参考訳) FLSys:FederatedLearn ingモバイルアプリのためのオープンエコシステムを目指す [全文訳有]

FLSys: Toward an Open Ecosystem for FederatedLearning Mobile Apps ( http://arxiv.org/abs/2111.09445v1 )

ライセンス: CC BY 4.0
Han Hu, Xiaopeng Jiang, Vijaya Datta Mayyuri, An Chen, Devu M. Shila, Adriaan Larmuseau, Ruoming Jin, Cristian Borcea, NhatHai Phan(参考訳) 本稿では,モバイルアプリのディープラーニングモデルをサポートするモバイルクラウドフェデレーション学習(FL)システムであるFLSysの設計,実装,評価について述べる。 FLSysは、これらのモデルを使用するFLモデルとアプリのオープンエコシステムを構築するための重要なコンポーネントである。 FLSysは、スマートフォンで収集されたモバイルセンシングデータ、携帯電話でのリソース消費とモデルパフォーマンスのバランス、電話通信障害の許容、クラウドでのスケーラビリティを実現するように設計されている。 FLSysでは、異なるFLアグリゲーションメソッドを持つ異なるDLモデルをクラウドでトレーニングし、異なるアプリによって同時にアクセスすることができる。 さらに、FLSysは、サードパーティのアプリ開発者がFLモデルをトレーニングするための共通APIを提供する。 FLSysはAndroidとAWSクラウドで実装されている。 野生のFLモデルを用いてヒト活動認識(HAR)とFLSysを共同設計した。 harセンシングデータは5ヶ月間に100人以上の大学生の携帯電話から2つの領域で収集された。 我々は,モバイル機器に適したCNNモデルであるHAR-Wildを実装し,非独立分散(非IID)データの問題を軽減するためのデータ拡張機構を実装した。 感情分析(SA)モデルは、FLSysが並列モデルをどのように効果的にサポートするかを示すために使用され、436ユーザの46,000以上のツイートを持つデータセットを使用する。 FLSysが優れたモデルユーティリティと実用的なシステム性能を実現することを示すため,Android端末とエミュレータで広範囲に実験を行った。

This paper presents the design, implementation, and evaluation of FLSys, a mobile-cloud federated learning (FL) system that supports deep learning models for mobile apps. FLSys is a key component toward creating an open ecosystem of FL models and apps that use these models. FLSys is designed to work with mobile sensing data collected on smart phones, balance model performance with resource consumption on the phones, tolerate phone communication failures, and achieve scalability in the cloud. In FLSys, different DL models with different FL aggregation methods in the cloud can be trained and accessed concurrently by different apps. Furthermore, FLSys provides a common API for third-party app developers to train FL models. FLSys is implemented in Android and AWS cloud. We co-designed FLSys with a human activity recognition (HAR) in the wild FL model. HAR sensing data was collected in two areas from the phones of 100+ college students during a five-month period. We implemented HAR-Wild, a CNN model tailored to mobile devices, with a data augmentation mechanism to mitigate the problem of non-Independent and Identically Distributed (non-IID) data that affects FL model training in the wild. A sentiment analysis (SA) model is used to demonstrate how FLSys effectively supports concurrent models, and it uses a dataset with 46,000+ tweets from 436 users. We conducted extensive experiments on Android phones and emulators showing that FLSys achieves good model utility and practical system performance.
翻訳日:2021-11-20 00:27:52 公開日:2021-11-17
# ソーシャルネットワークにおけるリンク予測の高速化を目的としたノードから知識グラフへの変換

Transformation of Node to Knowledge Graph Embeddings for Faster Link Prediction in Social Networks ( http://arxiv.org/abs/2111.09308v1 )

ライセンス: Link先を確認
Archit Parnami, Mayuri Deshpande, Anant Kumar Mishra, Minwoo Lee(参考訳) 最近のニューラルネットワークの進歩により、リンク予測、ノード分類、ノードクラスタリング、ノード推薦などの共通グラフ問題は、エンティティや関係をベクトル空間に組み込むことによって解決されている。 グラフ埋め込みは、グラフに存在する構造情報をエンコードする。 エンコードされた埋め込みは、グラフの欠落リンクを予測するのに使うことができる。 しかし、グラフの最適埋め込みを得ることは、特に組込みシステムにおいて計算的に難しい課題である。 この作品に焦点を絞った2つのテクニックは 1)ランダムウォークに基づく方法とノード埋め込み 2)知識グラフの埋め込み。 ランダムウォークに基づく埋め込みは計算コストが安いが準最適であるが、知識グラフの埋め込みは計算コストが高い。 本研究では,ランダムウォーク法から得られるノード埋め込みを,知識グラフ法から得られる埋め込みへ,計算コストを増加させることなく直接変換する変換モデルについて検討する。 大規模な実験により,提案した変換モデルを用いてリンク予測をリアルタイムに解くことができることがわかった。

Recent advances in neural networks have solved common graph problems such as link prediction, node classification, node clustering, node recommendation by developing embeddings of entities and relations into vector spaces. Graph embeddings encode the structural information present in a graph. The encoded embeddings then can be used to predict the missing links in a graph. However, obtaining the optimal embeddings for a graph can be a computationally challenging task specially in an embedded system. Two techniques which we focus on in this work are 1) node embeddings from random walk based methods and 2) knowledge graph embeddings. Random walk based embeddings are computationally inexpensive to obtain but are sub-optimal whereas knowledge graph embeddings perform better but are computationally expensive. In this work, we investigate a transformation model which converts node embeddings obtained from random walk based methods to embeddings obtained from knowledge graph methods directly without an increase in the computational cost. Extensive experimentation shows that the proposed transformation model can be used for solving link prediction in real-time.
翻訳日:2021-11-19 15:15:23 公開日:2021-11-17
# 変換スパイクニューラルネットワークのL4ノーム重み調整

L4-Norm Weight Adjustments for Converted Spiking Neural Networks ( http://arxiv.org/abs/2111.09446v1 )

ライセンス: Link先を確認
Jason Allred, Kaushik Roy(参考訳) spiking neural networks (snn) は、分散したイベント駆動計算によるエネルギー効率の利点を追求している。 非スパイク人工ニューラルネットワークは通常、バックプロパゲーションを用いて確率勾配降下で訓練される。 スパイクニューラルネットワークにおけるバックプロパゲーションの真の勾配の計算は、スパイクニューロンの非微分的な発火現象によって妨げられる。 一方、近似勾配を用いることは効果的であるが、多くの時間ステップで計算コストがかかる。 スパイクニューラルネットワークをトレーニングするための一般的なテクニックは、トポロジカルに等価な非スパイクネットワークをトレーニングし、それをスパイクネットワークに変換し、実際の値入力を比例レートエンコードされたポアソンスパイクトレインに置き換える。 スパイキングニューロンの平均膜電位は、非スパイキングネットワークの機能と同様、入力速度ベクトルおよびニューロン重量ベクトルのドット積に比例するため、変換SNNは十分に機能する。 しかし、この変換は膜電位の平均と時間的ばらつきだけを考慮していない。 プレファイリング膜電位の標準偏差はニューロンの重みベクトルのL4ノルムに比例するので、変換過程におけるL4ノルムに基づく重み調整を提案し、変換されたネットワークの分類精度を向上させる。

Spiking Neural Networks (SNNs) are being explored for their potential energy efficiency benefits due to sparse, event-driven computation. Non-spiking artificial neural networks are typically trained with stochastic gradient descent using backpropagation. The calculation of true gradients for backpropagation in spiking neural networks is impeded by the non-differentiable firing events of spiking neurons. On the other hand, using approximate gradients is effective, but computationally expensive over many time steps. One common technique, then, for training a spiking neural network is to train a topologically-equiva lent non-spiking network, and then convert it to an spiking network, replacing real-valued inputs with proportionally rate-encoded Poisson spike trains. Converted SNNs function sufficiently well because the mean pre-firing membrane potential of a spiking neuron is proportional to the dot product of the input rate vector and the neuron weight vector, similar to the functionality of a non-spiking network. However, this conversion only considers the mean and not the temporal variance of the membrane potential. As the standard deviation of the pre-firing membrane potential is proportional to the L4-norm of the neuron weight vector, we propose a weight adjustment based on the L4-norm during the conversion process in order to improve classification accuracy of the converted network.
翻訳日:2021-11-19 15:15:07 公開日:2021-11-17
# 物理インフォームドニューラルネットワークによる自由表面流れの学習

Learning Free-Surface Flow with Physics-Informed Neural Networks ( http://arxiv.org/abs/2111.09705v1 )

ライセンス: Link先を確認
Raphael Leiteritz, Marcel Hurler, Dirk Pfl\"uger(参考訳) データ駆動学習手法と古典的シミュレーションのインターフェイスは、多くの新しいアプリケーションを提供する興味深い分野である。 本研究では,物理学的不定形ニューラルネットワーク(pinns)の概念を基礎として,浅層水方程式(swe)モデルに適用する。 これらのモデルは、洪水波の伝播や津波波などの自由表面流シナリオのモデル化とシミュレーションにおいて重要な役割を担っている。 PINN残差の異なる定式化を互いに比較し、収束率を高速化するために複数の最適化が評価されている。 異なる1-D, 2-D実験を用いて実験を行い, 様々な入浴量を持つSWEシナリオについて, 相対誤差8.9e-3$の直接数値シミュレーションと比較して, 競合する結果が得られることを示した。

The interface between data-driven learning methods and classical simulation poses an interesting field offering a multitude of new applications. In this work, we build on the notion of physics-informed neural networks (PINNs) and employ them in the area of shallow-water equation (SWE) models. These models play an important role in modeling and simulating free-surface flow scenarios such as in flood-wave propagation or tsunami waves. Different formulations of the PINN residual are compared to each other and multiple optimizations are being evaluated to speed up the convergence rate. We test these with different 1-D and 2-D experiments and finally demonstrate that regarding a SWE scenario with varying bathymetry, the method is able to produce competitive results in comparison to the direct numerical simulation with a total relative $L_2$ error of $8.9e-3$.
翻訳日:2021-11-19 15:14:02 公開日:2021-11-17
# 反復学習制御の有効性について

On the Effectiveness of Iterative Learning Control ( http://arxiv.org/abs/2111.09434v1 )

ライセンス: Link先を確認
Anirudh Vemula, Wen Sun, Maxim Likhachev, J. Andrew Bagnell(参考訳) 反復学習制御(ilc)は、最適制御アプリケーションのためのモデリングエラーの存在下での高性能追跡のための強力な技術である。 化学反応器、産業用ロボット、クワッドコプターなどの応用における実証的な効果を示す広範な先行研究がある。 しかし,誤特定モデル (mm) を用いた最適制御手法の性能が低くなるような大規模モデリング誤差が存在する場合でも,ircの有効性を説明する先行的な理論的な研究は少ない。 本研究は、線形二次レギュレータ(LQR)問題におけるICCとMMの両方の性能に関する理論的研究である。 ILC の最適 LQR コントローラに対して測定された準最適差は,高モデリング誤差の状況において重要となる高次項による MM よりも小さいことを示す。 解析の重要な部分は、有限地平線設定における離散リカティ方程式の摂動境界であり、解は不動点ではなく、再帰的境界を用いて誤差を追跡する必要がある。 我々は,近似モデルを用いた玩具線形力学系,不特定質量の非線形反転振子系,風の存在下での非線形平面四重項系に関する実験的な実験を行った。 実験の結果, モデル誤差が高い場合, ILC は計算トラジェクトリのコストにおいてMM を著しく上回ることがわかった。

Iterative learning control (ILC) is a powerful technique for high performance tracking in the presence of modeling errors for optimal control applications. There is extensive prior work showing its empirical effectiveness in applications such as chemical reactors, industrial robots and quadcopters. However, there is little prior theoretical work that explains the effectiveness of ILC even in the presence of large modeling errors, where optimal control methods using the misspecified model (MM) often perform poorly. Our work presents such a theoretical study of the performance of both ILC and MM on Linear Quadratic Regulator (LQR) problems with unknown transition dynamics. We show that the suboptimality gap, as measured with respect to the optimal LQR controller, for ILC is lower than that for MM by higher order terms that become significant in the regime of high modeling errors. A key part of our analysis is the perturbation bounds for the discrete Ricatti equation in the finite horizon setting, where the solution is not a fixed point and requires tracking the error using recursive bounds. We back our theoretical findings with empirical experiments on a toy linear dynamical system with an approximate model, a nonlinear inverted pendulum system with misspecified mass, and a nonlinear planar quadrotor system in the presence of wind. Experiments show that ILC outperforms MM significantly, in terms of the cost of computed trajectories, when modeling errors are high.
翻訳日:2021-11-19 15:12:35 公開日:2021-11-17
# セキュリティ制約付きユニットコミットに対する機械学習支援アプローチ

Machine Learning Assisted Approach for Security-Constrained Unit Commitment ( http://arxiv.org/abs/2111.09824v1 )

ライセンス: Link先を確認
Arun Venkatesh Ramesh, Xingpeng Li(参考訳) 電力系統のデイ・アヘッド生成スケジューリングに使用されるセキュリティ制約付き単位コミットメント(scuc)は、計算量が多い混合整数線形計画問題である。 優れたウォームスタートソリューションや縮小SCUCモデルは、大幅な時間節約をもたらす可能性がある。 本研究では、機械学習(ML)を効果的に活用し、優れた開始解を提供し、SCUCの問題を小さくする新しい手法を提案する。 ロジスティック回帰アルゴリズムを用いたMLモデルを提案し, 過去の納期需要プロファイルと各コミットメントスケジュールを用いて訓練した。 ML出力を処理して解析してSCUCを支援する。 提案手法は、IEEE 24-busシステム、IEEE 73-busシステム、IEEE 118-busシステム、合成サウスカロライナ500-busシステム、ポーランド2383-busシステムなど、いくつかの標準的なテストシステムで検証されている。 シミュレーションの結果,提案する機械学習モデルからの予測は,優れたウォームスタートソリューションを提供し,計算時間を大幅に削減しながら,scccにおける変数数や制約を最小化できることがわかった。

Security-constrained unit commitment (SCUC) which is used in the power system day-ahead generation scheduling is a mixed-integer linear programming problem that is computationally intensive. A good warm-start solution or a reduced-SCUC model can bring significant time savings. In this work, a novel approach is proposed to effectively utilize machine learning (ML) to provide a good starting solution and/or reduce the problem size of SCUC. An ML model using a logistic regression algorithm is proposed and trained using historical nodal demand profiles and the respective commitment schedules. The ML outputs are processed and analyzed to assist SCUC. The proposed approach is validated on several standard test systems namely, IEEE 24-bus system, IEEE 73-bus system, IEEE 118-bus system, synthetic South Carolina 500-bus system, and Polish 2383-bus system. Simulation results demonstrate that the prediction from the proposed machine learning model can provide a good warm-start solution and/or reduce the number of variables and constraints in SCUC with minimal loss in solution quality while substantially reducing the computing time.
翻訳日:2021-11-19 15:11:49 公開日:2021-11-17
# 深層学習によるNBA結果予測の特徴選択

Features selection in NBA outcome prediction through Deep Learning ( http://arxiv.org/abs/2111.09695v1 )

ライセンス: Link先を確認
Manlio Migliorati (University of Brescia, Department of Economics and Management, Italy)(参考訳) この原稿はNBAバスケットボール選手権の試合結果予測のための特徴の定義に焦点を当てている。 1つの特徴(エロ評価または相対的な勝利頻度)に基づくモデルが、ボックススコア予測器(例えば4因子)を使用するモデルよりも適合する品質を持つことを示す。 16のnbaレギュラーシーズンのデータを含むデータセットで特徴が計算され、特にホームコートファクタに注意を払っている。 モデルは、クロスバリデーションを使用して、Deep Learningを通じて作成されている。

This manuscript is focused on features' definition for the outcome prediction of matches of NBA basketball championship. It is shown how models based on one a single feature (Elo rating or the relative victory frequency) have a quality of fit better than models using box-score predictors (e.g. the Four Factors). Features have been ex ante calculated for a dataset containing data of 16 NBA regular seasons, paying particular attention to home court factor. Models have been produced via Deep Learning, using cross validation.
翻訳日:2021-11-19 14:46:31 公開日:2021-11-17
# deepcurrents: 境界を持つ形状の暗黙的な表現を学ぶ

DeepCurrents: Learning Implicit Representations of Shapes with Boundaries ( http://arxiv.org/abs/2111.09383v1 )

ライセンス: Link先を確認
David Palmer and Dmitriy Smirnov and Stephanie Wang and Albert Chern and Justin Solomon(参考訳) 近年、深層ニューラルネットワークによってパラメータ化された学習関数(符号付き距離場など)のレベルセットとして、表面の再構成に成功した。 しかし、これらの手法の多くは閉曲面のみを学習し、境界曲線で形状を再構成することはできない。 明示的な境界曲線と暗黙的に学習された内部を結合したハイブリッド形状表現を提案する。 幾何測度理論の機械を用いて、ディープネットワークを用いて電流をパラメータ化し、極小表面問題を解くために確率勾配降下を用いる。 例えばメッシュやポイントクラウドから来るターゲットジオメトリに従ってメトリックを変更することで、このアプローチを使って任意の表面を表現することができ、明示的に定義された境界曲線で暗黙的に定義された形状を学習できる。 さらに、境界曲線と潜時符号でパラメータ化された形状の学習ファミリを実証する。

Recent techniques have been successful in reconstructing surfaces as level sets of learned functions (such as signed distance fields) parameterized by deep neural networks. Many of these methods, however, learn only closed surfaces and are unable to reconstruct shapes with boundary curves. We propose a hybrid shape representation that combines explicit boundary curves with implicit learned interiors. Using machinery from geometric measure theory, we parameterize currents using deep networks and use stochastic gradient descent to solve a minimal surface problem. By modifying the metric according to target geometry coming, e.g., from a mesh or point cloud, we can use this approach to represent arbitrary surfaces, learning implicitly defined shapes with explicitly defined boundary curves. We further demonstrate learning families of shapes jointly parameterized by boundary curves and latent codes.
翻訳日:2021-11-19 14:43:33 公開日:2021-11-17
# 動的シーンにおける時間的一貫性のあるオンライン深度推定

Temporally Consistent Online Depth Estimation in Dynamic Scenes ( http://arxiv.org/abs/2111.09337v1 )

ライセンス: Link先を確認
Zhaoshuo Li, Wei Ye, Dilin Wang, Francis X. Creighton, Russell H. Taylor, Ganesh Venkatesh, Mathias Unberath(参考訳) 拡張現実のようなリアルタイムアプリケーションには、時間的に一貫した深さ推定が不可欠である。 ステレオ深度推定はフレーム単位での改善につながるかなりの注目を集めているが、フレーム間の時間的一貫性を維持することに注力する作業は比較的少ない。 実際、我々の分析によれば、現在のステレオ深度推定技術は依然として時間的一貫性に乏しい。 動的シーンでの時間的深さの安定化は、オブジェクトとカメラの動きを同時に行うため困難である。 オンライン環境では、過去のフレームのみが利用可能なため、このプロセスはさらに悪化する。 本稿では,オンライン環境における動的シーンにおける時間的一貫した深度推定手法を提案する。 我々のネットワークは、フレームごとの現在のステレオネットワークを新しい動きと融合ネットワークで拡張する。 モーションネットワークは、ピクセル単位のse3変換を予測して、オブジェクトとカメラの両方の動作を記述する。 融合ネットワークは、現在の予測と過去の予測を回帰重みで集約することで予測の一貫性を向上させる。 様々なデータセット(合成、屋外、屋内、医療)にまたがる広範な実験を行う。 ゼロショット一般化とドメイン微調整の両方において,提案手法は時間的安定性とフレーム単位の精度において,定量的かつ定性的に競合する手法より優れていることを示す。 私たちのコードはオンラインで入手できる。

Temporally consistent depth estimation is crucial for real-time applications such as augmented reality. While stereo depth estimation has received substantial attention that led to improvements on a frame-by-frame basis, there is relatively little work focused on maintaining temporal consistency across frames. Indeed, based on our analysis, current stereo depth estimation techniques still suffer from poor temporal consistency. Stabilizing depth temporally in dynamic scenes is challenging due to concurrent object and camera motion. In an online setting, this process is further aggravated because only past frames are available. In this paper, we present a technique to produce temporally consistent depth estimates in dynamic scenes in an online setting. Our network augments current per-frame stereo networks with novel motion and fusion networks. The motion network accounts for both object and camera motion by predicting a per-pixel SE3 transformation. The fusion network improves consistency in prediction by aggregating the current and previous predictions with regressed weights. We conduct extensive experiments across varied datasets (synthetic, outdoor, indoor and medical). In both zero-shot generalization and domain fine-tuning, we demonstrate that our proposed approach outperforms competing methods in terms of temporal stability and per-frame accuracy, both quantitatively and qualitatively. Our code will be available online.
翻訳日:2021-11-19 14:21:13 公開日:2021-11-17
# 深層学習による都市交通シーンの細粒度車両分類

Fine-Grained Vehicle Classification in Urban Traffic Scenes using Deep Learning ( http://arxiv.org/abs/2111.09403v1 )

ライセンス: Link先を確認
Syeda Aneeba Najeeb, Rana Hammad Raza, Adeel Yusuf, Zamra Sultan(参考訳) ますます密集したトラフィックは、私たちのローカル設定において課題となり、より良いトラフィック監視と管理システムの必要性を訴えている。 細粒度の車両分類は、車両の粗い分類と比較すると難しい課題であると思われる。 そのため、車両検出と細粒度分類のための堅牢なアプローチの探索が不可欠である。 既存の車両製造・モデル認識システム(VMMR)は、同期および制御された交通条件に基づいて開発されている。 複雑・都市・異質・非同期の交通条件における堅牢なVMMRの必要性は、まだオープンな研究領域のままである。 本稿では,深層学習を用いて車両検出と細粒度分類を行う。 関連複雑さを伴うきめ細かい分類を行うため、クラス内およびクラス間変動の少ないローカルデータセットTHS-10を専用に作成する。 データセットは、ホンダシティ、ホンダシビック、スズキアルト、スズキボラン、スズキカルト、スズキメヘラン、スズキラビ、スズキスウィフト、スズキワゴンr、トヨタコローラの4250台の車両イメージで構成されている。 このデータセットはオンラインで利用可能だ。 ディープニューラルネットワークから車両の分類、微調整、特徴抽出のための2つのアプローチが検討され分析されている。 比較研究を行い,より単純な手法が局所環境において,濃密な咬合や車線離脱といった複雑な問題に対処できることを示す。 したがって計算負荷と時間の削減、例えば微調整インセプションv3は最大精度97.4%、最小の誤分類率は2.08%であった。 微調整されたMobileNet-v2とResNet-18はそれぞれ96.8%と95.7%の精度を生み出した。 AlexNetのfc6層から抽出した特徴は93.5%の精度で、誤分類率は6.5%である。

The increasingly dense traffic is becoming a challenge in our local settings, urging the need for a better traffic monitoring and management system. Fine-grained vehicle classification appears to be a challenging task as compared to vehicle coarse classification. Exploring a robust approach for vehicle detection and classification into fine-grained categories is therefore essentially required. Existing Vehicle Make and Model Recognition (VMMR) systems have been developed on synchronized and controlled traffic conditions. Need for robust VMMR in complex, urban, heterogeneous, and unsynchronized traffic conditions still remain an open research area. In this paper, vehicle detection and fine-grained classification are addressed using deep learning. To perform fine-grained classification with related complexities, local dataset THS-10 having high intra-class and low interclass variation is exclusively prepared. The dataset consists of 4250 vehicle images of 10 vehicle models, i.e., Honda City, Honda Civic, Suzuki Alto, Suzuki Bolan, Suzuki Cultus, Suzuki Mehran, Suzuki Ravi, Suzuki Swift, Suzuki Wagon R and Toyota Corolla. This dataset is available online. Two approaches have been explored and analyzed for classification of vehicles i.e, fine-tuning, and feature extraction from deep neural networks. A comparative study is performed, and it is demonstrated that simpler approaches can produce good results in local environment to deal with complex issues such as dense occlusion and lane departures. Hence reducing computational load and time, e.g. fine-tuning Inception-v3 produced highest accuracy of 97.4% with lowest misclassification rate of 2.08%. Fine-tuning MobileNet-v2 and ResNet-18 produced 96.8% and 95.7% accuracies, respectively. Extracting features from fc6 layer of AlexNet produces an accuracy of 93.5% with a misclassification rate of 6.5%.
翻訳日:2021-11-19 14:20:54 公開日:2021-11-17
# see eye to eye: 教師なしマルチターゲットドメイン適応のためのライダー非依存3d検出フレームワーク

See Eye to Eye: A Lidar-Agnostic 3D Detection Framework for Unsupervised Multi-Target Domain Adaptation ( http://arxiv.org/abs/2111.09450v1 )

ライセンス: Link先を確認
Darren Tsai and Julie Stephany Berrio and Mao Shan and Stewart Worrall and Eduardo Nebot(参考訳) 異なるメーカーとライダーセンサーのモデルとの相違をサンプリングすると、オブジェクトの不整合表現が生じる。 これにより、1つのライダーのために訓練された3D検出器が他のタイプのライダーでテストされると性能が低下する。 ライダー製造の著しい進歩は、機械的、固体的、そして近年では調整可能なスキャンパターンlidarの進歩をもたらした。 後者では、スキャンパターンが調整されるたびにモデルを微調整する必要があることが多い。 我々は,新しい非教師付きマルチターゲットドメイン適応フレームワークの提案により,ユーザによるモデルの微調整を必要とせず,固定およびフレキシブルなスキャンパターンlidarをまたいで最先端の3d検出器の性能を伝達することにより,サンプリングの不一致を明示的に処理する。 提案手法は,基盤となる形状を補間し,異なるライダーの物体の走査パターンを正規化し,検出ネットワークに渡す。 我々は、SEEが公開データセット上で有効であること、最先端の成果を達成できること、そして、我々のフレームワークの産業的応用を証明するために、新しい高解像度ライダーに定量的な結果を提供する。 このデータセットとコードは公開される予定だ。

Sampling discrepancies between different manufacturers and models of lidar sensors result in inconsistent representations of objects. This leads to performance degradation when 3D detectors trained for one lidar are tested on other types of lidars. Remarkable progress in lidar manufacturing has brought about advances in mechanical, solid-state, and recently, adjustable scan pattern lidars. For the latter, existing works often require fine-tuning the model each time scan patterns are adjusted, which is infeasible. We explicitly deal with the sampling discrepancy by proposing a novel unsupervised multi-target domain adaptation framework, SEE, for transferring the performance of state-of-the-art 3D detectors across both fixed and flexible scan pattern lidars without requiring fine-tuning of models by end-users. Our approach interpolates the underlying geometry and normalizes the scan pattern of objects from different lidars before passing them to the detection network. We demonstrate the effectiveness of SEE on public datasets, achieving state-of-the-art results, and additionally provide quantitative results on a novel high-resolution lidar to prove the industry applications of our framework. This dataset and our code will be made publicly available.
翻訳日:2021-11-19 14:20:23 公開日:2021-11-17
# 連続学習による持続可能な人工知能

Sustainable Artificial Intelligence through Continual Learning ( http://arxiv.org/abs/2111.09437v1 )

ライセンス: Link先を確認
Andrea Cossu, Marta Ziosi, Vincenzo Lomonaco(参考訳) 人工知能(AI)の規制に対する関心が高まり、サステナブルAIフレームワークにグループ化された倫理原則が定義されるようになった。 本稿では,AI研究の活発な領域である継続学習を,持続可能なAI原則に準拠したシステム設計への有望なアプローチとして認識する。 Sustainable AIは倫理的応用のための一般的なデシダラタを概説しているが、継続学習はそのようなデシダラタを実践する手段を提供する。

The increasing attention on Artificial Intelligence (AI) regulation has led to the definition of a set of ethical principles grouped into the Sustainable AI framework. In this article, we identify Continual Learning, an active area of AI research, as a promising approach towards the design of systems compliant with the Sustainable AI principles. While Sustainable AI outlines general desiderata for ethical applications, Continual Learning provides means to put such desiderata into practice.
翻訳日:2021-11-19 14:00:52 公開日:2021-11-17
# the people's speech: a large-scale diverse english speech recognition dataset for commercial use

The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage ( http://arxiv.org/abs/2111.09344v1 )

ライセンス: Link先を確認
Daniel Galvez, Greg Diamos, Juan Ciro, Juan Felipe Cer\'on, Keith Achorn, Anjali Gopi, David Kanter, Maximilian Lam, Mark Mazumder, Vijay Janapa Reddi(参考訳) People's Speechは、CC-BY-SA(CC-BYサブセット)の下での学術的および商業的使用のためにライセンスされた、3万時間の無料ダウンロードと教師付き会話型英語音声認識データセットである。 データはインターネットを介して収集され、既存の書き起こしで適切なライセンスされたオーディオデータを取得する。 当社のデータ収集方法論を説明し,apache 2.0ライセンスの下でデータ収集システムをリリースする。 このデータセットでトレーニングされたモデルは、librispeechのテストクリーンテストセット上で9.98%の単語誤り率を達成していることを示し、最後に、大規模な機械学習コーパスの作成に関する法的および倫理的問題と、mlcommonsのスポンサーの下でプロジェクトの継続的なメンテナンス計画について論じる。

The People's Speech is a free-to-download 30,000-hour and growing supervised conversational English speech recognition dataset licensed for academic and commercial usage under CC-BY-SA (with a CC-BY subset). The data is collected via searching the Internet for appropriately licensed audio data with existing transcriptions. We describe our data collection methodology and release our data collection system under the Apache 2.0 license. We show that a model trained on this dataset achieves a 9.98% word error rate on Librispeech's test-clean test set.Finally, we discuss the legal and ethical issues surrounding the creation of a sizable machine learning corpora and plans for continued maintenance of the project under MLCommons's sponsorship.
翻訳日:2021-11-19 14:00:24 公開日:2021-11-17
# 局所記憶による個人化フェデレーション学習

Personalized Federated Learning through Local Memorization ( http://arxiv.org/abs/2111.09360v1 )

ライセンス: Link先を確認
Othmane Marfoq, Giovanni Neglia, Laetitia Kameni, Richard Vidal(参考訳) フェデレーション学習により、クライアントはデータをローカルに保ちながら、統計的モデルを協調的に学習することができる。 フェデレーション学習はもともと、すべてのクライアントに提供されるユニークなグローバルモデルをトレーニングするために使用されたが、クライアントのローカルなデータ分散が異種である場合、このアプローチは最適ではないかもしれない。 この制限に対処するために、最近のパーソナライズされたフェデレーション学習手法では、他のクライアントで利用可能な知識を活用しながら、各クライアントで別々のモデルをトレーニングしている。 本研究では,画像やテキストなどの非語彙データから高品質なベクトル表現(埋め込み)を抽出し,局所記憶に基づくパーソナライズ機構を提案する。 グローバルモデルが提供する共有表現に基づいて,k$-nearest neighbors (kNN)モデルで事前学習したグローバルモデルを補間する。 提案手法の一般化バウンダリを提案し,本手法が最先端手法よりも精度と公平性を著しく向上することを示す。

Federated learning allows clients to collaboratively learn statistical models while keeping their data local. Federated learning was originally used to train a unique global model to be served to all clients, but this approach might be sub-optimal when clients' local data distributions are heterogeneous. In order to tackle this limitation, recent personalized federated learning methods train a separate model for each client while still leveraging the knowledge available at other clients. In this work, we exploit the ability of deep neural networks to extract high quality vectorial representations (embeddings) from non-tabular data, e.g., images and text, to propose a personalization mechanism based on local memorization. Personalization is obtained interpolating a pre-trained global model with a $k$-nearest neighbors (kNN) model based on the shared representation provided by the global model. We provide generalization bounds for the proposed approach and we show on a suite of federated datasets that this approach achieves significantly higher accuracy and fairness than state-of-the-art methods.
翻訳日:2021-11-19 14:00:08 公開日:2021-11-17
# MPF6D:マズードピラミッド核融合6Dポス推定

MPF6D: Masked Pyramid Fusion 6D Pose Estimation ( http://arxiv.org/abs/2111.09378v1 )

ライセンス: Link先を確認
Nuno Pereira and Lu\'is A. Alexandre(参考訳) オブジェクトのポーズ推定には、ロボットの把握や拡張現実など、複数の重要な応用がある。 本稿では,現在の提案の精度を向上し,なおかつリアルタイムに使用できる物体の6次元形状を推定する新しい手法を提案する。 提案手法では,RGB-Dデータを入力として,オブジェクトを分割し,ポーズを推定する。 複数のヘッドを持つニューラルネットワークを使用し、1つのヘッドはオブジェクトの分類を推定し、マスクを生成し、2番目のヘッドは翻訳ベクトルの値を推定し、最後のヘッドはオブジェクトの回転を表す四元数の値を推定する。 これらのヘッドは、特徴抽出と特徴融合に使用されるピラミッドアーキテクチャを利用する。 提案手法は0.12秒の推論時間と高精度でリアルタイムに使用できる。 この高速推論と精度の良さを組み合わせることで、ロボットのピック&プレイスタスクや拡張現実アプリケーションでこの手法を使うことができる。

Object pose estimation has multiple important applications, such as robotic grasping and augmented reality. We present a new method to estimate the 6D pose of objects that improves upon the accuracy of current proposals and can still be used in real-time. Our method uses RGB-D data as input to segment objects and estimate their pose. It uses a neural network with multiple heads, one head estimates the object classification and generates the mask, the second estimates the values of the translation vector and the last head estimates the values of the quaternion that represents the rotation of the object. These heads leverage a pyramid architecture used during feature extraction and feature fusion. Our method can be used in real-time with its low inference time of 0.12 seconds and has high accuracy. With this combination of fast inference and good accuracy it is possible to use our method in robotic pick and place tasks and/or augmented reality applications.
翻訳日:2021-11-19 13:56:31 公開日:2021-11-17
# 異種データを用いた高精度分散分散学習

Low Precision Decentralized Distributed Training with Heterogeneous Data ( http://arxiv.org/abs/2111.09389v1 )

ライセンス: Link先を確認
Sai Aparna Aketi, Sangamesh Kodge, Kaushik Roy(参考訳) 分散分散学習は、クラウドに頼ることなく、プライベートなユーザ生成ローカルデータを使用してエッジデバイス上で大規模機械学習(トレーニング)を可能にするための鍵である。 しかしながら、デバイス上でのトレーニングの実現には、通信のボトルネック、深層モデルのトレーニングの計算複雑性、デバイス間の大きなデータ分散が制限されている。 多くのフィードバックに基づく圧縮技術が,通信コスト削減のために文献で提案されており,コンバージェンス率の向上によるスキュードデータ配信の性能向上を支援するためのアルゴリズム的変更がいくつか提案されている。 我々の知識を最大限に活用するために、ピアツーピアの分散学習環境において、量子化やプルーニングなどの効率的な訓練手法を適用し、示す文献は存在しない。 本稿では,学習と推論の計算複雑性を低減することを目的とした,低精度分散トレーニングの収束度を解析し,示す。 さらに,様々なコンピュータビジョンと自然言語処理(NLP)タスクにおける,スキュー度と通信圧縮が低精度分散トレーニングに及ぼす影響について検討した。 実験の結果,8ビット分散トレーニングは不均一なデータであっても,完全精度よりも精度が低いことがわかった。 しかし,スペーシフィケーションによる通信圧縮を伴う低精度トレーニングでは,1~2%の精度低下が観察された。 提案した低精度分散トレーニングは、IIDおよび非IIDデータの1%未満の精度で処理しながら、計算複雑性、メモリ使用量、通信コストを約4倍に削減する。 特に, スクリュー値が高い場合には, 低精度トレーニングによる精度(~0.5%)の増加が観察され, 量子化の正則化効果が示唆された。

Decentralized distributed learning is the key to enabling large-scale machine learning (training) on the edge devices utilizing private user-generated local data, without relying on the cloud. However, practical realization of such on-device training is limited by the communication bottleneck, computation complexity of training deep models and significant data distribution skew across devices. Many feedback-based compression techniques have been proposed in the literature to reduce the communication cost and a few works propose algorithmic changes to aid the performance in the presence of skewed data distribution by improving convergence rate. To the best of our knowledge, there is no work in the literature that applies and shows compute efficient training techniques such quantization, pruning etc., for peer-to-peer decentralized learning setups. In this paper, we analyze and show the convergence of low precision decentralized training that aims to reduce the computational complexity of training and inference. Further, We study the effect of degree of skew and communication compression on the low precision decentralized training over various computer vision and Natural Language Processing (NLP) tasks. Our experiments indicate that 8-bit decentralized training has minimal accuracy loss compared to its full precision counterpart even with heterogeneous data. However, when low precision training is accompanied by communication compression through sparsification we observe 1-2% drop in accuracy. The proposed low precision decentralized training decreases computational complexity, memory usage, and communication cost by ~4x while trading off less than a 1% accuracy for both IID and non-IID data. In particular, with higher skew values, we observe an increase in accuracy (by ~0.5%) with low precision training, indicating the regularization effect of the quantization.
翻訳日:2021-11-19 13:52:25 公開日:2021-11-17
# 大規模時系列データからの不確実性を考慮した複数インスタンス学習

Uncertainty-Aware Multiple Instance Learning fromLarge-Scale Long Time Series Data ( http://arxiv.org/abs/2111.08625v2 )

ライセンス: Link先を確認
Yuansheng Zhu, Weishi Shi, Deep Shankar Pandey, Yang Liu, Xiaofan Que, Daniel E. Krutz, and Qi Yu(参考訳) 本稿では,大規模時系列データを長時間に分類する新しい枠組みを提案する。 L-TSC(Long Time seriesclassification )は、分類対象に大量の無関係な情報を含むため、難しい問題である。 本稿では,不確実性を考慮した複数インスタンス学習(mil)フレームワークを提案する。 予測の不確実性により、MILモデルに識別可能な期間から学習を強いるアタテンション機構の設計が可能になる。 さらに、予測不確実性は、予測が信頼に値するか否かを判定する原則付き推定器を出力する。 我々はさらに,その可利用性に基づいて別のモデルを訓練し,最終予測を推定するために不確実性を認識した融合を行うことにより,信頼性の低い予測を緩和するもう1つのモダリティを組み込む。 自動識別システム(ais)データを用いて系統的な評価を行い,実世界の船舶の識別と追跡を行う。 実験結果から,提案手法は,他のデータモダリティ(Synthetic-ApertureR adar あるいは SAR 画像)とのトラジェクティと不確実性認識に基づく容器のタイプを効果的に検出できることが示唆された。

We propose a novel framework to classify large-scale time series data with long duration. Long time seriesclassification (L-TSC) is a challenging problem because the dataoften contains a large amount of irrelevant information to theclassification target. The irrelevant period degrades the classifica-tion performance while the relevance is unknown to the system.This paper proposes an uncertainty-aware multiple instancelearning (MIL) framework to identify the most relevant periodautomatically. The predictive uncertainty enables designing anattention mechanism that forces the MIL model to learn from thepossibly discriminant period. Moreover, the predicted uncertaintyyields a principled estimator to identify whether a prediction istrustworthy or not. We further incorporate another modality toaccommodate unreliable predictions by training a separate modelbased on its availability and conduct uncertainty aware fusion toproduce the final prediction. Systematic evaluation is conductedon the Automatic Identification System (AIS) data, which is col-lected to identify and track real-world vessels. Empirical resultsdemonstrate that the proposed method can effectively detect thetypes of vessels based on the trajectory and the uncertainty-awarefus ion with other available data modality (Synthetic-ApertureR adar or SAR imagery is used in our experiments) can furtherimprove the detection accuracy.
翻訳日:2021-11-19 11:29:53 公開日:2021-11-17
# (参考訳) ランダムフィードバックの働き方とタイミング:低ランク行列因子化の事例研究

How and When Random Feedback Works: A Case Study of Low-Rank Matrix Factorization ( http://arxiv.org/abs/2111.08706v1 )

ライセンス: CC BY 4.0
Shivam Garg, Santosh S. Vempala(参考訳) MLにおける勾配降下の成功、特にニューラルネットワークの学習は目覚ましい、堅牢である。 脳がどのように学習するかという文脈において、生物学的に理解が難しい勾配降下の1つの側面は、その更新が後の層からそれ以前の層へのフィードバックに依存していることである。 このような双方向リンクは脳ネットワークでは比較的少なく、相互接続が存在する場合でも同等重み付けされない可能性がある。 後ろ向きの重みがランダムで固定されたランダムフィードバックアライメント(lillicrap et al., 2016)は、バイオプラッシブルな代替案として提案され、実証的に有効であることが判明した。 階層構造における最も基本的な問題である低ランク行列因子分解に着目し,フィードバックアライメント(fa)の動作方法と時期を調査した。 この問題において、行列 $Y_{n\times m}$ が与えられたとき、目標は、誤差 $\|ZW-Y\|_F$ を最小化する低階分解 $Z_{n \times r}W_{r \times m}$ を見つけることである。 勾配降下はこの問題を最適に解く。 FA が最適解に収束するのは $r\ge \mbox{rank}(Y)$ のときである。 FAの仕組みにも光を当てています。 fa更新中に前方重量行列と(ランダムな)フィードバック行列が近づくことが実証的に観察される。 我々の分析は、この現象を厳格に導き出し、FAの収束を促進する方法を示している。 また、$r < \mbox{rank}(Y)$ のとき、FA が最適ではないことも示します。 これは勾配降下とfaの間の最初の証明可能な分離結果である。 さらに、勾配降下と FA から得られる表現は、誤差 $\|ZW-Y\|_F$ がほぼ等しい場合でもほぼ直交である。

The success of gradient descent in ML and especially for learning neural networks is remarkable and robust. In the context of how the brain learns, one aspect of gradient descent that appears biologically difficult to realize (if not implausible) is that its updates rely on feedback from later layers to earlier layers through the same connections. Such bidirected links are relatively few in brain networks, and even when reciprocal connections exist, they may not be equi-weighted. Random Feedback Alignment (Lillicrap et al., 2016), where the backward weights are random and fixed, has been proposed as a bio-plausible alternative and found to be effective empirically. We investigate how and when feedback alignment (FA) works, focusing on one of the most basic problems with layered structure -- low-rank matrix factorization. In this problem, given a matrix $Y_{n\times m}$, the goal is to find a low rank factorization $Z_{n \times r}W_{r \times m}$ that minimizes the error $\|ZW-Y\|_F$. Gradient descent solves this problem optimally. We show that FA converges to the optimal solution when $r\ge \mbox{rank}(Y)$. We also shed light on how FA works. It is observed empirically that the forward weight matrices and (random) feedback matrices come closer during FA updates. Our analysis rigorously derives this phenomenon and shows how it facilitates convergence of FA. We also show that FA can be far from optimal when $r < \mbox{rank}(Y)$. This is the first provable separation result between gradient descent and FA. Moreover, the representations found by gradient descent and FA can be almost orthogonal even when their error $\|ZW-Y\|_F$ is approximately equal.
翻訳日:2021-11-18 23:53:25 公開日:2021-11-17
# (参考訳) 独立成分分析のためのノーマティブで生物学的に可算なアルゴリズム [全文訳有]

A Normative and Biologically Plausible Algorithm for Independent Component Analysis ( http://arxiv.org/abs/2111.08858v1 )

ライセンス: CC BY 4.0
Yanis Bahroun, Dmitri B Chklovskii, Anirvan M Sengupta(参考訳) 脳はブラインドソース分離(BSS)の問題を解決するが、そのアルゴリズムはいまだに解明されていない。 信号処理では、線形BSS問題は独立成分分析(ICA)によってしばしば解決される。 生物学的回路のモデルとして機能するためには、ICAニューラルネットワーク(NN)は以下の要件を満たす必要がある。 1. このアルゴリズムは、データサンプルが一度に1回ストリーミングされるオンライン環境で動作し、NNはメモリにデータの一部を格納することなく、オンザフライでソースを計算しなければならない。 2. シナプス重量の更新は局所的、すなわち、シナプス近傍に存在する生物物理学的変数にのみ依存する。 本稿では,ニューラル・アーキテクチャとシナプス学習規則の両方を含む生物学的に妥当なnnを導出するicaのための新しい目的関数を提案する。 興味深いことに、我々のアルゴリズムは出力ニューロンの総活動量によるシナプス可塑性の調節に依存している。 脳では、神経調節物質、細胞外カルシウム、局所野電位、一酸化窒素によってこれを達成できる。

The brain effortlessly solves blind source separation (BSS) problems, but the algorithm it uses remains elusive. In signal processing, linear BSS problems are often solved by Independent Component Analysis (ICA). To serve as a model of a biological circuit, the ICA neural network (NN) must satisfy at least the following requirements: 1. The algorithm must operate in the online setting where data samples are streamed one at a time, and the NN computes the sources on the fly without storing any significant fraction of the data in memory. 2. The synaptic weight update is local, i.e., it depends only on the biophysical variables present in the vicinity of a synapse. Here, we propose a novel objective function for ICA from which we derive a biologically plausible NN, including both the neural architecture and the synaptic learning rules. Interestingly, our algorithm relies on modulating synaptic plasticity by the total activity of the output neurons. In the brain, this could be accomplished by neuromodulators, extracellular calcium, local field potential, or nitric oxide.
翻訳日:2021-11-18 23:51:57 公開日:2021-11-17
# (参考訳) ラベル効率2サンプル試験 [全文訳有]

Label efficient two-sample test ( http://arxiv.org/abs/2111.08861v1 )

ライセンス: CC BY 4.0
Weizhi Li, Gautam Dasarathy, Karthikeyan Natesan Ramamurthy, Visar Berisha(参考訳) 2サンプル試験は、2つのサンプルが同じ分布(ヌル仮説)または2つの異なる分布(代替仮説)の実現であるかどうかを評価する。 この問題の伝統的な定式化では、統計学者は測定値(特徴変数)と群変数(ラベル変数)の両方にアクセスできる。 しかし、いくつかの重要なアプリケーションでは、特徴変数は容易に測定できるが、バイナリラベル変数は未知であり、取得にコストがかかる。 本稿では,従来の2つのサンプルテスト問題に対するこの重要なバリエーションを考察し,少数のサンプルのみのラベルを取得して2つのサンプルテストを行う問題とする。 まず、ラベルの後方確率をモデル化するために一様にラベル付けされたサンプルを用いて分類器を訓練し、次に、最大後方確率を持つ両方のクラスからのサンプルのラベルを問合せするために'emph{bimodal query}と呼ばれる革新的なクエリスキームを用いて、古典的なFriedman-Rafsky (FR) の2サンプルテストを行う。 理論的解析により,二モーダルクエリは適切な条件下でのFRテストに最適であり,3段階のフレームワークがタイプIエラーを制御することがわかった。 合成、ベンチマーク、アプリケーション固有のデータセットで実施された大規模な実験により、3段階のフレームワークは、Type Iエラーを制御しながら、均一なクエリと同一数のラベルによる確実性ベースのクエリよりもType IIエラーを減らした。

Two-sample tests evaluate whether two samples are realizations of the same distribution (the null hypothesis) or two different distributions (the alternative hypothesis). In the traditional formulation of this problem, the statistician has access to both the measurements (feature variables) and the group variable (label variable). However, in several important applications, feature variables can be easily measured but the binary label variable is unknown and costly to obtain. In this paper, we consider this important variation on the classical two-sample test problem and pose it as a problem of obtaining the labels of only a small number of samples in service of performing a two-sample test. We devise a label efficient three-stage framework: firstly, a classifier is trained with samples uniformly labeled to model the posterior probabilities of the labels; secondly, an innovative query scheme dubbed \emph{bimodal query} is used to query labels of samples from both classes with maximum posterior probabilities, and lastly, the classical Friedman-Rafsky (FR) two-sample test is performed on the queried samples. Our theoretical analysis shows that bimodal query is optimal for the FR test under reasonable conditions and that the three-stage framework controls the Type I error. Extensive experiments performed on synthetic, benchmark, and application-specific datasets demonstrate that the three-stage framework has decreased Type II error over uniform querying and certainty-based querying with same number of labels while controlling the Type I error.
翻訳日:2021-11-18 23:20:07 公開日:2021-11-17
# (参考訳) TYolov5:ビデオにおけるリアルタイムハンドガン検出のための準リカレントニューラルネットワークに基づく一時ヨーロフ5検出器 [全文訳有]

TYolov5: A Temporal Yolov5 Detector Based on Quasi-Recurrent Neural Networks for Real-Time Handgun Detection in Video ( http://arxiv.org/abs/2111.08867v1 )

ライセンス: CC BY 4.0
Mario Alberto Duran-Vega, Miguel Gonzalez-Mendoza, Leonardo Chang-Fernandez, Cuauhtemoc Daniel Suarez-Ramirez(参考訳) タイムリーな拳銃検出は公衆の安全を改善する上で重要な問題である。しかしながら、多くの監視システムの有効性は、依然として有限の人間の注意に依存している。 以前の拳銃検出に関する研究の多くは静的な画像検出器に基づいており、ビデオの物体検出を改善するのに使える貴重な時間情報を残している。 監視システムの性能向上のためには,リアルタイムの拳銃検出システムを構築する必要がある。 準リカレントニューラルネットワークに基づくアーキテクチャであるTemporal Yolov5を用いて、ビデオから時間情報を抽出し、拳銃検出の結果を改善する。 さらに、手、銃、電話でラベル付けされた2つの公開データセットも提案されている。 ひとつは静的検出器をトレーニングする2199の静的イメージと、もうひとつは時間モジュールをトレーニングする5960フレームのビデオだ。 さらに,モザイクとミックスアップに基づく時間的データ拡張手法について検討する。 その結果得られたシステムは、3つの時間的アーキテクチャである: 1つはmap$_{50:95}$が56.1、もう1つは推論と精度のバランスが良いmap$_{50:95}$が59.4、もう1つはmap$_{50:95}$が60.2の精度を専門とする。 テンポラリyolov5は、中小規模アーキテクチャでリアルタイム検出を実現する。 さらに、ビデオに含まれる時間的特徴を利用して、時間的データセットのYolov5よりも優れたパフォーマンスを実現しています。 ソースコードはhttps://github.com/m arioduran/tyolov5で公開されている。

Timely handgun detection is a crucial problem to improve public safety; nevertheless, the effectiveness of many surveillance systems still depend of finite human attention. Much of the previous research on handgun detection is based on static image detectors, leaving aside valuable temporal information that could be used to improve object detection in videos. To improve the performance of surveillance systems, a real-time temporal handgun detection system should be built. Using Temporal Yolov5, an architecture based in Quasi-Recurrent Neural Networks, temporal information is extracted from video to improve the results of the handgun detection. Moreover, two publicity available datasets are proposed, labeled with hands, guns, and phones. One containing 2199 static images to train static detectors, and another with 5960 frames of videos to train temporal modules. Additionally, we explore two temporal data augmentation techniques based in Mosaic and Mixup. The resulting systems are three temporal architectures: one focused in reducing inference with a mAP$_{50:95}$ of 56.1, another in having a good balance between inference and accuracy with a mAP$_{50:95}$ of 59.4, and a last one specialized in accuracy with a mAP$_{50:95}$ of 60.2. Temporal Yolov5 achieves real-time detection in the small and medium architectures. Moreover, it takes advantage of temporal features contained in videos to perform better than Yolov5 in our temporal dataset, making TYolov5 suitable for real-world applications. The source code is publicly available at https://github.com/M arioDuran/TYolov5.
翻訳日:2021-11-18 22:43:43 公開日:2021-11-17
# (参考訳) TorchGeo:地理空間データによるディープラーニング [全文訳有]

TorchGeo: deep learning with geospatial data ( http://arxiv.org/abs/2111.08872v1 )

ライセンス: CC BY 4.0
Adam J. Stewart, Caleb Robinson, Isaac A. Corley, Anthony Ortiz, Juan M. Lavista Ferres, Arindam Banerjee(参考訳) リモートセンシングされた地理空間データは、精密農業、都市計画、災害監視と対応、気候変動研究などの応用に不可欠である。 ディープラーニングの手法は、類似のコンピュータビジョンタスクにおけるディープニューラルネットワークの成功と、利用可能なリモートセンシング画像の膨大なボリュームを考えると、多くのリモートセンシングタスクのモデリングに特に有望である。 しかし,データ収集手法のばらつきや地理空間メタデータの扱いにより,リモートセンシングデータへの深層学習手法の適用は容易ではない。 例えば、衛星画像には赤、緑、青以外のスペクトル帯域が含まれており、異なる座標系、境界、解像度を持つ他の地理空間データソースと結合する必要がある。 リモートセンシングアプリケーションにおけるディープラーニングの可能性を実現するために,地理空間データをPyTorchディープラーニングエコシステムに統合するPythonライブラリTorchGeoを紹介した。 torchgeoは、さまざまなベンチマークデータセット用のデータローダ、汎用地理空間データソース用のコンポーザブルデータセット、地理空間データ用のサンプラー、マルチスペクトル画像を扱う変換を提供する。 トーチジオはまた、マルチスペクトル衛星画像のための事前学習されたモデル(例えば、センチネル2衛星の全ての帯域を使用するモデル)を提供する最初のライブラリであり、ラベル付きデータを制限した下流リモートセンシングタスクにおける転送学習の進歩を可能にする。 我々はTorchGeoを用いて、既存のデータセット上で再現可能なベンチマーク結果を作成し、提案手法を用いて地空間画像の事前処理を行う。 torchgeoはオープンソースであり、githubで入手できる。

Remotely sensed geospatial data are critical for applications including precision agriculture, urban planning, disaster monitoring and response, and climate change research, among others. Deep learning methods are particularly promising for modeling many remote sensing tasks given the success of deep neural networks in similar computer vision tasks and the sheer volume of remotely sensed imagery available. However, the variance in data collection methods and handling of geospatial metadata make the application of deep learning methodology to remotely sensed data nontrivial. For example, satellite imagery often includes additional spectral bands beyond red, green, and blue and must be joined to other geospatial data sources that can have differing coordinate systems, bounds, and resolutions. To help realize the potential of deep learning for remote sensing applications, we introduce TorchGeo, a Python library for integrating geospatial data into the PyTorch deep learning ecosystem. TorchGeo provides data loaders for a variety of benchmark datasets, composable datasets for generic geospatial data sources, samplers for geospatial data, and transforms that work with multispectral imagery. TorchGeo is also the first library to provide pre-trained models for multispectral satellite imagery (e.g. models that use all bands from the Sentinel 2 satellites), allowing for advances in transfer learning on downstream remote sensing tasks with limited labeled data. We use TorchGeo to create reproducible benchmark results on existing datasets and benchmark our proposed method for preprocessing geospatial imagery on-the-fly. TorchGeo is open-source and available on GitHub: https://github.com/m icrosoft/torchgeo.
翻訳日:2021-11-18 22:27:32 公開日:2021-11-17
# (参考訳) GN変換器:改良されたコード要約のためのFusing SequenceとGraph Representation [全文訳有]

GN-Transformer: Fusing Sequence and Graph Representation for Improved Code Summarization ( http://arxiv.org/abs/2111.08874v1 )

ライセンス: CC BY 4.0
Junyan Cheng, Iordanis Fostiropoulos, and Barry Boehm(参考訳) 自然言語とは対照的に、ソースコードの理解は識別子名に関係なくトークン間の文法的関係に影響される。 AST(Abstract Syntax Tree)のようなソースコードのグラフ表現は、ソースコードから明らかでないトークン間の関係をキャプチャすることができる。 本稿では,Syntax-Code-Graph (SCG) と呼ばれる,融合シーケンスとグラフモダリティに基づいてエンドツーエンドの学習を行う新しい手法GN-Transformerを提案する。 gn-transformerはグラフネットワーク(gn)フレームワークに自己接続機構を用いて拡張する。 SCGはソースコードスニペットとAST表現との初期の融合の結果である。 我々は,SCGの構造,モデル設計に関するアブレーション研究,およびハイパーパラメータについて実験を行い,性能上の優位性は融合表現によるものであると結論づける。 提案手法は,2つのコード要約データセットと3つの自動コード要約メトリクス(BLEU, METEOR, ROUGE-L)で最先端性能を実現する。 さらに,本モデルと先行研究の人間の知覚的品質を,専門家・ユーザによる研究により評価した。 我々のモデルは、人間の知覚する品質と正確さにおいて最先端を上回っている。

As opposed to natural languages, source code understanding is influenced by grammatical relationships between tokens regardless of their identifier name. Graph representations of source code such as Abstract Syntax Tree (AST) can capture relationships between tokens that are not obvious from the source code. We propose a novel method, GN-Transformer to learn end-to-end on a fused sequence and graph modality we call Syntax-Code-Graph (SCG). GN-Transformer expands on Graph Networks (GN) framework using a self-attention mechanism. SCG is the result of the early fusion between a source code snippet and the AST representation. We perform experiments on the structure of SCG, an ablation study on the model design, and the hyper-parameters to conclude that the performance advantage is from the fused representation. The proposed methods achieve state-of-the-art performance in two code summarization datasets and across three automatic code summarization metrics (BLEU, METEOR, ROUGE-L). We further evaluate the human perceived quality of our model and previous work with an expert-user study. Our model outperforms the state-of-the-art in human perceived quality and accuracy.
翻訳日:2021-11-18 22:05:44 公開日:2021-11-17
# (参考訳) FAIRLEARN:構成可能で解釈可能なアルゴリズムフェアネス [全文訳有]

FAIRLEARN:Configurab le and Interpretable Algorithmic Fairness ( http://arxiv.org/abs/2111.08878v1 )

ライセンス: CC BY 4.0
Ankit Kulshrestha, Ilya Safro(参考訳) 近年のデータの急速な成長は、現実世界での意思決定によく使用される複雑な学習アルゴリズムの開発につながっている。 アルゴリズムの肯定的な影響は大きいが、トレーニングサンプルから生じるバイアスや、データサンプルに関する暗黙の仮定を緩和する必要がある。 このニーズは、アルゴリズムが人々の生活に大きな影響を与える自動意思決定システムで使用される場合に重要になる。 最適化の異なる段階でバイアスを検出し、緩和することで学習アルゴリズムを公平にする多くのアプローチが提案されている。 しかし、フェアネスの普遍的な定義が欠如しているため、これらのアルゴリズムはフェアネスの特定の解釈を最適化し、現実の用途に限定する。 さらに、すべてのアルゴリズムに共通する前提は、公平性を達成しバイアスを取り除くことの明らかな等価性である。 言い換えると、公正なアルゴリズムを作成するための最適化手順に組み込むことができるユーザー定義の基準は存在しない。 既存の手法の欠点に乗じて,ユーザ制約を最適化手順に組み込むことで,公平なアルゴリズムを生成するFAIRLEARN手順を提案する。 さらに,データから最も予測的な特徴を推定することで,プロセスを解釈可能にする。 異なる公平性基準を用いて,複数の実世界データセットに対するアプローチの有効性を実証する。

The rapid growth of data in the recent years has led to the development of complex learning algorithms that are often used to make decisions in real world. While the positive impact of the algorithms has been tremendous, there is a need to mitigate any bias arising from either training samples or implicit assumptions made about the data samples. This need becomes critical when algorithms are used in automated decision making systems that can hugely impact people's lives. Many approaches have been proposed to make learning algorithms fair by detecting and mitigating bias in different stages of optimization. However, due to a lack of a universal definition of fairness, these algorithms optimize for a particular interpretation of fairness which makes them limited for real world use. Moreover, an underlying assumption that is common to all algorithms is the apparent equivalence of achieving fairness and removing bias. In other words, there is no user defined criteria that can be incorporated into the optimization procedure for producing a fair algorithm. Motivated by these shortcomings of existing methods, we propose the FAIRLEARN procedure that produces a fair algorithm by incorporating user constraints into the optimization procedure. Furthermore, we make the process interpretable by estimating the most predictive features from data. We demonstrate the efficacy of our approach on several real world datasets using different fairness criteria.
翻訳日:2021-11-18 21:47:46 公開日:2021-11-17
# (参考訳) SAPNet: 知覚コントラスト評価のためのセグメンテーション対応プログレッシブネットワーク [全文訳有]

SAPNet: Segmentation-Aware Progressive Network for Perceptual Contrastive Deraining ( http://arxiv.org/abs/2111.08892v1 )

ライセンス: CC BY 4.0
Shen Zheng, Changjie Lu, Yuxiong Wu and Gaurav Gupta(参考訳) ディープラーニングアルゴリズムは最近、自然データと合成雨のデータセットの両方で、有望なフェデインパフォーマンスを達成している。 根本的な低レベル前処理の段階として、デレーニングネットワークは雨の流れをクリアし、セマンティックな詳細を保存すべきである。 しかし、既存のほとんどの手法は低レベルの画像復元しか考慮していない。 これにより、正確なセマンティック情報を必要とするハイレベルなタスクのパフォーマンスが制限される。 この問題に対処するため,本論文では,単一画像デライニングのためのコントラスト学習に基づくセグメンテーション対応プログレッシブネットワーク(SAPNet)を提案する。 提案手法は,プログレッシブ拡張ユニット(PDU)を用いた軽量なデラインネットワークで開始する。 PDUは受容界を著しく拡大し、マルチスケール画像の重み計算をすることなくマルチスケールの雨天を特徴付けることができる。 この研究の基本的な側面は、イメージネットとガウス重みを初期化したunsupervised background segmentation (UBS)ネットワークである。 UBSは画像の意味情報を忠実に保存し、写真を表示する一般化能力を向上させることができる。 さらに、モデル学習を制御するために、知覚的コントラスト損失(PCL)と学習的知覚的画像類似性損失(LPISL)を導入する。 本稿では,VGG-16潜伏空間における正の正の正の正の正の降雨像と降雨像を生かし,その微妙な意味的詳細を,完全に拘束された方法で橋渡しする。 合成および実世界の降雨画像に関する総合的な実験により、我々のモデルは最高性能の手法を超越し、オブジェクトの検出とセマンティックセグメンテーションをかなりの有効性で支援している。 Pytorchの実装はhttps://github.com/S henZheng2000/SAPNet- for-image-derainingで公開されている。

Deep learning algorithms have recently achieved promising deraining performances on both the natural and synthetic rainy datasets. As an essential low-level pre-processing stage, a deraining network should clear the rain streaks and preserve the fine semantic details. However, most existing methods only consider low-level image restoration. That limits their performances at high-level tasks requiring precise semantic information. To address this issue, in this paper, we present a segmentation-aware progressive network (SAPNet) based upon contrastive learning for single image deraining. We start our method with a lightweight derain network formed with progressive dilated units (PDU). The PDU can significantly expand the receptive field and characterize multi-scale rain streaks without the heavy computation on multi-scale images. A fundamental aspect of this work is an unsupervised background segmentation (UBS) network initialized with ImageNet and Gaussian weights. The UBS can faithfully preserve an image's semantic information and improve the generalization ability to unseen photos. Furthermore, we introduce a perceptual contrastive loss (PCL) and a learned perceptual image similarity loss (LPISL) to regulate model learning. By exploiting the rainy image and groundtruth as the negative and the positive sample in the VGG-16 latent space, we bridge the fine semantic details between the derained image and the groundtruth in a fully constrained manner. Comprehensive experiments on synthetic and real-world rainy images show our model surpasses top-performing methods and aids object detection and semantic segmentation with considerable efficacy. A Pytorch Implementation is available at https://github.com/S henZheng2000/SAPNet- for-image-deraining.
翻訳日:2021-11-18 21:30:51 公開日:2021-11-17
# (参考訳) 視覚的質問応答におけるヒューマンパリティの達成 [全文訳有]

Achieving Human Parity on Visual Question Answering ( http://arxiv.org/abs/2111.08896v1 )

ライセンス: CC BY 4.0
Ming Yan, Haiyang Xu, Chenliang Li, Junfeng Tian, Bin Bi, Wei Wang, Weihua Chen, Xianzhe Xu, Fan Wang, Zheng Cao, Ji Zhang, Songfang Huang, Fei Huang, Luo Si(参考訳) 視覚質問応答(vqa)タスクは、視覚画像と言語分析の両方を使用して、画像に関するテキスト質問に応答する。 この10年間で現実世界のアプリケーションが増えていることで、人気のある研究テーマとなっている。 本稿では,alicemind-mmu (alibaba's collection of encoder-decoder from machine intelligence lab of damo academy - multimedia understanding) に関する最近の研究について述べる。 これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。 異なるタイプの視覚的質問を必要な専門知識で扱うことは、VQAアーキテクチャのパフォーマンスを人間レベルまで上げる上で重要な役割を担います。 新しい研究成果の有効性を示すために,広範囲にわたる実験と分析を行った。

The Visual Question Answering (VQA) task utilizes both visual image and language analysis to answer a textual question with respect to an image. It has been a popular research topic with an increasing number of real-world applications in the last decade. This paper describes our recent research of AliceMind-MMU (ALIbaba's Collection of Encoder-decoders from Machine IntelligeNce lab of Damo academy - MultiMedia Understanding) that obtains similar or even slightly better results than human being does on VQA. This is achieved by systematically improving the VQA pipeline including: (1) pre-training with comprehensive visual and textual feature representation; (2) effective cross-modal interaction with learning to attend; and (3) A novel knowledge mining framework with specialized expert modules for the complex VQA task. Treating different types of visual questions with corresponding expertise needed plays an important role in boosting the performance of our VQA architecture up to the human level. An extensive set of experiments and analysis are conducted to demonstrate the effectiveness of the new research work.
翻訳日:2021-11-18 21:15:15 公開日:2021-11-17
# (参考訳) ARKitScenes - モバイルRGB-Dデータを用いた3次元屋内シーン理解のための多次元リアルタイムデータセット [全文訳有]

ARKitScenes -- A Diverse Real-World Dataset For 3D Indoor Scene Understanding Using Mobile RGB-D Data ( http://arxiv.org/abs/2111.08897v1 )

ライセンス: CC BY 4.0
Gilad Baruch, Zhuoyuan Chen, Afshin Dehghan, Tal Dimry, Yuri Feigin, Peter Fu, Thomas Gebauer, Brandon Joffe, Daniel Kurz, Arik Schwartz, Elad Shulman(参考訳) 現場理解は活発な研究分野である。 Kinectのような商用深度センサーは、過去数年間でいくつかのRGB-Dデータセットをリリースし、新しい3Dシーン理解法を生み出した。 さらに最近では、AppleのiPadとiPhoneでLiDARセンサーがローンチされ、高品質のRGB-Dデータは、一般のデバイスで何百万人もの人にアクセスできるようになりました。 これは、コンピュータビジョンコミュニティとアプリ開発者にとって、全く新しい状況理解の時代を開くものだ。 シーン理解の基礎研究と機械学習の進歩は、今や人々の日常体験に影響を与えうる。 しかし、これらのシーン理解方法を実世界体験に変換するには、さらなるイノベーションと開発が必要である。 本稿ではARKitScenesを紹介する。 これは、現在広く利用可能な深度センサーでキャプチャされる最初のRGB-Dデータセットであるだけでなく、私たちの知る限り、屋内のシーン理解データとしては最大である。 モバイルデバイスの生データや処理データに加えて、ARKitScenesには静止レーザースキャナーでキャプチャした高解像度の深度マップや、家具の大規模な分類のための手動で3D指向のバウンディングボックスが含まれている。 さらに、3Dオブジェクト検出と色誘導深度アップサンプリングという2つの下流タスクにおけるデータの有用性を分析した。 私たちのデータセットは、既存の最先端メソッドの境界を押し上げるのに役立ち、現実世界のシナリオをより良く表現する新しい課題を導入します。

Scene understanding is an active research area. Commercial depth sensors, such as Kinect, have enabled the release of several RGB-D datasets over the past few years which spawned novel methods in 3D scene understanding. More recently with the launch of the LiDAR sensor in Apple's iPads and iPhones, high quality RGB-D data is accessible to millions of people on a device they commonly use. This opens a whole new era in scene understanding for the Computer Vision community as well as app developers. The fundamental research in scene understanding together with the advances in machine learning can now impact people's everyday experiences. However, transforming these scene understanding methods to real-world experiences requires additional innovation and development. In this paper we introduce ARKitScenes. It is not only the first RGB-D dataset that is captured with a now widely available depth sensor, but to our best knowledge, it also is the largest indoor scene understanding data released. In addition to the raw and processed data from the mobile device, ARKitScenes includes high resolution depth maps captured using a stationary laser scanner, as well as manually labeled 3D oriented bounding boxes for a large taxonomy of furniture. We further analyze the usefulness of the data for two downstream tasks: 3D object detection and color-guided depth upsampling. We demonstrate that our dataset can help push the boundaries of existing state-of-the-art methods and it introduces new challenges that better represent real-world scenarios.
翻訳日:2021-11-18 20:37:52 公開日:2021-11-17
# (参考訳) 帰属表現機能のための局所的テクスチャ推定器 [全文訳有]

Local Texture Estimator for Implicit Representation Function ( http://arxiv.org/abs/2111.08918v1 )

ライセンス: CC BY 4.0
Jaewon Lee and Kyong Hwan Jin(参考訳) 最近の研究は、任意の解像度で画像を表現するために暗黙の神経関数を遮蔽する。 しかし、スタンドアロンの多層パーセプトロン(mlp)は高周波成分の学習において限られた性能を示す。 本稿では,自然画像のための優性周波数推定器である局所テクスチャ推定器(lte)を提案する。 ディープ・スーパーレゾリューション(SR)アーキテクチャで共同トレーニングを行う場合、LTEは2次元フーリエ空間で画像テクスチャを特徴付けることができる。 LTEベースのニューラル関数は、すべてのデータセットとすべてのスケールファクターに対して、任意のスケールで既存のディープSRメソッドよりも優れていることを示す。 さらに,本実装では,これまでの作業よりも実行時間が短いことを実証した。 ソースコードはオープンします。

Recent works with an implicit neural function shed light on representing images in arbitrary resolution. However, a standalone multi-layer perceptron (MLP) shows limited performance in learning high-frequency components. In this paper, we propose a Local Texture Estimator (LTE), a dominant-frequency estimator for natural images, enabling an implicit function to capture fine details while reconstructing images in a continuous manner. When jointly trained with a deep super-resolution (SR) architecture, LTE is capable of characterizing image textures in 2D Fourier space. We show that an LTE-based neural function outperforms existing deep SR methods within an arbitrary-scale for all datasets and all scale factors. Furthermore, we demonstrate that our implementation takes the shortest running time compared to previous works. Source code will be open.
翻訳日:2021-11-18 20:23:29 公開日:2021-11-17
# (参考訳) ReLUニューラルネットワークの局所ポリトープのトラバース:ネットワーク検証のための統一的アプローチ [全文訳有]

Traversing the Local Polytopes of ReLU Neural Networks: A Unified Approach for Network Verification ( http://arxiv.org/abs/2111.08922v1 )

ライセンス: CC BY 4.0
Shaojie Xu, Joel Vaughan, Jie Chen, Aijun Zhang, Agus Sudjianto(参考訳) ReLUアクティベーション機能を備えたニューラルネットワーク(NN)は、幅広いアプリケーションで成功しているが、ロバスト性と解釈可能性に関する懸念から、リスクに敏感な設定の採用は制限されている。 頑健さを検証し,解釈可能性を向上させるための従来の研究は,ReLU NNの断片線形関数形式を部分的に活用した。 本稿では,ReLU NNが入力空間内で生成する独自のトポロジ構造について検討し,分割した局所ポリトープ間の隣接性を同定し,この隣接性に基づくトラバースアルゴリズムを開発する。 ポリトープトラバースアルゴリズムは,ロバスト性や解釈性に関連する幅広いネットワーク特性を検証するために適用可能であり,ネットワーク動作を統一的に検証する手法を提供する。 トラバースアルゴリズムがすべてのローカルポリトープを明示的に訪問すると、トラバースされた領域内のネットワーク動作の明確かつ完全な画像を返す。 トラバースアルゴリズムの時間と空間の複雑さは、トラバース領域を通過するReLU NNの分割超平面の数によって決定される。

Although neural networks (NNs) with ReLU activation functions have found success in a wide range of applications, their adoption in risk-sensitive settings has been limited by the concerns on robustness and interpretability. Previous works to examine robustness and to improve interpretability partially exploited the piecewise linear function form of ReLU NNs. In this paper, we explore the unique topological structure that ReLU NNs create in the input space, identifying the adjacency among the partitioned local polytopes and developing a traversing algorithm based on this adjacency. Our polytope traversing algorithm can be adapted to verify a wide range of network properties related to robustness and interpretability, providing an unified approach to examine the network behavior. As the traversing algorithm explicitly visits all local polytopes, it returns a clear and full picture of the network behavior within the traversed region. The time and space complexity of the traversing algorithm is determined by the number of a ReLU NN's partitioning hyperplanes passing through the traversing region.
翻訳日:2021-11-18 20:07:07 公開日:2021-11-17
# (参考訳) 画像キャプションのための透明人間評価 [全文訳有]

Transparent Human Evaluation for Image Captioning ( http://arxiv.org/abs/2111.08940v1 )

ライセンス: CC BY 4.0
Jungo Kasai, Keisuke Sakaguchi, Lavinia Dunagan, Jacob Morrison, Ronan Le Bras, Yejin Choi, Noah A. Smith(参考訳) 画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを確立する。 MSCOCOデータセット上の機械文と人文文文のキャプションに基づいて,評価結果とその定義を慎重に開発する。 それぞれのキャプションは、トレードオフ(precision and recall)と、テキスト品質(fluency, conciseness, comprehensive language)を測定する他の側面の2つの主要な次元に沿って評価される。 本評価は,現在の評価実践において,いくつかの重要な問題を示す。 人間が生成したキャプションは、機械が生成するものよりもかなり高品質で、特に有意義な情報(つまりリコール)をカバーしている。 画像特徴を用いた最近の測定値であるCLIPScoreは、リコールに敏感であるため、従来のテキストのみの計測値よりも人間の判断と相関する。 この取り組みにより、画像キャプションとその自動計測のためのより透過的な評価プロトコルが促進されることを願っている。

We establish a rubric-based human evaluation protocol for image captioning models. Our scoring rubrics and their definitions are carefully developed based on machine- and human-generated captions on the MSCOCO dataset. Each caption is evaluated along two main dimensions in a tradeoff (precision and recall) as well as other aspects that measure the text quality (fluency, conciseness, and inclusive language). Our evaluations demonstrate several critical problems of the current evaluation practice. Human-generated captions show substantially higher quality than machine-generated ones, especially in coverage of salient information (i.e., recall), while all automatic metrics say the opposite. Our rubric-based results reveal that CLIPScore, a recent metric that uses image features, better correlates with human judgments than conventional text-only metrics because it is more sensitive to recall. We hope that this work will promote a more transparent evaluation protocol for image captioning and its automatic metrics.
翻訳日:2021-11-18 19:45:19 公開日:2021-11-17
# (参考訳) 神経認知診断のための学生表現の検討 [全文訳有]

Exploring Student Representation For Neural Cognitive Diagnosis ( http://arxiv.org/abs/2111.08951v1 )

ライセンス: CC BY 4.0
Hengyao Bao, Xihua Li, Xuemin Zhao, Yunbo Cao(参考訳) 認知診断は、特定の知識概念に関する生徒の習熟度を高めることを目的としており、スマート教育システムにおける基本的な課題である。 従来の研究は通常、各学生を訓練可能な知識能力ベクトルとして表現し、学生の概念と基本的なプロファイル(記憶や理解など)の関係を捉えることができない。 本稿では,知識概念と学生の埋め込みの階層的関係を探索し,学生表現の手法を提案する。 具体的には、親知識概念の習熟度が知識概念間の相関を反映していることから、親概念投影層と最初の知識習熟度を得る。 また、各生徒の埋め込みとして低次元密度ベクトルを採用し、全接続層で第2の知識習熟度を得る。 そして、上記の2つの習熟ベクトルを組み合わせて、学生の最終表現を得る。 提案手法の有効性を示す実験を行った。

Cognitive diagnosis, the goal of which is to obtain the proficiency level of students on specific knowledge concepts, is an fundamental task in smart educational systems. Previous works usually represent each student as a trainable knowledge proficiency vector, which cannot capture the relations of concepts and the basic profile(e.g. memory or comprehension) of students. In this paper, we propose a method of student representation with the exploration of the hierarchical relations of knowledge concepts and student embedding. Specifically, since the proficiency on parent knowledge concepts reflects the correlation between knowledge concepts, we get the first knowledge proficiency with a parent-child concepts projection layer. In addition, a low-dimension dense vector is adopted as the embedding of each student, and obtain the second knowledge proficiency with a full connection layer. Then, we combine the two proficiency vector above to get the final representation of students. Experiments show the effectiveness of proposed representation method.
翻訳日:2021-11-18 19:27:00 公開日:2021-11-17
# (参考訳) シーン生成用合成トランス

Compositional Transformers for Scene Generation ( http://arxiv.org/abs/2111.08960v1 )

ライセンス: CC BY 4.0
Drew A. Hudson and C. Lawrence Zitnick(参考訳) 本稿では,生成モデルのための反復的オブジェクト指向変換器であるGANformer2モデルを紹介する。 このネットワークは、視覚シーンの構成的性質を反映し、連続的なプロセスを通じて画像を合成するために、強靭で明示的な構造的先行を取り入れている。 高速で軽量な計画フェーズで、ハイレベルなシーンレイアウトを作成し、次に注意に基づく実行フェーズでレイアウトを洗練し、リッチで詳細な図に進化させます。 我々のモデルは、フラットでモノリシックな潜在空間を特徴とする従来のブラックボックスGANアーキテクチャから、効率、制御可能性、解釈可能性を促進する透明な設計へと移行します。 マルチオブジェクトのclevrシーンから挑戦的なcocoイメージまで,さまざまなデータセットに対する注意深く評価することで,ganformer2の長所と長所を実証し,視覚品質,多様性,一貫性の観点から最先端のパフォーマンスを達成していることを示す。 さらなる実験では、モデルの絡み合いを実証し、粗い初期スケッチから、オブジェクトの深さと依存関係を考慮に入れた詳細なレイアウト、そして鮮明で複雑な現実世界のシーンの最終的な高解像度な描写まで、その生成過程について深い洞察を与える。 モデル実装はhttps://github.com/d orarad/gansformerを参照。

We introduce the GANformer2 model, an iterative object-oriented transformer, explored for the task of generative modeling. The network incorporates strong and explicit structural priors, to reflect the compositional nature of visual scenes, and synthesizes images through a sequential process. It operates in two stages: a fast and lightweight planning phase, where we draft a high-level scene layout, followed by an attention-based execution phase, where the layout is being refined, evolving into a rich and detailed picture. Our model moves away from conventional black-box GAN architectures that feature a flat and monolithic latent space towards a transparent design that encourages efficiency, controllability and interpretability. We demonstrate GANformer2's strengths and qualities through a careful evaluation over a range of datasets, from multi-object CLEVR scenes to the challenging COCO images, showing it successfully achieves state-of-the-art performance in terms of visual quality, diversity and consistency. Further experiments demonstrate the model's disentanglement and provide a deeper insight into its generative process, as it proceeds step-by-step from a rough initial sketch, to a detailed layout that accounts for objects' depths and dependencies, and up to the final high-resolution depiction of vibrant and intricate real-world scenes. See https://github.com/d orarad/gansformer for model implementation.
翻訳日:2021-11-18 19:20:31 公開日:2021-11-17
# (参考訳) シリコン後検証のための自己学習チューニング [全文訳有]

Self-Learning Tuning for Post-Silicon Validation ( http://arxiv.org/abs/2111.08995v1 )

ライセンス: CC BY 4.0
Peter Domanski, Dirk Pl\"uger, Jochen Rivoir, Rapha\"el Latty(参考訳) 現代のチップの複雑さが増すと、設計検証が難しくなる。 既存のアプローチは、ポストシリコン検証における堅牢なパフォーマンスチューニングのようなタスクの複雑さにもはや対処できない。 そこで本稿では,複雑な混合型チューニングタスクを効率的かつ堅牢な方法で解くために,学習の最適化と強化学習に基づく新しいアプローチを提案する。

Increasing complexity of modern chips makes design validation more difficult. Existing approaches are not able anymore to cope with the complexity of tasks such as robust performance tuning in post-silicon validation. Therefore, we propose a novel approach based on learn-to-optimize and reinforcement learning in order to solve complex and mixed-type tuning tasks in a efficient and robust way.
翻訳日:2021-11-18 19:19:22 公開日:2021-11-17
# (参考訳) 信頼できるロングテール分類 [全文訳有]

Trustworthy Long-Tailed Classification ( http://arxiv.org/abs/2111.09030v1 )

ライセンス: CC BY 4.0
Bolian Li, Zongbo Han, Haining Li, Huazhu Fu and Changqing Zhang(参考訳) 長い尾を持つ分散データの分類は、深刻なクラス不均衡に悩まされ、特に尾のクラスの性能が低下する問題である。 近年,アンサンブルに基づく手法は最先端の性能を実現し,大きな可能性を秘めている。 しかし、現在の方法には2つの制限がある。 第一に、彼らの予測は障害に敏感なアプリケーションには信頼できない。 これは、誤った予測が基本的に頻繁に発生するテールクラスにとって特に有害である。 第二に、すべてのサンプルに統一された専門家を割り当て、計算コストの過大な簡単なサンプルには冗長である。 これらの問題に対処するために,多専門フレームワークにおけるハードサンプルの同定のために,分類と不確実性評価を共同で行う,Trustworthy Long-tailed Classification (TLC)法を提案する。 我々のtlcは各専門家の証拠に基づく不確実性(evu)と証拠を取得し、デンプスター・シェーファー証拠理論(dst)の下でこれらの不確実性と証拠を組み合わせる。 さらに,提案手法では,容易にサンプルを採取できる専門家の数を削減し,有望な性能を維持しつつ効率性を達成するための動的専門家参加を提案する。 最後に, 分類, テール検出, OOD検出, 故障予測のタスクに関する総合的な実験を行った。 実験の結果,提案したTLCは最先端の手法よりも優れており,信頼性の高い不確実性に優れていた。

Classification on long-tailed distributed data is a challenging problem, which suffers from serious class-imbalance and accordingly unpromising performance especially on tail classes. Recently, the ensembling based methods achieve the state-of-the-art performance and show great potential. However, there are two limitations for current methods. First, their predictions are not trustworthy for failure-sensitive applications. This is especially harmful for the tail classes where the wrong predictions is basically frequent. Second, they assign unified numbers of experts to all samples, which is redundant for easy samples with excessive computational cost. To address these issues, we propose a Trustworthy Long-tailed Classification (TLC) method to jointly conduct classification and uncertainty estimation to identify hard samples in a multi-expert framework. Our TLC obtains the evidence-based uncertainty (EvU) and evidence for each expert, and then combines these uncertainties and evidences under the Dempster-Shafer Evidence Theory (DST). Moreover, we propose a dynamic expert engagement to reduce the number of engaged experts for easy samples and achieve efficiency while maintaining promising performances. Finally, we conduct comprehensive experiments on the tasks of classification, tail detection, OOD detection and failure prediction. The experimental results show that the proposed TLC outperforms the state-of-the-art methods and is trustworthy with reliable uncertainty.
翻訳日:2021-11-18 19:16:01 公開日:2021-11-17
# (参考訳) 複数属性関係抽出(mare) -- 関係抽出の適用を単純化する [全文訳有]

Multi-Attribute Relation Extraction (MARE) -- Simplifying the Application of Relation Extraction ( http://arxiv.org/abs/2111.09035v1 )

ライセンス: CC BY-SA 4.0
Lars Kl\"oser, Philipp Kohl, Bodo Kraft, Albert Z\"undorf(参考訳) 自然言語理解の関連抽出は、新しいビジネス概念を革新的に促進し、新しいデジタル化された意思決定プロセスを促進する。 現在のアプローチでは、属性として固定数のエンティティと関係を抽出することができる。 任意の量の属性との関係を抽出するには、複雑なシステムとコストのかかる関係-トリガーアノテーションが必要である。 ビジネス・ユース・ケースからデータ・アノテーションへの明示的なマッピングを容易にする2つのアプローチによる仮定レス問題定式化としてマルチ属性関係抽出(MARE)を導入する。 厳密なアノテーション制約を避けることは、関係抽出アプローチの適用を単純化する。 評価は,我々のモデルと現在の最先端イベント抽出および二項関係抽出法を比較した。 提案手法は, 一般の多属性関係の抽出に比較して改善が見られた。

Natural language understanding's relation extraction makes innovative and encouraging novel business concepts possible and facilitates new digitilized decision-making processes. Current approaches allow the extraction of relations with a fixed number of entities as attributes. Extracting relations with an arbitrary amount of attributes requires complex systems and costly relation-trigger annotations to assist these systems. We introduce multi-attribute relation extraction (MARE) as an assumption-less problem formulation with two approaches, facilitating an explicit mapping from business use cases to the data annotations. Avoiding elaborated annotation constraints simplifies the application of relation extraction approaches. The evaluation compares our models to current state-of-the-art event extraction and binary relation extraction methods. Our approaches show improvement compared to these on the extraction of general multi-attribute relations.
翻訳日:2021-11-18 19:00:31 公開日:2021-11-17
# (参考訳) 少数ショットテキスト分類におけるデータ拡張のための生成言語モデル誘導 [全文訳有]

Guiding Generative Language Models for Data Augmentation in Few-Shot Text Classification ( http://arxiv.org/abs/2111.09064v1 )

ライセンス: CC BY 4.0
Aleksandra Edwards, Asahi Ushio, Jose Camacho-Collados, H\'el\`ene de Ribaupierre, Alun Preece(参考訳) データ拡張技術は、クラス不均衡問題やデータ間隔に対処することで、機械学習モデルの性能向上に広く利用されている。 最先端の生成言語モデルは、異なるNLPタスク間で大きな利益をもたらすことが示されている。 しかし、テキスト分類タスクにおけるデータ拡張の適用性は、特に専門分野において、十分に検討されていない。 本稿では,GPT-2(Radford A et al, 2019)を人工トレーニングインスタンスの生成に活用し,分類性能の向上を図る。 本研究の目的は,GPT生成サンプルの品質に対するシードトレーニングサンプルの選択プロセスの影響を分析し,分類器の性能を評価することである。 我々は、クラス階層構造とドメインエキスパート選択を利用するいくつかの種選択戦略で実験を行う。 その結果,一握りのラベルインスタンスにおけるgpt-2の微調整は,一貫性のある分類改善と競合ベースラインを上回ることがわかった。 最後に、ドメインエキスパートの選択を通じてこのプロセスを導くことがさらなる改善につながる可能性を示し、生成モデルとアクティブラーニングを組み合わせるための興味深い研究の道を開く。

Data augmentation techniques are widely used for enhancing the performance of machine learning models by tackling class imbalance issues and data sparsity. State-of-the-art generative language models have been shown to provide significant gains across different NLP tasks. However, their applicability to data augmentation for text classification tasks in few-shot settings have not been fully explored, especially for specialised domains. In this paper, we leverage GPT-2 (Radford A et al, 2019) for generating artificial training instances in order to improve classification performance. Our aim is to analyse the impact the selection process of seed training examples have over the quality of GPT-generated samples and consequently the classifier performance. We perform experiments with several seed selection strategies that, among others, exploit class hierarchical structures and domain expert selection. Our results show that fine-tuning GPT-2 in a handful of label instances leads to consistent classification improvements and outperform competitive baselines. Finally, we show that guiding this process through domain expert selection can lead to further improvements, which opens up interesting research avenues for combining generative models and active learning.
翻訳日:2021-11-18 18:48:57 公開日:2021-11-17
# (参考訳) 不均衡データにおける不規則な観測の予測を改善するサンプリング [全文訳有]

Sampling To Improve Predictions For Underrepresented Observations In Imbalanced Data ( http://arxiv.org/abs/2111.09065v1 )

ライセンス: CC BY 4.0
Rune D. Kj{\ae}rsgaard, Manja G. Gr{\o}nberg, Line K. H. Clemmensen(参考訳) データの不均衡はプロダクションデータにおいて一般的であり、管理されたプロダクション設定では、データ分析の洞察ではなく品質評価を念頭に置いたデータ収集が必要となる。 この不均衡は、表現不足な観測におけるモデルの予測性能に悪影響を及ぼす。 そこで本研究では,過去の生産データに基づくモデルの性能向上を目標として,この不均衡を解消するためのサンプリングを提案する。 不均衡に適応するための3つのサンプリング手法について検討する。 目標はトレーニングデータのコ変数をダウンサンプルし、その後回帰モデルに適合させることだ。 本研究は,サンプルデータとオリジナルデータを用いて,モデルの予測能力がどのように変化するかを検討する。 本手法は,ペニシリン生産の高度シミュレーションから得られた大規模バイオ医薬品製造データに適用し,サンプルデータを用いてモデルに適合させることで予測性能が小さくなるが,低表示の観察で体系的に優れた性能が得られることを見出した。 さらに、結果は、代替、公正、バランスの取れたモデル評価の必要性を強調している。

Data imbalance is common in production data, where controlled production settings require data to fall within a narrow range of variation and data are collected with quality assessment in mind, rather than data analytic insights. This imbalance negatively impacts the predictive performance of models on underrepresented observations. We propose sampling to adjust for this imbalance with the goal of improving the performance of models trained on historical production data. We investigate the use of three sampling approaches to adjust for imbalance. The goal is to downsample the covariates in the training data and subsequently fit a regression model. We investigate how the predictive power of the model changes when using either the sampled or the original data for training. We apply our methods on a large biopharmaceutical manufacturing data set from an advanced simulation of penicillin production and find that fitting a model using the sampled data gives a small reduction in the overall predictive performance, but yields a systematically better performance on underrepresented observations. In addition, the results emphasize the need for alternative, fair, and balanced model evaluations.
翻訳日:2021-11-18 18:32:53 公開日:2021-11-17
# (参考訳) ニューラルネットワークオートエンコーダを用いたテルル補正のための教師なしスペクトルアンミックス [全文訳有]

Unsupervised Spectral Unmixing For Telluric Correction Using A Neural Network Autoencoder ( http://arxiv.org/abs/2111.09081v1 )

ライセンス: CC BY 4.0
Rune D. Kj{\ae}rsgaard, Aaron Bello-Arufe, Alexander D. Rathcke, Lars A. Buchhave, Line K. H. Clemmensen(参考訳) 地球の大気中の分子による光の吸収は、天体の地上観測を複雑にしている。 様々な分子種の包括的情報は、いわゆるテルル吸収によって修正される。 本稿では,harps-nラジアル速度スペクトログラフから高精度観測された太陽スペクトルのセットからテルル透過スペクトルを抽出するためのニューラルネットワークオートエンコーダ手法を提案する。 我々は、データを圧縮された表現に還元することで、基礎となる太陽スペクトルを明らかにし、地球の大気中での$\mathrm{H_2O}$と$\mathrm{O_2}$の吸収に関連する観測スペクトルの様々なモードを同時に明らかにすることができる。 抽出された成分を用いて,morecfitを用いた合成アプローチと同等の精度で計算コストの少ない検証観察において,$\mathrm{h_2o}$および$\mathrm{o_2}$ telluricsを除去する方法を示す。

The absorption of light by molecules in the atmosphere of Earth is a complication for ground-based observations of astrophysical objects. Comprehensive information on various molecular species is required to correct for this so called telluric absorption. We present a neural network autoencoder approach for extracting a telluric transmission spectrum from a large set of high-precision observed solar spectra from the HARPS-N radial velocity spectrograph. We accomplish this by reducing the data into a compressed representation, which allows us to unveil the underlying solar spectrum and simultaneously uncover the different modes of variation in the observed spectra relating to the absorption of $\mathrm{H_2O}$ and $\mathrm{O_2}$ in the atmosphere of Earth. We demonstrate how the extracted components can be used to remove $\mathrm{H_2O}$ and $\mathrm{O_2}$ tellurics in a validation observation with similar accuracy and at less computational expense than a synthetic approach with molecfit.
翻訳日:2021-11-18 18:27:34 公開日:2021-11-17
# (参考訳) グラフによるスパース医療記録の計算法 [全文訳有]

A Graph-based Imputation Method for Sparse Medical Records ( http://arxiv.org/abs/2111.09084v1 )

ライセンス: CC BY 4.0
Ramon Vinas, Xu Zheng and Jer Hayes(参考訳) 電子カルテ(Electronic Medical Records, EHR)は、非常に希少である。 少数の出来事(シンポジウム、診断、治療)のみが個人の生涯で観察される。 EHRの欠落の程度は、デバイス障害、プライバシの懸念、その他の予期せぬ理由など、多数の要因に起因する可能性がある。 残念なことに、多くの従来の計算手法は高度にスパースなデータには適せず、高次元のデータセットには不十分である。 本稿では,不測な事象に対して頑健かつ信頼性の低いグラフベースの計算法を提案する。 私たちのアプローチは、パフォーマンスとランタイムの観点から、いくつかの標準および最先端のインプテーションメソッドと比較するのが好適です。 さらに,臨床的に有意な方法で異なるイベントタイプを組み込むことを学習することを示す。 本研究は,過去の症例の臨床経過に基づいて,新しい疾患の診断を促進するとともに,コンプレビティの展望に対する理解を深める可能性を秘めている。

Electronic Medical Records (EHR) are extremely sparse. Only a small proportion of events (symptoms, diagnoses, and treatments) are observed in the lifetime of an individual. The high degree of missingness of EHR can be attributed to a large number of factors, including device failure, privacy concerns, or other unexpected reasons. Unfortunately, many traditional imputation methods are not well suited for highly sparse data and scale poorly to high dimensional datasets. In this paper, we propose a graph-based imputation method that is both robust to sparsity and to unreliable unmeasured events. Our approach compares favourably to several standard and state-of-the-art imputation methods in terms of performance and runtime. Moreover, results indicate that the model learns to embed different event types in a clinically meaningful way. Our work can facilitate the diagnosis of novel diseases based on the clinical history of past events, with the potential to increase our understanding of the landscape of comorbidities.
翻訳日:2021-11-18 18:18:55 公開日:2021-11-17
# (参考訳) 差分プライバシーを用いたネットワーク生成 [全文訳有]

Network Generation with Differential Privacy ( http://arxiv.org/abs/2111.09085v1 )

ライセンス: CC BY 4.0
Xu Zheng, Nicholas McCarthy and Jer Hayes(参考訳) 我々は,生成したグラフの実用性を維持しつつ,プライベート情報を含む実世界のグラフをプライベートに合成する問題を考える。 差分プライバシはデータプライバシの黄金の標準であり、差分プライベート確率勾配降下(dp-sgd)アルゴリズムの導入により、いくつかの領域におけるプライベートニューラルネットワークモデルのトレーニングが容易になった。 ディープジェネレーティブネットワークによるグラフ生成の最近の進歩は、いくつかのハイパフォーマンスモデルを生み出している。 本稿では,隣接行列ベースモデルやエッジベースモデルを含む最先端モデルの評価と比較を行い,一般的なグラフデータセットで評価する場合に,ガウス雑音機構を利用したエッジリストアプローチを提案する。 本研究では,エッジ差分プライバシーを維持しつつ,実世界のネットワーク特性を再現できる生成モデルを提案する。 提案モデルは,離散エッジリストサンプルを生成する確率的ニューラルネットワークに基づいて,DP-SGDオプティマイザを用いてWasserstein GAN目標を用いて学習する。 これらの有益なプロパティを組み合わせるための最初のアプローチとして、我々のモデルはグラフデータのプライバシーに関するさらなる研究に貢献する。

We consider the problem of generating private synthetic versions of real-world graphs containing private information while maintaining the utility of generated graphs. Differential privacy is a gold standard for data privacy, and the introduction of the differentially private stochastic gradient descent (DP-SGD) algorithm has facilitated the training of private neural models in a number of domains. Recent advances in graph generation via deep generative networks have produced several high performing models. We evaluate and compare state-of-the-art models including adjacency matrix based models and edge based models, and show a practical implementation that favours the edge-list approach utilizing the Gaussian noise mechanism when evaluated on commonly used graph datasets. Based on our findings, we propose a generative model that can reproduce the properties of real-world networks while maintaining edge-differential privacy. The proposed model is based on a stochastic neural network that generates discrete edge-list samples and is trained using the Wasserstein GAN objective with the DP-SGD optimizer. Being the first approach to combine these beneficial properties, our model contributes to further research on graph data privacy.
翻訳日:2021-11-18 18:10:29 公開日:2021-11-17
# (参考訳) Raspberry Pi 4のCSIを用いた動き検出 [全文訳有]

Motion Detection using CSI from Raspberry Pi 4 ( http://arxiv.org/abs/2111.09091v1 )

ライセンス: CC BY 4.0
Glenn Forbes, Stewart Massie, Susan Craw, Christopher Clare(参考訳) センサを用いたスマートホームのモニタリング行動は、住民の自立能力や長期的な健康状態の変化に対する洞察を与えることができる。 パッシブ赤外線モーションセンサー(PIR)は標準であるが、運動の全期間を正確に追跡することはできない。 また、パフォーマンスを制限し、住民に確実に見えるようにするための動きを検出するために、視線線も必要だ。 チャネル状態情報(csi)は安価で意図しない無線センシング形式であり、移動を監視できるが、リッチなデータを生成する機会を提供する。 Raspberry Pi 4で収集・処理されたCSIデータを利用した,自己校正型モーション検出システムを開発した。 本システムでは,CSIフレーム間の相関を利用して,このアルゴリズムを用いて分散解析を行い,居住者の移動の全期間を正確に測定する。 いくつかの実環境において,本手法の有効性を示す。 実験により, 異なる位置における異なる強度の運動例に対して, 活動開始時間と終了時間を正確に検出できることが示された。

Monitoring behaviour in smart homes using sensors can offer insights into changes in the independent ability and long-term health of residents. Passive Infrared motion sensors (PIRs) are standard, however may not accurately track the full duration of movement. They also require line-of-sight to detect motion which can restrict performance and ensures they must be visible to residents. Channel State Information (CSI) is a low cost, unintrusive form of radio sensing which can monitor movement but also offers opportunities to generate rich data. We have developed a novel, self-calibrating motion detection system which uses CSI data collected and processed on a stock Raspberry Pi 4. This system exploits the correlation between CSI frames, on which we perform variance analysis using our algorithm to accurately measure the full period of a resident's movement. We demonstrate the effectiveness of this approach in several real-world environments. Experiments conducted demonstrate that activity start and end time can be accurately detected for motion examples of different intensities at different locations.
翻訳日:2021-11-18 18:02:23 公開日:2021-11-17
# (参考訳) GPSの故障:信頼できない方向のネットワークでの最短経路

The Faulty GPS Problem: Shortest Time Paths in Networks with Unreliable Directions ( http://arxiv.org/abs/2111.09093v1 )

ライセンス: CC BY 4.0
Steve Alpern(参考訳) 本稿では,サトナフ (GPS) が提案する道路選択が最短経路にないという既知のリスクがある場合の移動計画の最適化を行う。 ネットワーク Q のすべての分岐ノードにおいて、サトナフ (GPS) は目的地やホームノード H に至る弧を指しているが、既知の確率 p のみである。 サトナフの提案を常に信頼することは無限サイクルにつながるかもしれない。 最小限の時間で H に到達したい場合、どの確率 q=q(Q,p) がポインターを信頼すべきか(そうでなければ、他の弧の中からランダムに選ぶ)。 私たちはこれをFaulty Satnav (GPS)問題と呼ぶ。 また、信頼確率 q が現在のノードの度合いに依存するバージョンや、2人の探索者が最初に H に到達しようとする 'トレジャーハント' も検討する。 Hを検索するエージェントは車である必要はないが、これはよく知られた例に過ぎず、信頼性の低いGPS情報を受信するUAVかもしれない。 この問題は、ドライバーのフラストレーションではなく、アリナビゲーションに関するFonio et al (2017) の作業に起源があり、ポインタは巣を指しているフェロモンマーカーに対応している。 ドライバーやアリは、選択(弧)が提案される正確なプロセスも知らないため、AIが提案する選択肢をどれだけ信頼するかという領域に問題をもたらす。

This paper optimizes motion planning when there is a known risk that the road choice suggested by a Satnav (GPS) is not on a shortest path. At every branch node of a network Q, a Satnav (GPS) points to the arc leading to the destination, or home node, H - but only with a high known probability p. Always trusting the Satnav's suggestion may lead to an infinite cycle. If one wishes to reach H in least expected time, with what probability q=q(Q,p) should one trust the pointer (if not, one chooses randomly among the other arcs)? We call this the Faulty Satnav (GPS) Problem. We also consider versions where the trust probability q can depend on the degree of the current node and a `treasure hunt' where two searchers try to reach H first. The agent searching for H need not be a car, that is just a familiar example -- it could equally be a UAV receiving unreliable GPS information. This problem has its origin not in driver frustration but in the work of Fonio et al (2017) on ant navigation, where the pointers correspond to pheromone markers pointing to the nest. Neither the driver or ant will know the exact process by which a choice (arc) is suggested, which puts the problem into the domain of how much to trust an option suggested by AI.
翻訳日:2021-11-18 17:52:54 公開日:2021-11-17
# (参考訳) クライオシフト:教師なしドメイン適応とランダム化によるクライオ電子サブモグラムの領域シフトの低減 [全文訳有]

Cryo-shift: Reducing domain shift in cryo-electron subtomograms with unsupervised domain adaptation and randomization ( http://arxiv.org/abs/2111.09114v1 )

ライセンス: CC BY 4.0
Hmrishav Bandyopadhyay, Zihao Deng, Leiting Ding, Sinuo Liu, Mostofa Rafid Uddin, Xiangrui Zeng, Sima Behpour, Min Xu(参考訳) cryo-electron tomography (cryo-et) は、原子近傍の分解能で細胞内構造を可視化する3次元イメージング技術である。 細胞内のCryo-ET画像は、高分子の構造を解明し、その空間的関係を単一の細胞で決定するのに役立つ。 サブトモグラムの分類と認識は、これらのマクロ分子構造の体系的な回復の第一段階である。 教師付き深層学習法はサブトモグラム分類において極めて正確かつ効率的であることが証明されているが、注釈付きデータの不足により適用性が制限されている。 教師付きモデルのトレーニングのためのシミュレーションデータを生成することは潜在的な解決策であるが、実際の実験データと比較して生成したデータにおける画像強度分布のばらつきが大きいため、訓練されたモデルは実際のサブトモグラムでのクラス予測の精度が低下する。 本稿では,ディープラーニングに基づくクロスドメインサブトモグラム分類のための,完全に教師なしのドメイン適応とランダム化フレームワークであるcryo-shiftを提案する。 シミュレーションデータと実験データの特徴間の領域シフトを低減するために,教師なしのマルチ・アドバーサル・ドメイン適応を用いた。 ネットワーク駆動のドメインランダム化手順を開発し, ‘warp’ モジュールを用いてシミュレーションデータを変更し, 分類器が実験データに対してより一般化するのを助ける。 モデルトレーニングにはラベル付き実験データを使用しませんが、既存の代替手法では、クロスドメイン分類のためのラベル付き実験データが必要です。 それにもかかわらず、Cryo-Shiftはクロスドメインサブトモグラム分類における既存の代替手法よりも優れており、シミュレーションデータと実験データの両方を用いて広範な評価研究が行われている。

Cryo-Electron Tomography (cryo-ET) is a 3D imaging technology that enables the visualization of subcellular structures in situ at near-atomic resolution. Cellular cryo-ET images help in resolving the structures of macromolecules and determining their spatial relationship in a single cell, which has broad significance in cell and structural biology. Subtomogram classification and recognition constitute a primary step in the systematic recovery of these macromolecular structures. Supervised deep learning methods have been proven to be highly accurate and efficient for subtomogram classification, but suffer from limited applicability due to scarcity of annotated data. While generating simulated data for training supervised models is a potential solution, a sizeable difference in the image intensity distribution in generated data as compared to real experimental data will cause the trained models to perform poorly in predicting classes on real subtomograms. In this work, we present Cryo-Shift, a fully unsupervised domain adaptation and randomization framework for deep learning-based cross-domain subtomogram classification. We use unsupervised multi-adversarial domain adaption to reduce the domain shift between features of simulated and experimental data. We develop a network-driven domain randomization procedure with `warp' modules to alter the simulated data and help the classifier generalize better on experimental data. We do not use any labeled experimental data to train our model, whereas some of the existing alternative approaches require labeled experimental samples for cross-domain classification. Nevertheless, Cryo-Shift outperforms the existing alternative approaches in cross-domain subtomogram classification in extensive evaluation studies demonstrated herein using both simulated and experimental data.
翻訳日:2021-11-18 17:51:32 公開日:2021-11-17
# (参考訳) スマートデータ表現:ディープニューラルネットワークの精度への影響 [全文訳有]

Smart Data Representations: Impact on the Accuracy of Deep Neural Networks ( http://arxiv.org/abs/2111.09128v1 )

ライセンス: CC BY 4.0
Oliver Neumann, Nicole Ludwig, Marian Turowski, Benedikt Heidrich, Veit Hagenmeyer, Ralf Mikut(参考訳) ディープニューラルネットワークは、エンジニアリングの労力を減らし、パフォーマンスを向上させることで、多くの複雑なタスクを解決できる。 しかし、これらのネットワークはしばしば、その表現を調査せずに、トレーニングや評価にデータを使用する。 本稿では,エネルギー時系列予測を用いたディープニューラルネットワークの性能に及ぼすデータ表現の影響を解析する。 模範データ表現の概要に基づいて、4つの模範データ表現を選択し、2つの異なるディープニューラルネットワークアーキテクチャと3つの実世界のエネルギー時系列の予測地平線を用いて評価する。 結果は、予測の地平線によっては、同じデータ表現がディープニューラルネットワークの精度に正または負の影響をもたらすことを示している。

Deep Neural Networks are able to solve many complex tasks with less engineering effort and better performance. However, these networks often use data for training and evaluation without investigating its representation, i.e.~the form of the used data. In the present paper, we analyze the impact of data representations on the performance of Deep Neural Networks using energy time series forecasting. Based on an overview of exemplary data representations, we select four exemplary data representations and evaluate them using two different Deep Neural Network architectures and three forecasting horizons on real-world energy time series. The results show that, depending on the forecast horizon, the same data representations can have a positive or negative impact on the accuracy of Deep Neural Networks.
翻訳日:2021-11-18 17:37:41 公開日:2021-11-17
# (参考訳) intraq: ゼロショットネットワーク量子化のためのクラス内不均一性を用いた合成画像の学習 [全文訳有]

IntraQ: Learning Synthetic Images with Intra-Class Heterogeneity for Zero-Shot Network Quantization ( http://arxiv.org/abs/2111.09136v1 )

ライセンス: CC BY 4.0
Yunshan Zhong, Mingbao Lin, Gongrui Nan, Jianzhuang Liu, Baochang Zhang, Yonghong Tian, Rongrong Ji(参考訳) データを合成する学習は、実データにアクセスせずに低ビット整数でニューラルネットワークを表現するゼロショット量子化(zsq)において、有望な方向として現れてきた。 本稿では,実データにおけるクラス内不均一性の興味深い現象を観察し,既存の手法ではそれらの合成画像にその性質を保持できず,性能が低下することを示した。 そこで本研究では,intraqと呼ばれるゼロショット量子化法を提案する。 まず,ターゲットオブジェクトを合成画像のスケールや位置の異なる場所に配置する局所オブジェクト強化を提案する。 次に,粗い領域に分散したクラス関連特徴を形成するために,限界距離制約を導入する。 最後に,合成画像が固定対象物に過度に収まらないよう,ソフトな先行ラベルを注入するソフトな開始損失を考案する。 IntraQは, 合成画像のクラス内不均一性を良好に保ち, また, 最先端の動作も観察した。 例えば、advanced zsqと比較して、mobilenetv1の全層を4ビットに量子化すると、intraqはimagenetのtop-1精度を9.17\%向上させる。 コードはhttps://github.com/v iperit/InterQ.comにある。

Learning to synthesize data has emerged as a promising direction in zero-shot quantization (ZSQ), which represents neural networks by low-bit integer without accessing any of the real data. In this paper, we observe an interesting phenomenon of intra-class heterogeneity in real data and show that existing methods fail to retain this property in their synthetic images, which causes a limited performance increase. To address this issue, we propose a novel zero-shot quantization method referred to as IntraQ. First, we propose a local object reinforcement that locates the target objects at different scales and positions of the synthetic images. Second, we introduce a marginal distance constraint to form class-related features distributed in a coarse area. Lastly, we devise a soft inception loss which injects a soft prior label to prevent the synthetic images from being overfitting to a fixed object. Our IntraQ is demonstrated to well retain the intra-class heterogeneity in the synthetic images and also observed to perform state-of-the-art. For example, compared to the advanced ZSQ, our IntraQ obtains 9.17\% increase of the top-1 accuracy on ImageNet when all layers of MobileNetV1 are quantized to 4-bit. Code is at https://github.com/v iperit/InterQ.
翻訳日:2021-11-18 17:26:36 公開日:2021-11-17
# (参考訳) 2面:商用顔認証システムの逆聴取 [全文訳有]

Two-Face: Adversarial Audit of Commercial Face Recognition Systems ( http://arxiv.org/abs/2111.09137v1 )

ライセンス: CC BY 4.0
Siddharth D Jaiswal, Karthikeya Duggirala, Abhisek Dash, Animesh Mukherjee(参考訳) 自動顔検出などのコンピュータビジョンアプリケーションは、スマートデバイスのアンロックから、監視対象の潜在的な人を追跡するまで、さまざまな目的で使用されている。 これらの応用の聴衆は、彼らが不公平で社会的、政治的結果に関する少数派グループに対して偏見を持つ傾向があることを明らかにしている。 長年にわたる複数の研究にもかかわらず、これらのバイアスは完全に緩和されておらず、年齢予測のような特定のタスクで増加してきた。 このようなシステムはベンチマークデータセット上で監査されるが、逆入力に対する堅牢性を評価する必要がある。 本研究では,複数のシステムやデータセットに対する大規模な逆監査を行い,前回の監査以降,CELEBSETデータセット上のタスクの精度が低下していることを示す。 複数のデータセットに対するマイノリティグループからの個人に対する正確さのバイアスは依然として存在するが、より心配なのは、これらのバイアスがマイノリティグループに対して逆のインプットで非常に発音される傾向があることだ。 我々は、これらの観察と、この問題を総括的に扱う方法についてのいくつかの提案を踏まえて、幅広い社会的影響についての議論を締めくくった。

Computer vision applications like automated face detection are used for a variety of purposes ranging from unlocking smart devices to tracking potential persons of interest for surveillance. Audits of these applications have revealed that they tend to be biased against minority groups which result in unfair and concerning societal and political outcomes. Despite multiple studies over time, these biases have not been mitigated completely and have in fact increased for certain tasks like age prediction. While such systems are audited over benchmark datasets, it becomes necessary to evaluate their robustness for adversarial inputs. In this work, we perform an extensive adversarial audit on multiple systems and datasets, making a number of concerning observations - there has been a drop in accuracy for some tasks on CELEBSET dataset since a previous audit. While there still exists a bias in accuracy against individuals from minority groups for multiple datasets, a more worrying observation is that these biases tend to get exorbitantly pronounced with adversarial inputs toward the minority group. We conclude with a discussion on the broader societal impacts in light of these observations and a few suggestions on how to collectively deal with this issue.
翻訳日:2021-11-18 17:09:42 公開日:2021-11-17
# (参考訳) Deep Supervision を用いたCT画像からの肺腫瘍の分離 [全文訳有]

Segmentation of Lung Tumor from CT Images using Deep Supervision ( http://arxiv.org/abs/2111.09262v1 )

ライセンス: CC BY 4.0
Farhanaz Farheen, Md. Salman Shamil, Nabil Ibtehaz, M. Sohel Rahman(参考訳) 肺がんは世界中のほとんどの国で死因となっている。 腫瘍の迅速な診断により、腫瘍学者はその性質、タイプ、治療様式を識別できるため、CT Scan画像からの腫瘍の検出とセグメンテーションは世界中で重要な研究分野である。 本稿では, 肺腫瘍の分節化をLOTUSデータセットに2次元離散ウェーブレット変換(DWT)を適用し, より精細なテクスチャ解析を行い, 近隣のCTスライスから情報を統合し, 深層監視マルチResUNetモデルに供給する手法を提案する。 ネットワークの学習中の学習率,減衰,最適化アルゴリズムの変動により,diceの効率が異なっており,その詳細な統計が本論文に含まれている。 このデータセットの課題と、それを克服する方法についても議論しています。 本研究は,2次元CTスキャンスライスから腫瘍領域を推定する成功率の最大化を目的とした。

Lung cancer is a leading cause of death in most countries of the world. Since prompt diagnosis of tumors can allow oncologists to discern their nature, type and the mode of treatment, tumor detection and segmentation from CT Scan images is a crucial field of study worldwide. This paper approaches lung tumor segmentation by applying two-dimensional discrete wavelet transform (DWT) on the LOTUS dataset for more meticulous texture analysis whilst integrating information from neighboring CT slices before feeding them to a Deeply Supervised MultiResUNet model. Variations in learning rates, decay and optimization algorithms while training the network have led to different dice co-efficients, the detailed statistics of which have been included in this paper. We also discuss the challenges in this dataset and how we opted to overcome them. In essence, this study aims to maximize the success rate of predicting tumor regions from two dimensional CT Scan slices by experimenting with a number of adequate networks, resulting in a dice co-efficient of 0.8472.
翻訳日:2021-11-18 16:50:48 公開日:2021-11-17
# (参考訳) 顔ランドマーク検出のための量子支援ベクター回帰 [全文訳有]

Quantum-Assisted Support Vector Regression for Detecting Facial Landmarks ( http://arxiv.org/abs/2111.09304v1 )

ライセンス: CC BY 4.0
Archismita Dalal, Mohsen Bagherimehrab and Barry C. Sanders(参考訳) ベクトル回帰(svr)をサポートする古典的な機械学習モデルは、天気予報、株式市場、不動産価格など、回帰タスクに広く使われている。 しかし、現実的に実現可能なSVRの量子バージョンは定式化されていない。 我々は、2つのSVRモデルをトレーニングするためのシミュレーションと量子古典的ハイブリッドというアニーリングに基づくアルゴリズムを考案し、PythonのScikit-LernパッケージのSVR実装と、顔のランドマーク検出(FLD)問題に対するSVRベースの最先端アルゴリズムと比較した。 本手法は,SVRモデルのトレーニングに使用される最適化問題に対して,2次非拘束バイナリ式を導出し,アニーリングを用いてこの問題を解決する。 d-waveのハイブリッドソルバを用いて,量子支援svrモデルを構築し,ランドマーク検出精度に関する古典モデルよりも若干のアドバンテージを示す。 さらに,アニーリングに基づくSVRモデルは,グリーディ最適化法により訓練されたSVRモデルと比較して,低分散のランドマークを予測する。 我々の研究は、小さなトレーニングデータセットを用いて教師付き学習タスクに量子支援SVRを適用するための概念実証の例である。

The classical machine-learning model for support vector regression (SVR) is widely used for regression tasks, including weather prediction, stock-market and real-estate pricing. However, a practically realisable quantum version for SVR remains to be formulated. We devise annealing-based algorithms, namely simulated and quantum-classical hybrid, for training two SVR models, and compare their empirical performances against the SVR implementation of Python's scikit-learn package and the SVR-based state-of-the-art algorithm for the facial landmark detection (FLD) problem. Our method is to derive a quadratic-unconstrai ned-binary formulation for the optimisation problem used for training a SVR model and solve this problem using annealing. Using D-Wave's Hybrid Solver, we construct a quantum-assisted SVR model, thereby demonstrating a slight advantage over classical models regarding landmark-detection accuracy. Furthermore, we observe that annealing-based SVR models predict landmarks with lower variances compared to the SVR models trained by greedy optimisation procedures. Our work is a proof-of-concept example for applying quantu-assisted SVR to a supervised learning task with a small training dataset.
翻訳日:2021-11-18 16:37:08 公開日:2021-11-17
# setPCAによる多変量モデルの解釈

Interpreting multi-variate models with setPCA ( http://arxiv.org/abs/2111.09138v1 )

ライセンス: Link先を確認
Nordine Aouni, Luc Linders, David Robinson, Len Vandelaer, Jessica Wiezorek, Geetesh Gupta, Rachel Cavill(参考訳) 主成分分析(PCA)や他の多変量モデルはしばしば「オミクス」データの解析に使用される。 これらのモデルは、現在容易にアクセスできない情報や解釈できない情報を含んでいる。 本稿では,この情報を既知集合(ジェネセットや経路など)の形式で格納した既存の背景知識データベースと統合するアルゴリズムを提案する。 そこで我々はMatlabにGUI(Graphical User Interface)を作成した。これにより、既知の設定情報のロードプロットへのオーバーレイが可能となり、多変量モデルの解釈性が改善される。 既知の各集合に対して、既知の集合から要素のサブセットをカバーする最適凸包は、探索アルゴリズムを通して見つけられ、表示される。 本稿では,この問題に対する最適凸包の探索アルゴリズムの詳細と,学術目的に自由にダウンロード可能なguiインタフェースについて述べる。

Principal Component Analysis (PCA) and other multi-variate models are often used in the analysis of "omics" data. These models contain much information which is currently neither easily accessible nor interpretable. Here we present an algorithmic method which has been developed to integrate this information with existing databases of background knowledge, stored in the form of known sets (for instance genesets or pathways). To make this accessible we have produced a Graphical User Interface (GUI) in Matlab which allows the overlay of known set information onto the loadings plot and thus improves the interpretability of the multi-variate model. For each known set the optimal convex hull, covering a subset of elements from the known set, is found through a search algorithm and displayed. In this paper we discuss two main topics; the details of the search algorithm for the optimal convex hull for this problem and the GUI interface which is freely available for download for academic use.
翻訳日:2021-11-18 16:04:45 公開日:2021-11-17
# 時間制約による人物再同定の改善

Improving Person Re-Identification with Temporal Constraints ( http://arxiv.org/abs/2111.09056v1 )

ライセンス: Link先を確認
Julia Dietlmeier and Feiyan Hu and Frances Ryan and Noel E. O'Connor and Kevin McGuinness(参考訳) 本稿では,アイルランドのダブリンにある大規模で忙しい空港において,重複しない5つのカメラビューから収集された画像に基づく人物識別データセットについて紹介する。 公開されているすべての画像ベースデータセットとは異なり、データセットにはフレーム番号に加えてタイムスタンプ情報とカメラと人物IDが含まれている。 また、私たちのデータセットは完全に匿名化され、現代のデータプライバシ規則に準拠しています。 我々は、我々のデータセットに最先端の人物再識別モデルを適用し、利用可能なタイムスタンプ情報を利用することで、mAPで37.43%、Rランク1で30.22%の大幅な増加を達成できることを示す。 また,10.03%の地図値と9.95%のrank1精度指標を付加したベイズ時間的再ランキング後処理ステップを提案する。 視覚的情報と時間的情報を組み合わせる作業は、他の画像に基づく人物再識別データセットでは不可能である。 提案する新たなデータセットは,実世界の応用に挑戦するための人物再同定研究のさらなる発展を可能にすると信じている。 DAAデータセットはhttps://bit.ly/3AtXT d6からダウンロードできる。

In this paper we introduce an image-based person re-identification dataset collected across five non-overlapping camera views in the large and busy airport in Dublin, Ireland. Unlike all publicly available image-based datasets, our dataset contains timestamp information in addition to frame number, and camera and person IDs. Also our dataset has been fully anonymized to comply with modern data privacy regulations. We apply state-of-the-art person re-identification models to our dataset and show that by leveraging the available timestamp information we are able to achieve a significant gain of 37.43% in mAP and a gain of 30.22% in Rank1 accuracy. We also propose a Bayesian temporal re-ranking post-processing step, which further adds a 10.03% gain in mAP and 9.95% gain in Rank1 accuracy metrics. This work on combining visual and temporal information is not possible on other image-based person re-identification datasets. We believe that the proposed new dataset will enable further development of person re-identification research for challenging real-world applications. DAA dataset can be downloaded from https://bit.ly/3AtXT d6
翻訳日:2021-11-18 16:04:31 公開日:2021-11-17
# 階層構造をもつランダムグラフに基づくニューロモルフィック学習

Random Graph-Based Neuromorphic Learning with a Layer-Weaken Structure ( http://arxiv.org/abs/2111.08888v1 )

ライセンス: Link先を確認
Ruiqi Mao and Rongxin Cui(参考訳) ニューラルネットワーク(NN)の統一的理解は、NNの内部構造を最適化するためにどのようなルールに従うべきかという問題に悩まされ、ユーザを悩ませます。 計算方法を変更するランダムグラフの可能性を考えると、NNの内部構造を最適化するアーキテクチャジェネレータとして機能できることが示される。 乱数グラフ理論を実践的な意味でNNモデルに変換し,各ニューロンの入出力関係を明らかにするために,フーリエランダム特徴(FRF)を計算してデータ特徴マッピングを完成させる。 この低演算コストアプローチでは、ニューロンはいくつかのグループに割り当てられ、接続関係はそれらが属するランダムグラフの一様表現とみなすことができ、ランダムな配列はそれらのニューロンを融合させてパターン行列を確立し、固定されたアーキテクチャや深いアーキテクチャなしに手動の参加と計算コストを著しく削減する。 この単一ニューロモルフィック学習モデルであるランダムグラフベースニューラルネットワーク(RGNN)を応用し、複数のRGNN間の情報相互作用を含む共同分類機構を開発し、3つのベンチマークタスクにおける教師あり学習の大幅な性能向上を実現し、NNの解釈可能性が構造設計や工学的実践に与える影響を効果的に回避する。

Unified understanding of neuro networks (NNs) gets the users into great trouble because they have been puzzled by what kind of rules should be obeyed to optimize the internal structure of NNs. Considering the potential capability of random graphs to alter how computation is performed, we demonstrate that they can serve as architecture generators to optimize the internal structure of NNs. To transform the random graph theory into an NN model with practical meaning and based on clarifying the input-output relationship of each neuron, we complete data feature mapping by calculating Fourier Random Features (FRFs). Under the usage of this low-operation cost approach, neurons are assigned to several groups of which connection relationships can be regarded as uniform representations of random graphs they belong to, and random arrangement fuses those neurons to establish the pattern matrix, markedly reducing manual participation and computational cost without the fixed and deep architecture. Leveraging this single neuromorphic learning model termed random graph-based neuro network (RGNN) we develop a joint classification mechanism involving information interaction between multiple RGNNs and realize significant performance improvements in supervised learning for three benchmark tasks, whereby they effectively avoid the adverse impact of the interpretability of NNs on the structure design and engineering practice.
翻訳日:2021-11-18 16:03:46 公開日:2021-11-17
# lvac:座標ベースのネットワークを用いた点雲のボリューム属性圧縮法

LVAC: Learned Volumetric Attribute Compression for Point Clouds using Coordinate Based Networks ( http://arxiv.org/abs/2111.08988v1 )

ライセンス: Link先を確認
Berivan Isik, Philip A. Chou, Sung Jin Hwang, Nick Johnston, George Toderici(参考訳) 点雲の属性を離散位置におけるベクトル値体積関数のサンプルとして考える。 位置が与えられた属性を圧縮するために,体積関数のパラメータを圧縮する。 空間をブロックにタイリングすることで体積関数をモデル化し、座標ベースまたは暗黙のニューラルネットワークのシフトによって各ブロック上の関数を表現する。 ネットワークへの入力には、空間座標とブロックごとの潜在ベクトルの両方が含まれる。 我々は,MPEG幾何に基づくポイントクラウドコーデックG-PCCで使用される領域適応階層変換(RAHT)の係数を用いて潜在ベクトルを表現する。 圧縮性が高い係数は、オートデコーダ構成のラグランジアン損失によるバックプロパゲーションによって最適化される。 結果は raht を 2--4 db で上回る。 これは、局所座標ベースニューラルネットワークで表される体積関数を圧縮する最初の試みである。 したがって、高分解能の神経放射野の圧縮など、ポイントクラウドを超えて適用できると期待しています。

We consider the attributes of a point cloud as samples of a vector-valued volumetric function at discrete positions. To compress the attributes given the positions, we compress the parameters of the volumetric function. We model the volumetric function by tiling space into blocks, and representing the function over each block by shifts of a coordinate-based, or implicit, neural network. Inputs to the network include both spatial coordinates and a latent vector per block. We represent the latent vectors using coefficients of the region-adaptive hierarchical transform (RAHT) used in the MPEG geometry-based point cloud codec G-PCC. The coefficients, which are highly compressible, are rate-distortion optimized by back-propagation through a rate-distortion Lagrangian loss in an auto-decoder configuration. The result outperforms RAHT by 2--4 dB. This is the first work to compress volumetric functions represented by local coordinate-based neural networks. As such, we expect it to be applicable beyond point clouds, for example to compression of high-resolution neural radiance fields.
翻訳日:2021-11-18 16:03:22 公開日:2021-11-17
# パーキンソン音声データの被写体包含深サンプルファジィアンサンブル学習アルゴリズム

Subject Enveloped Deep Sample Fuzzy Ensemble Learning Algorithm of Parkinson's Speech Data ( http://arxiv.org/abs/2111.09014v1 )

ライセンス: Link先を確認
Yiwen Wang, Fan Li, Xiaoheng Zhang, Pin Wang, Yongming Li(参考訳) パーキンソン病(pd)の音声認識はその診断に有効な方法であり、近年はホットで困難な研究領域となっている。 私たちが知っているように、ひとつの主題には大きなコーパス(セグメント)があります。 しかし、あまりに大きなセグメントでは分類モデルの複雑さが増す。 さらに、対象者の病理を反映した診断用音声マーカーの発見に関心のある臨床医。 各音声サンプルセグメントの最適な関連特徴は異なるため、一様診断用音声マーカーを見つけることは困難である。 そのため、既存の大セグメントを1つのセグメント内の1セグメントであっても少数のセグメントに再構成する必要があるため、関連する音声特徴の抽出が容易になり、対象全体の診断マーカーを特徴付けることができる。 この問題に対処するために,多層ファジィc平均(MlFCM)クラスタリングと層間整合性保存に基づくパーキンソンの被験者に対する包絡型ディープ音声サンプル学習アルゴリズムを提案する。 このアルゴリズムは、パーキンソン病(PD)のオブジェクト内サンプル再構成を達成し、少数の高品質のプロトタイプサンプルセグメントを得ることができる。 論文の最後には,いくつかの代表的PD音声データセットが選択され,それぞれ最先端の手法と比較される。 実験の結果,提案手法は有意な効果を示した。

Parkinson disease (PD)'s speech recognition is an effective way for its diagnosis, which has become a hot and difficult research area in recent years. As we know, there are large corpuses (segments) within one subject. However, too large segments will increase the complexity of the classification model. Besides, the clinicians interested in finding diagnostic speech markers that reflect the pathology of the whole subject. Since the optimal relevant features of each speech sample segment are different, it is difficult to find the uniform diagnostic speech markers. Therefore, it is necessary to reconstruct the existing large segments within one subject into few segments even one segment within one subject, which can facilitate the extraction of relevant speech features to characterize diagnostic markers for the whole subject. To address this problem, an enveloped deep speech sample learning algorithm for Parkinson's subjects based on multilayer fuzzy c-mean (MlFCM) clustering and interlayer consistency preservation is proposed in this paper. The algorithm can be used to achieve intra-subject sample reconstruction for Parkinson's disease (PD) to obtain a small number of high-quality prototype sample segments. At the end of the paper, several representative PD speech datasets are selected and compared with the state-of-the-art related methods, respectively. The experimental results show that the proposed algorithm is effective signifcantly.
翻訳日:2021-11-18 16:03:08 公開日:2021-11-17
# 多目的ノーマルフォームゲームにおける選好コミュニケーション

Preference Communication in Multi-Objective Normal-Form Games ( http://arxiv.org/abs/2111.09191v1 )

ライセンス: Link先を確認
Willem R\"opke, Diederik M. Roijers, Ann Now\'e, Roxana R\u{a}dulescu(参考訳) マルチオブジェクト環境において,複数のエージェントが同時に学習する問題について検討する。 具体的には,多目的正規形ゲームを繰り返しプレイするエージェントを2つ検討する。 このようなゲームでは、ジョイントアクションから生じる報酬はベクトル値となる。 ユーティリティベースのアプローチでは,ベクトルをスカラーユーティリティにマッピングするユーティリティ関数が存在すると仮定し,期待されるペイオフベクトルの有用性を最大化するエージェントを検討する。 エージェントは必ずしも相手の実用機能や戦略を知っているわけではないので、互いに対話するための最適なポリシーを学ばなければならない。 適切なソリューションにエージェントが到着するのを助けるため,協調型および自己関心型のコミュニケーションのための4つの新しい選好通信プロトコルを導入する。 それぞれのアプローチは、あるエージェントがアクションに対する好みを伝達する特定のプロトコルと、他のエージェントがどう反応するかを記述する。 これらのプロトコルはその後、通信しないベースラインエージェントに対する5つのベンチマークゲームで評価される。 選好コミュニケーションによって学習過程が劇的に変化し,これまで観測されていなかった循環ナッシュ平衡が出現する可能性が示唆された。 さらに,エージェントがコミュニケーションのタイミングを学習しなければならないコミュニケーション方式を提案する。 nash平衡を持つゲームのエージェントにとって、コミュニケーションは有益であるが、エージェントが異なる選択平衡を持つ場合の学習は困難である。 このような場合、エージェントはコミュニケーションに無関心になる。 ナッシュ均衡のないゲームでは,学習率に差が認められた。 より高速な学習者を使う場合、妥協政策を学ぶのに役立つため、明示的なコミュニケーションが50%前後でより普及しているのが観察される。 より遅い学習者は、このパターンをより少ない程度に維持するが、無関心が増す。

We study the problem of multiple agents learning concurrently in a multi-objective environment. Specifically, we consider two agents that repeatedly play a multi-objective normal-form game. In such games, the payoffs resulting from joint actions are vector valued. Taking a utility-based approach, we assume a utility function exists that maps vectors to scalar utilities and consider agents that aim to maximise the utility of expected payoff vectors. As agents do not necessarily know their opponent's utility function or strategy, they must learn optimal policies to interact with each other. To aid agents in arriving at adequate solutions, we introduce four novel preference communication protocols for both cooperative as well as self-interested communication. Each approach describes a specific protocol for one agent communicating preferences over their actions and how another agent responds. These protocols are subsequently evaluated on a set of five benchmark games against baseline agents that do not communicate. We find that preference communication can drastically alter the learning process and lead to the emergence of cyclic Nash equilibria which had not been previously observed in this setting. Additionally, we introduce a communication scheme where agents must learn when to communicate. For agents in games with Nash equilibria, we find that communication can be beneficial but difficult to learn when agents have different preferred equilibria. When this is not the case, agents become indifferent to communication. In games without Nash equilibria, our results show differences across learning rates. When using faster learners, we observe that explicit communication becomes more prevalent at around 50% of the time, as it helps them in learning a compromise joint policy. Slower learners retain this pattern to a lesser degree, but show increased indifference.
翻訳日:2021-11-18 16:02:44 公開日:2021-11-17
# Universal InferenceがRandom Projectionsを発表 - ログ凹凸のスケーラブルなテスト

Universal Inference Meets Random Projections: A Scalable Test for Log-concavity ( http://arxiv.org/abs/2111.09254v1 )

ライセンス: Link先を確認
Robin Dunn, Larry Wasserman, Aaditya Ramdas(参考訳) 形状制約は、データ分布のモデリングに対する完全に非パラメトリックなアプローチと完全なパラメトリックなアプローチの間の柔軟な中間条件をもたらす。 対数共振の特定の仮定は、経済学、生存モデリング、信頼性理論にまたがる応用によって動機付けられている。 しかしながら、あるデータの根底にある密度が対数凹であるかどうかの有効なテストは今のところ存在しない。 最近の万能比テストは有効なテストを提供する。 普遍的なテストは最大推定(MLE)に依存しており、ログ凹面MLEを見つけるための効率的な方法がすでに存在する。 これにより、任意の次元の有限サンプルにおいて証明可能なログコンビニティの最初のテストとなり、漸近的一貫性の結果も確立される。 経験的に、最も高いパワーは、ランダムな投影を用いて、d-次元テスト問題を多くの1次元問題に変換することで得られ、統計学的に計算効率の良い単純な手順へと導かれる。

Shape constraints yield flexible middle grounds between fully nonparametric and fully parametric approaches to modeling distributions of data. The specific assumption of log-concavity is motivated by applications across economics, survival modeling, and reliability theory. However, there do not currently exist valid tests for whether the underlying density of given data is log-concave. The recent universal likelihood ratio test provides a valid test. The universal test relies on maximum likelihood estimation (MLE), and efficient methods already exist for finding the log-concave MLE. This yields the first test of log-concavity that is provably valid in finite samples in any dimension, for which we also establish asymptotic consistency results. Empirically, we find that the highest power is obtained by using random projections to convert the d-dimensional testing problem into many one-dimensional problems, leading to a simple procedure that is statistically and computationally efficient.
翻訳日:2021-11-18 16:01:40 公開日:2021-11-17
# 不均一データに基づく個人的フェデレーション学習

Differentially Private Federated Learning on Heterogeneous Data ( http://arxiv.org/abs/2111.09278v1 )

ライセンス: Link先を確認
Maxence Noble, Aur\'elien Bellet, Aymeric Dieuleveut(参考訳) フェデレーション学習(federated learning, fl)は,大規模分散学習のためのパラダイムである。 (i)高度に異種なユーザデータからの効率的なトレーニング (ii)参加ユーザのプライバシーを守ること。 本研究では,この2つの課題を同時に解決するための新しいfl手法(dp-scaffold)を提案する。 我々は、ユーザーが信頼できる仲介者なしで「正直だが正確」なサーバーと通信する困難な設定に焦点を合わせ、最終モデルにアクセス可能なサードパーティだけでなく、すべてのユーザ通信を監視できるサーバにもプライバシーを確保する必要がある。 DP理論の高度な結果を用いて,凸および非凸目的に対するアルゴリズムの収束を確立する。 本研究では,データの不均一性下でのプライバシ利用のトレードオフを明確に強調するとともに,ローカル更新数と不均一性レベルが増加すると,最先端アルゴリズムであるdp-fedavgよりもdp-scaffoldが優れていることを示す。 以上の結果から,DP-SCAFFOLDが実際に有意な利益をもたらすことが示された。

Federated Learning (FL) is a paradigm for large-scale distributed learning which faces two key challenges: (i) efficient training from highly heterogeneous user data, and (ii) protecting the privacy of participating users. In this work, we propose a novel FL approach (DP-SCAFFOLD) to tackle these two challenges together by incorporating Differential Privacy (DP) constraints into the popular SCAFFOLD algorithm. We focus on the challenging setting where users communicate with a ''honest-but-curious&# x27;' server without any trusted intermediary, which requires to ensure privacy not only towards a third-party with access to the final model but also towards the server who observes all user communications. Using advanced results from DP theory, we establish the convergence of our algorithm for convex and non-convex objectives. Our analysis clearly highlights the privacy-utility trade-off under data heterogeneity, and demonstrates the superiority of DP-SCAFFOLD over the state-of-the-art algorithm DP-FedAvg when the number of local updates and the level of heterogeneity grow. Our numerical results confirm our analysis and show that DP-SCAFFOLD provides significant gains in practice.
翻訳日:2021-11-18 16:01:25 公開日:2021-11-17
# (参考訳) XLS-R:大規模言語間音声表現学習 [全文訳有]

XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale ( http://arxiv.org/abs/2111.09296v1 )

ライセンス: CC BY 4.0
Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli(参考訳) 本稿では,wav2vec 2.0に基づく言語間音声表現学習の大規模モデルであるXLS-Rを提案する。 私たちは、128の言語で50万時間近く公開されている音声音声に対して、最大2Bパラメータを持つモデルをトレーニングします。 私たちの評価は、ハイリソースとローリソースの両方で、幅広いタスク、ドメイン、データレジーム、言語をカバーしています。 CoVoST-2音声翻訳ベンチマークでは,21の翻訳方向に対して平均7.4BLEUで先行技術を改善する。 音声認識において、XLS-RはBABEL、MLS、CommonVoice、およびVoxPopuliの既知の先行研究を改善し、平均して14~34%の誤差率を低下させる。 XLS-RはVoxLingua107言語識別の新たな状態も設定している。 さらに, モデルサイズが十分であれば, 英語を他の言語に翻訳する際には, 言語間事前学習が英語のみの事前学習よりも優れることを示す。 我々は、XLS-Rが世界中の多くの言語における音声処理タスクの改善に役立つことを願っている。

This paper presents XLS-R, a large-scale model for cross-lingual speech representation learning based on wav2vec 2.0. We train models with up to 2B parameters on nearly half a million hours of publicly available speech audio in 128 languages, an order of magnitude more public data than the largest known prior work. Our evaluation covers a wide range of tasks, domains, data regimes and languages, both high and low-resource. On the CoVoST-2 speech translation benchmark, we improve the previous state of the art by an average of 7.4 BLEU over 21 translation directions into English. For speech recognition, XLS-R improves over the best known prior work on BABEL, MLS, CommonVoice as well as VoxPopuli, lowering error rates by 14-34% relative on average. XLS-R also sets a new state of the art on VoxLingua107 language identification. Moreover, we show that with sufficient model size, cross-lingual pretraining can outperform English-only pretraining when translating English speech into other languages, a setting which favors monolingual pretraining. We hope XLS-R can help to improve speech processing tasks for many more languages of the world.
翻訳日:2021-11-18 16:00:35 公開日:2021-11-17
# Multiscenario Multienvironment BioSecure Multimodal Database (BMDB)

The Multiscenario Multienvironment BioSecure Multimodal Database (BMDB) ( http://arxiv.org/abs/2111.08702v1 )

ライセンス: Link先を確認
Javier Ortega-Garcia, Julian Fierrez, Fernando Alonso-Fernandez, Javier Galbally, Manuel R Freire, Joaquin Gonzalez-Rodriguez, Carmen Garcia-Mateo, Jose-Luis Alba-Castro, Elisardo Gonzalez-Agulla, Enrique Otero-Muras, Sonia Garcia-Salicetti, Lorene Allano, Bao Ly-Van, Bernadette Dorizzi, Josef Kittler, Thirimachos Bourlai, Norman Poh, Farzin Deravi, Ming NR Ng, Michael Fairhurst, Jean Hennebert, Andreas Humm, Massimo Tistarelli, Linda Brodo, Jonas Richiardi, Andrezj Drygajlo, Harald Ganster, Federico M Sukno, Sri-Kaushik Pavani, Alejandro Frangi, Lale Akarun, Arman Savran(参考訳) 欧州生物安全ネットワーク(European BioSecure Network of Excellence)のフレームワーク内で設計・取得された新しいマルチモーダルバイオメトリックデータベースについて述べる。 3つのシナリオで同時に獲得した600人以上の個人で構成される。 1)インターネット上で 2)デスクトップpcを備えたオフィス環境では、 3) 携帯機器を用いた屋内外環境において。 3つのシナリオには、オーディオ/ビデオデータの共通部分が含まれる。 また、署名データと指紋データはデスクトップPCとモバイルポータブルハードウェアの両方で取得されている。 さらに、デスクトップPCを用いて第2のシナリオで手と虹彩のデータを取得する。 11の欧州機関が買収を行っている。 BioSecure Multimodal Database (BMDB) のその他の機能としては,2つの取得セッション,特定のモードにおけるいくつかのセンサ,性別と年齢のバランスの取れた分布,単純かつ迅速なタスク/モダリティによるマルチモーダル現実シナリオ,欧州間の多様性,人口統計データの可用性,その他のマルチモーダルデータベースとの互換性などがある。 BMDBの新たな取得条件により,最近のBioSecure Multimodal Evaluationキャンペーンのように,モノモーダル・マルチモーダル生体認証システムの新たな挑戦的な研究と評価を行うことができる。 このキャンペーンの説明には、新しいデータベースからの個々のモダリティのベースライン結果も含まれている。 このデータベースは2008年にBioSecure Associationを通じて研究目的で利用可能になる予定である。

A new multimodal biometric database designed and acquired within the framework of the European BioSecure Network of Excellence is presented. It is comprised of more than 600 individuals acquired simultaneously in three scenarios: 1) over the Internet, 2) in an office environment with desktop PC, and 3) in indoor/outdoor environments with mobile portable hardware. The three scenarios include a common part of audio/video data. Also, signature and fingerprint data have been acquired both with desktop PC and mobile portable hardware. Additionally, hand and iris data were acquired in the second scenario using desktop PC. Acquisition has been conducted by 11 European institutions. Additional features of the BioSecure Multimodal Database (BMDB) are: two acquisition sessions, several sensors in certain modalities, balanced gender and age distributions, multimodal realistic scenarios with simple and quick tasks per modality, cross-European diversity, availability of demographic data, and compatibility with other multimodal databases. The novel acquisition conditions of the BMDB allow us to perform new challenging research and evaluation of either monomodal or multimodal biometric systems, as in the recent BioSecure Multimodal Evaluation campaign. A description of this campaign including baseline results of individual modalities from the new database is also given. The database is expected to be available for research purposes through the BioSecure Association during 2008
翻訳日:2021-11-18 15:27:01 公開日:2021-11-17
# ベンチマーク品質依存型・コスト感性スコアレベル多モードバイオメトリックフュージョンアルゴリズム

Benchmarking Quality-Dependent and Cost-Sensitive Score-Level Multimodal Biometric Fusion Algorithms ( http://arxiv.org/abs/2111.08703v1 )

ライセンス: Link先を確認
Norman Poh, Thirimachos Bourlai, Josef Kittler, Lorene Allano, Fernando Alonso-Fernandez, Onkar Ambekar, John Baker, Bernadette Dorizzi, Omolara Fatukasi, Julian Fierrez, Harald Ganster, Javier Ortega-Garcia, Donald Maurer, Albert Ali Salah, Tobias Scheidat, Claus Vielhauer(参考訳) 生体認証による人物の身元自動検証は、空港における銀行サービスへのアクセスやセキュリティ管理といった日々の活動において重要な応用である。 システムの信頼性を高めるために、いくつかの生体測定装置がしばしば用いられる。 このような複合システムはマルチモーダルバイオメトリックシステムとして知られている。 本稿では、サリー大学が主催するバイオセーフds2(access control)評価キャンペーンにおいて、人物認証のための顔、指紋、虹彩生体認証を含む、500人程度の中規模施設における物理的アクセス制御の適用を目標としたベンチマーク研究を行った。 マルチモーダルバイオメトリックスはよく調査された主題であるが、融合アルゴリズムの比較のベンチマークは存在しない。 この目標に向けて、品質依存とコスト依存評価の2つの実験セットを設計しました。 品質依存評価は、主にデバイスの変化による生画像の品質変化において、核融合アルゴリズムがいかにうまく機能するかを評価することを目的としている。 一方、コストに敏感な評価は、制限された計算量とソフトウェアやハードウェアの故障の有無で、フュージョンアルゴリズムがどの程度うまく実行できるかを調査し、結果として、失敗から獲得、失敗へのマッチングといったエラーを引き起こす。 複数のキャプチャデバイスが利用可能であるため、融合アルゴリズムはこの非理想的だが現実的なシナリオを処理できるはずだ。 両評価において、各融合アルゴリズムは、各バイオメトリック比較サブシステムからのスコアと、テンプレートデータとクエリデータの両方の品質測定値を備える。 選挙運動の呼びかけに対する反応は、22の核融合システムが提出され、非常に励まされた。 我々の知る限りでは、これは品質ベースのマルチモーダル融合アルゴリズムをベンチマークする最初の試みである。

Automatically verifying the identity of a person by means of biometrics is an important application in day-to-day activities such as accessing banking services and security control in airports. To increase the system reliability, several biometric devices are often used. Such a combined system is known as a multimodal biometric system. This paper reports a benchmarking study carried out within the framework of the BioSecure DS2 (Access Control) evaluation campaign organized by the University of Surrey, involving face, fingerprint, and iris biometrics for person authentication, targeting the application of physical access control in a medium-size establishment with some 500 persons. While multimodal biometrics is a well-investigated subject, there exists no benchmark for a fusion algorithm comparison. Working towards this goal, we designed two sets of experiments: quality-dependent and cost-sensitive evaluation. The quality-dependent evaluation aims at assessing how well fusion algorithms can perform under changing quality of raw images principally due to change of devices. The cost-sensitive evaluation, on the other hand, investigates how well a fusion algorithm can perform given restricted computation and in the presence of software and hardware failures, resulting in errors such as failure-to-acquire and failure-to-match. Since multiple capturing devices are available, a fusion algorithm should be able to handle this nonideal but nevertheless realistic scenario. In both evaluations, each fusion algorithm is provided with scores from each biometric comparison subsystem as well as the quality measures of both template and query data. The response to the call of the campaign proved very encouraging, with the submission of 22 fusion systems. To the best of our knowledge, this is the first attempt to benchmark quality-based multimodal fusion algorithms.
翻訳日:2021-11-18 15:26:40 公開日:2021-11-17
# バイオメトリックシステムの品質対策

Quality Measures in Biometric Systems ( http://arxiv.org/abs/2111.08704v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Julian Fierrez, Javier Ortega-Garcia(参考訳) バイオメトリック技術はこの10年でますます普及し、従来の個人認識方法よりもセキュリティと利便性を高めている。 生体信号の品質は生体計測システムの性能に大きく影響するが、品質評価に関する以前の研究は限られている。 品質はセキュリティにおいて重要な問題であり、特に監視カメラ、鑑識、携帯機器、インターネット経由でのリモートアクセスを含む有害なシナリオにおいて問題となる。 本稿では, バイオメトリックスの品質に悪影響を及ぼす要因, 克服方法, バイオメトリックスシステムに品質対策を組み込む方法について分析する。 これらの問題における技術の現状のレビューは、バイオメトリック品質の課題に対する全体的な枠組みを提供する。

Biometric technology has been increasingly deployed in the past decade, offering greater security and convenience than traditional methods of personal recognition. Although biometric signals' quality heavily affects a biometric system's performance, prior research on evaluating quality is limited. Quality is a critical issue in security, especially in adverse scenarios involving surveillance cameras, forensics, portable devices, or remote access through the Internet. This article analyzes what factors negatively impact biometric quality, how to overcome them, and how to incorporate quality measures into biometric systems. A review of the state of the art in these matters gives an overall framework for the challenges of biometric quality.
翻訳日:2021-11-18 15:26:11 公開日:2021-11-17
# 制限のない3次元逆点雲の生成

Generating Unrestricted 3D Adversarial Point Clouds ( http://arxiv.org/abs/2111.08973v1 )

ライセンス: Link先を確認
Xuelong Dai, Yanjie Li, Hua Dai, Bin Xiao(参考訳) 3dポイントクラウドデータを活用することで、顔認識や自動運転など、多くの分野における人工知能の展開が緊急に求められている。 しかし、3dポイントクラウドのディープラーニングは、反復攻撃、ポイント変換攻撃、生成攻撃など、相反する攻撃に対して脆弱である。 これらの攻撃は、厳密な境界内での敵の例の摂動を制限する必要があり、非現実的な3D点雲に繋がる。 本稿では,視覚的に現実的な3D点雲をスクラッチから生成するAdvGCGAN(Adversarial Graph-Convolutional Generative Adversarial Network)を提案する。 具体的には,グラフ畳み込み生成器と補助分類器を備えた判別器を用いて,実3次元データから潜在分布を学習する実数点雲を生成する。 GANの特殊対向訓練には制限のない対向攻撃損失が組み込まれており、生成器は敵のサンプルを生成してターゲットネットワークをスポークすることができる。 既存の最先端攻撃法と比較して,本実験は,攻撃成功率が高く視覚品質の高い非制限攻撃法の有効性を示す。 さらに,提案するadvgcganは,強力なカモフラージュを有する既存の攻撃手法よりも,防御モデルに対する優れた性能と移動性を達成することができる。

Utilizing 3D point cloud data has become an urgent need for the deployment of artificial intelligence in many areas like facial recognition and self-driving. However, deep learning for 3D point clouds is still vulnerable to adversarial attacks, e.g., iterative attacks, point transformation attacks, and generative attacks. These attacks need to restrict perturbations of adversarial examples within a strict bound, leading to the unrealistic adversarial 3D point clouds. In this paper, we propose an Adversarial Graph-Convolutional Generative Adversarial Network (AdvGCGAN) to generate visually realistic adversarial 3D point clouds from scratch. Specifically, we use a graph convolutional generator and a discriminator with an auxiliary classifier to generate realistic point clouds, which learn the latent distribution from the real 3D data. The unrestricted adversarial attack loss is incorporated in the special adversarial training of GAN, which enables the generator to generate the adversarial examples to spoof the target network. Compared with the existing state-of-art attack methods, the experiment results demonstrate the effectiveness of our unrestricted adversarial attack methods with a higher attack success rate and visual quality. Additionally, the proposed AdvGCGAN can achieve better performance against defense models and better transferability than existing attack methods with strong camouflage.
翻訳日:2021-11-18 15:24:04 公開日:2021-11-17
# T-Tetromino Pixelを用いた画像超解像

Image Super-Resolution Using T-Tetromino Pixels ( http://arxiv.org/abs/2111.09013v1 )

ライセンス: Link先を確認
Simon Grosche, Andy Regensky, J\"urgen Seiler, Andr\'e Kaup(参考訳) 現代の高解像度撮像センサでは、低照度条件下でピクセルバイナリ化が行われ、高いフレームレートが必要となる。 元の空間分解能を回復するために、アップスケーリングに単一画像超分解能技術を適用することができる。 高度化後の高画質を実現するために,tetromino型画素を用いた新しいバイナリ化概念を提案する。 そこで本研究では,tetrominoピクセルを用いた復元品質を文献上で初めて検討する。 センサレイアウトの文献で提案されている異なるタイプのテトロミノを用いる代わりに、t-テトロミノのみからなる小さな繰り返し細胞を使用することで十分であることを示す。 再構成には, 局所完全接続型再構成(LFCR)ネットワークと, 圧縮センシングの分野での2つの古典的再構成手法を用いる。 提案するテトロミノレイアウトとLFCRネットワークを用いて,PSNR,SSIM,視覚的にも優れた画像品質を実現し,超深層超解像(VDSR)ネットワークを用いた従来の単一画像超解像と比較した。 PSNRでは、最大+1.92dBのゲインが達成される。

For modern high-resolution imaging sensors, pixel binning is performed in low-lighting conditions and in case high frame rates are required. To recover the original spatial resolution, single-image super-resolution techniques can be applied for upscaling. To achieve a higher image quality after upscaling, we propose a novel binning concept using tetromino-shaped pixels. In doing so, we investigate the reconstruction quality using tetromino pixels for the first time in literature. Instead of using different types of tetrominoes as proposed in the literature for a sensor layout, we show that using a small repeating cell consisting of only four T-tetrominoes is sufficient. For reconstruction, we use a locally fully connected reconstruction (LFCR) network as well as two classical reconstruction methods from the field of compressed sensing. Using the LFCR network in combination with the proposed tetromino layout, we achieve superior image quality in terms of PSNR, SSIM, and visually compared to conventional single-image super-resolution using the very deep super-resolution (VDSR) network. For the PSNR, a gain of up to +1.92 dB is achieved.
翻訳日:2021-11-18 15:23:42 公開日:2021-11-17
# 単一フレーム構造照明顕微鏡超解像のための高速軽量ネットワーク

Fast and Light-Weight Network for Single Frame Structured Illumination Microscopy Super-Resolution ( http://arxiv.org/abs/2111.09103v1 )

ライセンス: Link先を確認
Xi Cheng, Jun Li, Qiang Dai, Zhenyong Fu, Jian Yang(参考訳) 構造照明顕微鏡 (structuredluminumin ation microscope, sim) は、回折限界を破って光学顕微鏡システムを強化する重要な超分解能顕微鏡技術である。 生物学・医学工学の発展に伴い、極低照度・短露光環境下でのリアルタイム・堅牢なSIMイメージングの需要が高まっている。 既存のsim技術は通常、高解像度画像を生成するために複数の構造化照明フレームを必要とする。 本稿では,深層学習に基づく単一フレーム構造照明顕微鏡(SF-SIM)を提案する。 私たちのSF-SIMは、構造された照明フレームの1ショットしか必要とせず、通常15ショットを必要とする従来のSIMシステムと同じような結果を生成する。 sf-simでは、画像中のノイズを効果的に抑制し、非局所的なノイズ処理のために複数のフレームを積み重ねる必要なしに、低光・短露光環境下での動作を可能にするノイズ推定器を提案する。 また,バンドパスアテンションモジュールも設計し,周波数変化に対するネットワークの感度を高め,画像品質を向上させる。 提案するSF-SIMは, 従来のSIM法よりも14倍高速である。 したがって,本手法は微生物学・医学の発展に極めて有用である。

Structured illumination microscopy (SIM) is an important super-resolution based microscopy technique that breaks the diffraction limit and enhances optical microscopy systems. With the development of biology and medical engineering, there is a high demand for real-time and robust SIM imaging under extreme low light and short exposure environments. Existing SIM techniques typically require multiple structured illumination frames to produce a high-resolution image. In this paper, we propose a single-frame structured illumination microscopy (SF-SIM) based on deep learning. Our SF-SIM only needs one shot of a structured illumination frame and generates similar results compared with the traditional SIM systems that typically require 15 shots. In our SF-SIM, we propose a noise estimator which can effectively suppress the noise in the image and enable our method to work under the low light and short exposure environment, without the need for stacking multiple frames for non-local denoising. We also design a bandpass attention module that makes our deep network more sensitive to the change of frequency and enhances the imaging quality. Our proposed SF-SIM is almost 14 times faster than traditional SIM methods when achieving similar results. Therefore, our method is significantly valuable for the development of microbiology and medicine.
翻訳日:2021-11-18 15:23:23 公開日:2021-11-17
# 先行分布の競合によるエンドツーエンド最適化画像圧縮

End-to-end optimized image compression with competition of prior distributions ( http://arxiv.org/abs/2111.09172v1 )

ライセンス: Link先を確認
Benoit Brummer and Christophe De Vleeschouwer(参考訳) 畳み込みオートエンコーダは現在、画像圧縮研究の最前線にある。 エントロピー符号化を改善するため、エントロピー出力は通常、第2オートエンコーダで解析され、変数ごとのパラメータ付き事前確率分布を生成する。 代わりに、1つの畳み込みオートエンコーダと複数の学習前の分布を専門家の競争として使用する圧縮スキームを提案する。 トレーニング済みの事前分布は累積分布関数の静的テーブルに格納される。 推論中、このテーブルはエントロピーコーダによってルックアップテーブルとして使われ、各空間位置の最適な事前を決定する。 提案手法は, エントロピー符号化と復号化の複雑さをわずかに抑えながら, パラメトリケート前の予測値に匹敵する速度歪み性能を提供する。

Convolutional autoencoders are now at the forefront of image compression research. To improve their entropy coding, encoder output is typically analyzed with a second autoencoder to generate per-variable parametrized prior probability distributions. We instead propose a compression scheme that uses a single convolutional autoencoder and multiple learned prior distributions working as a competition of experts. Trained prior distributions are stored in a static table of cumulative distribution functions. During inference, this table is used by an entropy coder as a look-up-table to determine the best prior for each spatial location. Our method offers rate-distortion performance comparable to that obtained with a predicted parametrized prior with only a fraction of its entropy coding and decoding complexity.
翻訳日:2021-11-18 15:22:20 公開日:2021-11-17
# Occlusion-Aware Multilayer Regression によるTiny Obstacle Discovery

Tiny Obstacle Discovery by Occlusion-Aware Multilayer Regression ( http://arxiv.org/abs/2111.09204v1 )

ライセンス: Link先を確認
Feng Xue and Anlong Ming and Yu Zhou(参考訳) エッジは単眼カメラで小さな障害物を発見するための基本的な視覚要素である。 それでも、小さな障害物は、小さな大きさや自由空間に類似した外観などの様々な性質のために、弱く不整合なエッジキューを持つことが多く、捕獲が困難である。 ...

Edges are the fundamental visual element for discovering tiny obstacles using a monocular camera. Nevertheless, tiny obstacles often have weak and inconsistent edge cues due to various properties such as small size and similar appearance to the free space, making it hard to capture them. ...
翻訳日:2021-11-18 15:22:04 公開日:2021-11-17
# gnn-dse:グラフニューラルネットワークによるアクセラレーションの自動最適化

GNN-DSE: Automated Accelerator Optimization Aided by Graph Neural Networks ( http://arxiv.org/abs/2111.08848v1 )

ライセンス: Link先を確認
Atefeh Sohrabizadeh, Yunsheng Bai, Yizhou Sun, and Jason Cong(参考訳) 高レベル合成(HLS)により、コンピュータアーキテクトは、非常に低レベルな言語で設計を開発できなくなり、レジスタレベルのデータの転送方法を正確に指定する必要がなくなった。 HLSの助けを借りて、ハードウェアデザイナは設計の高レベルの振る舞いフローのみを記述する必要がある。 それにもかかわらず、主に高いレベルで多くの設計選択があり、探索により多くの時間を要するため、ハイパフォーマンスなアーキテクチャを開発するのにまだ数週間かかる可能性がある。 また、設計候補の品質に関するHLSツールからのフィードバックを得るためには、数分から数時間かかる。 本稿では,HLSツールを広範囲のアプリケーションに使用するためにトレーニングされたグラフニューラルネットワーク(GNN)を用いてモデル化することで,この問題を解決することを提案する。 実験結果から,GNNモデルを用いることで,設計の質をミリ秒単位で高精度に推定し,解空間を高速に探索できることが示唆された。

High-level synthesis (HLS) has freed the computer architects from developing their designs in a very low-level language and needing to exactly specify how the data should be transferred in register-level. With the help of HLS, the hardware designers must describe only a high-level behavioral flow of the design. Despite this, it still can take weeks to develop a high-performance architecture mainly because there are many design choices at a higher level that requires more time to explore. It also takes several minutes to hours to get feedback from the HLS tool on the quality of each design candidate. In this paper, we propose to solve this problem by modeling the HLS tool with a graph neural network (GNN) that is trained to be used for a wide range of applications. The experimental results demonstrate that by employing the GNN-based model, we are able to estimate the quality of design in milliseconds with high accuracy which can help us search through the solution space very quickly.
翻訳日:2021-11-18 15:20:58 公開日:2021-11-17
# 自動プロトコル分析のための教師なし学習手法の探索

Exploring Unsupervised Learning Methods for Automated Protocol Analysis ( http://arxiv.org/abs/2111.09061v1 )

ライセンス: Link先を確認
Arijit Dasgupta, Yi-Xue Yan, Clarence Ong, Jenn-Yue Teo, Chia-Wei Lim(参考訳) ネットワークプロトコルトラフィックを分析し、区別する能力は、通信会社によって差別化されたサービスを提供するために、ネットワークリソース管理にとって不可欠である。 自動プロトコル分析(APA)は、効率を大幅に改善し、人間の専門家への依存を減らすために重要である。 APAには未知のプロトコルをクラスタリングするための非教師なしの自動化方法が数多くある。 しかし、このような手法の多くは多様なテストデータセットを用いて十分に検討されていない。 したがって、その強固さを一般化できない。 本研究では,APAにおける特徴抽出とクラスタリングの様々な組み合わせを総合的に評価する枠組みを提案する。 また、特徴抽出のためのデータセット依存モデルパラメータの選択を自動化する新しい手法を提案し、性能を改善した。 新しいフィールドベースのトークン化アプローチの有望な成果は、apaにおける未知プロトコルの機能抽出とクラスタリングのための新しい自動ハイブリッドアプローチの提案にもつながった。 提案手法は, 多様なテストデータセットのうち7つ中7つで最良であり, 未知プロトコルを一般化するための堅牢性を示す。 また、すべてのテストデータセットにおいて、最先端のオープンソースAPAツールであるNETZOBにおいて、教師なしクラスタリング技術よりも優れています。

The ability to analyse and differentiate network protocol traffic is crucial for network resource management to provide differentiated services by Telcos. Automated Protocol Analysis (APA) is crucial to significantly improve efficiency and reduce reliance on human experts. There are numerous automated state-of-the-art unsupervised methods for clustering unknown protocols in APA. However, many such methods have not been sufficiently explored using diverse test datasets. Thus failing to demonstrate their robustness to generalise. This study proposed a comprehensive framework to evaluate various combinations of feature extraction and clustering methods in APA. It also proposed a novel approach to automate selection of dataset dependent model parameters for feature extraction, resulting in improved performance. Promising results of a novel field-based tokenisation approach also led to our proposal of a novel automated hybrid approach for feature extraction and clustering of unknown protocols in APA. Our proposed hybrid approach performed the best in 7 out of 9 of the diverse test datasets, thus displaying the robustness to generalise across diverse unknown protocols. It also outperformed the unsupervised clustering technique in state-of-the-art open-source APA tool, NETZOB in all test datasets.
翻訳日:2021-11-18 15:20:41 公開日:2021-11-17
# ラッパー特徴選択のためのサロゲート支援遺伝的アルゴリズム

Surrogate-Assisted Genetic Algorithm for Wrapper Feature Selection ( http://arxiv.org/abs/2111.09074v1 )

ライセンス: Link先を確認
Mohammed Ghaith Altarabichi, S{\l}awomir Nowaczyk, Sepideh Pashami and Peyman Sheikholharam Mashhad(参考訳) 特徴の選択は難解な問題であるため、実用的なアルゴリズムはしばしば解の精度を計算時間と切り離す。 本稿では,複数レベルの近似やサロゲートを利用する新しい多段階特徴選択フレームワークを提案する。 このようなフレームワークにより、より計算的に効率的にラッパーアプローチを使用でき、特に大規模なデータセットにおいて実現可能な特徴選択ソリューションの品質を大幅に向上させることができる。 本研究では,この概念を用いて探索初期における進化探索を導くサロゲート支援遺伝的アルゴリズム(SAGA)の設計と評価を行う。 SAGAは、最終エクスプロイトフェーズにおける元の関数の評価にのみ切り替える。 我々は,sagaサロゲート支援ステージのランタイム上限がラッパーgaと同等ではないことを証明し,インスタンス数で複雑度の高い誘導アルゴリズムをスケールする。 UCI MLレポジトリの14のデータセットを用いて,SAGAはベースラインラッパー遺伝的アルゴリズム(GA)と比較して計算時間を著しく短縮する一方で,精度の高い解に収束することを示した。 実験の結果, SAGAはラッパーGAの3倍の速度で, ほぼ最適解に到達できることがわかった。 また,サーロゲートが偽視への進化的探索を誤解することを防ぐために設計された進化制御アプローチの重要性も示す。

Feature selection is an intractable problem, therefore practical algorithms often trade off the solution accuracy against the computation time. In this paper, we propose a novel multi-stage feature selection framework utilizing multiple levels of approximations, or surrogates. Such a framework allows for using wrapper approaches in a much more computationally efficient way, significantly increasing the quality of feature selection solutions achievable, especially on large datasets. We design and evaluate a Surrogate-Assisted Genetic Algorithm (SAGA) which utilizes this concept to guide the evolutionary search during the early phase of exploration. SAGA only switches to evaluating the original function at the final exploitation phase. We prove that the run-time upper bound of SAGA surrogate-assisted stage is at worse equal to the wrapper GA, and it scales better for induction algorithms of high order of complexity in number of instances. We demonstrate, using 14 datasets from the UCI ML repository, that in practice SAGA significantly reduces the computation time compared to a baseline wrapper Genetic Algorithm (GA), while converging to solutions of significantly higher accuracy. Our experiments show that SAGA can arrive at near-optimal solutions three times faster than a wrapper GA, on average. We also showcase the importance of evolution control approach designed to prevent surrogates from misleading the evolutionary search towards false optima.
翻訳日:2021-11-18 15:20:23 公開日:2021-11-17
# (参考訳) Pairwise permutationアルゴリズムによる解釈モデル [全文訳有]

Interpretable Models via Pairwise permutations algorithm ( http://arxiv.org/abs/2111.09145v1 )

ライセンス: CC BY-SA 4.0
Troy Maaslandand and Jo\~ao Pereira and Diogo Bastos and Marcus de Goffau and Max Nieuwdorp and Aeilko H. Zwinderman and Evgeni Levin(参考訳) 高次元の生物学的データセットに見られる最も一般的な落とし穴の1つは特徴間の相関である。 これにより、統計的および機械学習の方法論がこれらの相関予測因子を過大評価または過小評価し、真に関連する予測は無視される可能性がある。 本稿では,特徴重要度における相関バイアスの軽減を目的とした新しい手法である \textit{pairwise permutation algorithm} (ppa) を定義する。 まず、置換の重要性に関する以前の研究に基づく理論的基礎を提供する。 PPAはおもちゃのデータセットに適用され、相関効果を補正する能力を示す。 さらにマイクロバイオームショットガンデータセットを用いてPPAを試験し、PPAがすでに生物学的なバイオマーカーを取得可能であることを示す。

One of the most common pitfalls often found in high dimensional biological data sets are correlations between the features. This may lead to statistical and machine learning methodologies overvaluing or undervaluing these correlated predictors, while the truly relevant ones are ignored. In this paper, we will define a new method called \textit{pairwise permutation algorithm} (PPA) with the aim of mitigating the correlation bias in feature importance values. Firstly, we provide a theoretical foundation, which builds upon previous work on permutation importance. PPA is then applied to a toy data set, where we demonstrate its ability to correct the correlation effect. We further test PPA on a microbiome shotgun dataset, to show that the PPA is already able to obtain biological relevant biomarkers.
翻訳日:2021-11-18 15:19:14 公開日:2021-11-17
# 意図的キーポイントマッチングネットワークに基づく確率的空間分布

Probabilistic Spatial Distribution Prior Based Attentional Keypoints Matching Network ( http://arxiv.org/abs/2111.09006v1 )

ライセンス: Link先を確認
Xiaoming Zhao, Jingmeng Liu, Xingming Wu, Weihai Chen, Fanghong Guo, and Zhengguo Li(参考訳) キーポイントマッチングは、画像縫合、視覚的同時ローカライゼーションとマッピング(SLAM)など、多くの画像関連アプリケーションにとって重要なコンポーネントである。 手作りと最近登場したディープラーニングベースのキーポイントマッチング手法はいずれも、キーポイントと局所的な特徴にのみ依存しているが、上記のアプリケーションでは慣性測定ユニット(IMU)のような他の利用可能なセンサーを見失っている。 本稿では、IMU統合による動き推定を用いて、画像間のキーポイントの前の空間分布を推定できることを実証する。 この目的のために,注意グラフニューラルネットワークに先行する空間分布を自然に統合するために,注意定式化の確率論的視点を提案する。 事前の空間分布の支援により,隠れた特徴をモデル化するためのネットワークの労力を削減できる。 さらに,提案したキーポイントマッチングネットワークに対して,マッチングと未マッチングのキーポイント間のスムーズなエッジを与えるプロジェクションロスを提案する。 視覚的スラムデータセットにおける画像マッチング実験は,提案手法の有効性と効率を示す。

Keypoints matching is a pivotal component for many image-relevant applications such as image stitching, visual simultaneous localization and mapping (SLAM), and so on. Both handcrafted-based and recently emerged deep learning-based keypoints matching methods merely rely on keypoints and local features, while losing sight of other available sensors such as inertial measurement unit (IMU) in the above applications. In this paper, we demonstrate that the motion estimation from IMU integration can be used to exploit the spatial distribution prior of keypoints between images. To this end, a probabilistic perspective of attention formulation is proposed to integrate the spatial distribution prior into the attentional graph neural network naturally. With the assistance of spatial distribution prior, the effort of the network for modeling the hidden features can be reduced. Furthermore, we present a projection loss for the proposed keypoints matching network, which gives a smooth edge between matching and un-matching keypoints. Image matching experiments on visual SLAM datasets indicate the effectiveness and efficiency of the presented method.
翻訳日:2021-11-18 15:08:18 公開日:2021-11-17
# 統計的手法に基づく識別辞書学習

Discriminative Dictionary Learning based on Statistical Methods ( http://arxiv.org/abs/2111.09027v1 )

ライセンス: Link先を確認
G.Madhuri, Atul Negi(参考訳) 信号やデータのスパース表現(SR)は厳密な数学的誤り境界と証明を持つ十分に確立された理論を持つ。 信号のSRは、Dictionaryと呼ばれる行列のごくわずかな列の重ね合わせによって与えられる。 損失の少ない各信号のクラスを表すような辞書を辞書学習(Dictionary Learning,DL)と呼ぶ。 Method of Optimal Directions (MOD) や K-SVD といった辞書学習手法は、画像の「デノイング」や「インペインティング」といった画像処理における再構成ベースの応用に成功している。 識別的K-SVDやラベル一貫性K-SVDといった他の辞書学習アルゴリズムは、K-SVDに基づく教師付き学習手法である。 我々の経験では、現在の手法の欠点の1つは、分類性能がTelugu OCRデータセットのようなデータセットでは印象的でないことである。 この方向の改善にはスコープがあり、多くの研究者は分類のための辞書を設計するために統計的手法を用いてきた。 本章では,統計的手法と識別辞書の学習への応用について概説する。 本研究の目的は,スパース表現を用いた分類の改善である。 この章では、入力データのスパース係数を生成するハイブリッドアプローチについて説明する。 これらのスパースコードを入力として,バックプロパゲーショントレーニングを分類器として,単純な3層マルチレイヤパーセプトロンを使用する。 結果は、他の計算集約的な手法と非常に同等である。 キーワード:統計的モデリング、辞書学習、判別辞書、スパース表現、ガウス前文、コーシー前文、エントロピー、隠れマルコフモデル、ハイブリッド辞書学習

Sparse Representation (SR) of signals or data has a well founded theory with rigorous mathematical error bounds and proofs. SR of a signal is given by superposition of very few columns of a matrix called Dictionary, implicitly reducing dimensionality. Training dictionaries such that they represent each class of signals with minimal loss is called Dictionary Learning (DL). Dictionary learning methods like Method of Optimal Directions (MOD) and K-SVD have been successfully used in reconstruction based applications in image processing like image "denoising", "inpainting" and others. Other dictionary learning algorithms such as Discriminative K-SVD and Label Consistent K-SVD are supervised learning methods based on K-SVD. In our experience, one of the drawbacks of current methods is that the classification performance is not impressive on datasets like Telugu OCR datasets, with large number of classes and high dimensionality. There is scope for improvement in this direction and many researchers have used statistical methods to design dictionaries for classification. This chapter presents a review of statistical techniques and their application to learning discriminative dictionaries. The objective of the methods described here is to improve classification using sparse representation. In this chapter a hybrid approach is described, where sparse coefficients of input data are generated. We use a simple three layer Multi Layer Perceptron with back-propagation training as a classifier with those sparse codes as input. The results are quite comparable with other computation intensive methods. Keywords: Statistical modeling, Dictionary Learning, Discriminative Dictionary, Sparse representation, Gaussian prior, Cauchy prior, Entropy, Hidden Markov model, Hybrid Dictionary Learning
翻訳日:2021-11-18 15:08:01 公開日:2021-11-17
# 畳み込みニューラルネットワークを用いた圧縮アルゴリズムの検出

Using Convolutional Neural Networks to Detect Compression Algorithms ( http://arxiv.org/abs/2111.09034v1 )

ライセンス: Link先を確認
Shubham Bharadwaj(参考訳) 機械学習は、さまざまなドメインを仮想的に浸透させ、優れた結果を生み出す。 また、デジタル法医学のアウトレットも発見されており、計算効率の原動力となっている。 MLアルゴリズムの有効性を示す顕著な特徴は、デジタル法医学への応用において有用な特徴抽出である。 畳み込みニューラルネットワークはファイルの一部を特定するためにさらに使用される。 この目的のために,ファイルフラグメント圧縮に使用されるアルゴリズムの同定に関する十分な情報が文献に含まれないことを観察した。 本研究では,圧縮アルゴリズムがデータをよりコンパクトにするため,高いエントロピーを生成するのに有用であるとして,このギャップに対処する。 ベースデータセットを使用して、さまざまなアルゴリズムですべてのファイルを圧縮し、それに基づいてモデルを設計しました。 使用するモデルは、圧縮されたファイルを圧縮、lzip、bzip2を使って正確に識別することができた。

Machine learning is penetrating various domains virtually, thereby proliferating excellent results. It has also found an outlet in digital forensics, wherein it is becoming the prime driver of computational efficiency. A prominent feature that exhibits the effectiveness of ML algorithms is feature extraction that can be instrumental in the applications for digital forensics. Convolutional Neural Networks are further used to identify parts of the file. To this end, we observed that the literature does not include sufficient information about the identification of the algorithms used to compress file fragments. With this research, we attempt to address this gap as compression algorithms are beneficial in generating higher entropy comparatively as they make the data more compact. We used a base dataset, compressed every file with various algorithms, and designed a model based on that. The used model was accurately able to identify files compressed using compress, lzip and bzip2.
翻訳日:2021-11-18 15:07:35 公開日:2021-11-17
# STEEX: セマンティックスによる非現実的説明

STEEX: Steering Counterfactual Explanations with Semantics ( http://arxiv.org/abs/2111.09094v1 )

ライセンス: Link先を確認
Paul Jacob, \'Eloi Zablocki, H\'edi Ben-Younes, Micka\"el Chen, Patrick P\'erez, Matthieu Cord(参考訳) 深層学習モデルが安全クリティカルなアプリケーションでますます使われるようになるにつれ、説明可能性や信頼性が大きな関心事となっている。 低解像度の顔画像のような単純な画像に対しては、最近、訓練された分類モデルの決定機構を明らかにする手段として、視覚的対実的説明の合成が提案されている。 本研究では,高品質な画像や複雑なシーンの反実的説明を生成する問題に対処する。 近年のセマンティック・ツー・イメージモデルを利用して,シーン全体の構造を保存できる,妥当でスパースな修正を生成する新しい生成的反事実説明フレームワークを提案する。 さらに,「地域目標の対実的説明」の概念とそれに対応するフレームワークを導入し,ユーザが説明すべきクエリ画像のセマンティック領域のセットを指定することで,対実的説明の生成を誘導する手法を提案する。 高品質なポートレート(celebamask-hq)や運転シーン(bdd100k)といった、挑戦的なデータセットに関する広範な実験が行われている。

As deep learning models are increasingly used in safety-critical applications, explainability and trustworthiness become major concerns. For simple images, such as low-resolution face portraits, synthesizing visual counterfactual explanations has recently been proposed as a way to uncover the decision mechanisms of a trained classification model. In this work, we address the problem of producing counterfactual explanations for high-quality images and complex scenes. Leveraging recent semantic-to-image models, we propose a new generative counterfactual explanation framework that produces plausible and sparse modifications which preserve the overall scene structure. Furthermore, we introduce the concept of "region-targeted counterfactual explanations", and a corresponding framework, where users can guide the generation of counterfactuals by specifying a set of semantic regions of the query image the explanation must be about. Extensive experiments are conducted on challenging datasets including high-quality portraits (CelebAMask-HQ) and driving scenes (BDD100k).
翻訳日:2021-11-18 15:07:22 公開日:2021-11-17
# 交通交差点におけるコンピュータビジョンに基づく車両移動分類の自動アプローチ

Automated Approach for Computer Vision-based Vehicle Movement Classification at Traffic Intersections ( http://arxiv.org/abs/2111.09171v1 )

ライセンス: Link先を確認
Udita Jana, Jyoti Prakash Das Karmakar, Pranamesh Chakraborty, Tingting Huang, Dave Ness, Duane Ritcher, Anuj Sharma(参考訳) 様々な交通管理活動において,交通交差点における移動種別とカウントは重要な要素である。 この文脈では、近年のコンピュータビジョン技術の発展に伴い、交通シーンから車線を抽出する信頼性の高いデータソースとしてカメラが登場している。 しかし、このような動き軌跡の特性はカメラのキャリブレーションによって異なるため、移動型で分類することは極めて困難である。 既存の手法では、適度な精度でこれらの分類タスクに対処しているが、これらの手法の性能は、関心のあるいくつかの領域の手動仕様に大きく依存している。 本研究では,視覚に基づく車両軌跡の移動特定分類(右旋回,左旋回,移動など)の自動化手法を提案する。 階層的クラスタリング手法を用いて交通現場で観測される異なる移動パターンを識別し, 類似性に基づく割当て戦略を採用し, 車両軌跡を識別した移動群に割り当てる。 新しい類似度尺度は、視覚に基づく軌道の固有の欠点を克服するために設計された。 実験の結果,提案手法の有効性と,手動の介入なしに異なる交通シナリオに適応する能力が示された。

Movement specific vehicle classification and counting at traffic intersections is a crucial component for various traffic management activities. In this context, with recent advancements in computer-vision based techniques, cameras have emerged as a reliable data source for extracting vehicular trajectories from traffic scenes. However, classifying these trajectories by movement type is quite challenging as characteristics of motion trajectories obtained this way vary depending on camera calibrations. Although some existing methods have addressed such classification tasks with decent accuracies, the performance of these methods significantly relied on manual specification of several regions of interest. In this study, we proposed an automated classification method for movement specific classification (such as right-turn, left-turn and through movements) of vision-based vehicle trajectories. Our classification framework identifies different movement patterns observed in a traffic scene using an unsupervised hierarchical clustering technique Thereafter a similarity-based assignment strategy is adopted to assign incoming vehicle trajectories to identified movement groups. A new similarity measure was designed to overcome the inherent shortcomings of vision-based trajectories. Experimental results demonstrated the effectiveness of the proposed classification approach and its ability to adapt to different traffic scenarios without any manual intervention.
翻訳日:2021-11-18 15:07:04 公開日:2021-11-17
# SeCGAN:Semantic Consistencyによる顔編集のための並列条件生成対向ネットワーク

SeCGAN: Parallel Conditional Generative Adversarial Networks for Face Editing via Semantic Consistency ( http://arxiv.org/abs/2111.09298v1 )

ライセンス: Link先を確認
Jiaze Sun, Binod Bhattarai, Zhixiang Chen, Tae-Kyun Kim(参考訳) 近年, 顔編集において, セマンティックガイドによる条件付き生成支援ネットワーク (cGANs) が普及している。 しかし、既存のほとんどの方法は、ジェネレータへの直接条件入力としてセマンティックマスクを導入し、RGB空間で対応する翻訳を行うためにターゲットマスクを必要とすることが多い。 本稿では,ターゲットのセマンティックマスクを指定せずにセマンティック情報を利用した顔画像の編集を行う新しいラベル誘導cGANであるSeCGANを提案する。 トレーニング中、SeCGANには2つのジェネレータと識別器が並列に動作しており、1つはRGBイメージの翻訳を、もう1つはセマンティックマスクのために訓練されている。 2つの枝を相互に有益に橋渡しするために,両枝が一貫した意味的出力を持つように制約する意味的一貫性損失を導入する。 トレーニングにはどちらのブランチも必要だが、RGBブランチは私たちのプライマリネットワークであり、推論にはセマンティックブランチは必要ない。 我々のCelebAとCelebA-HQの研究では、自己指導型Fr\'{e}chet Inception DistanceやInception Scoreなどの品質指標を維持しながら、より正確な属性を持つ顔画像を生成することができ、ターゲット属性認識率において競争ベースラインを上回ることが実証された。

Semantically guided conditional Generative Adversarial Networks (cGANs) have become a popular approach for face editing in recent years. However, most existing methods introduce semantic masks as direct conditional inputs to the generator and often require the target masks to perform the corresponding translation in the RGB space. We propose SeCGAN, a novel label-guided cGAN for editing face images utilising semantic information without the need to specify target semantic masks. During training, SeCGAN has two branches of generators and discriminators operating in parallel, with one trained to translate RGB images and the other for semantic masks. To bridge the two branches in a mutually beneficial manner, we introduce a semantic consistency loss which constrains both branches to have consistent semantic outputs. Whilst both branches are required during training, the RGB branch is our primary network and the semantic branch is not needed for inference. Our results on CelebA and CelebA-HQ demonstrate that our approach is able to generate facial images with more accurate attributes, outperforming competitive baselines in terms of Target Attribute Recognition Rate whilst maintaining quality metrics such as self-supervised Fr\'{e}chet Inception Distance and Inception Score.
翻訳日:2021-11-18 15:06:44 公開日:2021-11-17
# 性別・年齢推定のための顔情報分析技術

Facial Information Analysis Technology for Gender and Age Estimation ( http://arxiv.org/abs/2111.09303v1 )

ライセンス: Link先を確認
Gilheum Park, Sua Jung(参考訳) 本稿では、性別と年齢を推定するための顔情報分析技術について検討し、顔画像のポーズを推定するためのカメラ座標系と世界座標系との変換関係行列を用いてポーズを推定する。 性別分類は年齢推定に比べて比較的単純であり,深層学習に基づく顔認識技術により年齢推定が可能となった。 購入したデータベースと公開データベースを用いて実験結果を計算するために,比較CNNを提案し,ディープラーニングに基づく性別分類と年齢推定を有意なレベルで行い,既存の機械学習技術と比較して環境変化に対して堅牢であった。

This is a study on facial information analysis technology for estimating gender and age, and poses are estimated using a transformation relationship matrix between the camera coordinate system and the world coordinate system for estimating the pose of a face image. Gender classification was relatively simple compared to age estimation, and age estimation was made possible using deep learning-based facial recognition technology. A comparative CNN was proposed to calculate the experimental results using the purchased database and the public database, and deep learning-based gender classification and age estimation performed at a significant level and was more robust to environmental changes compared to the existing machine learning techniques.
翻訳日:2021-11-18 15:05:15 公開日:2021-11-17
# サンプリングによる保証付き自動スコアシステムの性能評価と改善

Using Sampling to Estimate and Improve Performance of Automated Scoring Systems with Guarantees ( http://arxiv.org/abs/2111.08906v1 )

ライセンス: Link先を確認
Yaman Kumar Singla, Sriram Krishna, Rajiv Ratn Shah, Changyou Chen(参考訳) 教育試験環境でエッセイやスピーチを採点する自然言語処理タスクであるAutomated Scoring(AS)が人気を博し、政府の試験から言語能力サービスを提供している企業まで、さまざまな状況に展開されている。 しかし、既存のシステムは人間のレーダを完全に禁止し、テストの信頼性を損なうか、人間と機械の両方の反応を全て得点することでコストを増大させる。 我々は、ASへのアクセスを民主化するためにコストを合理的に保ちつつ、高い品質のテストを提供するために、人間と機械の両方を利用して、可能なソリューションのスペクトルを目標としています。 そこで本研究では,従来のパラダイムと組み合わせて,人間がインテリジェントに収集する応答をサンプリングする手法を提案する。 提案手法では, 平均で19.80%の精度向上と2次重み付きkappa (qwk) (平均で25.60%) と, 比較的少ない人的予算 (30%のサンプル) が得られた。 標準ランダムサンプリングベースラインと重要サンプリングベースラインで観察される精度は、それぞれ8.6%と12.2%である。 さらに,AS設定で現在展開されている各種モデルと擬似モデルの性能を計測することにより,システムのモデル非依存性を実証する。 最後に,統計的保証によって精度/qwkを推定するアルゴリズムを提案する(我々のコードはhttps://git.io/j1ioy で利用可能)。

Automated Scoring (AS), the natural language processing task of scoring essays and speeches in an educational testing setting, is growing in popularity and being deployed across contexts from government examinations to companies providing language proficiency services. However, existing systems either forgo human raters entirely, thus harming the reliability of the test, or score every response by both human and machine thereby increasing costs. We target the spectrum of possible solutions in between, making use of both humans and machines to provide a higher quality test while keeping costs reasonable to democratize access to AS. In this work, we propose a combination of the existing paradigms, sampling responses to be scored by humans intelligently. We propose reward sampling and observe significant gains in accuracy (19.80% increase on average) and quadratic weighted kappa (QWK) (25.60% on average) with a relatively small human budget (30% samples) using our proposed sampling. The accuracy increase observed using standard random and importance sampling baselines are 8.6% and 12.2% respectively. Furthermore, we demonstrate the system's model agnostic nature by measuring its performance on a variety of models currently deployed in an AS setting as well as pseudo models. Finally, we propose an algorithm to estimate the accuracy/QWK with statistical guarantees (Our code is available at https://git.io/J1IOy ).
翻訳日:2021-11-18 15:05:04 公開日:2021-11-17
# Adequacy Metricsを用いた深部画像分類の公平性検証

Fairness Testing of Deep Image Classification with Adequacy Metrics ( http://arxiv.org/abs/2111.08856v1 )

ライセンス: Link先を確認
Peixin Zhang, Jingyi Wang, Jun Sun, Xinyu Wang(参考訳) 深層画像分類アプリケーション、例えば顔認識が日常生活でますます普及するにつれて、その公平性がますます懸念されるようになっている。 したがって、デプロイ前にこれらのアプリケーションの公平性を包括的にテストすることが重要です。 既存の公正試験方法には以下の制限がある。 1) 画像分類のセマンティックレベルにおける高次元かつ抽象的なドメインサンプリングを処理せずに、構造化データ又はテキストにのみ適用可能であること。 2) 機能、すなわち、モデルの公平性を特徴付けるためのテスト基準を提供しずに不公平なサンプルを生成する。 このギャップを埋めるため,我々はdeepfaitを提案する。 DeepFAITは、ディープイメージ分類アプリケーションの有効公平性テストを可能にするいくつかの重要なコンポーネントで構成されている。 1) 公平性関連ニューロンを識別するためのニューロン選択戦略 2) モデルの公平性を評価するための多面的適性指標の組 3)公平性問題を効率的に修正するためのテスト選択アルゴリズム。 我々は,VGGFaceやFairFaceといった大規模顔認識アプリケーションに広く採用されている実験を行った。 実験の結果,本手法はフェアネス関連ニューロンを効果的に同定し,モデルのフェアネスを特徴付け,モデルのフェアネス問題を緩和するための最も価値のあるテストケースを選定できることが確認された。

As deep image classification applications, e.g., face recognition, become increasingly prevalent in our daily lives, their fairness issues raise more and more concern. It is thus crucial to comprehensively test the fairness of these applications before deployment. Existing fairness testing methods suffer from the following limitations: 1) applicability, i.e., they are only applicable for structured data or text without handling the high-dimensional and abstract domain sampling in the semantic level for image classification applications; 2) functionality, i.e., they generate unfair samples without providing testing criterion to characterize the model's fairness adequacy. To fill the gap, we propose DeepFAIT, a systematic fairness testing framework specifically designed for deep image classification applications. DeepFAIT consists of several important components enabling effective fairness testing of deep image classification applications: 1) a neuron selection strategy to identify the fairness-related neurons; 2) a set of multi-granularity adequacy metrics to evaluate the model's fairness; 3) a test selection algorithm for fixing the fairness issues efficiently. We have conducted experiments on widely adopted large-scale face recognition applications, i.e., VGGFace and FairFace. The experimental results confirm that our approach can effectively identify the fairness-related neurons, characterize the model's fairness, and select the most valuable test cases to mitigate the model's fairness issues.
翻訳日:2021-11-18 15:04:21 公開日:2021-11-17
# 地理空間情報と時間情報の調和のためのGNN-RNNアプローチ:作物収量予測への応用

A GNN-RNN Approach for Harnessing Geospatial and Temporal Information: Application to Crop Yield Prediction ( http://arxiv.org/abs/2111.08900v1 )

ライセンス: Link先を確認
Joshua Fan, Junwen Bai, Zhiyun Li, Ariel Ortiz-Bobea, Carla P. Gomes(参考訳) 気候変動は食料不足や供給安定、経済計画など、作物関連の問題に新たな課題を提起している。 中心的な課題の1つとして、作物の収穫予測が機械学習分野における押し付け課題となっている。 その重要性にもかかわらず、作物の収量は天候、土地表面、土壌の質、相互作用など様々な要因に依存するため、予測作業は非常に複雑である。 近年,この領域における機械学習モデルの適用が成功している。 しかし、これらのモデルはタスクを比較的小さな領域に限定するか、あるいは1年または数年しか研究しないため、空間的および時間的に一般化することは困難である。 本稿では,収量予測のためのグラフベースの新しいリカレントニューラルネットワークを導入し,そのモデルに地理的知識と時間的知識を取り入れ,予測能力をさらに向上させる。 米国本土41州から2000以上の郡で,1981年から2019年までの期間にわたって,本手法を訓練,検証,試験を行った。 我々の知る限り、これは、地理的知識を収穫量予測に組み込んで、全国の郡レベルで収穫量を予測する最初の機械学習手法である。 また、よく知られた線形モデル、ツリーベースモデル、ディープラーニング手法を適用し、それらの性能を比較することで、他の機械学習ベースラインと比較するための確かな基盤を構築しました。 実験により,提案手法が実測値と時間的情報の有効性を検証し,既存の実測値の手法を一貫して上回ることを示した。

Climate change is posing new challenges to crop-related concerns including food insecurity, supply stability and economic planning. As one of the central challenges, crop yield prediction has become a pressing task in the machine learning field. Despite its importance, the prediction task is exceptionally complicated since crop yields depend on various factors such as weather, land surface, soil quality as well as their interactions. In recent years, machine learning models have been successfully applied in this domain. However, these models either restrict their tasks to a relatively small region, or only study over a single or few years, which makes them hard to generalize spatially and temporally. In this paper, we introduce a novel graph-based recurrent neural network for crop yield prediction, to incorporate both geographical and temporal knowledge in the model, and further boost predictive power. Our method is trained, validated, and tested on over 2000 counties from 41 states in the US mainland, covering years from 1981 to 2019. As far as we know, this is the first machine learning method that embeds geographical knowledge in crop yield prediction and predicts the crop yields at county level nationwide. We also laid a solid foundation for the comparison with other machine learning baselines by applying well-known linear models, tree-based models, deep learning methods and comparing their performance. Experiments show that our proposed method consistently outperforms the existing state-of-the-art methods on various metrics, validating the effectiveness of geospatial and temporal information.
翻訳日:2021-11-18 15:04:00 公開日:2021-11-17
# 高速で効果的な機械学習

Fast Yet Effective Machine Unlearning ( http://arxiv.org/abs/2111.08947v1 )

ライセンス: Link先を確認
Ayush K Tarun, Vikram S Chundawat, Murari Mandal, Mohan Kankanhalli(参考訳) 機械学習(ML)モデルのトレーニング中に観測されたデータをアンラーニングすることは、MLベースのアプリケーションのプライバシとセキュリティを強化する上で重要な役割を果たす重要なタスクである。 本稿は以下の疑問を提起する。 i) 一度でも完全なトレーニングデータを見ることなく、MLモデルからデータのクラス/クラスを解放できますか? (ii)大規模データセットへの高速かつスケーラブルな学習プロセスの構築と、異なるディープネットワークへの一般化は可能か? 本稿では,誤差最大化ノイズ生成と不等度に基づく重み操作を併用した新しい機械学習フレームワークを提案する。 クラスが元のモデルを使って解き放つために、エラー最大化ノイズマトリックスを学習する。 ノイズマトリックスはモデル重みを操作し、ターゲットとするデータクラスを解き放つために使用される。 ネットワーク重みの制御操作のための障害および修復手順を導入する。 不適切なステップでは、モデルに鋭いアンラーニングを誘発するために、非常に高い学習率を伴うノイズマトリックスが使用される。 その後、修理工程を使用して全体の性能を回復する。 ごくわずかな更新ステップで、モデル全体の精度を著しく保ちながら、優れた未学習を示す。 複数のクラスをアンラーニングするには、単一のクラスと同じ数の更新ステップが必要です。 提案手法は,従来の手法と比較して非常に効率的であり,マルチクラスのアンラーニングに役立ち,元の最適化機構やネットワーク設計に制約を課さず,小型・大規模の視覚タスクでもうまく機能する。 この研究は、ディープネットワークでの学習を迅速かつ容易に実装するための重要なステップです。 ソースコードを公開します。

Unlearning the data observed during the training of a machine learning (ML) model is an important task that can play a pivotal role in fortifying the privacy and security of ML-based applications. This paper raises the following questions: (i) can we unlearn a class/classes of data from a ML model without looking at the full training data even once? (ii) can we make the process of unlearning fast and scalable to large datasets, and generalize it to different deep networks? We introduce a novel machine unlearning framework with error-maximizing noise generation and impair-repair based weight manipulation that offers an efficient solution to the above questions. An error-maximizing noise matrix is learned for the class to be unlearned using the original model. The noise matrix is used to manipulate the model weights to unlearn the targeted class of data. We introduce impair and repair steps for a controlled manipulation of the network weights. In the impair step, the noise matrix along with a very high learning rate is used to induce sharp unlearning in the model. Thereafter, the repair step is used to regain the overall performance. With very few update steps, we show excellent unlearning while substantially retaining the overall model accuracy. Unlearning multiple classes requires a similar number of update steps as for the single class, making our approach scalable to large problems. Our method is quite efficient in comparison to the existing methods, works for multi-class unlearning, doesn't put any constraints on the original optimization mechanism or network design, and works well in both small and large-scale vision tasks. This work is an important step towards fast and easy implementation of unlearning in deep networks. We will make the source code publicly available.
翻訳日:2021-11-18 15:03:36 公開日:2021-11-17
# 多施設クレジットスコーリングのための垂直的フェデレーション学習手法:MICS

A Vertical Federated Learning Method For Multi-Institutional Credit Scoring: MICS ( http://arxiv.org/abs/2111.09038v1 )

ライセンス: Link先を確認
Yusuf Efe(参考訳) ますます多くの企業が顧客のデータを保管するようになり、その人の様々な情報が多くの企業のデータベースに分散される。 異なる産業部門は、同じ顧客について異なる特徴を持っている。 また、同じ産業セクター内の異なる企業は、異なるデータ表現を持つ顧客に関する同様の種類のデータを運ぶ。 垂直協力と呼ばれる異なる産業分野の企業間の協力と、水平協力と呼ばれる同一分野の企業間の協力は、より正確な機械学習モデルと信用スコアのようなタスクにおけるより良い見積もりにつながる。 しかし、データプライバシ規制と異なるデータ表現の互換性問題は、協調モデルトレーニングの大きな障害である。 トレーニングフレームワークMICSといくつかの数値データセットを用いた実験を行うことにより、企業は、顧客個人のデータを明示的に共有することなく、より堅牢で正確なグローバルモデルを共同でトレーニングする、それぞれのセクターや他の産業セクターと協力するインセンティブを持つことが示される。

As more and more companies store their customers' data; various information of a person is distributed among numerous companies' databases. Different industrial sectors carry distinct features about the same customers. Also, different companies within the same industrial sector carry similar kinds of data about the customers with different data representations. Cooperation between companies from different industrial sectors, called vertical cooperation, and between the companies within the same sector, called horizontal cooperation, can lead to more accurate machine learning models and better estimations in tasks such as credit scoring. However, data privacy regulations and compatibility issues for different data representations are huge obstacles to cooperative model training. By proposing the training framework MICS and experimentation on several numerical data sets, we showed that companies would have an incentive to cooperate with other companies from their sector and with other industrial sectors to jointly train more robust and accurate global models without explicitly sharing their customers' private data.
翻訳日:2021-11-18 15:03:12 公開日:2021-11-17
# ORSA: Outlier Robust Stacked Aggregation for Best-Case Approximations of Ensemble Systems

ORSA: Outlier Robust Stacked Aggregation for Best- and Worst-Case Approximations of Ensemble Systems\ ( http://arxiv.org/abs/2111.09043v1 )

ライセンス: Link先を確認
Peter Domanski, Dirk Pfl\"uger, Jochen Rivoir, Rapha\"el Latty(参考訳) 近年,大規模なアンサンブルを合理的な時間枠で訓練できる計算能力の増大により,アプリケーションにおけるアンサンブル学習の利用が著しく増加している。 マルウェアの検出、顔認識、財務的な意思決定など、多くのアプリケーションでは、有限の学習アルゴリズムを使用して、個々の学習アルゴリズムよりも優れた予測性能を得る方法でそれらを集約する。 半導体デバイス(psv)のポストシリコン検証の分野では、例えば異なる製造ラインのチップなど、さまざまなデバイスで構成されるデータセットが典型的に提供される。 psvのタスクは、データセット全体の任意の分類器のパフォーマンスを改善するのではなく、デバイス固有のサブセットでトレーニングされた複数の学習アルゴリズムを使って、データの基盤となる関数を近似することである。 さらに、未知の数のサブセットが、非常に異なる特性を示す関数を記述することが期待されている。 対応するアンサンブルメンバーは、外れ値と呼ばれ、近似に大きな影響を与える。 本手法は,外れ値に対してロバストで,可能な限り多くの型に適用可能な最良あるいは最悪の場合を表す適切な近似を求めることを目的としている。 最大または最小の演算子の代わりに 'soft-max' あるいは 'soft-min' 関数が使用される。 ニューラルネットワーク(NN)は、2段階のプロセスでこの「ソフトファンクション」を学ぶために訓練される。 まず、最善または最悪の場合を代表するアンサンブルメンバーのサブセットを選択する。 次に、これらのメンバーを組み合わせて、LoF(Local Outlier Factor)の特性を利用した重み付けを定義し、非outlierの影響を増大させ、outliersを減少させる。 重み付けは外れ値に対するロバスト性を確保し、近似がほとんどの型に適していることを保証する。

In recent years, the usage of ensemble learning in applications has grown significantly due to increasing computational power allowing the training of large ensembles in reasonable time frames. Many applications, e.g., malware detection, face recognition, or financial decision-making, use a finite set of learning algorithms and do aggregate them in a way that a better predictive performance is obtained than any other of the individual learning algorithms. In the field of Post-Silicon Validation for semiconductor devices (PSV), data sets are typically provided that consist of various devices like, e.g., chips of different manufacturing lines. In PSV, the task is to approximate the underlying function of the data with multiple learning algorithms, each trained on a device-specific subset, instead of improving the performance of arbitrary classifiers on the entire data set. Furthermore, the expectation is that an unknown number of subsets describe functions showing very different characteristics. Corresponding ensemble members, which are called outliers, can heavily influence the approximation. Our method aims to find a suitable approximation that is robust to outliers and represents the best or worst case in a way that will apply to as many types as possible. A 'soft-max' or 'soft-min' function is used in place of a maximum or minimum operator. A Neural Network (NN) is trained to learn this 'soft-function' in a two-stage process. First, we select a subset of ensemble members that is representative of the best or worst case. Second, we combine these members and define a weighting that uses the properties of the Local Outlier Factor (LOF) to increase the influence of non-outliers and to decrease outliers. The weighting ensures robustness to outliers and makes sure that approximations are suitable for most types.
翻訳日:2021-11-18 15:02:58 公開日:2021-11-17
# (参考訳) そろそろ時間だ:アナログ時計の読書は野放しだ [全文訳有]

It's About Time: Analog Clock Reading in the Wild ( http://arxiv.org/abs/2111.09162v1 )

ライセンス: CC BY 4.0
Charig Yang, Weidi Xie, Andrew Zisserman(参考訳) 本稿では,自然画像やビデオでアナログ時計を読むためのフレームワークを提案する。 具体的には,まず合成クロックを生成するためのスケーラブルなパイプラインを作成し,作業集約的なアノテーション要件を大幅に削減する。第2に,クロックアライメントと認識のためにエンドツーエンドでトレーニングされた空間トランスフォーマネットワーク(stn)に基づくクロック認識アーキテクチャを導入する。 提案する合成データセット上でトレーニングされたモデルでは,シミュレーションと実データとのギャップを更に低減するために,実時間に対する信頼性の高い擬似ラベルを生成するための時間的特性,すなわち一様性を利用し,これらのビデオのトレーニングが,手作業によるアノテーションを必要とせず,さらなる改善をもたらすことを示す。 最後に,COCO,Open Images,The Clockの3つのベンチマークデータセットを紹介した。

In this paper, we present a framework for reading analog clocks in natural images or videos. Specifically, we make the following contributions: First, we create a scalable pipeline for generating synthetic clocks, significantly reducing the requirements for the labour-intensive annotations; Second, we introduce a clock recognition architecture based on spatial transformer networks (STN), which is trained end-to-end for clock alignment and recognition. We show that the model trained on the proposed synthetic dataset generalises towards real clocks with good accuracy, advocating a Sim2Real training regime; Third, to further reduce the gap between simulation and real data, we leverage the special property of time, i.e. uniformity, to generate reliable pseudo-labels on real unlabelled clock videos, and show that training on these videos offers further improvements while still requiring zero manual annotations. Lastly, we introduce three benchmark datasets based on COCO, Open Images, and The Clock movie, totalling 4,472 images with clocks, with full annotations for time, accurate to the minute.
翻訳日:2021-11-18 15:01:27 公開日:2021-11-17
# fast batllnn: 2レベル格子ニューラルネットワークの高速ボックス解析

Fast BATLLNN: Fast Box Analysis of Two-Level Lattice Neural Networks ( http://arxiv.org/abs/2111.09293v1 )

ライセンス: Link先を確認
James Ferlez and Haitham Khedr and Yasser Shoukry(参考訳) 本稿では,2レベル格子ニューラルネットワーク(TLL)の出力制約を高速に検証するツールとして,Fast Box Analysis of Two-Level Lattice Neural Networks (Fast BATLLNN)を提案する。 特に、Fast BATLLNNは、与えられたTLL NNの出力が指定された凸ポリトープ(必ずしも超矩形ではない)に制限された入力が常に指定された超矩形内にあるかどうかを検証できる。 Fast BATLLNNは、TLLアーキテクチャのユニークなセマンティクスとボックスライクな出力制約の分離特性を用いて、一般的なポリトピー出力制約を持つTLLに対する既知の多項式時間検証アルゴリズムと比較して、検証性能を劇的に改善する。 本稿では,Fast BATLLNNの性能とスケーラビリティを,TLL NNに適用した最先端NN検証と比較して評価する。 Fast BATLLNNは、最も高速なNN検証器でさえも非常に好意的に比較し、私たちの合成TLLテストベンチは、最も近い競合製品よりも400倍以上高速です。

In this paper, we present the tool Fast Box Analysis of Two-Level Lattice Neural Networks (Fast BATLLNN) as a fast verifier of box-like output constraints for Two-Level Lattice (TLL) Neural Networks (NNs). In particular, Fast BATLLNN can verify whether the output of a given TLL NN always lies within a specified hyper-rectangle whenever its input constrained to a specified convex polytope (not necessarily a hyper-rectangle). Fast BATLLNN uses the unique semantics of the TLL architecture and the decoupled nature of box-like output constraints to dramatically improve verification performance relative to known polynomial-time verification algorithms for TLLs with generic polytopic output constraints. In this paper, we evaluate the performance and scalability of Fast BATLLNN, both in its own right and compared to state-of-the-art NN verifiers applied to TLL NNs. Fast BATLLNN compares very favorably to even the fastest NN verifiers, completing our synthetic TLL test bench more than 400x faster than its nearest competitor.
翻訳日:2021-11-18 14:49:07 公開日:2021-11-17
# 会員推論攻撃の予測スコアを信頼しない

Do Not Trust Prediction Scores for Membership Inference Attacks ( http://arxiv.org/abs/2111.09076v1 )

ライセンス: Link先を確認
Dominik Hintersdorf, Lukas Struppek, Kristian Kersting(参考訳) メンバーシップ推論攻撃(MIA)は、特定のサンプルが予測モデルのトレーニングに使用されたかどうかを決定することを目的としている。 これはプライバシー侵害につながる可能性がある。 しかし、おそらくほとんどのMIAは、トレーニングされたモデルがトレーニングデータに対して異なる振る舞いをする傾向にあるという直感に従って、モデルの予測スコア(各出力の確率)を利用する。 例えば、ReLU型ニューラルネットワークはトレーニングデータから遠く離れたところで、ほぼ常に高い予測スコアを生成する。 その結果、MIAは既知のドメインだけでなく分布外データにも高い偽陽性率をもたらし、MIAに対する防御として暗黙的に作用するため、不幸にも失敗する。 具体的には、生成的敵ネットワークを用いて、トレーニングデータの一部として誤って分類された潜在的無限個のサンプルを生成することができる。 言い換えれば、MIAの脅威は過大評価され、以前想定されていたよりも少ない情報がリークされる。 さらに、分類器の過度な信頼とMIAへの感受性の間には、実際にはトレードオフがある: 分類器がいつ知らないかを知るほど、訓練データから遠く離れたところで信頼性の低い予測を行い、訓練データを明らかにする。

Membership inference attacks (MIAs) aim to determine whether a specific sample was used to train a predictive model. Knowing this may indeed lead to a privacy breach. Arguably, most MIAs, however, make use of the model's prediction scores - the probability of each output given some input - following the intuition that the trained model tends to behave differently on its training data. We argue that this is a fallacy for many modern deep network architectures, e.g., ReLU type neural networks produce almost always high prediction scores far away from the training data. Consequently, MIAs will miserably fail since this behavior leads to high false-positive rates not only on known domains but also on out-of-distribution data and implicitly acts as a defense against MIAs. Specifically, using generative adversarial networks, we are able to produce a potentially infinite number of samples falsely classified as part of the training data. In other words, the threat of MIAs is overestimated and less information is leaked than previously assumed. Moreover, there is actually a trade-off between the overconfidence of classifiers and their susceptibility to MIAs: the more classifiers know when they do not know, making low confidence predictions far away from the training data, the more they reveal the training data.
翻訳日:2021-11-18 14:48:31 公開日:2021-11-17
# mriのための単一パスオブジェクト適応データアンサンプと再構成

Single-pass Object-adaptive Data Undersampling and Reconstruction for MRI ( http://arxiv.org/abs/2111.09212v1 )

ライセンス: Link先を確認
Zhishen Huang and Saiprasad Ravishankar(参考訳) 限られた測定値を取得することでMRIのデータ取得プロセスを高速化する技術に、近年は関心が寄せられている。 このような設定で高画質を維持するために、しばしば高度な再構成アルゴリズムがデプロイされる。 本研究では,畳み込みニューラルネットワークMNetを用いたデータ駆動型サンプリング手法を提案する。 ネットワークは、各オブジェクトに対する非常に限られた低周波k空間データを観測し、所望のアンダーサンプリングパターンを高速に予測し、高い画像再構成品質を実現する。 本稿では,サンプルネットワークのトレーニングラベルを効率よく生成し,画像再構成ネットワークを共同で訓練するマスクバックプロシージャを備えた交代型トレーニングフレームワークを提案する。 fastmri膝のデータセットにおける実験結果は,提案する学習アンサンブルネットワークの4倍および8倍の加速度で物体特異的マスクを生成する能力を示し,既存の手法よりも優れた画像再構成性能を実現した。 提案された共同サンプリングおよび再構成学習フレームワークのソースコードは、https://github.com/z hishenhuang/mriで入手できる。

There is much recent interest in techniques to accelerate the data acquisition process in MRI by acquiring limited measurements. Often sophisticated reconstruction algorithms are deployed to maintain high image quality in such settings. In this work, we propose a data-driven sampler using a convolutional neural network, MNet, to provide object-specific sampling patterns adaptive to each scanned object. The network observes very limited low-frequency k-space data for each object and rapidly predicts the desired undersampling pattern in one go that achieves high image reconstruction quality. We propose an accompanying alternating-type training framework with a mask-backward procedure that efficiently generates training labels for the sampler network and jointly trains an image reconstruction network. Experimental results on the fastMRI knee dataset demonstrate the ability of the proposed learned undersampling network to generate object-specific masks at fourfold and eightfold acceleration that achieve superior image reconstruction performance than several existing schemes. The source code for the proposed joint sampling and reconstruction learning framework is available at https://github.com/z hishenhuang/mri.
翻訳日:2021-11-18 14:48:09 公開日:2021-11-17
# 個別意思決定のためのジャンプ間隔学習

Jump Interval-Learning for Individualized Decision Making ( http://arxiv.org/abs/2111.08885v1 )

ライセンス: Link先を確認
Hengrui Cai, Chengchun Shi, Rui Song, Wenbin Lu(参考訳) 個別決定ルール(英: individualized decision rule、IDR)とは、観察された特徴に基づいて各個人に所定の処置を割り当てる決定関数である。 文献にある既存の作品の多くは、二項または有限個の治療オプションを持つ設定を考慮に入れている。 本稿では,連続的な治療設定に着目し,ジャンプ間隔学習を行い,期待される結果を最大化する個別化区間値決定規則(i2dr)を考案する。 単一の治療を推奨するIDRとは異なり、提案されたI2DRは個々の治療オプションの間隔を確保でき、実際はより柔軟に実施できる。 最適I2DRを導出するために,ジャンプ間隔学習法は,処理結果と共変量の条件平均をジャンプペナル化回帰により推定し,その推定結果回帰関数に基づいて対応する最適I2DRを導出する。 回帰器は、明確な解釈のために線形的であるか、複雑な処理-共変量相互作用をモデル化するためにディープニューラルネットワークが許される。 ジャンプ間隔学習を実現するために,結果回帰関数を効率的に計算する動的プログラミングに基づく探索アルゴリズムを開発した。 結果i2drの統計的性質は、結果回帰関数が処理空間上の分割関数または連続関数であるときに確立される。 さらに、(推定)最適政策の下で、平均結果を推測する手順を開発する。 提案したI2DRの実証的妥当性を示すため, 大規模シミュレーションと実データを用いたワーファリン研究を行った。

An individualized decision rule (IDR) is a decision function that assigns each individual a given treatment based on his/her observed characteristics. Most of the existing works in the literature consider settings with binary or finitely many treatment options. In this paper, we focus on the continuous treatment setting and propose a jump interval-learning to develop an individualized interval-valued decision rule (I2DR) that maximizes the expected outcome. Unlike IDRs that recommend a single treatment, the proposed I2DR yields an interval of treatment options for each individual, making it more flexible to implement in practice. To derive an optimal I2DR, our jump interval-learning method estimates the conditional mean of the outcome given the treatment and the covariates via jump penalized regression, and derives the corresponding optimal I2DR based on the estimated outcome regression function. The regressor is allowed to be either linear for clear interpretation or deep neural network to model complex treatment-covariates interactions. To implement jump interval-learning, we develop a searching algorithm based on dynamic programming that efficiently computes the outcome regression function. Statistical properties of the resulting I2DR are established when the outcome regression function is either a piecewise or continuous function over the treatment space. We further develop a procedure to infer the mean outcome under the (estimated) optimal policy. Extensive simulations and a real data application to a warfarin study are conducted to demonstrate the empirical validity of the proposed I2DR.
翻訳日:2021-11-18 14:47:51 公開日:2021-11-17
# SEIHAI: MineRLコンペティションのためのサンプル効率のよい階層型AI

SEIHAI: A Sample-efficient Hierarchical AI for the MineRL Competition ( http://arxiv.org/abs/2111.08857v1 )

ライセンス: Link先を確認
Hangyu Mao, Chao Wang, Xiaotian Hao, Yihuan Mao, Yiming Lu, Chengjie Wu, Jianye Hao, Dong Li and Pingzhong Tang(参考訳) MineRLコンペティションは、人間のデモンストレーションを効果的に活用し、スパース報酬を伴う複雑な \emph{ObtainDiamond} タスクの解決に必要な環境相互作用の数を劇的に削減できる強化学習と模倣学習アルゴリズムの開発を目的として設計されている。 この課題に対処するため、本論文では、人間の実演とタスク構造を完全に活用した \textbf{SEIHAI}, a \textbf{S}ample-\textbf{e}ff\textbf{i}cient \textbf{H}ierarchical \textbf{H}ierarchical \textbf{AI} を提案する。 具体的には,タスクを複数の逐次依存サブタスクに分割し,強化学習と模倣学習を用いて各サブタスクに適したエージェントを訓練する。 さらに、異なるサブタスクに対して異なるエージェントを自動選択するスケジューラを設計する。 シーハイはNeurIPS-2020 MineRLコンペティションの序盤と決勝戦で優勝した。

The MineRL competition is designed for the development of reinforcement learning and imitation learning algorithms that can efficiently leverage human demonstrations to drastically reduce the number of environment interactions needed to solve the complex \emph{ObtainDiamond} task with sparse rewards. To address the challenge, in this paper, we present \textbf{SEIHAI}, a \textbf{S}ample-\textbf{e}ff\textbf{i}cient \textbf{H}ierarchical \textbf{AI}, that fully takes advantage of the human demonstrations and the task structure. Specifically, we split the task into several sequentially dependent subtasks, and train a suitable agent for each subtask using reinforcement learning and imitation learning. We further design a scheduler to select different agents for different subtasks automatically. SEIHAI takes the first place in the preliminary and final of the NeurIPS-2020 MineRL competition.
翻訳日:2021-11-18 14:47:24 公開日:2021-11-17
# 解釈可能で信頼性の高い読み理解に向けて : 予測不能なパイプラインモデル

Towards Interpretable and Reliable Reading Comprehension: A Pipeline Model with Unanswerability Prediction ( http://arxiv.org/abs/2111.09029v1 )

ライセンス: Link先を確認
Kosuke Nishida, Kyosuke Nishida, Itsumi Saito, Sen Yoshida(参考訳) 回答の解釈可能性を考慮した読解(RC)課題である注釈付きサポート事実を持つマルチホップQAについて検討した。 本研究では,解釈不能な問合せを予測可能なパイプラインモデルとして解釈可能な読解理解(IRC)モデルを定義する。 IRCモデルは、予測された支持事実と解釈可能性の実際の理論的根拠との整合性を確立することにより、回答予測を正当化する。 ircモデルは、十分な情報に基づいて強制的に回答を出力するのではなく、解答不能な質問を検出し、解答の信頼性を確保する。 また,パイプラインRCモデルのエンドツーエンドトレーニング手法を提案する。 解釈可能性と信頼性を評価するために,各経路に対するマルチホップ質問の解答可能性を考慮した実験を行った。 我々のエンドツーエンドのトレーニング可能なパイプラインモデルは、修正されたHotpotQAデータセットで非解釈可能なモデルよりも優れていることを示す。 また, 予測性能と解釈可能性のトレードオフにもかかわらず, IRCモデルは従来の非解釈モデルと同等の結果が得られることを示した。

Multi-hop QA with annotated supporting facts, which is the task of reading comprehension (RC) considering the interpretability of the answer, has been extensively studied. In this study, we define an interpretable reading comprehension (IRC) model as a pipeline model with the capability of predicting unanswerable queries. The IRC model justifies the answer prediction by establishing consistency between the predicted supporting facts and the actual rationale for interpretability. The IRC model detects unanswerable questions, instead of outputting the answer forcibly based on the insufficient information, to ensure the reliability of the answer. We also propose an end-to-end training method for the pipeline RC model. To evaluate the interpretability and the reliability, we conducted the experiments considering unanswerability in a multi-hop question for a given passage. We show that our end-to-end trainable pipeline model outperformed a non-interpretable model on our modified HotpotQA dataset. Experimental results also show that the IRC model achieves comparable results to the previous non-interpretable models in spite of the trade-off between prediction performance and interpretability.
翻訳日:2021-11-18 14:45:48 公開日:2021-11-17
# 非自己回帰型GECタグの文字変換

Character Transformations for Non-Autoregressive GEC Tagging ( http://arxiv.org/abs/2111.09280v1 )

ライセンス: Link先を確認
Milan Straka, Jakub N\'aplava, Jana Strakov\'a(参考訳) 本稿では,文字変換を自動生成する文字ベース非自己回帰GEC手法を提案する。 近年,修正編集の単語単位の分類は,現在のエンコーダデコーダGECシステムに代わる,効率的かつ並列化可能な代替手段であることが証明されている。 本稿では,単語置換編集が最適であり,形態的にリッチな言語における綴り,発音,誤りなどの規則の爆発につながることを示し,GECコーパスから文字変換を生成する方法を提案する。 最後に,チェコ語,ドイツ語,ロシア語の文字変換モデルを訓練し,自己回帰システムと比較し,確固とした結果と劇的なスピードアップを達成した。 ソースコードはhttps://github.com/u fal/wnut2021_charact er_transformations_g ecで公開されている。

We propose a character-based nonautoregressive GEC approach, with automatically generated character transformations. Recently, per-word classification of correction edits has proven an efficient, parallelizable alternative to current encoder-decoder GEC systems. We show that word replacement edits may be suboptimal and lead to explosion of rules for spelling, diacritization and errors in morphologically rich languages, and propose a method for generating character transformations from GEC corpus. Finally, we train character transformation models for Czech, German and Russian, reaching solid results and dramatic speedup compared to autoregressive systems. The source code is released at https://github.com/u fal/wnut2021_charact er_transformations_g ec.
翻訳日:2021-11-18 14:45:33 公開日:2021-11-17
# グリーンCWS:極端蒸留法と産業応用に向けた効率的な復号法

Green CWS: Extreme Distillation and Efficient Decode Method Towards Industrial Application ( http://arxiv.org/abs/2111.09078v1 )

ライセンス: Link先を確認
Yulan Hu, Yong Liu(参考訳) 事前学習されたモデルの強力な能力から、中国語単語分割(cws)の研究は近年大きな進展を遂げている。 しかし、計算量が大きいため、大規模で複雑なモデルでは、産業利用に力を与えることができない。 一方、低リソースシナリオでは、条件付きランダムフィールド(CRF)のような一般的なデコード方式では、トレーニングデータの完全な情報を利用することができない。 本研究は,工業的に低リソースなCWSシナリオに対して,軽量モデルと改良された復号法(PCRF)を組み込んだ高速かつ正確なCWSフレームワークを提案する。 まず、トランスフォーマーベースの学生モデルをエンコーダとして蒸留し、推論速度を加速するだけでなく、オープン知識とドメイン固有知識を組み合わせる。 第二に、言語モデルを評価する難易度スコアをCRFモジュールに融合させ、単語境界をよりよく識別する。 実験の結果,従来のbertベースのモデルと比較して,複数のデータセットにおいて,14\%の時間消費で比較的高い性能が得られることがわかった。 また,低リソース環境下では,従来の復号法と比較して優れた結果が得られる。

Benefiting from the strong ability of the pre-trained model, the research on Chinese Word Segmentation (CWS) has made great progress in recent years. However, due to massive computation, large and complex models are incapable of empowering their ability for industrial use. On the other hand, for low-resource scenarios, the prevalent decode method, such as Conditional Random Field (CRF), fails to exploit the full information of the training data. This work proposes a fast and accurate CWS framework that incorporates a light-weighted model and an upgraded decode method (PCRF) towards industrially low-resource CWS scenarios. First, we distill a Transformer-based student model as an encoder, which not only accelerates the inference speed but also combines open knowledge and domain-specific knowledge. Second, the perplexity score to evaluate the language model is fused into the CRF module to better identify the word boundaries. Experiments show that our work obtains relatively high performance on multiple datasets with as low as 14\% of time consumption compared with the original BERT-based model. Moreover, under the low-resource setting, we get superior results in comparison with the traditional decoding methods.
翻訳日:2021-11-18 14:45:22 公開日:2021-11-17
# 相関マッチングの強化によるビデオフレーム補間

Enhanced Correlation Matching based Video Frame Interpolation ( http://arxiv.org/abs/2111.08869v1 )

ライセンス: Link先を確認
Sungho Lee, Narae Choi, Woong Il Choi(参考訳) 本研究では,大規模動作とオクルージョンを有する4kのような高分解能をサポートするために,拡張相関マッチング型ビデオフレーム補間ネットワークと呼ばれる新しいdnnベースのフレームワークを提案する。 解像度に応じてネットワークモデルの拡張性を考慮すると,光学的フロー推定のために各ピラミッド層間でパラメータを共有する再帰ピラミッド構造が提案されている。 提案したフロー推定では,最大相関で位置を追従することにより,光学流を再帰的に洗練する。 前方整流に基づく相関マッチングにより、咬合領域周辺の不正確な整流特徴を除外し、フロー更新の精度を向上させることができる。 最終双方向流れに基づいて、任意の時間的位置の中間フレームをワーピング・ブレンドネットワークを用いて合成し、改良ネットワークによりさらに改善する。 実験結果から,提案手法は4Kビデオデータと低解像度のベンチマークデータセット,および最小数のモデルパラメータによる客観的および主観的品質において,従来よりも優れた性能を示した。

We propose a novel DNN based framework called the Enhanced Correlation Matching based Video Frame Interpolation Network to support high resolution like 4K, which has a large scale of motion and occlusion. Considering the extensibility of the network model according to resolution, the proposed scheme employs the recurrent pyramid architecture that shares the parameters among each pyramid layer for optical flow estimation. In the proposed flow estimation, the optical flows are recursively refined by tracing the location with maximum correlation. The forward warping based correlation matching enables to improve the accuracy of flow update by excluding incorrectly warped features around the occlusion area. Based on the final bi-directional flows, the intermediate frame at arbitrary temporal position is synthesized using the warping and blending network and it is further improved by refinement network. Experiment results demonstrate that the proposed scheme outperforms the previous works at 4K video data and low-resolution benchmark datasets as well in terms of objective and subjective quality with the smallest number of model parameters.
翻訳日:2021-11-18 14:42:48 公開日:2021-11-17
# 階層的情報とハイブリッド知識蒸留を用いた多層網膜疾患認識

Long-Tailed Multi-Label Retinal Diseases Recognition Using Hierarchical Information and Hybrid Knowledge Distillation ( http://arxiv.org/abs/2111.08913v1 )

ライセンス: Link先を確認
Lie Ju, Xin Wang, Zhen Yu, Lin Wang, Xin Zhao, Zongyuan Ge(参考訳) 現実の世界では、医学データセットは長い尾を持つデータ分布を示すことが多く(一部のクラスはデータの大半を占めるが、ほとんどのクラスはサンプルをほとんど持たない)、これは挑戦的な不均衡学習シナリオをもたらす。 例えば、40種類以上の網膜疾患が様々な病原性を持つと推定されているが、30以上の条件を持つ患者は、世界的な患者コホートから非常に稀であり、ディープラーニングベースのスクリーニングモデルに典型的な長い尾の学習問題をもたらす。 さらに、網膜には複数の種類の疾患が存在し、これは多ラベルのシナリオをもたらし、再サンプリング戦略にラベル共起の問題をもたらす可能性がある。 本研究では,網膜疾患の先行知識を利用して,階層性制約の下でモデルをより堅牢な表現を訓練する枠組みを提案する。 次に, 長期の多ラベル分布から学習するために, インスタンス単位のクラスバランスサンプリング戦略とハイブリッド知識蒸留手法を導入する。 実験では,100万以上の検体を用いた網膜データセットのトレーニングを行い,競合する疾患,特に稀な疾患の認識精度を大幅に向上させる手法が提案されている。

In the real world, medical datasets often exhibit a long-tailed data distribution (i.e., a few classes occupy most of the data, while most classes have rarely few samples), which results in a challenging imbalance learning scenario. For example, there are estimated more than 40 different kinds of retinal diseases with variable morbidity, however with more than 30+ conditions are very rare from the global patient cohorts, which results in a typical long-tailed learning problem for deep learning-based screening models. Moreover, there may exist more than one kind of disease on the retina, which results in a multi-label scenario and bring label co-occurrence issue for re-sampling strategy. In this work, we propose a novel framework that leverages the prior knowledge in retinal diseases for training a more robust representation of the model under a hierarchy-sensible constraint. Then, an instance-wise class-balanced sampling strategy and hybrid knowledge distillation manner are firstly introduced to learn from the long-tailed multi-label distribution. Our experiments training on the retinal dataset of more than one million samples demonstrate the superiority of our proposed methods which outperform all competitors and significantly improve the recognition accuracy of most diseases especially those rare diseases.
翻訳日:2021-11-18 14:42:31 公開日:2021-11-17
# EMScore: 粗粒と細粒の埋め込みマッチングによるビデオキャプションの評価

EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching ( http://arxiv.org/abs/2111.08919v1 )

ライセンス: Link先を確認
Yaya Shi, Xu Yang, Haiyang Xu, Chunfeng Yuan, Bing Li, Weiming Hu, Zheng-Jun Zha(参考訳) 現在のビデオキャプションの指標は、主に参照キャプションと候補キャプションのテキストレベルの比較に基づいている。 しかし、例えば、参照なしではビデオを扱うことができず、ビデオからテキストへの一対多の性質と視覚的関連性を無視しているため、偏見のある評価をもたらす可能性がある。 人間の評価者の視点からは、高品質なキャプションは提供されたビデオと一致すべきであるが、リテラルやセマンティクスの参照と必ずしも似ているとは限らない。 人間の評価にインスパイアされたemscore(embedding matching-based score)は、ビデオキャプションのための参照フリーな新しい指標で、ビデオキャプションと候補キャプションの類似度を直接測定する。 近年の大規模事前学習モデルの成果として,事前学習された視覚言語モデルを用いて視覚的および言語的埋め込みを抽出し,emscoreの計算を行う。 特にemscoreは、粗粒度(ビデオとキャプション)と細粒度(フレームとワード)の両方のスコアをマッチングし、ビデオの全体的な理解と詳細な特性を考慮に入れている。 さらに、潜在的な情報ゲインを考慮すると、EMScoreは人間ラベルの参照が利用できる状態まで柔軟に拡張できる。 最後に、VATEX-EVALおよびActivityNet-FOIlデータセットを収集し、既存のメトリクスを体系的に評価する。 VATEX-EVAL実験により、EMScoreは高い人間相関と低い基準依存性を持つことが示された。 ActivityNet-FOIL実験は、EMScoreが効果的に"幻覚"キャプションを識別できることを検証する。 データセットは、ビデオキャプションメトリクスの開発を容易にするためにリリースされる。 コードは、https://github.com/S hiYaya/emscore.comで入手できる。

Current metrics for video captioning are mostly based on the text-level comparison between reference and candidate captions. However, they have some insuperable drawbacks, e.g., they cannot handle videos without references, and they may result in biased evaluation due to the one-to-many nature of video-to-text and the neglect of visual relevance. From the human evaluator's viewpoint, a high-quality caption should be consistent with the provided video, but not necessarily be similar to the reference in literal or semantics. Inspired by human evaluation, we propose EMScore (Embedding Matching-based score), a novel reference-free metric for video captioning, which directly measures similarity between video and candidate captions. Benefit from the recent development of large-scale pre-training models, we exploit a well pre-trained vision-language model to extract visual and linguistic embeddings for computing EMScore. Specifically, EMScore combines matching scores of both coarse-grained (video and caption) and fine-grained (frames and words) levels, which takes the overall understanding and detailed characteristics of the video into account. Furthermore, considering the potential information gain, EMScore can be flexibly extended to the conditions where human-labeled references are available. Last but not least, we collect VATEX-EVAL and ActivityNet-FOIl datasets to systematically evaluate the existing metrics. VATEX-EVAL experiments demonstrate that EMScore has higher human correlation and lower reference dependency. ActivityNet-FOIL experiment verifies that EMScore can effectively identify "hallucinating" captions. The datasets will be released to facilitate the development of video captioning metrics. The code is available at: https://github.com/S hiYaya/emscore.
翻訳日:2021-11-18 14:42:10 公開日:2021-11-17
# 秘密鍵によるsvmモデルの不正アクセスからの保護

Protection of SVM Model with Secret Key from Unauthorized Access ( http://arxiv.org/abs/2111.08927v1 )

ライセンス: Link先を確認
Ryota Iijima, AprilPyone MaungMaung, Hitoshi Kiya(参考訳) 本稿では,サポートベクトルマシン(SVM)モデルのための秘密鍵を用いたブロックワイズ画像変換手法を提案する。 変換された画像を使用することでトレーニングされたモデルは、キーのない未許可のユーザにはパフォーマンスが悪く、キーを持った認証されたユーザには高いパフォーマンスを提供することができる。 提案手法は,顔認識実験においてカーネル関数を用いても,不正アクセスに対して十分に堅牢であることを示す。

In this paper, we propose a block-wise image transformation method with a secret key for support vector machine (SVM) models. Models trained by using transformed images offer a poor performance to unauthorized users without a key, while they can offer a high performance to authorized users with a key. The proposed method is demonstrated to be robust enough against unauthorized access even under the use of kernel functions in a facial recognition experiment.
翻訳日:2021-11-18 14:41:41 公開日:2021-11-17
# TraSw:マルチオブジェクト追跡に対するトラブレットスイッチ対応攻撃

TraSw: Tracklet-Switch Adversarial Attacks against Multi-Object Tracking ( http://arxiv.org/abs/2111.08954v1 )

ライセンス: Link先を確認
Delv Lin, Qi Chen, Chengyu Zhou, Kun He(参考訳) ディープニューラルネットワークの発展により、MOT(Multi-Object Tracking)は積極的な進歩を遂げた。 現在、リアルタイムジョイント検出追跡(jdt)ベースのmotトラッカーは注目を集め、多くの優れたモデルを生み出している。 しかし,jdtトラッカのロバスト性はほとんど研究されておらず,その成熟したアソシエーションアルゴリズムは追跡中のエラーに対してロバストであるように設計されているため,motシステムへの攻撃が困難である。 本研究では,jdtトラッカの弱点を分析し,motの完全なトラッキングパイプラインに対して,trasw(tracklet-swit ch)と呼ばれる新しい攻撃手法を提案する。 具体的には、プッシュプル損失と中心跳躍最適化は、リid機能とオブジェクト検出の両方の逆の例を生成するように設計されている。 traswは追跡者を騙して、ごくわずかなフレームを攻撃して、その後のフレームのターゲットを追跡できないようにする。 本手法は,MOT-Challengeデータセット(2DMOT15,MOT17,MOT20 )を用いて,高度なディープトラッカー(FairMOT,JDE,ByteTra ck)上で評価する。 実験の結果,traswは,単発攻撃では平均5フレームのみを攻撃し,多発攻撃では80%以上の成功率で95%以上の成功率を達成できた。 コードはhttps://github.com/D erryHub/FairMOT- attack で入手できる。

Benefiting from the development of Deep Neural Networks, Multi-Object Tracking (MOT) has achieved aggressive progress. Currently, the real-time Joint-Detection-Trac king (JDT) based MOT trackers gain increasing attention and derive many excellent models. However, the robustness of JDT trackers is rarely studied, and it is challenging to attack the MOT system since its mature association algorithms are designed to be robust against errors during tracking. In this work, we analyze the weakness of JDT trackers and propose a novel adversarial attack method, called Tracklet-Switch (TraSw), against the complete tracking pipeline of MOT. Specifically, a push-pull loss and a center leaping optimization are designed to generate adversarial examples for both re-ID feature and object detection. TraSw can fool the tracker to fail to track the targets in the subsequent frames by attacking very few frames. We evaluate our method on the advanced deep trackers (i.e., FairMOT, JDE, ByteTrack) using the MOT-Challenge datasets (i.e., 2DMOT15, MOT17, and MOT20). Experiments show that TraSw can achieve a high success rate of over 95% by attacking only five frames on average for the single-target attack and a reasonably high success rate of over 80% for the multiple-target attack. The code is available at https://github.com/D erryHub/FairMOT-atta ck .
翻訳日:2021-11-18 14:41:33 公開日:2021-11-17
# exemplar-guided contrastive learning による歩行者検出

Pedestrian Detection by Exemplar-Guided Contrastive Learning ( http://arxiv.org/abs/2111.08974v1 )

ライセンス: Link先を確認
Zebin Lin, Wenjie Pei, Fanglin Chen, David Zhang, and Guangming Lu(参考訳) 歩行者検出の典型的な方法は、混み合った歩行者間の相互閉塞に取り組むか、歩行者の様々な規模を扱うかである。 異なる歩行者シルエット、異なる視点、異なるドレッシングなどの外観の多様性を持つ歩行者の検出は、重要な課題である。 提案手法では,これらの多様な歩行者の外観特徴を個別に学習する代わりに,学習した特徴空間に異なる外観を持つ歩行者間の意味的距離を最小化して外観の多様性を排除し,歩行者と背景の間の距離を最大化するように,特徴学習の指導を行う。 コントラスト学習の効率性と有効性を高めるために,先行知識として,歩行者を代表とする例題辞書を構築し,効果的なコントラスト学習ペアを構築し,コントラスト学習を指導する。 さらに、構築した例示辞書を利用して、提案と例示辞書のセマンティック距離を測定することにより、推論中の歩行者提案の質を評価する。 昼と夜の両方の歩行者検出実験により,提案手法の有効性が検証された。

Typical methods for pedestrian detection focus on either tackling mutual occlusions between crowded pedestrians, or dealing with the various scales of pedestrians. Detecting pedestrians with substantial appearance diversities such as different pedestrian silhouettes, different viewpoints or different dressing, remains a crucial challenge. Instead of learning each of these diverse pedestrian appearance features individually as most existing methods do, we propose to perform contrastive learning to guide the feature learning in such a way that the semantic distance between pedestrians with different appearances in the learned feature space is minimized to eliminate the appearance diversities, whilst the distance between pedestrians and background is maximized. To facilitate the efficiency and effectiveness of contrastive learning, we construct an exemplar dictionary with representative pedestrian appearances as prior knowledge to construct effective contrastive training pairs and thus guide contrastive learning. Besides, the constructed exemplar dictionary is further leveraged to evaluate the quality of pedestrian proposals during inference by measuring the semantic distance between the proposal and the exemplar dictionary. Extensive experiments on both daytime and nighttime pedestrian detection validate the effectiveness of the proposed method.
翻訳日:2021-11-18 14:41:07 公開日:2021-11-17
# 深部畳み込み特徴に基づく非線形強度ソナー画像マッチング

Nonlinear Intensity Sonar Image Matching based on Deep Convolution Features ( http://arxiv.org/abs/2111.08994v1 )

ライセンス: Link先を確認
Xiaoteng Zhou, Changli Yu, Xin Yuan, Yi Wu, Haijun Feng, Citong Luo(参考訳) 深海探査の分野では、ソナーが唯一の効率的な長距離センシング装置である。 ノイズ干渉や低目標強度、背景ダイナミクスといった複雑な水中環境は、ソナーイメージングに多くの悪影響を与えている。 その中でも非線形強度の問題は極めて一般的である。 これは音響画像の異方性としても知られており、AUVがソナーを携帯して異なる角度から同じターゲットを検出するとき、画像対の強度差が非常に大きい場合があり、従来のマッチングアルゴリズムはほとんど効果がない。 しかし、画像マッチングはナビゲーション、ポジショニング、マッピングといった包括的なタスクの基礎となっている。 したがって、堅牢で正確なマッチング結果を得ることは非常に貴重である。 本稿では,位相情報と深部畳み込み特徴に基づく組み合わせマッチング手法を提案する。 1つはソナー画像の局所的および大域的位置の類似性を測定するために深部畳み込み特徴を用いることができ、もう1つはソナー画像のキーターゲット位置において局所的特徴マッチングを行うことができることである。 この手法は複雑な手動設計を必要とせず、非線形強度ソナー画像のマッチング処理をエンドツーエンドで完了させる。 AUVが捉えた深海ソナー画像に特徴マッチング実験を行い,提案手法の精度とロバスト性について検討した。

In the field of deep-sea exploration, sonar is presently the only efficient long-distance sensing device. The complicated underwater environment, such as noise interference, low target intensity or background dynamics, has brought many negative effects on sonar imaging. Among them, the problem of nonlinear intensity is extremely prevalent. It is also known as the anisotropy of acoustic imaging, that is, when AUVs carry sonar to detect the same target from different angles, the intensity difference between image pairs is sometimes very large, which makes the traditional matching algorithm almost ineffective. However, image matching is the basis of comprehensive tasks such as navigation, positioning, and mapping. Therefore, it is very valuable to obtain robust and accurate matching results. This paper proposes a combined matching method based on phase information and deep convolution features. It has two outstanding advantages: one is that deep convolution features could be used to measure the similarity of the local and global positions of the sonar image; the other is that local feature matching could be performed at the key target position of the sonar image. This method does not need complex manual design, and completes the matching task of nonlinear intensity sonar images in a close end-to-end manner. Feature matching experiments are carried out on the deep-sea sonar images captured by AUVs, and the results show that our proposal has good matching accuracy and robustness.
翻訳日:2021-11-18 14:40:46 公開日:2021-11-17
# (参考訳) 分布外データに基づくディープネットワークの一般化と検証 [全文訳有]

Understanding and Testing Generalization of Deep Networks on Out-of-Distribution Data ( http://arxiv.org/abs/2111.09190v1 )

ライセンス: CC BY 4.0
Rui Hu, Jitao Sang, Jinqiang Wang, Rui Hu, Chaoquan Jiang(参考訳) ディープネットワークモデルは、In-Distribution(ID)データでは優れた性能を発揮するが、Out-Of-Distribution( OOD)データでは著しく失敗する可能性がある。 OODの一般化の改善に焦点が当てられているが、OODデータを扱うモデルの性能を評価することにはほとんど注意が払われている。 本研究は,実験的なIDテストの問題を分析し,OODテストパラダイムを設計し,実用性能を正確に評価することを目的とする。 分析は,OODデータを生成するために,3種類の分布シフトの分類を導入した。 1) 単一モデルの実際の性能を反映せず、OODデータの下で異なるモデルの比較も行わない場合、IDテストは失敗する。 2) IDテストの失敗は, 対応する分布シフトから得られた学習限界と条件の急激な相関に説明できる。 そこで本研究では,OODテストの新たなパラダイムを提案するとともに,モデルデバッギングのガイドとなるモデルのバグを見つけるためのOODテスト結果の活用方法について検討する。

Deep network models perform excellently on In-Distribution (ID) data, but can significantly fail on Out-Of-Distribution (OOD) data. While developing methods focus on improving OOD generalization, few attention has been paid to evaluating the capability of models to handle OOD data. This study is devoted to analyzing the problem of experimental ID test and designing OOD test paradigm to accurately evaluate the practical performance. Our analysis is based on an introduced categorization of three types of distribution shifts to generate OOD data. Main observations include: (1) ID test fails in neither reflecting the actual performance of a single model nor comparing between different models under OOD data. (2) The ID test failure can be ascribed to the learned marginal and conditional spurious correlations resulted from the corresponding distribution shifts. Based on this, we propose novel OOD test paradigms to evaluate the generalization capacity of models to unseen data, and discuss how to use OOD test results to find bugs of models to guide model debugging.
翻訳日:2021-11-18 14:39:27 公開日:2021-11-17
# 空港タクシーの時間予測と耐久:畳み込みニューラルネットワークによるアプローチ

Airport Taxi Time Prediction and Alerting: A Convolutional Neural Network Approach ( http://arxiv.org/abs/2111.09139v1 )

ライセンス: Link先を確認
Erik Vargo, Alex Tien, Arian Jafari(参考訳) 本稿では,空港における平均タクシー走行時間が,次の1時間以内に予め定義された閾値を超えるかどうかを予測し,判定するための新しい手法を提案する。 このドメインでの以前の作業は、飛行毎のタクシーの運行時間を予測することに集中しており、ゲートから滑走路までのタクシー活動のモデル化に多大な労力とデータを必要としている。 表面レーダ情報から直接、最小限の処理で学習し、空港表面データ(例えば、滑走路構成、タクシープロセスにおける航空機の状態)を人工知能(ai)によって暗黙的かつ自動的に推測するように、空港表面データを組み込んだコンピュータビジョンベースのモデルを提案する。

This paper proposes a novel approach to predict and determine whether the average taxi- out time at an airport will exceed a pre-defined threshold within the next hour of operations. Prior work in this domain has focused exclusively on predicting taxi-out times on a flight-by-flight basis, which requires significant efforts and data on modeling taxiing activities from gates to runways. Learning directly from surface radar information with minimal processing, a computer vision-based model is proposed that incorporates airport surface data in such a way that adaptation-specific information (e.g., runway configuration, the state of aircraft in the taxiing process) is inferred implicitly and automatically by Artificial Intelligence (AI).
翻訳日:2021-11-18 14:22:26 公開日:2021-11-17
# アンサンブルを用いたアグレッシブq-learning:高サンプル効率と高漸近性能の両立

Aggressive Q-Learning with Ensembles: Achieving Both High Sample Efficiency and High Asymptotic Performance ( http://arxiv.org/abs/2111.09159v1 )

ライセンス: Link先を確認
Yanqiu Wu, Xinyue Chen, Che Wang, Yiming Zhang, Zijian Zhou, Keith W. Ross(参考訳) 近年,批評家の分布表現を用いたTruncated Quantile Critics (TQC)は, MuJoCo連続制御ベンチマークスイートのすべての環境において,最先端の漸近的トレーニング性能を提供することを示した。 また,近年では,高度更新データ比と目標ランダム化を用いたランダム化アンサンブルダブルq-learning (redq) が,最先端モデルベース手法に匹敵する高いサンプル効率を達成した。 本稿では,redqのサンプル効率とtqcの漸近的性能を向上し,トレーニングのすべての段階での総合的最先端性能を提供する,新しいモデルフリーアルゴリズムであるアグレッシブq-learning with ensembles(aqe)を提案する。 さらに、AQEは非常に単純で、批評家の分布表現もターゲットのランダム化も必要としない。

Recently, Truncated Quantile Critics (TQC), using distributional representation of critics, was shown to provide state-of-the-art asymptotic training performance on all environments from the MuJoCo continuous control benchmark suite. Also recently, Randomized Ensemble Double Q-Learning (REDQ), using a high update-to-data ratio and target randomization, was shown to achieve high sample efficiency that is competitive with state-of-the-art model-based methods. In this paper, we propose a novel model-free algorithm, Aggressive Q-Learning with Ensembles (AQE), which improves the sample-efficiency performance of REDQ and the asymptotic performance of TQC, thereby providing overall state-of-the-art performance during all stages of training. Moreover, AQE is very simple, requiring neither distributional representation of critics nor target randomization.
翻訳日:2021-11-18 14:22:14 公開日:2021-11-17
# IV-GNN : グラフニューラルネットワークを用いた実時間値データ処理

IV-GNN : Interval Valued Data Handling Using Graph Neural Network ( http://arxiv.org/abs/2111.09194v1 )

ライセンス: Link先を確認
Sucheta Dawn and Sanghamitra Bandyopadhyay(参考訳) Graph Neural Network(GNN)は、グラフ上で標準的な機械学習を実行する強力なツールである。 非ユークリッドグラフのようなデータにおける全てのノードのユークリッド表現を得るため、GNNはグラフのエッジに沿って、近隣の集約と情報の組み合わせを繰り返す。 文献に多くのGNN変種があるにもかかわらず、インターバル値の特徴を持つノードを持つグラフを扱うモデルはない。 本稿では,新しいGNNモデルであるInterval-ValuedGraph Neural Networkを提案する。 我々のモデルは、任意の可算集合は常に可算集合 $R^{n}$ の部分集合であるので、既存のモデルよりもはるかに一般である。 ここでは、区間値の特徴ベクトルを扱うために、区間の新たな集約方式を提案し、異なる区間構造を捉えるための表現力を示す。 我々は,グラフ分類タスクのモデルに関する理論的知見を,複数のベンチマークネットワークおよび合成データセット上での最先端モデルとの比較により検証した。

Graph Neural Network (GNN) is a powerful tool to perform standard machine learning on graphs. To have a Euclidean representation of every node in the Non-Euclidean graph-like data, GNN follows neighbourhood aggregation and combination of information recursively along the edges of the graph. Despite having many GNN variants in the literature, no model can deal with graphs having nodes with interval-valued features. This article proposes an Interval-ValuedGraph Neural Network, a novel GNN model where, for the first time, we relax the restriction of the feature space being countable. Our model is much more general than existing models as any countable set is always a subset of the universal set $R^{n}$, which is uncountable. Here, to deal with interval-valued feature vectors, we propose a new aggregation scheme of intervals and show its expressive power to capture different interval structures. We validate our theoretical findings about our model for graph classification tasks by comparing its performance with those of the state-of-the-art models on several benchmark network and synthetic datasets.
翻訳日:2021-11-18 14:21:58 公開日:2021-11-17
# SmoothMix:認証ロバスト性のための信頼度校正型スムース分類器の訓練

SmoothMix: Training Confidence-calibrate d Smoothed Classifiers for Certified Robustness ( http://arxiv.org/abs/2111.09277v1 )

ライセンス: Link先を確認
Jongheon Jeong, Sejun Park, Minkyu Kim, Heung-Chang Lee, Doguk Kim, Jinwoo Shin(参考訳) ランダム化平滑化は、現在最先端の手法であり、$\ell_2$-adversarial 摂動に対してニューラルネットワークから確実に堅牢な分類器を構築する。 このパラダイムでは、分類器のロバスト性は予測信頼度、すなわち滑らかな分類器からの高い信頼度と一致している。 このことは、スムーズな分類器の信頼性の校正という観点から、精度と堅牢性の基本的なトレードオフを再考する動機となっている。 本稿では,SmoothMixという簡単なトレーニング手法を提案し,スムーズな分類器のロバスト性を自己混合により制御し,各入力に対する逆摂動方向に沿ったサンプルの凸結合を学習する。 提案手法は,スムーズな分類器の場合の頑健さが制限される原因として,自信過剰なオフクラス標本を効果的に同定し,これらの試料間の新たな決定境界を適応的に設定し,より堅牢性を高める。 提案手法は,従来のロバストなトレーニング手法と比較して,平滑化分類器の認証値である$\ell_2$-robustnessを大幅に改善できることが実証された。

Randomized smoothing is currently a state-of-the-art method to construct a certifiably robust classifier from neural networks against $\ell_2$-adversarial perturbations. Under the paradigm, the robustness of a classifier is aligned with the prediction confidence, i.e., the higher confidence from a smoothed classifier implies the better robustness. This motivates us to rethink the fundamental trade-off between accuracy and robustness in terms of calibrating confidences of a smoothed classifier. In this paper, we propose a simple training scheme, coined SmoothMix, to control the robustness of smoothed classifiers via self-mixup: it trains on convex combinations of samples along the direction of adversarial perturbation for each input. The proposed procedure effectively identifies over-confident, near off-class samples as a cause of limited robustness in case of smoothed classifiers, and offers an intuitive way to adaptively set a new decision boundary between these samples for better robustness. Our experimental results demonstrate that the proposed method can significantly improve the certified $\ell_2$-robustness of smoothed classifiers compared to existing state-of-the-art robust training methods.
翻訳日:2021-11-18 14:21:42 公開日:2021-11-17
# 異常検出のための自己監督型予測畳み込み回避ブロック

Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection ( http://arxiv.org/abs/2111.09099v1 )

ライセンス: Link先を確認
Nicolae-Catalin Ristea, Neelu Madan, Radu Tudor Ionescu, Kamal Nasrollahi, Fahad Shahbaz Khan, Thomas B. Moeslund, Mubarak Shah(参考訳) 異常検出は、通常と異常の両方のテストサンプルで評価しながら、モデルが通常のトレーニングサンプルからのみ学習できる、一級分類問題として一般的に追求されている。 異常検出に成功している手法としては,マスク情報(パッチ,将来のフレームなど)の予測や,マスク情報に対する再構成誤差を異常スコアとして活用する手法がある。 関連する手法と異なり,新しい自己教師あり予測アーキテクチャ構築ブロックに再構成に基づく機能を統合することを提案する。 提案する自己教師ブロックは汎用的であり、様々な最先端の異常検出方法に容易に組み込むことができる。 私たちのブロックは、レセプティブフィールドの中心領域がマスクされている拡張フィルタを備えた畳み込み層から始まります。 得られた活性化マップはチャネルアテンションモジュールを通過します。 我々のブロックは、受容領域におけるマスク領域に対する再構成誤差を最小限に抑える損失を備える。 画像や動画の異常検出のための最先端フレームワークに組み込んで,MVTec AD, Avenue, ShanghaiTechの性能向上を示す実証的な証拠を提供することで,ブロックの汎用性を実証する。

Anomaly detection is commonly pursued as a one-class classification problem, where models can only learn from normal training samples, while being evaluated on both normal and abnormal test samples. Among the successful approaches for anomaly detection, a distinguished category of methods relies on predicting masked information (e.g. patches, future frames, etc.) and leveraging the reconstruction error with respect to the masked information as an abnormality score. Different from related methods, we propose to integrate the reconstruction-based functionality into a novel self-supervised predictive architectural building block. The proposed self-supervised block is generic and can easily be incorporated into various state-of-the-art anomaly detection methods. Our block starts with a convolutional layer with dilated filters, where the center area of the receptive field is masked. The resulting activation maps are passed through a channel attention module. Our block is equipped with a loss that minimizes the reconstruction error with respect to the masked area in the receptive field. We demonstrate the generality of our block by integrating it into several state-of-the-art frameworks for anomaly detection on image and video, providing empirical evidence that shows considerable performance improvements on MVTec AD, Avenue, and ShanghaiTech.
翻訳日:2021-11-18 14:19:48 公開日:2021-11-17
# 低文長独立レイテンシを用いた高品質ストリーミング音声合成

High Quality Streaming Speech Synthesis with Low, Sentence-Length-Inde pendent Latency ( http://arxiv.org/abs/2111.09052v1 )

ライセンス: Link先を確認
Nikolaos Ellinas, Georgios Vamvoukakis, Konstantinos Markopoulos, Aimilios Chalamandaris, Georgia Maniati, Panos Kakoulidis, Spyros Raptis, June Sig Sung, Hyoungmin Park, Pirros Tsiakoulis(参考訳) 本稿では,リアルタイムアプリケーションに適した低レイテンシなエンドツーエンド音声合成システムを提案する。 本システムは,自己回帰型アテンションに基づくシーケンス・ツー・シーケンス音響モデルと,波形生成のためのLPCNetボコーダから構成される。 タコトロン1モデルと2モデルの両方からモジュールを採用する音響モデルアーキテクチャを提案し,最近提案された純粋に位置に基づくアテンション機構を用いて,任意の文長生成に適した安定性を確保する。 推論中、デコーダはロール解除され、音響特徴生成はストリーミング方式で行われ、文長とは独立なほぼ一定なレイテンシが実現される。 実験の結果、音響モデルは、コンピュータのcpuでリアルタイムに約31倍、モバイルcpuで6.5倍のレイテンシで特徴列を生成でき、両方のデバイスでリアルタイムアプリケーションに必要な条件を満足できることがわかった。 完全なエンドツーエンドシステムは、ほぼ自然な品質の音声を生成することができる。

This paper presents an end-to-end text-to-speech system with low latency on a CPU, suitable for real-time applications. The system is composed of an autoregressive attention-based sequence-to-sequence acoustic model and the LPCNet vocoder for waveform generation. An acoustic model architecture that adopts modules from both the Tacotron 1 and 2 models is proposed, while stability is ensured by using a recently proposed purely location-based attention mechanism, suitable for arbitrary sentence length generation. During inference, the decoder is unrolled and acoustic feature generation is performed in a streaming manner, allowing for a nearly constant latency which is independent from the sentence length. Experimental results show that the acoustic model can produce feature sequences with minimal latency about 31 times faster than real-time on a computer CPU and 6.5 times on a mobile CPU, enabling it to meet the conditions required for real-time applications on both devices. The full end-to-end system can generate almost natural quality speech, which is verified by listening tests.
翻訳日:2021-11-18 14:19:29 公開日:2021-11-17
# 音韻特徴を用いた言語間低リソース話者適応

Cross-lingual Low Resource Speaker Adaptation Using Phonological Features ( http://arxiv.org/abs/2111.09075v1 )

ライセンス: Link先を確認
Georgia Maniati, Nikolaos Ellinas, Konstantinos Markopoulos, Georgios Vamvoukakis, June Sig Sung, Hyoungmin Park, Aimilios Chalamandaris and Pirros Tsiakoulis(参考訳) 連続列 tts への入力として音素の代わりに音韻的特徴を用いるという考えは、最近、ゼロショット多言語音声合成のために提案されている。 このアプローチは、ネイティブテキストストリームに埋め込まれた外部テキストのシームレスな発話を容易にするため、コードスイッチングに有用である。 本研究では,異なる言語に共通する音韻的特徴の集合に基づいて,言語に依存しない多話者モデルを訓練し,言語間話者適応の実現を目指す。 我々はまず,言語音韻的類似性が複数のソース・ターゲット言語の組み合わせの言語間TSに与える影響を実験した。 その後、視聴覚言語または未認識言語において、新たな話者の声の非常に限られたデータを用いてモデルを微調整し、対象話者のアイデンティティを保ちながら、等質の合成音声を実現する。 対象話者データの32発話と8発話を数えることで、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。 2つの適応発話しか利用できない極端なケースでは、我々のモデルは、一見の適応言語シナリオと未認識の適応言語シナリオの両方において、パフォーマンスが似ているため、少数の学習者として振る舞うことが分かりました。

The idea of using phonological features instead of phonemes as input to sequence-to-sequence TTS has been recently proposed for zero-shot multilingual speech synthesis. This approach is useful for code-switching, as it facilitates the seamless uttering of foreign text embedded in a stream of native text. In our work, we train a language-agnostic multispeaker model conditioned on a set of phonologically derived features common across different languages, with the goal of achieving cross-lingual speaker adaptation. We first experiment with the effect of language phonological similarity on cross-lingual TTS of several source-target language combinations. Subsequently, we fine-tune the model with very limited data of a new speaker's voice in either a seen or an unseen language, and achieve synthetic speech of equal quality, while preserving the target speaker's identity. With as few as 32 and 8 utterances of target speaker data, we obtain high speaker similarity scores and naturalness comparable to the corresponding literature. In the extreme case of only 2 available adaptation utterances, we find that our model behaves as a few-shot learner, as the performance is similar in both the seen and unseen adaptation language scenarios.
翻訳日:2021-11-18 14:19:08 公開日:2021-11-17
# 音素レベル韻律制御に基づくラッピング歌声合成

Rapping-Singing Voice Synthesis based on Phoneme-level Prosody Control ( http://arxiv.org/abs/2111.09146v1 )

ライセンス: Link先を確認
Konstantinos Markopoulos, Nikolaos Ellinas, Alexandra Vioni, Myrsini Christidou, Panos Kakoulidis, Georgios Vamvoukakis, Georgia Maniati, June Sig Sung, Hyoungmin Park, Pirros Tsiakoulis and Aimilios Chalamandaris(参考訳) 本稿では,任意の話者の声に適応可能なテキスト・ラッピング・歌唱システムを提案する。 読み上げ専用音声データに基づいて訓練されたタコトロンベースのマルチスピーカ音響モデルを使用し、音素レベルで韻律制御を行う。 また,従来のDSPアルゴリズムに基づくデータセット拡張と韻律操作についても検討した。 ニューラルTSモデルは、未確認の話者の限られた録音に微調整され、ターゲットの話者の声によるラッピング/歌唱合成を可能にする。 システムの詳細パイプラインは、カペラ歌からの目標ピッチと持続時間値の抽出と、合成前のターゲット話者の有効な音符の範囲への変換を含む。 また、WSOLAによる出力の韻律的操作のさらなる段階も、目標期間値の整合性を改善するために検討した。 合成音声は、楽器伴奏トラックと混合して完全な歌を生成することができる。 提案システムは,読み上げ専用学習データから合成歌唱音声を生成することを目的とした代替システムと比較して,主観的聴取テストにより評価する。 提案手法は,自然性を高めた高品質なラッピング/歌唱音声を生成できることを示す。

In this paper, a text-to-rapping/sing ing system is introduced, which can be adapted to any speaker's voice. It utilizes a Tacotron-based multispeaker acoustic model trained on read-only speech data and which provides prosody control at the phoneme level. Dataset augmentation and additional prosody manipulation based on traditional DSP algorithms are also investigated. The neural TTS model is fine-tuned to an unseen speaker's limited recordings, allowing rapping/singing synthesis with the target's speaker voice. The detailed pipeline of the system is described, which includes the extraction of the target pitch and duration values from an a capella song and their conversion into target speaker's valid range of notes before synthesis. An additional stage of prosodic manipulation of the output via WSOLA is also investigated for better matching the target duration values. The synthesized utterances can be mixed with an instrumental accompaniment track to produce a complete song. The proposed system is evaluated via subjective listening tests as well as in comparison to an available alternate system which also aims to produce synthetic singing voice from read-only training data. Results show that the proposed approach can produce high quality rapping/singing voice with increased naturalness.
翻訳日:2021-11-18 14:18:46 公開日:2021-11-17
# 住宅短期負荷予測のための安全なフェデレーション学習

Secure Federated Learning for Residential Short Term Load Forecasting ( http://arxiv.org/abs/2111.09248v1 )

ライセンス: Link先を確認
Joaquin Delgado Fernandez, Sergio Potenciano Menci, Charles Lee, Gilbert Fridgen(参考訳) 断続的かつ再生可能エネルギー源の導入は、電力システムにおける需要予測の重要性を高めている。 スマートメーターは、提供される測定粒度のために需要予測において重要な役割を果たす。 消費者のプライバシー上の懸念、競合相手やサードパーティとデータを共有するユーティリティやベンダの排除、規制の制約はスマートメーター予測の顔に制約がある。 本稿では,スマートメータデータを用いた短時間需要予測のための協調機械学習手法について検討する。 プライバシ保護技術とフェデレーション学習により、消費者がデータ、それを用いて生成されたモデル(識別プライバシ)、および通信手段(セキュアアグリゲーション)の両方に関する機密性を確保することができる。 評価された手法は、分散的で協調的でプライベートなシステムによって従来の集中型アプローチをどのように投影できるかを探求するいくつかのシナリオを考慮に入れている。 評価の結果、ほぼ完全なプライバシー予算(1.39,$10e^{-5}$)と(2.01,$10e^{-5}$)が得られ、性能上の妥協は無視できた。

The inclusion of intermittent and renewable energy sources has increased the importance of demand forecasting in power systems. Smart meters can play a critical role in demand forecasting due to the measurement granularity they provide. Consumers' privacy concerns, reluctance of utilities and vendors to share data with competitors or third parties, and regulatory constraints are some constraints smart meter forecasting faces. This paper examines a collaborative machine learning method for short-term demand forecasting using smart meter data as a solution to the previous constraints. Privacy preserving techniques and federated learning enable to ensure consumers' confidentiality concerning both, their data, the models generated using it (Differential Privacy), and the communication mean (Secure Aggregation). The methods evaluated take into account several scenarios that explore how traditional centralized approaches could be projected in the direction of a decentralized, collaborative and private system. The results obtained over the evaluations provided almost perfect privacy budgets (1.39,$10e^{-5}$) and (2.01,$10e^{-5}$) with a negligible performance compromise.
翻訳日:2021-11-18 14:15:53 公開日:2021-11-17
# Max-Min グループバンド

Max-Min Grouped Bandits ( http://arxiv.org/abs/2111.08862v1 )

ライセンス: Link先を確認
Zhenlin Wang and Jonathan Scarlett(参考訳) 本稿では, 腕を重なり合う可能性のあるグループに配置し, 最下位の腕が平均報酬が最も高いグループを見つけることを目的とした, マックスミン群バンディットと呼ばれるマルチアームバンディット問題を提案する。 この問題はレコメンデーションシステムのようなアプリケーションにも関心があり、広く研究されているロバスト最適化問題とも密接に関連している。 逐次除去とロバスト最適化に基づく2つのアルゴリズムを示し,サンプル数の上界を導出し,最大ミン最適群や近似最適群,アルゴリズムに依存しない下界を求めることを保証する。 興味のある場合における境界の厳密さの程度と、一様に厳密な境界を導出することの難しさについて論じる。

In this paper, we introduce a multi-armed bandit problem termed max-min grouped bandits, in which the arms are arranged in possibly-overlapping groups, and the goal is to find a group whose worst arm has the highest mean reward. This problem is of interest in applications such as recommendation systems, and is also closely related to widely-studied robust optimization problems. We present two algorithms based successive elimination and robust optimization, and derive upper bounds on the number of samples to guarantee finding a max-min optimal or near-optimal group, as well as an algorithm-independen t lower bound. We discuss the degree of tightness of our bounds in various cases of interest, and the difficulties in deriving uniformly tight bounds.
翻訳日:2021-11-18 14:15:34 公開日:2021-11-17
# 非パラメトリックオンライン学習の高速化 - ゲームにおける実現可能性から学習へ-

Fast Rates for Nonparametric Online Learning: From Realizability to Learning in Games ( http://arxiv.org/abs/2111.08911v1 )

ライセンス: Link先を確認
Constantinos Daskalakis and Noah Golowich(参考訳) 非パラメトリックオンライン回帰の設定における収束の速さ、すなわち、複雑性が有界な任意の関数クラスに対して後悔が定義される場合について検討する。 絶対損失を伴う非パラメトリックオンライン回帰(nonparametric online regression)の実現可能設定において、我々は、仮説クラスの逐次的脂肪分散次元の観点で、ほぼ最適の誤りを生じさせる確率的固有学習アルゴリズムを提案する。 リトルストーン次元 $d$ のクラスを持つオンライン分類の設定において、我々の境界は $d \cdot {\rm poly} \log t$ となる。 この結果は、適切な学習者がほぼ最適の誤り境界を達成できるかどうかという疑問に答える。以前はオンライン分類においても、最もよく知られた誤り境界は$\tilde O( \sqrt{dT})$であった。 さらに、実数値(回帰)設定では、この作業に先立って、不適切な学習者には最適な誤り境界が知られていなかった。 以上の結果を用いて,Littlestone 次元$d$の汎用バイナリゲームに対して,各プレイヤーが後悔する$\tilde O(d^{3/4} \cdot T^{1/4})$に対して独立学習アルゴリズムを示す。 この結果は、Syrgkanis et al. (2015) の類似の結果を一般化し、有限ゲームにおいて最適な後悔は、対数設定で$O(\sqrt{T})$からゲーム設定で$O(T^{1/4})$に加速できることを示した。 上記の結果を確立するために,実数値クラスにバウンドする最適誤りを達成するための階層的集約ルール,hannekeらオンライン実現可能な学習者のマルチスケール拡張(2021年),非パラメトリック学習アルゴリズムの出力が安定であることを示すアプローチ,オンライン学習可能なすべてのゲームにおいてminimax定理が成立する証拠など,いくつかの新しい手法を導入する。

We study fast rates of convergence in the setting of nonparametric online regression, namely where regret is defined with respect to an arbitrary function class which has bounded complexity. Our contributions are two-fold: - In the realizable setting of nonparametric online regression with the absolute loss, we propose a randomized proper learning algorithm which gets a near-optimal mistake bound in terms of the sequential fat-shattering dimension of the hypothesis class. In the setting of online classification with a class of Littlestone dimension $d$, our bound reduces to $d \cdot {\rm poly} \log T$. This result answers a question as to whether proper learners could achieve near-optimal mistake bounds; previously, even for online classification, the best known mistake bound was $\tilde O( \sqrt{dT})$. Further, for the real-valued (regression) setting, the optimal mistake bound was not even known for improper learners, prior to this work. - Using the above result, we exhibit an independent learning algorithm for general-sum binary games of Littlestone dimension $d$, for which each player achieves regret $\tilde O(d^{3/4} \cdot T^{1/4})$. This result generalizes analogous results of Syrgkanis et al. (2015) who showed that in finite games the optimal regret can be accelerated from $O(\sqrt{T})$ in the adversarial setting to $O(T^{1/4})$ in the game setting. To establish the above results, we introduce several new techniques, including: a hierarchical aggregation rule to achieve the optimal mistake bound for real-valued classes, a multi-scale extension of the proper online realizable learner of Hanneke et al. (2021), an approach to show that the output of such nonparametric learning algorithms is stable, and a proof that the minimax theorem holds in all online learnable games.
翻訳日:2021-11-18 14:15:20 公開日:2021-11-17
# 一般分布型正規化サブバンド適応フィルタ

A Generalized Proportionate-Type Normalized Subband Adaptive Filter ( http://arxiv.org/abs/2111.08952v1 )

ライセンス: Link先を確認
Kuan-Lin Chen, Ching-Hua Lee, Bhaskar D. Rao, Harinath Garudadri(参考訳) 重み付きノルムで正規化されたサブバンド誤差の最小二乗という新しい設計基準が、比例型正規化サブバンド適応フィルタリング(PtNSAF)フレームワークの一般化に利用できることを示す。 新しい基準はサブバンドエラーを直接ペナルティ化し、減衰正規化ニュートン法を用いて最小化されるスパーシティペナルティ項を含む。 汎用PtNSAF (GPtNSAF) のシステム同定問題に対するコンピュータシミュレーションによる影響について検討した。 具体的には, 準スパース, スパース, 分散システムにおいて, サブバンド数の違いと, 種々のスパースペナルティ項を用いることによる効果について検討する。 その結果, ターゲット系が準分散あるいは分散的である場合, サブバンド数の増加の利点は推定フィルタ係数のスパース性を促進することよりも大きいことがわかった。 一方で、スパースターゲットシステムでは、スパース性を促進することがより重要になる。 より重要なことに、この2つの側面は収束をスピードアップするためにgptnsafに補完的および付加的な利点を提供する。

We show that a new design criterion, i.e., the least squares on subband errors regularized by a weighted norm, can be used to generalize the proportionate-type normalized subband adaptive filtering (PtNSAF) framework. The new criterion directly penalizes subband errors and includes a sparsity penalty term which is minimized using the damped regularized Newton's method. The impact of the proposed generalized PtNSAF (GPtNSAF) is studied for the system identification problem via computer simulations. Specifically, we study the effects of using different numbers of subbands and various sparsity penalty terms for quasi-sparse, sparse, and dispersive systems. The results show that the benefit of increasing the number of subbands is larger than promoting sparsity of the estimated filter coefficients when the target system is quasi-sparse or dispersive. On the other hand, for sparse target systems, promoting sparsity becomes more important. More importantly, the two aspects provide complementary and additive benefits to the GPtNSAF for speeding up convergence.
翻訳日:2021-11-18 14:14:44 公開日:2021-11-17
# ペアワイズlogratiosを用いた合成データの教師付き学習への3つのアプローチ

Three approaches to supervised learning for compositional data with pairwise logratios ( http://arxiv.org/abs/2111.08953v1 )

ライセンス: Link先を確認
Germa Coenders and Michael Greenacre(参考訳) 構成データ分析の一般的なアプローチは、対数によるデータ変換である。 構成部品の対間の対数比(pairwise logratios)は、多くの研究課題において最も容易に解釈できる。 部品の数が大きければ、例えば、合成データセットにおける対数分散の最大割合を説明する対数対数の段階的選択に基づく教師なし学習法によって、ある種の対数選択が必須となる。 本稿では,一般化線形モデルにおいて従属変数を説明するのが最善であるペアワイズ対数式を選択するための3つのステップワイズ教師付き学習法を提案する。 最初の方法は制限のない検索を特徴とし、任意の対のlogratioを選択できる。 この手法は、対数のいくつかの部分の対が重なり合う場合、複雑な解釈を持つが、最も正確な予測につながる。 第2の方法は1回しか発生しない部分を制限するため、対応する対数法は直感的に解釈できる。 第3の方法は加算対数を使用するので、$K-1$選択対数には正確に$K$部分が含まれる。 この方法では、説明力が最も高い部分集合を探索する。 置換が特定されると、研究者の好む対比表現は、対対対対法だけでなく、その後の分析で用いられる。 本手法は,理論的知識に基づいて,対数や非構成共変をモデルに強制することを可能にし,ボンフェロニ補正による情報測度や統計的意義に基づいて,様々な停止基準が利用可能である。 クローン病を予測した研究から,データセット上の3つのアプローチの例を示す。 第1の方法は予測力の点で優れ、第2の方法は解釈可能性において優れている。

The common approach to compositional data analysis is to transform the data by means of logratios. Logratios between pairs of compositional parts (pairwise logratios) are the easiest to interpret in many research problems. When the number of parts is large, some form of logratio selection is a must, for instance by means of an unsupervised learning method based on a stepwise selection of the pairwise logratios that explain the largest percentage of the logratio variance in the compositional dataset. In this article we present three alternative stepwise supervised learning methods to select the pairwise logratios that best explain a dependent variable in a generalized linear model, each geared for a specific problem. The first method features unrestricted search, where any pairwise logratio can be selected. This method has a complex interpretation if some pairs of parts in the logratios overlap, but it leads to the most accurate predictions. The second method restricts parts to occur only once, which makes the corresponding logratios intuitively interpretable. The third method uses additive logratios, so that $K-1$ selected logratios involve exactly $K$ parts. This method in fact searches for the subcomposition with the highest explanatory power. Once the subcomposition is identified, the researcher's favourite logratio representation may be used in subsequent analyses, not only pairwise logratios. Our methodology allows logratios or non-compositional covariates to be forced into the models based on theoretical knowledge, and various stopping criteria are available based on information measures or statistical significance with the Bonferroni correction. We present an illustration of the three approaches on a dataset from a study predicting Crohn's disease. The first method excels in terms of predictive power, and the other two in interpretability.
翻訳日:2021-11-18 14:14:27 公開日:2021-11-17
# (参考訳) 視覚関係を構成するための学習 [全文訳有]

Learning to Compose Visual Relations ( http://arxiv.org/abs/2111.09297v1 )

ライセンス: CC0 1.0
Nan Liu, Shuang Li, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba(参考訳) 私たちの周りの視覚世界は、構造化されたオブジェクトの集合とその関連関係として記述できる。 部屋のイメージは、基礎となるオブジェクトとその関連関係の記述のみを考慮すれば、偽装することができる。 個々のオブジェクトをまとめて構成するディープニューラルネットワークの設計には大きな成果があるが、個々のオブジェクト間の関係を構成するための作業は少ない。 主な困難は、オブジェクトの配置が互いに独立であるが、それらの関係が絡み合って互いに依存していることである。 この問題を回避するため、既存の研究は主にテキストやグラフの形で、全体エンコーダを用いて関係を構成する。 本研究では,各関係を非正規化密度(エネルギーベースモデル)として表現することを提案する。 このような分解を分解することで、複数の関係を持つシーンをより忠実に生成・編集できることを示す。 さらに,モデルの分解により,基礎となる関係シーン構造を効果的に理解できることを示した。 プロジェクトページ: https://composevisua lrelations.github.io /

The visual world around us can be described as a structured set of objects and their associated relations. An image of a room may be conjured given only the description of the underlying objects and their associated relations. While there has been significant work on designing deep neural networks which may compose individual objects together, less work has been done on composing the individual relations between objects. A principal difficulty is that while the placement of objects is mutually independent, their relations are entangled and dependent on each other. To circumvent this issue, existing works primarily compose relations by utilizing a holistic encoder, in the form of text or graphs. In this work, we instead propose to represent each relation as an unnormalized density (an energy-based model), enabling us to compose separate relations in a factorized manner. We show that such a factorized decomposition allows the model to both generate and edit scenes that have multiple sets of relations more faithfully. We further show that decomposition enables our model to effectively understand the underlying relational scene structure. Project page at: https://composevisua lrelations.github.io /.
翻訳日:2021-11-18 14:12:15 公開日:2021-11-17
# 代理説明の不確実性定量化--順序コンセンサスアプローチ

Uncertainty Quantification of Surrogate Explanations: an Ordinal Consensus Approach ( http://arxiv.org/abs/2111.09121v1 )

ライセンス: Link先を確認
Jonas Schulz, Rafael Poyiadzi, Raul Santos-Rodriguez(参考訳) ブラックボックス機械学習モデルの説明可能性は、特に医療や自動運転車といった重要なアプリケーションにデプロイする場合に不可欠である。 既存のアプローチはモデルの予測のための説明を生成するが、そのような説明の質と信頼性をどのように評価するかは未解決である。 本稿では,説明の信頼性を判断するツールを実践者に提供するために,さらに一歩進める。 この目的のために,多様なブートストラップ型サロゲート説明器群間の順序コンセンサスを測定することにより,与えられた説明の不確実性の推定を行う。 我々は,アンサンブル手法を用いて多様性を奨励する一方で,評価手法を通じて説明者の集合に含まれる情報を集約するメトリクスを提案し,分析する。 我々は、最先端の畳み込みニューラルネットワークアンサンブルの実験を通して、このアプローチの性質を実証的に示す。 さらに,不確実性推定がユーザに対して,標準的な代理説明者から生じているもの以外の具体的な洞察を与える状況の具体例を示す。

Explainability of black-box machine learning models is crucial, in particular when deployed in critical applications such as medicine or autonomous cars. Existing approaches produce explanations for the predictions of models, however, how to assess the quality and reliability of such explanations remains an open question. In this paper we take a step further in order to provide the practitioner with tools to judge the trustworthiness of an explanation. To this end, we produce estimates of the uncertainty of a given explanation by measuring the ordinal consensus amongst a set of diverse bootstrapped surrogate explainers. While we encourage diversity by using ensemble techniques, we propose and analyse metrics to aggregate the information contained within the set of explainers through a rating scheme. We empirically illustrate the properties of this approach through experiments on state-of-the-art Convolutional Neural Network ensembles. Furthermore, through tailored visualisations, we show specific examples of situations where uncertainty estimates offer concrete actionable insights to the user beyond those arising from standard surrogate explainers.
翻訳日:2021-11-18 13:50:06 公開日:2021-11-17
# GFlowNetの基礎

GFlowNet Foundations ( http://arxiv.org/abs/2111.09266v1 )

ライセンス: Link先を確認
Yoshua Bengio, Tristan Deleu, Edward J. Hu, Salem Lahlou, Mo Tiwari and Emmanuel Bengio(参考訳) Generative Flow Networks (GFlowNets) は、与えられた報酬関数に比例したおよそサンプルをトレーニング目的として、アクティブな学習コンテキストにおける多様な候補セットをサンプリングする手法として導入された。 本稿では,gflownets のさらなる理論的性質について述べる。 これらは、ある変数が不特定であり、特に興味があるのは、集合やグラフのような複合オブジェクト上の分布を表現することができる、合同確率分布と対応する辺分布の推定に使うことができる。 GFlowNetsは、計算コストのかかるMCMCメソッドによって、単一のが訓練された生成パスで実行される作業を記憶している。 また、分割関数や自由エネルギー、部分集合(サブグラフ)が与えられたスーパー集合(スーパーグラフ)の条件付き確率、与えられた集合(グラフ)のすべてのスーパー集合(スーパーグラフ)上の限界分布の推定にも使うことができる。 本稿では,エントロピーと相互情報の推定を可能にするバリエーション,パレートフロンティアからのサンプリング,報酬最大化政策への接続,確率環境への拡張,連続作用,モジュラーエネルギー関数などを紹介する。

Generative Flow Networks (GFlowNets) have been introduced as a method to sample a diverse set of candidates in an active learning context, with a training objective that makes them approximately sample in proportion to a given reward function. In this paper, we show a number of additional theoretical properties of GFlowNets. They can be used to estimate joint probability distributions and the corresponding marginal distributions where some variables are unspecified and, of particular interest, can represent distributions over composite objects like sets and graphs. GFlowNets amortize the work typically done by computationally expensive MCMC methods in a single but trained generative pass. They could also be used to estimate partition functions and free energies, conditional probabilities of supersets (supergraphs) given a subset (subgraph), as well as marginal distributions over all supersets (supergraphs) of a given set (graph). We introduce variations enabling the estimation of entropy and mutual information, sampling from a Pareto frontier, connections to reward-maximizing policies, and extensions to stochastic environments, continuous actions and modular energy functions.
翻訳日:2021-11-18 13:49:49 公開日:2021-11-17
# 条件付き確率に基づくランク整合順序回帰のためのディープニューラルネットワーク

Deep Neural Networks for Rank-Consistent Ordinal Regression Based On Conditional Probabilities ( http://arxiv.org/abs/2111.08851v1 )

ライセンス: Link先を確認
Xintong Shi, Wenzhi Cao, Sebastian Raschka(参考訳) 近年、ディープニューラルネットワークは様々な分類やパターン認識タスクにおいて優れた予測性能を達成している。 しかし、実世界の多くの予測問題は順序応答変数を持ち、この順序情報は多カテゴリークロスエントロピーのような従来の分類損失によって無視される。 ディープニューラルネットワークのための順序回帰手法がこれに対処する。 そのような手法の1つは、初期のバイナリラベル拡張フレームワークに基づくCORAL法であり、重み付け制約を課すことで出力層タスク間のランク一貫性を実現する。 しかしながら、以前の実験では、コーラルのランク一貫性がパフォーマンスに有益であることを示していたが、重み共有制約はディープニューラルネットワークの表現性を厳しく制限する可能性がある。 本稿では,ニューラルネットワークの完全連結出力層において重み共有制約を必要としない,ランク整合順序回帰の代替手法を提案する。 条件付きトレーニングセットを用いた新しい学習方式により,条件付き確率分布の連鎖則を適用し,無条件のランク確率を求める。 各種データセットを用いた実験により,本手法の有効性が示され,重み共有制限がないことにより,サンゴ基準法に比べて性能が大幅に向上した。

In recent times, deep neural networks achieved outstanding predictive performance on various classification and pattern recognition tasks. However, many real-world prediction problems have ordinal response variables, and this ordering information is ignored by conventional classification losses such as the multi-category cross-entropy. Ordinal regression methods for deep neural networks address this. One such method is the CORAL method, which is based on an earlier binary label extension framework and achieves rank consistency among its output layer tasks by imposing a weight-sharing constraint. However, while earlier experiments showed that CORAL's rank consistency is beneficial for performance, the weight-sharing constraint could severely restrict the expressiveness of a deep neural network. In this paper, we propose an alternative method for rank-consistent ordinal regression that does not require a weight-sharing constraint in a neural network's fully connected output layer. We achieve this rank consistency by a novel training scheme using conditional training sets to obtain the unconditional rank probabilities through applying the chain rule for conditional probability distributions. Experiments on various datasets demonstrate the efficacy of the proposed method to utilize the ordinal target information, and the absence of the weight-sharing restriction improves the performance substantially compared to the CORAL reference approach.
翻訳日:2021-11-18 13:49:30 公開日:2021-11-17
# 授業ビデオ検索のための言語基底型マルチモーダルスキーマの誘導,編集,検索

Induce, Edit, Retrieve:Language Grounded Multimodal Schema for Instructional Video Retrieval ( http://arxiv.org/abs/2111.09276v1 )

ライセンス: Link先を確認
Yue Yang, Joongwon Kim, Artemis Panagopoulou, Mark Yatskar, Chris Callison-Burch(参考訳) Schemataは複雑なタスクの構造化された表現で、複雑なタスクを中間ステップに分割することで人工知能を支援する。 本稿では,web ビデオからスキーマタを誘導し,未認識のタスクを汎用化し,映像検索性能の向上を目標とした新しいシステムを提案する。 本システムでは,(1)関連動画のタスクを与えられた場合,ビデオセグメントとwikiHowからのステップを表わすテキストとをマッチングするための共同ビデオテキストモデルを用いてタスクの初期スキーマを構築し,(2)既存のスキーマ内のテキストを編集するために言語モデルを活用することで,タスクを認識できないタスクに一般化する。 一般化により,より広い範囲のタスクを少量の学習データでカバーすることが可能となり,(3)未知のタスク名をクエリとしてゼロショット映像検索を行う。 提案手法は既存のビデオ検索手法よりも優れており,システムによって誘導されるスキーマは,他のモデルより優れていることを示す。

Schemata are structured representations of complex tasks that can aid artificial intelligence by allowing models to break down complex tasks into intermediate steps. We propose a novel system that induces schemata from web videos and generalizes them to capture unseen tasks with the goal of improving video retrieval performance. Our system proceeds in three major phases: (1) Given a task with related videos, we construct an initial schema for a task using a joint video-text model to match video segments with text representing steps from wikiHow; (2) We generalize schemata to unseen tasks by leveraging language models to edit the text within existing schemata. Through generalization, we can allow our schemata to cover a more extensive range of tasks with a small amount of learning data; (3) We conduct zero-shot instructional video retrieval with the unseen task names as the queries. Our schema-guided approach outperforms existing methods for video retrieval, and we demonstrate that the schemata induced by our system are better than those generated by other models.
翻訳日:2021-11-18 13:47:06 公開日:2021-11-17
# AlphaZeroにおけるチェス知識の獲得

Acquisition of Chess Knowledge in AlphaZero ( http://arxiv.org/abs/2111.09259v1 )

ライセンス: Link先を確認
Thomas McGrath and Andrei Kapishnikov and Nenad Toma\v{s}ev and Adam Pearce and Demis Hassabis and Been Kim and Ulrich Paquet and Vladimir Kramnik(参考訳) AlphaZeroのような超人的ニューラルネットワークエージェントから何が学べるのか? この問題は科学と実践の両方の関心事である。 強いニューラルネットワークの表現が人間の概念に似ていない場合、決定の忠実な説明を理解する能力は制限され、最終的にはニューラルネットワークの解釈可能性によって達成できることを制限する。 本研究では,チェスのゲームでトレーニングを行う際に,alphazeroニューラルネットワークによって人間の知識が獲得されることを示す。 幅広い人間のチェスの概念を探索することで、これらの概念がalphazeroネットワークで表現される時期と場所を示す。 チェスのグランドマスターであるウラジーミル・クラムニクの質的分析を含む、オープニングプレイに焦点を当てた行動分析も提供する。 最後に、alphazeroの表現の低レベルな詳細を調査し、その結果の振る舞いと表現分析をオンラインで利用可能にする予備的な調査を行う。

What is being learned by superhuman neural network agents such as AlphaZero? This question is of both scientific and practical interest. If the representations of strong neural networks bear no resemblance to human concepts, our ability to understand faithful explanations of their decisions will be restricted, ultimately limiting what we can achieve with neural network interpretability. In this work we provide evidence that human knowledge is acquired by the AlphaZero neural network as it trains on the game of chess. By probing for a broad range of human chess concepts we show when and where these concepts are represented in the AlphaZero network. We also provide a behavioural analysis focusing on opening play, including qualitative analysis from chess Grandmaster Vladimir Kramnik. Finally, we carry out a preliminary investigation looking at the low-level details of AlphaZero's representations, and make the resulting behavioural and representational analyses available online.
翻訳日:2021-11-18 13:46:45 公開日:2021-11-17
# DiverGAN: 多様なテキスト・画像生成のための効率的かつ効果的なシングルステージフレームワーク

DiverGAN: An Efficient and Effective Single-Stage Framework for Diverse Text-to-Image Generation ( http://arxiv.org/abs/2111.09267v1 )

ライセンス: Link先を確認
Zhenxing Zhang and Lambert Schomaker(参考訳) 本稿では,多種多様で可塑性,セマンティックに整合した画像を生成するための,効率的かつ効果的な単一ステージフレームワーク(DiverGAN)を提案する。 diverganは2つの新しい単語レベルのアテンションモジュール、すなわちチャネルアテンションモジュール(cam)とピクセルアテンションモジュール(pam)を採用している。 その後、条件適応型インスタンス-階層正規化(CAdaILN)を導入し、文の埋め込みによる言語的手がかりを活用し、形やテクスチャの変化量を柔軟に操作し、視覚的意味表現を改善し、トレーニングの安定化を支援する。 また、より深いネットワークを実現し、より高速な収束速度とより鮮明な詳細を実現するために、よりオリジナルな視覚的特徴を保存するために二重残差構造が開発されている。 さらに,密度の高い層がネットワークの生成能力を著しく向上し,変形に寄与する低次元のランダムな潜在コードと,高次元とテクストのコンテキストを用いた変調モジュールとのトレードオフをバランスさせ,特徴マップの強化を図るため,パイプラインに完全接続した層を接続する手法を提案する。 第2残差ブロックの後に線形層を挿入すると、最良の多様性と品質が得られる。 ベンチマークデータセットの質的および定量的な結果は、品質とセマンティック一貫性を損なうことなく、多様性を実現するためのDiverGANの優位性を示している。

In this paper, we present an efficient and effective single-stage framework (DiverGAN) to generate diverse, plausible and semantically consistent images according to a natural-language description. DiverGAN adopts two novel word-level attention modules, i.e., a channel-attention module (CAM) and a pixel-attention module (PAM), which model the importance of each word in the given sentence while allowing the network to assign larger weights to the significant channels and pixels semantically aligning with the salient words. After that, Conditional Adaptive Instance-Layer Normalization (CAdaILN) is introduced to enable the linguistic cues from the sentence embedding to flexibly manipulate the amount of change in shape and texture, further improving visual-semantic representation and helping stabilize the training. Also, a dual-residual structure is developed to preserve more original visual features while allowing for deeper networks, resulting in faster convergence speed and more vivid details. Furthermore, we propose to plug a fully-connected layer into the pipeline to address the lack-of-diversity problem, since we observe that a dense layer will remarkably enhance the generative capability of the network, balancing the trade-off between a low-dimensional random latent code contributing to variants and modulation modules that use high-dimensional and textual contexts to strength feature maps. Inserting a linear layer after the second residual block achieves the best variety and quality. Both qualitative and quantitative results on benchmark data sets demonstrate the superiority of our DiverGAN for realizing diversity, without harming quality and semantic consistency.
翻訳日:2021-11-18 13:45:26 公開日:2021-11-17
# 野生での逐次行動の調整を学ぶ

Learning to Align Sequential Actions in the Wild ( http://arxiv.org/abs/2111.09301v1 )

ライセンス: Link先を確認
Weizhe Liu, Bugra Tekin, Huseyin Coskun, Vibhav Vineet, Pascal Fua, Marc Pollefeys(参考訳) 自己教師付きシーケンシャルなアクションアライメントのための最先端の手法は、時間内にビデオ間で対応関係を見つけるディープネットワークに依存している。 彼らは、時間的情報を利用しないシーケンス間のフレーム間マッピングを学ぶか、アクションの順序のバリエーションを無視した各ビデオペア間のモノトニックアライメントを仮定する。 したがって、これらのメソッドは、非単調なアクションシーケンスを含む背景フレームやビデオを含む、一般的な現実世界のシナリオに対応できない。 本稿では,多様な時間的変動を伴う野生における逐次行動の調整手法を提案する。 そこで本研究では,行動の順序の変動を許容しながら,時間的一貫性を生かした最適輸送行列の時間的優先順位を強制する手法を提案する。 我々のモデルは単調なシーケンスと非単調なシーケンスの両方を考慮し、整列すべきでないバックグラウンドフレームを処理する。 4つのベンチマークデータセット上での自己教師付きシーケンシャルなアクション表現学習において,我々のアプローチが最先端を一貫して上回っていることを実証する。

State-of-the-art methods for self-supervised sequential action alignment rely on deep networks that find correspondences across videos in time. They either learn frame-to-frame mapping across sequences, which does not leverage temporal information, or assume monotonic alignment between each video pair, which ignores variations in the order of actions. As such, these methods are not able to deal with common real-world scenarios that involve background frames or videos that contain non-monotonic sequence of actions. In this paper, we propose an approach to align sequential actions in the wild that involve diverse temporal variations. To this end, we propose an approach to enforce temporal priors on the optimal transport matrix, which leverages temporal consistency, while allowing for variations in the order of actions. Our model accounts for both monotonic and non-monotonic sequences and handles background frames that should not be aligned. We demonstrate that our approach consistently outperforms the state-of-the-art in self-supervised sequential action representation learning on four different benchmark datasets.
翻訳日:2021-11-18 13:44:52 公開日:2021-11-17
# (参考訳) 関節内挿レンズによる運動解析 [全文訳有]

Memotion Analysis through the Lens of Joint Embedding ( http://arxiv.org/abs/2111.07074v2 )

ライセンス: CC BY 4.0
Nethra Gunti, Sathyanarayanan Ramamoorthy, Parth Patwa, Amitava Das(参考訳) ジョイント埋め込み (JE) は、テキストがグラウンドキーとして残るベクトル空間にマルチモーダルデータをエンコードする方法であり、画像のようなモダリティはそのようなキーで固定される。 ミームは一般的にテキストが埋め込まれた画像である。 ミームは一般的に楽しむために使われるが、憎悪や偽の情報を広めるのにも用いられる。 いくつかのソーシャルプラットフォームへの普及とともに、ミームの自動分析が広く研究の話題になってきた。 本稿では,ジョイント埋め込みによる運動解析問題の最初の実験について報告する。 結果が微妙にsotaになる。

Joint embedding (JE) is a way to encode multi-modal data into a vector space where text remains as the grounding key and other modalities like image are to be anchored with such keys. Meme is typically an image with embedded text onto it. Although, memes are commonly used for fun, they could also be used to spread hate and fake information. That along with its growing ubiquity over several social platforms has caused automatic analysis of memes to become a widespread topic of research. In this paper, we report our initial experiments on Memotion Analysis problem through joint embeddings. Results are marginally yielding SOTA.
翻訳日:2021-11-18 12:44:19 公開日:2021-11-17
# (参考訳) フェデレーション量子化ニューラルネットワークにおけるエネルギー・精度・精度のトレードオフについて [全文訳有]

On the Tradeoff between Energy, Precision, and Accuracy in Federated Quantized Neural Networks ( http://arxiv.org/abs/2111.07911v2 )

ライセンス: CC BY 4.0
Minsu Kim, Walid Saad, Mohammad Mozaffari, and Merouane Debbah(参考訳) リソース制約のあるデバイスで無線ネットワークにフェデレーション学習(FL)をデプロイするには、精度、エネルギー効率、精度のバランスをとる必要がある。 FLの先行技術は、データ表現の精度を向上させるために32ビットの精度レベルを使用してディープニューラルネットワーク(DNN)をトレーニングするデバイスを必要とすることが多い。 しかし、DNNは数百万の操作を実行する必要があるため、リソース制約のあるデバイスではそのようなアルゴリズムは実用的ではない。 したがって、DNNを高精度に訓練すると、FLの高エネルギーコストが発生する。 本稿では,ローカルトレーニングとアップリンク伝送の両方において,有限レベルの精度でデータを表現する量子化FLフレームワークを提案する。 ここでは、有限レベルの精度が、固定精度フォーマットで重みとアクティベーションを定量化する量子ニューラルネットワーク(QNN)を使用して取得される。 検討されたFLモデルでは、各デバイスがQNNを訓練し、量子化されたトレーニング結果を基地局に送信する。 局所訓練のためのエネルギーモデルと量子化を伴う伝達は厳格に導出される。 収束を確保しつつ、精度のレベルに対してエネルギー最小化問題を定式化する。 この問題を解決するために,まずfl収束率を解析的に導出し,線探索法を用いる。 シミュレーションの結果,我々のFLフレームワークは標準FLモデルと比較して最大53%のエネルギー消費を削減できることがわかった。 結果は、無線ネットワーク上でのFLの精度、エネルギー、精度のトレードオフにも光を当てた。

Deploying federated learning (FL) over wireless networks with resource-constrained devices requires balancing between accuracy, energy efficiency, and precision. Prior art on FL often requires devices to train deep neural networks (DNNs) using a 32-bit precision level for data representation to improve accuracy. However, such algorithms are impractical for resource-constrained devices since DNNs could require execution of millions of operations. Thus, training DNNs with a high precision level incurs a high energy cost for FL. In this paper, a quantized FL framework, that represents data with a finite level of precision in both local training and uplink transmission, is proposed. Here, the finite level of precision is captured through the use of quantized neural networks (QNNs) that quantize weights and activations in fixed-precision format. In the considered FL model, each device trains its QNN and transmits a quantized training result to the base station. Energy models for the local training and the transmission with the quantization are rigorously derived. An energy minimization problem is formulated with respect to the level of precision while ensuring convergence. To solve the problem, we first analytically derive the FL convergence rate and use a line search method. Simulation results show that our FL framework can reduce energy consumption by up to 53% compared to a standard FL model. The results also shed light on the tradeoff between precision, energy, and accuracy in FL over wireless networks.
翻訳日:2021-11-18 12:41:22 公開日:2021-11-17
# (参考訳) Project CGX:コモディティGPUのスケーラブルなディープラーニング [全文訳有]

Project CGX: Scalable Deep Learning on Commodity GPUs ( http://arxiv.org/abs/2111.08617v2 )

ライセンス: CC BY 4.0
Ilia Markov, Hamidreza Ramezanikebrya, Dan Alistarh(参考訳) トレーニングワークロードをスケールアウトする能力は、ディープラーニングの重要なパフォーマンス実現要因のひとつです。 主なスケーリングアプローチはデータ並列GPUベースのトレーニングであり、特に帯域幅のオーバープロビジョンを通じて、高効率なGPU間通信のためのハードウェアとソフトウェアのサポートによって強化されている。 サーバグレードとコンシューマグレードのGPUは、同様の計算エンベロープを持つことができるが、このようなサポートを持つ"クラウドグレード"サーバの間には、桁違いのコスト差がある。 本稿では,アルゴリズム設計とシステム設計により,コストのかかるハードウェアオーバープロビジョン手法を代替できるかどうかを考察し,通信圧縮のための効率的なソフトウェアサポートを提供するCGXというフレームワークを提案する。 最新のモデルやタスクを完全精度でトレーニングする場合,我々のフレームワークは,8台のNVIDIA RTX 3090 GPUを使用して,コモディティシステム上で2~3倍の自己高速化を実現し,FLOPSに類似のピークを持つNVIDIA DGX-1サーバのスループットを超越することを可能にする。

The ability to scale out training workloads has been one of the key performance enablers of deep learning. The main scaling approach is data-parallel GPU-based training, which has been boosted by hardware and software support for highly efficient inter-GPU communication, in particular via bandwidth overprovisioning. This support comes at a price: there is an order of magnitude cost difference between "cloud-grade" servers with such support, relative to their "consumer-grade" counterparts, although server-grade and consumer-grade GPUs can have similar computational envelopes. In this paper, we investigate whether the expensive hardware overprovisioning approach can be supplanted via algorithmic and system design, and propose a framework called CGX, which provides efficient software support for communication compression. We show that this framework is able to remove communication bottlenecks from consumer-grade multi-GPU systems, in the absence of hardware support: when training modern models and tasks to full accuracy, our framework enables self-speedups of 2-3X on a commodity system using 8 consumer-grade NVIDIA RTX 3090 GPUs, and enables it to surpass the throughput of an NVIDIA DGX-1 server, which has similar peak FLOPS but benefits from bandwidth overprovisioning.
翻訳日:2021-11-18 12:30:30 公開日:2021-11-17
# (参考訳) DataCLUE: データ中心NLPのためのベンチマークスイート [全文訳有]

DataCLUE: A Benchmark Suite for Data-centric NLP ( http://arxiv.org/abs/2111.08647v2 )

ライセンス: CC BY 4.0
Liang Xu, Jiacheng Liu, Xiang Pan, Xiaojing Lu, Xiaofeng Hou(参考訳) データ中心のAIは、最近より効率的でハイパフォーマンスであることが証明され、一方、従来のモデル中心のAIは、より少ないメリットを提供する。 モデルパフォーマンスを改善するためにデータセットの品質を向上させることを強調する。 この分野は、その優れた実用性とより多くの注目を集めているため、大きな可能性を秘めている。 しかし、この分野、特にNLPでは大きな研究の進展は見られていない。 NLPフィールドに適用された最初のData-CentricベンチマークであるDataCLUEを提案する。 また、この分野での研究を促進するために、単純だが効果的な3つのベースラインを提供する(マクロF1を5.7%まで向上させる)。 さらに,人間のアノテーションを用いた包括的実験を行い,DataCLUEの硬さを示す。 また, 自己紹介型ラベル修正手法であるletinging informed bootstrapping label correction法も試した。 DataCLUEに関連するすべてのリソース、データセット、ツールキット、リーダーボード、ベースラインはhttps://github.com/C LUEbenchmark/DataCLU Eで公開されている。

Data-centric AI has recently proven to be more effective and high-performance, while traditional model-centric AI delivers fewer and fewer benefits. It emphasizes improving the quality of datasets to achieve better model performance. This field has significant potential because of its great practicability and getting more and more attention. However, we have not seen significant research progress in this field, especially in NLP. We propose DataCLUE, which is the first Data-Centric benchmark applied in NLP field. We also provide three simple but effective baselines to foster research in this field (improve Macro-F1 up to 5.7% point). In addition, we conduct comprehensive experiments with human annotators and show the hardness of DataCLUE. We also try an advanced method: the forgetting informed bootstrapping label correction method. All the resources related to DataCLUE, including datasets, toolkit, leaderboard, and baselines, is available online at https://github.com/C LUEbenchmark/DataCLU E
翻訳日:2021-11-18 12:03:52 公開日:2021-11-17
# キーポイント表現再考:多人数人格推定のためのキーポイントとポーズのモデル化

Rethinking Keypoint Representations: Modeling Keypoints and Poses as Objects for Multi-Person Human Pose Estimation ( http://arxiv.org/abs/2111.08557v2 )

ライセンス: Link先を確認
William McNally, Kanav Vats, Alexander Wong, John McPhee(参考訳) 人間のポーズ推定のようなキーポイント推定タスクでは、ヒートマップベースの回帰は顕著な欠点があるにもかかわらず支配的なアプローチである。 より効率的な解を求めるために,個々のキーポイントと空間関連キーポイント(つまりポーズ)のセットを,密集した単段アンカーに基づく検出フレームワーク内のオブジェクトとしてモデル化する,新しいヒートマップフリーキーポイント推定法を提案する。 したがって、キーポイントとポゼス・アズ・オブジェクトに対して、我々のメソッド KAPAO ("Ka-Pow!"と発音する) を呼ぶ。 本研究では,人間のポーズオブジェクトとキーポイントオブジェクトを同時に検出し,両方のオブジェクト表現の強みを生かして,カパオを単段多人数のポーズ推定問題に適用する。 実験では, KAPAOは従来手法よりもはるかに高速かつ高精度であり, 熱マップ後処理に悩まされていた。 さらに、テスト時間拡張を使用しない場合には、特に実用環境での精度・速度トレードオフが好ましい。 当社の大規模モデルであるKAPAO-Lは、テスト時間拡張なしで、次の最高のシングルステージモデルよりも2.5倍高速で、精度が4.0 APの精度で、Microsoft COCO Keypoints検証セット上で70.6のAPを達成する。 さらに、カパオは重閉塞の存在に優れる。 crowdpose テストセットでは、kapao-l は ap 68.9 の単段法で新しい最先端精度を達成する。

In keypoint estimation tasks such as human pose estimation, heatmap-based regression is the dominant approach despite possessing notable drawbacks: heatmaps intrinsically suffer from quantization error and require excessive computation to generate and post-process. Motivated to find a more efficient solution, we propose a new heatmap-free keypoint estimation method in which individual keypoints and sets of spatially related keypoints (i.e., poses) are modeled as objects within a dense single-stage anchor-based detection framework. Hence, we call our method KAPAO (pronounced "Ka-Pow!") for Keypoints And Poses As Objects. We apply KAPAO to the problem of single-stage multi-person human pose estimation by simultaneously detecting human pose objects and keypoint objects and fusing the detections to exploit the strengths of both object representations. In experiments, we observe that KAPAO is significantly faster and more accurate than previous methods, which suffer greatly from heatmap post-processing. Moreover, the accuracy-speed trade-off is especially favourable in the practical setting when not using test-time augmentation. Our large model, KAPAO-L, achieves an AP of 70.6 on the Microsoft COCO Keypoints validation set without test-time augmentation while being 2.5x faster than the next best single-stage model, whose accuracy is 4.0 AP less. Furthermore, KAPAO excels in the presence of heavy occlusion. On the CrowdPose test set, KAPAO-L achieves new state-of-the-art accuracy for a single-stage method with an AP of 68.9.
翻訳日:2021-11-18 11:52:19 公開日:2021-11-17
# 野生の静止画像からの戦闘検出

Fight Detection from Still Images in the Wild ( http://arxiv.org/abs/2111.08370v2 )

ライセンス: Link先を確認
\c{S}eymanur Akt{\i}, Ferda Ofli, Muhammad Imran, Haz{\i}m Kemal Ekenel(参考訳) ソーシャルメディア上で共有された静止画像から戦闘を検出することは、その悪影響を防ぐために暴力シーンの分布を制限するために重要な課題である。 そこで本研究では,webおよびソーシャルメディアから収集した静止画像からの戦い検出の問題に対処する。 我々は、静止画1枚から戦いを検知する能力について検討する。 また,smfi(social media fight images)という,実世界の戦闘行動の画像を含む新しいデータセットを提案する。 提案するデータセットを用いた広範な実験の結果,静止画像から戦闘行動が認識できることがわかった。 すなわち、時間的情報を活用することなく、外観のみを活用して高精度に戦闘を検出することができる。 また,収集したデータセットの表現能力を評価するために,データセット間実験を行った。 これらの実験は、他のコンピュータビジョン問題と同様に、戦闘認識問題に対するデータセットバイアスが存在することを示している。 この手法は、同じ戦闘データセット上でトレーニングおよびテストされた場合、100%近い精度を達成するが、クロスデータセットのアキュラシーは、トレーニングにより多くの代表的データセットを使用する場合、約70%低下する。 SMFIデータセットは、使用した5つの戦闘データセットのうち、最も代表的な2つのデータセットの1つである。

Detecting fights from still images shared on social media is an important task required to limit the distribution of violent scenes in order to prevent their negative effects. For this reason, in this study, we address the problem of fight detection from still images collected from the web and social media. We explore how well one can detect fights from just a single still image. We also propose a new dataset, named Social Media Fight Images (SMFI), comprising real-world images of fight actions. Results of the extensive experiments on the proposed dataset show that fight actions can be recognized successfully from still images. That is, even without exploiting the temporal information, it is possible to detect fights with high accuracy by utilizing appearance only. We also perform cross-dataset experiments to evaluate the representation capacity of the collected dataset. These experiments indicate that, as in the other computer vision problems, there exists a dataset bias for the fight recognition problem. Although the methods achieve close to 100% accuracy when trained and tested on the same fight dataset, the cross-dataset accuracies are significantly lower, i.e., around 70% when more representative datasets are used for training. SMFI dataset is found to be one of the two most representative datasets among the utilized five fight datasets.
翻訳日:2021-11-18 11:51:50 公開日:2021-11-17
# Delta-GAN-Encoder:少数の合成サンプルを用いた画像編集のための意味的変化の符号化

Delta-GAN-Encoder: Encoding Semantic Changes for Explicit Image Editing, using Few Synthetic Samples ( http://arxiv.org/abs/2111.08419v2 )

ライセンス: Link先を確認
Nir Diamant, Nitsan Sandor, Alex M Bronstein(参考訳) 生成モデルの潜在空間のアンダースタットと制御は複雑なタスクである。 本稿では,事前学習されたGANの潜伏空間における任意の属性を学習し,それに応じて合成された実世界のデータサンプルを編集する手法を提案する。 我々は最小限のサンプルを頼りにSim2Real学習を行い、連続的な正確な編集を無制限に行う。 本稿では,画像間の変化のセマンティクスを,後で新しいサンプルを編集し,正確な望ましい結果を得るための基盤として符号化することを学ぶAutoencoderベースのモデルを提案する。 従来の編集方法は潜在空間の既知の構造(例えばStyleGANのいくつかの意味論の線型性)に依存していたが、本手法は本質的にいかなる構造的制約も必要としない。 我々は,表情,ポーズ,照明属性の編集,最先端の結果の達成という,顔画像の領域における手法を実証する。

Understating and controlling generative models' latent space is a complex task. In this paper, we propose a novel method for learning to control any desired attribute in a pre-trained GAN's latent space, for the purpose of editing synthesized and real-world data samples accordingly. We perform Sim2Real learning, relying on minimal samples to achieve an unlimited amount of continuous precise edits. We present an Autoencoder-based model that learns to encode the semantics of changes between images as a basis for editing new samples later on, achieving precise desired results - example shown in Fig. 1. While previous editing methods rely on a known structure of latent spaces (e.g., linearity of some semantics in StyleGAN), our method inherently does not require any structural constraints. We demonstrate our method in the domain of facial imagery: editing different expressions, poses, and lighting attributes, achieving state-of-the-art results.
翻訳日:2021-11-18 11:51:29 公開日:2021-11-17
# ローカルで学習し、グローバルに正し、グラフニューラルネットワークをトレーニングする分散アルゴリズム

Learn Locally, Correct Globally: A Distributed Algorithm for Training Graph Neural Networks ( http://arxiv.org/abs/2111.08202v2 )

ライセンス: Link先を確認
Morteza Ramezani, Weilin Cong, Mehrdad Mahdavi, Mahmut T. Kandemir, Anand Sivasubramaniam(参考訳) 最近のグラフニューラルネットワーク(GNN)の成功にもかかわらず、大きなグラフ上でのGNNのトレーニングは依然として難しい。 既存のサーバのリソース容量の制限、グラフ内のノード間の依存性、集中型ストレージとモデル学習によるプライバシの懸念により、GNNトレーニングに効果的な分散アルゴリズムを設計する必要が生じた。 しかし、既存の分散GNNトレーニング手法は、通信コストの過大さや、そのスケーラビリティを妨げる大きなメモリオーバーヘッドを課している。 これらの問題を解決するために,通信効率の高い分散GNNトレーニング手法である$\text{Learn Locally, Correct Globally}}$ (LLCG)を提案する。 通信とメモリのオーバーヘッドを軽減するため、LLCGの各ローカルマシンは、異なるマシン間のノード間の依存性を無視して、まずGNNをローカルデータでトレーニングし、その後、定期的なモデル平均化のためにサーバーにローカルトレーニングされたモデルを送信する。 しかし、ノード依存を無視するとパフォーマンスが大幅に低下する可能性がある。 性能劣化を解決するため,ローカルに学習したモデルを改良するために$\text{Global Server Corrections}}$をサーバに適用することを提案する。 本稿では,gnnを訓練するための周期的モデル平均化による分散手法の収束を厳密に解析し,ノード間の依存性を無視する周期的モデル平均化が既約残誤差を伴わないことを示す。 しかしながら、この残差誤差は、提案された大域的補正を利用して高速収束率を伴って除去することができる。 実世界のデータセットに対する大規模な実験は、LLCGがパフォーマンスを損なうことなく効率を大幅に改善できることを示している。

Despite the recent success of Graph Neural Networks (GNNs), training GNNs on large graphs remains challenging. The limited resource capacities of the existing servers, the dependency between nodes in a graph, and the privacy concern due to the centralized storage and model learning have spurred the need to design an effective distributed algorithm for GNN training. However, existing distributed GNN training methods impose either excessive communication costs or large memory overheads that hinders their scalability. To overcome these issues, we propose a communication-effici ent distributed GNN training technique named $\text{{Learn Locally, Correct Globally}}$ (LLCG). To reduce the communication and memory overhead, each local machine in LLCG first trains a GNN on its local data by ignoring the dependency between nodes among different machines, then sends the locally trained model to the server for periodic model averaging. However, ignoring node dependency could result in significant performance degradation. To solve the performance degradation, we propose to apply $\text{{Global Server Corrections}}$ on the server to refine the locally learned models. We rigorously analyze the convergence of distributed methods with periodic model averaging for training GNNs and show that naively applying periodic model averaging but ignoring the dependency between nodes will suffer from an irreducible residual error. However, this residual error can be eliminated by utilizing the proposed global corrections to entail fast convergence rate. Extensive experiments on real-world datasets show that LLCG can significantly improve the efficiency without hurting the performance.
翻訳日:2021-11-18 11:51:12 公開日:2021-11-17
# HiRID-ICU-Benchmark - 高解像度ICUデータの総合的機械学習ベンチマーク

HiRID-ICU-Benchmark -- A Comprehensive Machine Learning Benchmark on High-resolution ICU Data ( http://arxiv.org/abs/2111.08536v2 )

ライセンス: Link先を確認
Hugo Y\`eche, Rita Kuznetsova, Marc Zimmermann, Matthias H\"user, Xinrui Lyu, Martin Faltys, Gunnar R\"atsch(参考訳) Intensive Care Units (ICU) から収集した時系列に適用される機械学習手法の最近の成功は、そのような手法の開発と比較のための標準化された機械学習ベンチマークの欠如を露呈している。 mimic-iv や eicu といった生のデータセットは physionet 上で自由にアクセスすることができるが、タスクの選択や前処理は各出版物に対して副次的に選択され、出版物間の互換性が制限される。 本研究では,ICU関連タスクの幅広い範囲をカバーするベンチマークを提供することで,この状況を改善することを目的とする。 HiRIDデータセットを用いて,臨床医とのコラボレーションによって開発された複数の臨床関連タスクを定義した。 さらに、再現可能なエンドツーエンドパイプラインを提供し、データとラベルの両方を構築する。 最後に,最先端のシーケンスモデリング手法の詳細な分析を行い,この種のデータに対するディープラーニングアプローチの限界を浮き彫りにする。 このベンチマークでは、研究コミュニティに彼らの成果を公正に比較できる可能性を与えたいと思っています。

The recent success of machine learning methods applied to time series collected from Intensive Care Units (ICU) exposes the lack of standardized machine learning benchmarks for developing and comparing such methods. While raw datasets, such as MIMIC-IV or eICU, can be freely accessed on Physionet, the choice of tasks and pre-processing is often chosen ad-hoc for each publication, limiting comparability across publications. In this work, we aim to improve this situation by providing a benchmark covering a large spectrum of ICU-related tasks. Using the HiRID dataset, we define multiple clinically relevant tasks developed in collaboration with clinicians. In addition, we provide a reproducible end-to-end pipeline to construct both data and labels. Finally, we provide an in-depth analysis of current state-of-the-art sequence modeling methods, highlighting some limitations of deep learning approaches for this type of data. With this benchmark, we hope to give the research community the possibility of a fair comparison of their work.
翻訳日:2021-11-18 11:50:40 公開日:2021-11-17
# (参考訳) 近線形時間における分布圧縮 [全文訳有]

Distribution Compression in Near-linear Time ( http://arxiv.org/abs/2111.07941v2 )

ライセンス: CC BY 4.0
Abhishek Shetty, Raaz Dwivedi, Lester Mackey(参考訳) 分布圧縮では、少数の代表点を用いて確率分布$\mathbb{P}$を正確に要約することを目的とする。 準最適シンニング手順は、マルコフ連鎖から$n$ポイントをサンプリングし、$\widetilde{\mathcal{O}}(1/\sqrt{n})$離散性を$\mathbb{P}$とすることで、この目標を達成する。 残念ながら、これらのアルゴリズムはサンプルサイズ$n$で二次的または超二次的な実行に苦しむ。 この欠陥に対処するために、私たちはCompress++を紹介します。これは、任意のスライニングアルゴリズムを高速化するシンプルなメタプロデューサで、エラーの最大4ドルの要因に悩まされています。 Dwivedi と Mackey (2021) の二次時間カーネル半減算アルゴリズムと組み合わせると、Compress++ は $\sqrt{n}$point with $\mathcal{O}(\sqrt{\log n/n})$ Integration error and better-than-Monte-Ca rlo maximum mean discrepancy in $\mathcal{O}(n \log^3 n)$ time and $\mathcal{O}( \sqrt{n} \log^2 n )$ space を提供する。 さらに、Compress++は2次時間入力が与えられた場合、同じニアリニアランタイムを楽しみ、平方根係数で超2次アルゴリズムの実行時間を短縮する。 高次元モンテカルロサンプルとマルコフ連鎖を用いたベンチマークでは、コンプレックス++はその入力アルゴリズムの精度を桁違いの時間で一致させるか、ほぼ一致させる。

In distribution compression, one aims to accurately summarize a probability distribution $\mathbb{P}$ using a small number of representative points. Near-optimal thinning procedures achieve this goal by sampling $n$ points from a Markov chain and identifying $\sqrt{n}$ points with $\widetilde{\mathcal{O}}(1/\sqrt{n})$ discrepancy to $\mathbb{P}$. Unfortunately, these algorithms suffer from quadratic or super-quadratic runtime in the sample size $n$. To address this deficiency, we introduce Compress++, a simple meta-procedure for speeding up any thinning algorithm while suffering at most a factor of $4$ in error. When combined with the quadratic-time kernel halving and kernel thinning algorithms of Dwivedi and Mackey (2021), Compress++ delivers $\sqrt{n}$ points with $\mathcal{O}(\sqrt{\log n/n})$ integration error and better-than-Monte-Ca rlo maximum mean discrepancy in $\mathcal{O}(n \log^3 n)$ time and $\mathcal{O}( \sqrt{n} \log^2 n )$ space. Moreover, Compress++ enjoys the same near-linear runtime given any quadratic-time input and reduces the runtime of super-quadratic algorithms by a square-root factor. In our benchmarks with high-dimensional Monte Carlo samples and Markov chains targeting challenging differential equation posteriors, Compress++ matches or nearly matches the accuracy of its input algorithm in orders of magnitude less time.
翻訳日:2021-11-18 11:01:06 公開日:2021-11-17