このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20211103)

# 自動睡眠停止:最近の展開,課題,今後の方向性

Automatic Sleep Staging: Recent Development, Challenges, and Future Directions ( http://arxiv.org/abs/2111.08446v1 )

ライセンス: Link先を確認
Huy Phan, Kaare Mikkelsen(参考訳) 現代のディープラーニングは、人間の睡眠における臨床実践を変える大きな可能性を秘めている。 日常的な作業を行う機械を教えることは、臨床医の作業負荷を大幅に削減するでしょう。 睡眠ステージングは、睡眠練習の基本的なステップであり、これに適したタスクであり、この記事の焦点となる。 近年、自動睡眠ステージングシステムが手動のスコアリングを模倣するように訓練され、少なくとも健康な被験者のスコアにおいて、人間の睡眠専門家と同じようなパフォーマンスがもたらされている。 著明な進歩にもかかわらず,臨床環境では自動睡眠スコアが広く採用されていない。 本総説は, 自動睡眠ステージングにおける最新の技術開発, 対処すべき課題, 臨床的価値を達成するための自動睡眠スコアリングの今後の方向性について, 著者の共通見解を提供することを目的としている。

Modern deep learning holds a great potential to transform clinical practice on human sleep. Teaching a machine to carry out routine tasks would be a tremendous reduction in workload for clinicians. Sleep staging, a fundamental step in sleep practice, is a suitable task for this and will be the focus in this article. Recently, automatic sleep staging systems have been trained to mimic manual scoring, leading to similar performance to human sleep experts, at least on scoring of healthy subjects. Despite tremendous progress, we have not seen automatic sleep scoring adopted widely in clinical environments. This review aims to give a shared view of the authors on the most recent state-of-the-art development in automatic sleep staging, the challenges that still need to be addressed, and the future directions for automatic sleep scoring to achieve clinical value.
翻訳日:2021-11-21 14:52:20 公開日:2021-11-03
# (参考訳) 公共の場に人の流れをモニタするIoT [全文訳有]

IoT to monitor people flow in areas of public interest ( http://arxiv.org/abs/2111.04465v1 )

ライセンス: CC BY 4.0
Damiano Perri, Marco Simonetti, Alex Bordini, Simone Cimarelli, Osvaldo Gervasi(参考訳) 私たちが生きている予期せぬ歴史的期間は、突然、個人間の対話を緩和し、安全距離へのコンプライアンスを可能にする新しい方法に徐々に対処せざるを得なくなりました。 本研究の目的は、個人や機密データを収集することなく、公共の場所や施設(博物館、劇場、映画館など)内の人々の流れを監視するシステムを構築することである。 モノのインターネット(internet of things)ツールによる人流の弱い監視(つまり、監視対象の個人的識別無しの監視)は、ラインアップや過密を最小限に抑えるための有効なソリューションである。 イタリアのウンブリア地方で実験として始まった研究は、土地をより快適にするために、人々の流れを自動で計画する際のいくつかの答えの1つを目指しています。 我々は,モノのインターネットが,基本的な情報プロセスの開発から,ビジネス関係者が関心のあるコンシューマと接続可能な真のポータル実装に至るまで,ほぼ無限のツールや可能性を提供することを示すつもりです。

The unexpected historical period we are living has abruptly pushed us to loosen any sort of interaction between individuals, gradually forcing us to deal with new ways to allow compliance with safety distances; indeed the present situation has demonstrated more than ever how critical it is to be able to properly organize our travel plans, put people in safe conditions, and avoid harmful circumstances. The aim of this research is to set up a system to monitor the flow of people inside public places and facilities of interest (museums, theatres, cinemas, etc.) without collecting personal or sensitive data. Weak monitoring of people flows (i.e. monitoring without personal identification of the monitored subjects) through Internet of Things tools might be a viable solution to minimize lineups and overcrowding. Our study, which began as an experiment in the Umbria region of Italy, aims to be one of several answers to automated planning of people's flows in order to make our land more liveable. We intend to show that the Internet of Things gives almost unlimited tools and possibilities, from developing a basic information process to implementing a true portal which enables business people to connect with interested consumers.
翻訳日:2021-11-14 15:24:18 公開日:2021-11-03
# 検証仮定のモニタに対する信頼度構成

Confidence Composition for Monitors of Verification Assumptions ( http://arxiv.org/abs/2111.03782v1 )

ライセンス: Link先を確認
Ivan Ruchkin, Matthew Cleaveland, Radoslav Ivanov, Pengyuan Lu, Taylor Carpenter, Oleg Sokolsky, Insup Lee(参考訳) ニューラルネットワークコントローラによるサイバー物理システムのクローズドループ検証は、特定の前提の下で強力な安全性保証を提供する。 しかしながら、これらの保証が実行時に適用されるかどうかを判断することは困難である。 検証システムの安全性違反を予測するため,検証仮説の信頼性をモニタリングする3段階の枠組みを提案する。 まず,前提よりも命題論理式で検証された安全性の十分条件を示す。 第二に、各仮定が持つ確率を評価する正当性モニタを構築する。 第3に,論理式に適した合成関数を用いて仮定モニタを構成することにより,検証保証の信頼性を得る。 構成モニターのキャリブレーションと保守性に関する理論的境界を提供する。 2つのケーススタディにおいて、構成したモニターが構成成分を改良し、安全性侵害をうまく予測できることを実証した。

Closed-loop verification of cyber-physical systems with neural network controllers offers strong safety guarantees under certain assumptions. It is, however, difficult to determine whether these guarantees apply at run time because verification assumptions may be violated. To predict safety violations in a verified system, we propose a three-step framework for monitoring the confidence in verification assumptions. First, we represent the sufficient condition for verified safety with a propositional logical formula over assumptions. Second, we build calibrated confidence monitors that evaluate the probability that each assumption holds. Third, we obtain the confidence in the verification guarantees by composing the assumption monitors using a composition function suitable for the logical formula. Our framework provides theoretical bounds on the calibration and conservatism of compositional monitors. In two case studies, we demonstrate that the composed monitors improve over their constituents and successfully predict safety violations.
翻訳日:2021-11-14 15:11:40 公開日:2021-11-03
# リーマン多様体上の微分プライバシー

Differential Privacy Over Riemannian Manifolds ( http://arxiv.org/abs/2111.02516v1 )

ライセンス: Link先を確認
Matthew Reimherr, Karthik Bharath, Carlos Soto(参考訳) 本研究では、リーマン多様体上に存在する微分プライベートな統計要約を解放する問題を考える。 多様体上の固有距離と体積を利用するLaplace あるいは K-norm 機構の拡張について述べる。 また、要約が多様体上に存在するデータの Fr'echet 平均である場合についても詳細に検討する。 この機構はレート最適であり、任意の周囲空間の次元ではなく多様体の次元のみに依存することを証明し、また、多様体構造を無視することでサニタイズされた要約の有用性をいかに低下させるかを示す。 統計学における特に興味のある2つの例:共分散行列に使用される対称正定値行列の空間と離散分布のモデリングの空間として使用できる球面である。

In this work we consider the problem of releasing a differentially private statistical summary that resides on a Riemannian manifold. We present an extension of the Laplace or K-norm mechanism that utilizes intrinsic distances and volumes on the manifold. We also consider in detail the specific case where the summary is the Fr\'echet mean of data residing on a manifold. We demonstrate that our mechanism is rate optimal and depends only on the dimension of the manifold, not on the dimension of any ambient space, while also showing how ignoring the manifold structure can decrease the utility of the sanitized summary. We illustrate our framework in two examples of particular interest in statistics: the space of symmetric positive definite matrices, which is used for covariance matrices, and the sphere, which can be used as a space for modeling discrete distributions.
翻訳日:2021-11-14 15:11:28 公開日:2021-11-03
# (参考訳) ProSTformer:交通流予測のための訓練済み進行時空間自己注意モデル [全文訳有]

ProSTformer: Pre-trained Progressive Space-Time Self-attention Model for Traffic Flow Forecasting ( http://arxiv.org/abs/2111.03459v1 )

ライセンス: CC0 1.0
Xiao Yan, Xianghua Gan, Jingjing Tang, Rui Wang(参考訳) 交通の流れの予測は、インテリジェントな都市管理と公共の安全に欠かせない。 近年の研究では、複雑な影響因子間の動的依存性を抽出するための畳み込みフリー変圧器アプローチの可能性が示されている。 しかし,2つの課題により,トラヒックフロー予測に効果的に適用できない。 まず、トラフィックフロービデオの時空間構造を無視します。 第二に、長いシーケンスでは、2次時間ドット積計算のために重要な注意を集中することは困難である。 この2つの問題に対処するため、まず依存関係を分解し、ProSTformerというプログレッシブな時空間自己保持機構を設計する。 It has two distinctive characteristics: (1) corresponding to the factorization, the self-attention mechanism progressively focuses on spatial dependence from local to global regions, on temporal dependence from inside to outside fragment (i.e., closeness, period, and trend), and finally on external dependence such as weather, temperature, and day-of-week; (2) by incorporating the spatiotemporal structure into the self-attention mechanism, each block in ProSTformer highlights the unique dependence by aggregating the regions with spatiotemporal positions to significantly decrease the computation. 2つのトラヒックデータセットでprostformerを評価し,各データセットは,大小,中小の3つのデータセットを含む。 トラフィックフロー予測のための畳み込みアーキテクチャとは全く異なる設計であるにもかかわらず、prostformerは、rmseによる6つの最先端のベースラインメソッドよりも、大規模なデータセットでパフォーマンスが良いか、同等である。 大規模データセットで事前トレーニングを行い、中小規模データセットに転送すると、ProSTformerは大幅に拡張され、最も振舞う。

Traffic flow forecasting is essential and challenging to intelligent city management and public safety. Recent studies have shown the potential of convolution-free Transformer approach to extract the dynamic dependencies among complex influencing factors. However, two issues prevent the approach from being effectively applied in traffic flow forecasting. First, it ignores the spatiotemporal structure of the traffic flow videos. Second, for a long sequence, it is hard to focus on crucial attention due to the quadratic times dot-product computation. To address the two issues, we first factorize the dependencies and then design a progressive space-time self-attention mechanism named ProSTformer. It has two distinctive characteristics: (1) corresponding to the factorization, the self-attention mechanism progressively focuses on spatial dependence from local to global regions, on temporal dependence from inside to outside fragment (i.e., closeness, period, and trend), and finally on external dependence such as weather, temperature, and day-of-week; (2) by incorporating the spatiotemporal structure into the self-attention mechanism, each block in ProSTformer highlights the unique dependence by aggregating the regions with spatiotemporal positions to significantly decrease the computation. We evaluate ProSTformer on two traffic datasets, and each dataset includes three separate datasets with big, medium, and small scales. Despite the radically different design compared to the convolutional architectures for traffic flow forecasting, ProSTformer performs better or the same on the big scale datasets than six state-of-the-art baseline methods by RMSE. When pre-trained on the big scale datasets and transferred to the medium and small scale datasets, ProSTformer achieves a significant enhancement and behaves best.
翻訳日:2021-11-09 05:41:16 公開日:2021-11-03
# ソーシャルメディアが中国全土のストレスの違いを明らかに

Social Media Reveals Urban-Rural Differences in Stress across China ( http://arxiv.org/abs/2110.15726v2 )

ライセンス: Link先を確認
Jesse Cui, Tingdan Zhang, Kokil Jaidka, Dandan Pang, Garrick Sherman, Vinit Jakhetiya, Lyle Ungar, Sharath Chandra Guntuku(参考訳) 中国の都市部と農村部における異なるストレス表現のモデル化は、ここ20年で急速に経済的な成長を遂げた国の心理的幸福に対する都市化の影響をよりよく理解することができる。 本稿では,329郡65,000人以上の利用者を対象に,階層的混合効果モデルを用いて都市農村中国におけるストレス経験と表現の言語的差異について検討した。 我々は,中国の都市部と農村部における心理的ストレスに関する評価的差異をよりよく理解するため,Weiboの投稿において,フレーズ,話題,心理言語的単語選択について分析した。 社会経済的・ジェンダー的な差異をコントロールした上で,地域社会では人間関係や健康,機会といった感情的・個人的テーマにストレスを表わす傾向にあり,都市部の利用者は仕事,政治,経済といった相対的・時間的・外部的なテーマを用いてストレスを表わす傾向にあった。 これらの違いはGDPと都市化の規制を超えて存在し、農村住民と都市住民の生活様式が非常に特定の環境で根本的に異なることを示している。 ギャラップ調査では, 都市化に伴う身体, 財政, 社会福祉の相関傾向がみられた。

Modeling differential stress expressions in urban and rural regions in China can provide a better understanding of the effects of urbanization on psychological well-being in a country that has rapidly grown economically in the last two decades. This paper studies linguistic differences in the experiences and expressions of stress in urban-rural China from Weibo posts from over 65,000 users across 329 counties using hierarchical mixed-effects models. We analyzed phrases, topical themes, and psycho-linguistic word choices in Weibo posts mentioning stress to better understand appraisal differences surrounding psychological stress in urban and rural communities in China; we then compared them with large-scale polls from Gallup. After controlling for socioeconomic and gender differences, we found that rural communities tend to express stress in emotional and personal themes such as relationships, health, and opportunity while users in urban areas express stress using relative, temporal, and external themes such as work, politics, and economics. These differences exist beyond controlling for GDP and urbanization, indicating a fundamentally different lifestyle between rural and urban residents in very specific environments, arguably having different sources of stress. We found corroborative trends in physical, financial, and social wellness with urbanization in Gallup polls.
翻訳日:2021-11-07 11:42:39 公開日:2021-11-03
# (参考訳) インセプションネットワークと転写学習を用いた皮膚癌の分類 [全文訳有]

Skin Cancer Classification using Inception Network and Transfer Learning ( http://arxiv.org/abs/2111.02402v1 )

ライセンス: CC BY 4.0
Priscilla Benedetti and Damiano Perri and Marco Simonetti and Osvaldo Gervasi and Gianluca Reali and Mauro Femminella(参考訳) 医学データ分類は通常、クラス間の不均衡のために難しい課題である。 本稿では,HAM10000 (Human Against Machine with 10000 training images) データセットから皮膚病変を7種類の不均衡で高精度かつ低リソースで分類する手法を提案する。 分類は事前訓練された畳み込みニューラルネットワークを用いて行われる。 提案の精度と性能を評価し,拡張の可能性を示す。

Medical data classification is typically a challenging task due to imbalance between classes. In this paper, we propose an approach to classify dermatoscopic images from HAM10000 (Human Against Machine with 10000 training images) dataset, consisting of seven imbalanced types of skin lesions, with good precision and low resources requirements. Classification is done by using a pretrained convolutional neural network. We evaluate the accuracy and performance of the proposal and illustrate possible extensions.
翻訳日:2021-11-06 04:38:39 公開日:2021-11-03
# (参考訳) WORD:全腹部領域における臓器分節の再検討 [全文訳有]

WORD: Revisiting Organs Segmentation in the Whole Abdominal Region ( http://arxiv.org/abs/2111.02403v1 )

ライセンス: CC BY 4.0
Xiangde Luo, Wenjun Liao, Jianghong Xiao, Tao Song, Xiaofan Zhang, Kang Li, Guotai Wang, and Shaoting Zhang(参考訳) 腹部臓器の分節は腹部病変の診断,放射線治療計画,経過観察において重要な役割を担っている。 しかし、すべての腹部臓器を手作業で検査することは時間がかかり、非常に費用がかかる。 近年,深層学習に基づく医用画像のセグメンテーションは手動のデライン化の取り組みを減らす可能性を示しているが,トレーニングには大規模な微調整データセットが必要である。 この課題には多くの取り組みがあるが、腹部全臓器分節の正確な詳細な注釈を付して腹部全領域をカバーする大きな画像データセットは少ない。 本研究では, アルゴリズム研究と臨床応用開発のために, 大規模の \textit{w}hole abdominal \textit{or}gans \textit{d}ataset (\textit{word}) を確立する。 このデータセットは、150の腹部CTボリューム(30495スライス)を含み、各ボリュームには、微細なピクセルレベルのアノテーションとスクリブルベースのスパースアノテーションを備えた16の臓器がある。 このデータセットでは,いくつかの最先端セグメンテーション手法が評価されている。 また, 深層学習法と実際の腫瘍学とのギャップを測定するために, モデル予測の見直しを臨床腫瘍学者に依頼した。 さらに,このデータセット上で,新しいscribbleベースの弱教師付きセグメンテーションを導入し,評価する。 この研究は腹部多臓器分節タスクの新しいベンチマークを提供し、これらの実験は将来の研究および臨床応用開発の基礎となる。 コードベースとデータセットは、https://github.com/H iLab-git/WORDでリリースされる。

Whole abdominal organs segmentation plays an important role in abdomen lesion diagnosis, radiotherapy planning, and follow-up. However, delineating all abdominal organs by oncologists manually is time-consuming and very expensive. Recently, deep learning-based medical image segmentation has shown the potential to reduce manual delineation efforts, but it still requires a large-scale fine annotated dataset for training. Although many efforts in this task, there are still few large image datasets covering the whole abdomen region with accurate and detailed annotations for the whole abdominal organ segmentation. In this work, we establish a large-scale \textit{W}hole abdominal \textit{OR}gans \textit{D}ataset (\textit{WORD}) for algorithms research and clinical applications development. This dataset contains 150 abdominal CT volumes (30495 slices) and each volume has 16 organs with fine pixel-level annotations and scribble-based sparse annotation, which may be the largest dataset with whole abdominal organs annotation. Several state-of-the-art segmentation methods are evaluated on this dataset. And, we also invited clinical oncologists to revise the model predictions to measure the gap between the deep learning method and real oncologists. We further introduce and evaluate a new scribble-based weakly supervised segmentation on this dataset. The work provided a new benchmark for the abdominal multi-organ segmentation task and these experiments can serve as the baseline for future research and clinical application development. The codebase and dataset will be released at: https://github.com/H iLab-git/WORD
翻訳日:2021-11-06 04:31:22 公開日:2021-11-03
# (参考訳) 嵐サージシミュレーションにおける時空間欠落データに対する畳み込み生成逆インプテーションネットワーク

Convolutional generative adversarial imputation networks for spatio-temporal missing data in storm surge simulations ( http://arxiv.org/abs/2111.02823v1 )

ライセンス: CC BY 4.0
Ehsan Adeli, Jize Zhang and Alexandros A. Taflanidis(参考訳) 欠落したデータの計算は、多くの工学と科学の応用において重要な役割を果たすタスクである。 このような欠落したデータは、センサーの限界や後処理の変換エラーから実験的に観測されることが多い。 コンピュータシミュレーションにおける数値的制約やアルゴリズム的制約から生じることもある。 このような事例と応用例の1つは,嵐サージの数値シミュレーションである。 シミュレーションデータは、関心領域内の多くの保存点に関する時系列サージ予測に対応し、サージ点が空間的および時間的に強く相関し、欠落値領域がランダムに構造的に分布する時空間的インプテーション問題を生成する。 近年、ニューラルネットワーク法などの機械学習手法が開発され、データインプテーションタスクの欠如に利用されている。 GAN(Generative Adversarial Nets)とGANベースの技術は、教師なし機械学習手法として特に注目を集めている。 本研究では,完全連結層に代えて畳み込みニューラルネットワークを適用し,データ相関の把握と隣接サージ点からの学習を促進することにより,生成的逆向的インプテーションネット(gain)の性能を向上させる。 研究データに特に必要とされる方法のもう一つの調整は、畳み込み層を通してモデルにより多くの情報を提供する追加の特徴として点の座標を考えることである。 提案手法をConv-GAIN(Convolutio nal Generative Adversarial Imputation Nets)と呼ぶ。 ストームサージデータに必要な改良と適応を考慮し,本手法の性能評価を行い,本手法と他の手法との比較を行った。 その結果,Conv-GAINは研究データに対する代替手法よりも優れた性能を示した。

Imputation of missing data is a task that plays a vital role in a number of engineering and science applications. Often such missing data arise in experimental observations from limitations of sensors or post-processing transformation errors. Other times they arise from numerical and algorithmic constraints in computer simulations. One such instance and the application emphasis of this paper are numerical simulations of storm surge. The simulation data corresponds to time-series surge predictions over a number of save points within the geographic domain of interest, creating a spatio-temporal imputation problem where the surge points are heavily correlated spatially and temporally, and the missing values regions are structurally distributed at random. Very recently, machine learning techniques such as neural network methods have been developed and employed for missing data imputation tasks. Generative Adversarial Nets (GANs) and GAN-based techniques have particularly attracted attention as unsupervised machine learning methods. In this study, the Generative Adversarial Imputation Nets (GAIN) performance is improved by applying convolutional neural networks instead of fully connected layers to better capture the correlation of data and promote learning from the adjacent surge points. Another adjustment to the method needed specifically for the studied data is to consider the coordinates of the points as additional features to provide the model more information through the convolutional layers. We name our proposed method as Convolutional Generative Adversarial Imputation Nets (Conv-GAIN). The proposed method's performance by considering the improvements and adaptations required for the storm surge data is assessed and compared to the original GAIN and a few other techniques. The results show that Conv-GAIN has better performance than the alternative methods on the studied data.
翻訳日:2021-11-06 04:15:45 公開日:2021-11-03
# (参考訳) バランスの取れたQ-ラーニング:最適化と悲観的目標の影響を組み合わせる [全文訳有]

Balanced Q-learning: Combining the Influence of Optimistic and Pessimistic Targets ( http://arxiv.org/abs/2111.02787v1 )

ライセンス: CC BY 4.0
Thommen George Karimpanal, Hung Le, Majid Abdolshah, Santu Rana, Sunil Gupta, Truyen Tran, Svetha Venkatesh(参考訳) Q-ラーニングターゲットの楽観的な性質は、標準の$Q-$ラーニングに関連する固有の問題である過大評価バイアスをもたらす。 このようなバイアスは、特にリスクのあるシナリオにおいて、低いリターンの可能性を考慮するのに失敗する。 しかし、過大評価であれ過小評価であれ、バイアスの存在は必ずしも望ましくないとは限らない。 本稿では,バイアス学習の有用性を解析的に検討し,シナリオによっては,特定の種類のバイアスが望ましいことを示す。 そこで本研究では,新たな強化学習アルゴリズムであるBa balanced Q-learningを設計し,対象を悲観的および楽観的な用語の凸結合に修正し,関連する重みをオンラインで解析的に決定する。 本研究では,このアルゴリズムの収束性を表形式で証明し,様々な環境において優れた学習性能を実証する。

The optimistic nature of the Q-learning target leads to an overestimation bias, which is an inherent problem associated with standard $Q-$learning. Such a bias fails to account for the possibility of low returns, particularly in risky scenarios. However, the existence of biases, whether overestimation or underestimation, need not necessarily be undesirable. In this paper, we analytically examine the utility of biased learning, and show that specific types of biases may be preferable, depending on the scenario. Based on this finding, we design a novel reinforcement learning algorithm, Balanced Q-learning, in which the target is modified to be a convex combination of a pessimistic and an optimistic term, whose associated weights are determined online, analytically. We prove the convergence of this algorithm in a tabular setting, and empirically demonstrate its superior learning performance in various environments.
翻訳日:2021-11-06 04:14:37 公開日:2021-11-03
# (参考訳) データ駆動型ディープニューラルネットワークの線形および非線形構造ダイナミクスへの応用について

On the Application of Data-Driven Deep Neural Networks in Linear and Nonlinear Structural Dynamics ( http://arxiv.org/abs/2111.02784v1 )

ライセンス: CC BY 4.0
Nan Feng, Guodong Zhang and Kapil Khandelwal(参考訳) 線形および非線形構造力学系のサロゲートとしてディープニューラルネットワーク(DNN)モデルを用いる。 目標は、入力(ハーモニック)励起に対する構造応答、すなわち変位と加速度を予測するdnnベースのサロゲートを開発することである。 特に、完全接続、疎結合、畳み込みネットワーク層を用いた効率的なネットワークアーキテクチャの開発と、対象とするデータ空間におけるネットワーク全体の複雑さと予測精度のバランスを提供する、対応するトレーニング戦略に重点が置かれている。 線形力学では、ネットワーク層内の重み行列の空間パターンを用いて、スパース層を持つ畳み込みDNNを構成する。 非線形力学では,ネットワーク層内の疎結合性が失われ,ネットワーク層が完全連結で畳み込み可能な効率的なDNNアーキテクチャが探索されている。 また,提案するdnnの学習を成功させるためにトランスファー学習戦略を導入し,ネットワークアーキテクチャに影響を与える様々な負荷要因について検討した。 提案したDNNは,高調波負荷下での線形および非線形動的応答の予測に有効かつ正確なサロゲートとして利用できる。

The use of deep neural network (DNN) models as surrogates for linear and nonlinear structural dynamical systems is explored. The goal is to develop DNN based surrogates to predict structural response, i.e., displacements and accelerations, for given input (harmonic) excitations. In particular, the focus is on the development of efficient network architectures using fully-connected, sparsely-connected, and convolutional network layers, and on the corresponding training strategies that can provide a balance between the overall network complexity and prediction accuracy in the target dataspaces. For linear dynamics, sparsity patterns of the weight matrix in the network layers are used to construct convolutional DNNs with sparse layers. For nonlinear dynamics, it is shown that sparsity in network layers is lost, and efficient DNNs architectures with fully-connected and convolutional network layers are explored. A transfer learning strategy is also introduced to successfully train the proposed DNNs, and various loading factors that influence the network architectures are studied. It is shown that the proposed DNNs can be used as effective and accurate surrogates for predicting linear and nonlinear dynamical responses under harmonic loadings.
翻訳日:2021-11-06 03:56:45 公開日:2021-11-03
# (参考訳) 産業用制御システムのための自律攻撃緩和 [全文訳有]

Autonomous Attack Mitigation for Industrial Control Systems ( http://arxiv.org/abs/2111.02445v1 )

ライセンス: CC BY 4.0
John Mern, Kyle Hatch, Ryan Silva, Cameron Hickert, Tamim Sookoor, Mykel J. Kochenderfer(参考訳) サイバー攻撃からコンピュータネットワークを守るには、警告や脅威情報に対するタイムリーな応答が必要である。 応答方法に関する決定は、ネットワーク操作の混乱を最小限に抑えながら、妥協の不完全な指標に基づいて、複数のノード間でのアクションのコーディネートを伴う。 現在、プレイブックはレスポンスプロセスの一部を自動化するために使われていますが、複雑な意思決定は人間のアナリストに任せます。 本稿では,大規模産業制御ネットワークにおける自律的応答と回復に対する深い強化学習手法を提案する。 本稿では,保護下のネットワークサイズに柔軟に対応する注目型ニューラルネットワークを提案する。 自律型ディフェンダーエージェントを訓練し,評価するために,強化学習に適した産業制御ネットワークシミュレーション環境を提案する。 実験により、学習エージェントは実行数ヶ月前に観測可能な信号がほとんどない先進攻撃を効果的に軽減できることが示された。 提案した深層強化学習手法は,ネットワーク上のより多くのノードを防御しながら,破壊的な動作を少なくし,完全に自動化されたプレイブック法よりも優れている。 学習されたポリシーは、プレイブックアプローチよりも攻撃行動の変化に対して堅牢である。

Defending computer networks from cyber attack requires timely responses to alerts and threat intelligence. Decisions about how to respond involve coordinating actions across multiple nodes based on imperfect indicators of compromise while minimizing disruptions to network operations. Currently, playbooks are used to automate portions of a response process, but often leave complex decision-making to a human analyst. In this work, we present a deep reinforcement learning approach to autonomous response and recovery in large industrial control networks. We propose an attention-based neural architecture that is flexible to the size of the network under protection. To train and evaluate the autonomous defender agent, we present an industrial control network simulation environment suitable for reinforcement learning. Experiments show that the learned agent can effectively mitigate advanced attacks that progress with few observable signals over several months before execution. The proposed deep reinforcement learning approach outperforms a fully automated playbook method in simulation, taking less disruptive actions while also defending more nodes on the network. The learned policy is also more robust to changes in attacker behavior than playbook approaches.
翻訳日:2021-11-06 03:54:31 公開日:2021-11-03
# (参考訳) 加速レプリカ交換確率勾配ランゲヴィン拡散強化ベイズディープONetによる雑音パラメトリックPDEの解法 [全文訳有]

Accelerated replica exchange stochastic gradient Langevin diffusion enhanced Bayesian DeepONet for solving noisy parametric PDEs ( http://arxiv.org/abs/2111.02484v1 )

ライセンス: CC BY 4.0
Guang Lin, Christian Moya, Zecheng Zhang(参考訳) Deep Operator Networks~(DeepONet)は、パラメトリック偏微分方程式(PDE)の解演算子を含む近似非線形演算子に訓練するニューラルネットワークの基本的なクラスである。 DeepONetsは、比較的小さなデータセットでトレーニングしても、顕著な近似と一般化能力を示している。 しかしながら、トレーニングデータがノイズで汚染されると、deeponetsのパフォーマンスが低下する。 ノイズデータを用いたdeeponetsトレーニングを実現するために,レプリカ交換ランジュバン拡散のベイズフレームワークを提案する。 このようなフレームワークは2つの粒子を使い、1つは探索用、もう1つはDeepONetsの損失関数のランドスケープを利用する。 提案手法は,(1)雑音シナリオにおけるDeepONetsのトレーニングコンバージェンスの改善,(2)パラメトリックPDEの予測解に対する不確実性推定を行うことを可能にした。 さらに、レプリカ交換のLangeving Diffusionは、最先端の勾配に基づく最適化アルゴリズム(例えばAdam)で訓練されたバニラDeepONetsと比較して、ノイズの多いシナリオにおけるDeepONetの平均予測精度も向上することを示した。 本研究では、複製の潜在的に高い計算コストを削減するために、DeepONetsのニューラルネットワークアーキテクチャを利用して、提案するフレームワークの性能を損なうことなく、その計算コストを25%まで削減するレプリカ交換ランゲヴィン拡散の高速化トレーニングフレームワークを提案する。 最後に,4つのパラメトリックpde問題に対する一連の実験を用いて,提案手法の有効性を示す。

The Deep Operator Networks~(DeepONet) is a fundamentally different class of neural networks that we train to approximate nonlinear operators, including the solution operator of parametric partial differential equations (PDE). DeepONets have shown remarkable approximation and generalization capabilities even when trained with relatively small datasets. However, the performance of DeepONets deteriorates when the training data is polluted with noise, a scenario that occurs very often in practice. To enable DeepONets training with noisy data, we propose using the Bayesian framework of replica-exchange Langevin diffusion. Such a framework uses two particles, one for exploring and another for exploiting the loss function landscape of DeepONets. We show that the proposed framework's exploration and exploitation capabilities enable (1) improved training convergence for DeepONets in noisy scenarios and (2) attaching an uncertainty estimate for the predicted solutions of parametric PDEs. In addition, we show that replica-exchange Langeving Diffusion (remarkably) also improves the DeepONet's mean prediction accuracy in noisy scenarios compared with vanilla DeepONets trained with state-of-the-art gradient-based optimization algorithms (e.g. Adam). To reduce the potentially high computational cost of replica, in this work, we propose an accelerated training framework for replica-exchange Langevin diffusion that exploits the neural network architecture of DeepONets to reduce its computational cost up to 25% without compromising the proposed framework's performance. Finally, we illustrate the effectiveness of the proposed Bayesian framework using a series of experiments on four parametric PDE problems.
翻訳日:2021-11-06 03:30:53 公開日:2021-11-03
# (参考訳) エッジデバイス上での分散推論のための通信効率の良い分離型ニューラルネットワーク [全文訳有]

Communication-Effici ent Separable Neural Network for Distributed Inference on Edge Devices ( http://arxiv.org/abs/2111.02489v1 )

ライセンス: CC BY 4.0
Jun-Liang Lin and Sheng-De Wang(参考訳) ニューラルネットワークの推論は通常、エッジデバイス上のリソース(例えば、コンピューティングパワー、メモリ、帯域幅)によって制限される。 ハードウェア設計の改善と効率的なモデルのデプロイに加えて、多くのデバイスのコンピューティングパワーを集約して機械学習モデルを有効にすることができる。 本稿では,分散推論のためのニューラルネットワークを分離するためにモデル並列性を利用する新しい手法を提案する。 通信遅延,計算遅延,性能のバランスを改善するために,最適な伝送ポリシを探索し通信量を削減するためにニューラルネットワーク検索(nas)を採用している。 最良のモデルは、ベースラインと比較してデータ転送量の86.6%減少し、パフォーマンスにはあまり影響しない。 デバイスの適切な仕様とモデルの構成の下で、エッジクラスタ上の大規模ニューラルネットワークの推論が分散し、加速可能であることを示し、モノのインターネット(IoT)にインテリジェントなアプリケーションをデプロイするための新しいソリューションを提供する。

The inference of Neural Networks is usually restricted by the resources (e.g., computing power, memory, bandwidth) on edge devices. In addition to improving the hardware design and deploying efficient models, it is possible to aggregate the computing power of many devices to enable the machine learning models. In this paper, we proposed a novel method of exploiting model parallelism to separate a neural network for distributed inferences. To achieve a better balance between communication latency, computation latency, and performance, we adopt neural architecture search (NAS) to search for the best transmission policy and reduce the amount of communication. The best model we found decreases by 86.6% of the amount of data transmission compared to the baseline and does not impact performance much. Under proper specifications of devices and configurations of models, our experiments show that the inference of large neural networks on edge clusters can be distributed and accelerated, which provides a new solution for the deployment of intelligent applications in the internet of things (IoT).
翻訳日:2021-11-06 03:12:57 公開日:2021-11-03
# (参考訳) 次世代計測システムにおける信号処理のロードマップ

Roadmap on Signal Processing for Next Generation Measurement Systems ( http://arxiv.org/abs/2111.02493v1 )

ライセンス: CC BY 4.0
D.K. Iakovidis, M. Ooi, Y.C. Kuang, S. Damidenko, A. Shestakov, V. Sinistin, M. Henry, A. Sciacchitano, A. Discetti, S. Donati, M. Norgia, A. Menychtas, I. Maglogiannis, S.C. Wriessnegger, L.A. Barradas Chacon, G. Dimas, D. Filos, A.H. Aletras, J. T\"oger, F. Dong, S. Ren, A. Uhl, J. Paziewski, J. Geng, F. Fioranelli, R.M. Narayanan, C. Fernandez, C. Stiller, K. Malamousi, S. Kamnis, K. Delibasis, D. Wang, J. Zhang, R.X. Gao(参考訳) 信号処理はほとんどのセンサ対応システムの基本的な構成要素であり、様々な科学分野に幅広い応用がある。 時系列データ、画像、および映像シーケンスは、情報抽出および定量化のために強化および分析される信号の代表形式からなる。 人工知能と機械学習の最近の進歩は、インテリジェントでデータ駆動の信号処理に研究の焦点を移している。 本ロードマップは,次世代計測システムに向けた今後の課題と研究機会を浮き彫りにすることを目的とした,最先端の手法と応用に関する批判的概要を示す。 基礎研究から工業研究まで幅広い分野をカバーし、研究分野ごとの現在と将来の発展の傾向と影響を反映した簡潔なテーマのセクションで組織されている。 さらに、新たな展望を特定するための研究者や資金提供機関にガイダンスを提供する。

Signal processing is a fundamental component of almost any sensor-enabled system, with a wide range of applications across different scientific disciplines. Time series data, images, and video sequences comprise representative forms of signals that can be enhanced and analysed for information extraction and quantification. The recent advances in artificial intelligence and machine learning are shifting the research attention towards intelligent, data-driven, signal processing. This roadmap presents a critical overview of the state-of-the-art methods and applications aiming to highlight future challenges and research opportunities towards next generation measurement systems. It covers a broad spectrum of topics ranging from basic to industrial research, organized in concise thematic sections that reflect the trends and the impacts of current and future developments per research field. Furthermore, it offers guidance to researchers and funding agencies in identifying new prospects.
翻訳日:2021-11-06 03:01:26 公開日:2021-11-03
# (参考訳) コンテキスト・アクティビティ・フュージョンによるポーズ推定の改善 [全文訳有]

Improving Pose Estimation through Contextual Activity Fusion ( http://arxiv.org/abs/2111.02500v1 )

ライセンス: CC BY-SA 4.0
David Poulton, Richard Klein(参考訳) 本研究は,既存のポーズ推定アーキテクチャへのアクティビティ融合の考え方を示し,その予測能力を高める。 これは、現代の機械学習アーキテクチャに見られる高レベルの概念の台頭と、活動コンテキストがポーズ推定の問題に有用な情報であるという考えに動機づけられている。 この概念を分析するために、既存のディープラーニングアーキテクチャを採用し、1x1の畳み込みを追加してモデルにアクティビティ情報を融合させます。 我々は,一般的なポーズ推定データセット上で評価と比較を行い,ベースラインモデル,特に非一般的なポーズと通常難しいジョイントの性能改善を示す。 さらに,行動情報から性能改善が実際に引き出すことを示すために,アブレーション分析を行う。

This research presents the idea of activity fusion into existing Pose Estimation architectures to enhance their predictive ability. This is motivated by the rise in higher level concepts found in modern machine learning architectures, and the belief that activity context is a useful piece of information for the problem of pose estimation. To analyse this concept we take an existing deep learning architecture and augment it with an additional 1x1 convolution to fuse activity information into the model. We perform evaluation and comparison on a common pose estimation dataset, and show a performance improvement over our baseline model, especially in uncommon poses and on typically difficult joints. Additionally, we perform an ablative analysis to indicate that the performance improvement does in fact draw from the activity information.
翻訳日:2021-11-06 03:00:23 公開日:2021-11-03
# (参考訳) 電池性能の非正規分散データに対する複数線形回帰に対する木ベース回帰の評価 [全文訳有]

Evaluation of Tree Based Regression over Multiple Linear Regression for Non-normally Distributed Data in Battery Performance ( http://arxiv.org/abs/2111.02513v1 )

ライセンス: CC BY 4.0
Shovan Chowdhury, Yuxiao Lin, Boryann Liaw, Leslie Kerby(参考訳) バッテリパフォーマンスデータセットは通常、非正規およびマルチコリニアである。 モデル予測のためにこのようなデータセットを推定するには、そのような特性に注意する必要がある。 本研究では,機械学習モデル構築におけるデータ正規性の影響について検討する。 本研究では,木に基づく回帰モデルと多重線形回帰モデルについて,マルチコリニア性を持つ高度に歪んだ非正規データセットから構築し,比較する。 このデータセットで良質な多重線形回帰モデルを達成するためには、データ変換のようないくつかの技術が必要である。 これらの手法により、最良の多重回帰モデルは、R^2 = 81.23%に達し、本研究で使用されるデータセットに対して多重線型性効果は示さなかった。 木ベースのモデルは、非パラメトリックであり、変数間の複雑な関係を処理でき、マルチコリニティの影響を受けないため、このデータセット上でより良く機能する。 ランダムな森林の利用において、袋詰めは過剰フィットを減少させる。 R^2 = 97.73%の精度を達成した。 本研究は,木に基づく回帰が非正規分散マルチコリニアデータの機械学習モデルとして有望な理由を説明する。

Battery performance datasets are typically non-normal and multicollinear. Extrapolating such datasets for model predictions needs attention to such characteristics. This study explores the impact of data normality in building machine learning models. In this work, tree-based regression models and multiple linear regressions models are each built from a highly skewed non-normal dataset with multicollinearity and compared. Several techniques are necessary, such as data transformation, to achieve a good multiple linear regression model with this dataset; the most useful techniques are discussed. With these techniques, the best multiple linear regression model achieved an R^2 = 81.23% and exhibited no multicollinearity effect for the dataset used in this study. Tree-based models perform better on this dataset, as they are non-parametric, capable of handling complex relationships among variables and not affected by multicollinearity. We show that bagging, in the use of Random Forests, reduces overfitting. Our best tree-based model achieved accuracy of R^2 = 97.73%. This study explains why tree-based regressions promise as a machine learning model for non-normally distributed, multicollinear data.
翻訳日:2021-11-06 02:51:33 公開日:2021-11-03
# (参考訳) シフト: 分類器の調整 [全文訳有]

Shift Happens: Adjusting Classifiers ( http://arxiv.org/abs/2111.02529v1 )

ライセンス: CC BY 4.0
Theodore James Thibault Heiser, Mari-Liis Allikivi, Meelis Kull(参考訳) brierスコアやlog-loss(cross-entro py)などの適切なスコアルールによって測定される期待損失の最小化は、確率的分類器のトレーニングにおいて共通の目的である。 データがトレーニング後にクラス分布が変化するデータセットシフトを経験した場合、モデルのパフォーマンスが低下し、一部のクラスの確率を過小評価し、他のクラスを平均的に過小評価することが多い。 我々は,すべての予測を平均予測とクラス分布を(再)等化する非有界および有界一般調整(ugaおよびbga)法を提案する。 これらの手法は、どの適切なスコアリングルールを最小化するかによって異なる振る舞いをしており、正確なクラス分布が分かっていれば、テストデータの損失を減らす理論的保証がある。 また、実際にクラス分布がほぼ知られている場合、シフトの量やクラス分布が知られている精度に応じて、損失が減少することがしばしばあることを実験的に実証した。

Minimizing expected loss measured by a proper scoring rule, such as Brier score or log-loss (cross-entropy), is a common objective while training a probabilistic classifier. If the data have experienced dataset shift where the class distributions change post-training, then often the model's performance will decrease, over-estimating the probabilities of some classes while under-estimating the others on average. We propose unbounded and bounded general adjustment (UGA and BGA) methods that transform all predictions to (re-)equalize the average prediction and the class distribution. These methods act differently depending on which proper scoring rule is to be minimized, and we have a theoretical guarantee of reducing loss on test data, if the exact class distribution is known. We also demonstrate experimentally that, when in practice the class distribution is known only approximately, there is often still a reduction in loss depending on the amount of shift and the precision to which the class distribution is known.
翻訳日:2021-11-06 02:40:52 公開日:2021-11-03
# (参考訳) 可視顔認識のためのクロスドメインプレゼンテーションアタック検出の理解 [全文訳有]

Understanding Cross Domain Presentation Attack Detection for Visible Face Recognition ( http://arxiv.org/abs/2111.02548v1 )

ライセンス: CC BY-SA 4.0
Jennifer Hamblin, Kshitij Nikhal, Benjamin S. Riggan(参考訳) 顔のシグネチャはサイズ、形状、テクスチャ、肌の色、目色、外観、傷跡/マークなどであり、アクセス制御のための識別的生体情報として広く使われている。 近年の顔認識システムの発展にもかかわらず、顔認識システムに対するプレゼンテーション攻撃はますます高度になっている。 プレゼンテーション攻撃や偽装未遂を検知する能力は、顔認識システムの完全性、セキュリティ、そして信頼を迫られる懸念である。 マルチスペクトルイメージング(multi-spectral imaging)は、電磁スペクトルの異なる領域(可視光、近赤外、遠赤外線など)に敏感なセンサを使用することで、プレゼンテーションアタック検出を改善する手段として以前に導入された。 マルチスペクトル提示攻撃検知システムは識別可能であるが、追加のセンサーと計算資源の必要性は、複雑さとコストを大幅に増大させる。 その代わり、トレーニング中の赤外線画像からの情報を活用して、視覚的提示攻撃検知システムの識別性を高める手法を提案する。 本稿では,(1) 可視光画像のみを用いて,ボナフィドとプレゼンテーションアタックの分離性を高める新しいクロスドメインプレゼンテーションアタック検出フレームワーク,(2) クロスドメインプレゼンテーションアタック検出フレームワークを最適化する際のトレーニング安定性を高める逆ドメイン正規化手法,(3) 可視領域と非可視領域間の表現を変換する高密度ドメイン適応サブネットワークを提案する。

Face signatures, including size, shape, texture, skin tone, eye color, appearance, and scars/marks, are widely used as discriminative, biometric information for access control. Despite recent advancements in facial recognition systems, presentation attacks on facial recognition systems have become increasingly sophisticated. The ability to detect presentation attacks or spoofing attempts is a pressing concern for the integrity, security, and trust of facial recognition systems. Multi-spectral imaging has been previously introduced as a way to improve presentation attack detection by utilizing sensors that are sensitive to different regions of the electromagnetic spectrum (e.g., visible, near infrared, long-wave infrared). Although multi-spectral presentation attack detection systems may be discriminative, the need for additional sensors and computational resources substantially increases complexity and costs. Instead, we propose a method that exploits information from infrared imagery during training to increase the discriminability of visible-based presentation attack detection systems. We introduce (1) a new cross-domain presentation attack detection framework that increases the separability of bonafide and presentation attacks using only visible spectrum imagery, (2) an inverse domain regularization technique for added training stability when optimizing our cross-domain presentation attack detection framework, and (3) a dense domain adaptation subnetwork to transform representations between visible and non-visible domains.
翻訳日:2021-11-06 02:15:13 公開日:2021-11-03
# (参考訳) 連続学習のためのメタラーニングニューロンモデル [全文訳有]

A Meta-Learned Neuron model for Continual Learning ( http://arxiv.org/abs/2111.02557v1 )

ライセンス: CC BY 4.0
Rodrigue Siry(参考訳) 継続学習とは、過去のトレーニングデータにアクセスできないと仮定して、学習した知識を忘れずに新しい知識を得る能力である。 勾配降下で訓練されたニューラルネットワーク近似器は、定常分布からサンプリングされたデータポイントのストリームから学習する必要があるため、この設定で失敗することが知られている。 本研究では,破滅的干渉を最小限に抑えるために推論と更新規則を最適化したメタ学習ニューロンモデルにより,標準ニューロンを置き換える。 トレーニングサンプルのデータセット長シーケンスを記憶し,その学習能力を任意のドメインに一般化する。 従来の連続学習法とは異なり,本手法では,タスクの作り方,提供方法,相互関係について,入力データのストリームが時間的関連であるか否かに関わらず,トレーニングサンプルを1つずつ吸収・保持する。

Continual learning is the ability to acquire new knowledge without forgetting the previously learned one, assuming no further access to past training data. Neural network approximators trained with gradient descent are known to fail in this setting as they must learn from a stream of data-points sampled from a stationary distribution to converge. In this work, we replace the standard neuron by a meta-learned neuron model whom inference and update rules are optimized to minimize catastrophic interference. Our approach can memorize dataset-length sequences of training samples, and its learning capabilities generalize to any domain. Unlike previous continual learning methods, our method does not make any assumption about how tasks are constructed, delivered and how they relate to each other: it simply absorbs and retains training samples one by one, whether the stream of input data is time-correlated or not.
翻訳日:2021-11-06 02:02:13 公開日:2021-11-03
# 近似最適化による重み付き量子チャネルコンパイル

Weighted Quantum Channel Compiling through Proximal Policy Optimization ( http://arxiv.org/abs/2111.02426v1 )

ライセンス: Link先を確認
Weiyuan Gong, Si Jiang and Dong-Ling Deng(参考訳) 本稿では, 近似ポリシ最適化に基づく, 任意の量子チャネルを近似量子ビットを使わずにコンパイルする汎用的かつ体系的な手法を提案する。 我々は、ユニタリゲートをコンパイルする場合とは対照的に、任意の有限小チャネル集合で任意の精度で任意のチャネルをコンパイルすることは、分解列の長さに関係なく不可能であることを厳密に証明する。 しかし、固定された精度で$\epsilon$ は、任意の量子チャネルがこれらの初等チャネルの列に分解され、ユニタリゲートが続き、シーケンスの長さは$o(\frac{1}{\epsilon}\log\frac{1}{\epsilon})$となるような、一定数の$\epsilon$依存性の初等チャネルを持つ普遍集合を構成することができる。 マヨラナフェルミオンのトポロジカルコンパイルに関する具体例を通して,提案アルゴリズムは,近似ポリシ最適化の報酬関数に重み付けコストを加えることにより,高価な基本ゲートの使用を便利かつ効果的に削減できることを示す。

We propose a general and systematic strategy to compile arbitrary quantum channels without using ancillary qubits, based on proximal policy optimization -- a powerful deep reinforcement learning algorithm. We rigorously prove that, in sharp contrast to the case of compiling unitary gates, it is impossible to compile an arbitrary channel to arbitrary precision with any given finite elementary channel set, regardless of the length of the decomposition sequence. However, for a fixed accuracy $\epsilon$ one can construct a universal set with constant number of $\epsilon$-dependent elementary channels, such that an arbitrary quantum channel can be decomposed into a sequence of these elementary channels followed by a unitary gate, with the sequence length bounded by $O(\frac{1}{\epsilon}\log\frac{1}{\epsilon})$. Through a concrete example concerning topological compiling of Majorana fermions, we show that our proposed algorithm can conveniently and effectively reduce the use of expensive elementary gates through adding the weighted cost into the reward function of the proximal policy optimization.
翻訳日:2021-11-05 16:15:44 公開日:2021-11-03
# 高速サンプリングのための非ニュートンモーメントを用いたハミルトン動力学

Hamiltonian Dynamics with Non-Newtonian Momentum for Rapid Sampling ( http://arxiv.org/abs/2111.02434v1 )

ライセンス: Link先を確認
Greg Ver Steeg and Aram Galstyan(参考訳) 非正規化確率分布からのサンプリングは、ベイズモデル、潜在因子推論、エネルギーベースモデルトレーニングなどを含む機械学習の基本的な問題である。 数十年にわたる研究の後、MCMCのバリエーションは、収束が遅いにもかかわらずサンプリングのデフォルトのアプローチのままである。 補助的ニューラルモデルはMCMCの高速化を学ぶことができるが、追加モデルのトレーニングのオーバーヘッドは禁じることができる。 非ニュートン運動量を持つ新しいハミルトン力学を用いて、この問題に対する根本的に異なるアプローチを提案する。 ハミルトニアン・モンテカルロのようなMCMCアプローチとは対照的に、確率的なステップは不要である。 代わりに、拡張状態空間における決定論的力学は、エルゴディディティの仮定の下でエネルギー関数によって指定されたターゲット分布を正確にサンプリングする。 あるいは、ダイナミクスはトレーニングなしで特定のエネルギーモデルをサンプリングする正規化フローとして解釈できる。 提案したEnergy Sampling Hamiltonian (ESH) 力学は、既存のODEソルバで解ける単純な形式を持つが、より優れた性能を示す特殊な解法を導出する。 ESHダイナミクスは、より高速で安定したニューラルネットワークエネルギーモデルのトレーニングを可能にするMCMC競合よりも早く収束する。

Sampling from an unnormalized probability distribution is a fundamental problem in machine learning with applications including Bayesian modeling, latent factor inference, and energy-based model training. After decades of research, variations of MCMC remain the default approach to sampling despite slow convergence. Auxiliary neural models can learn to speed up MCMC, but the overhead for training the extra model can be prohibitive. We propose a fundamentally different approach to this problem via a new Hamiltonian dynamics with a non-Newtonian momentum. In contrast to MCMC approaches like Hamiltonian Monte Carlo, no stochastic step is required. Instead, the proposed deterministic dynamics in an extended state space exactly sample the target distribution, specified by an energy function, under an assumption of ergodicity. Alternatively, the dynamics can be interpreted as a normalizing flow that samples a specified energy model without training. The proposed Energy Sampling Hamiltonian (ESH) dynamics have a simple form that can be solved with existing ODE solvers, but we derive a specialized solver that exhibits much better performance. ESH dynamics converge faster than their MCMC competitors enabling faster, more stable training of neural network energy models.
翻訳日:2021-11-05 15:48:37 公開日:2021-11-03
# 画像補間による乳癌の分類

Breast Cancer Classification Using: Pixel Interpolation ( http://arxiv.org/abs/2111.02409v1 )

ライセンス: Link先を確認
Osama Rezq Shahin, Hamdy Mohammed Kelash, Gamal Mahrous Attiya and Osama Slah Farg Allah(参考訳) 画像処理は、工学と計算機科学の専門分野におけるバックボーン研究分野である。 今日では急速に技術が発展し、特に癌疾患におけるバイオメディカル分野の様々な側面においてその応用が確立されている。 世界中の最新の統計によると、乳がんはあらゆる種類のがんの中で致命的なものと考えられている。 女性でもっとも多いがんであり、女性の間でがん死の第二の理由である。 開発途上国と開発途上国のがん患者の約23%を占める。 本研究では、乳がんを良性および悪性の主型に分類するために補間法が用いられた。 このスキームはマンモグラフィーの質量の形態スペクトルに依存する。 悪性腫瘍は良性腫瘍よりも不規則な形状比が高かった。 このようにして、腫瘍の境界を余分なピクセルで補間し、境界をできるだけ滑らかにするため、これらの必要なピクセルは腫瘍の不規則な形状に比例するので、腫瘍が悪性の場合に向かうように補間されたピクセルが増加する。 提案システムはMATLABプログラムを用いて実装され,マンモグラム画像解析協会 (MIAS) の画像データベースから得られた複数の画像に対して検証される。 MIASはマンモグラフィー研究の定期的な分類を提供している。 このシステムはより高速に動作し、あらゆる放射線技師が視覚検査によって石灰化の出現について明確な決定を下すことができる。

Image Processing represents the backbone research area within engineering and computer science specialization. It is promptly growing technologies today, and its applications founded in various aspects of biomedical fields especially in cancer disease. Breast cancer is considered the fatal one of all cancer types according to recent statistics all over the world. It is the most commonly cancer in women and the second reason of cancer death between females. About 23% of the total cancer cases in both developing and developed countries. In this work, an interpolation process was used to classify the breast cancer into main types, benign and malignant. This scheme dependent on the morphologic spectrum of mammographic masses. Malignant tumors had irregular shape percent higher than the benign tumors. By this way the boundary of the tumor will be interpolated by additional pixels to make the boundary smoothen as possible, these needed pixels is proportional with irregularity shape of the tumor, so that the increasing in interpolated pixels meaning the tumor goes toward the malignant case. The proposed system is implemented using MATLAB programming and tested over several images taken from the Mammogram Image Analysis Society (MIAS) image database. The MIAS offers a regular classification for mammographic studies. The system works faster so that any radiologist can take a clear decision about the appearance of calcifications by visual inspection.
翻訳日:2021-11-05 15:22:36 公開日:2021-11-03
# スラップキャット、ボッピングヘッド、オレオシェイク:tiktokショートビデオにおけるバイラル性の指標の理解

Slapping Cats, Bopping Heads, and Oreo Shakes: Understanding Indicators of Virality in TikTok Short Videos ( http://arxiv.org/abs/2111.02452v1 )

ライセンス: Link先を確認
Chen Ling, Jeremy Blackburn, Emiliano De Cristofaro, and Gianluca Stringhini(参考訳) ショートビデオは、若い世代が自らをオンラインに表現するために使っている主要なメディアの1つとなり、オンライン文化を形作る原動力となっている。 この状況下では、TikTokはバイラルビデオが最初に投稿されるプラットフォームとして登場した。 本稿では,TikTokに投稿された短いビデオの要素がバイラル性に与える影響について検討する。 我々は、コードブックを開発し、重要なバイラル性特徴を識別するために混合手法を適用する。 私たちは3つの研究仮説、すなわち、そのようにします。 1)ビデオの内容。 2)TikTokの推奨アルゴリズムと 3)ビデオクリエーターの人気はバイラル性に寄与する。 私たちは400のTikTokビデオとトレーニング分類器のデータセットを収集してラベル付けし、バイラル性に最も影響を及ぼす特徴を特定するのに役立ちます。 フォロワーの数は最も強力な予測者だが、クローズアップと中規模スケールも重要な役割を果たす。 ビデオのライフスパン、テキストの存在、そして視点もそうです。 我々の研究は、ウイルス以外のTikTokビデオとウイルスを区別する特徴を強調し、より魅力的なオンラインコンテンツを作成し、大観衆に届く可能性のある危険のあるコンテンツを積極的に特定するための新たなアプローチの基盤を築き上げている。

Short videos have become one of the leading media used by younger generations to express themselves online and thus a driving force in shaping online culture. In this context, TikTok has emerged as a platform where viral videos are often posted first. In this paper, we study what elements of short videos posted on TikTok contribute to their virality. We apply a mixed-method approach to develop a codebook and identify important virality features. We do so vis-\`a-vis three research hypotheses; namely, that: 1) the video content, 2) TikTok's recommendation algorithm, and 3) the popularity of the video creator contribute to virality. We collect and label a dataset of 400 TikTok videos and train classifiers to help us identify the features that influence virality the most. While the number of followers is the most powerful predictor, close-up and medium-shot scales also play an essential role. So does the lifespan of the video, the presence of text, and the point of view. Our research highlights the characteristics that distinguish viral from non-viral TikTok videos, laying the groundwork for developing additional approaches to create more engaging online content and proactively identify possibly risky content that is likely to reach a large audience.
翻訳日:2021-11-05 15:22:15 公開日:2021-11-03
# 高時間分解能動作同定のためのシーケンス・ツー・シーケンスモデリング

Sequence-to-Sequence Modeling for Action Identification at High Temporal Resolution ( http://arxiv.org/abs/2111.02521v1 )

ライセンス: Link先を確認
Aakash Kaku, Kangning Liu, Avinash Parnandi, Haresh Rengaraj Rajamohan, Kannan Venkataramanan, Anita Venkatesan, Audre Wirtanen, Natasha Pandit, Heidi Schambra, Carlos Fernandez-Granda(参考訳) ビデオと運動データからのアクションの自動識別は、ロボット工学からスマートヘルスまで幅広い応用において重要な機械学習問題である。 現存する作品のほとんどは、比較的長い期間の野菜のランニング、クライミング、切断などの粗い行動を識別することに焦点を当てている。 これは高時間分解能での微妙な動きの識別を必要とするアプリケーションにとって重要な制限である。 例えば、脳卒中回復において、リハビリテーションを定量化するには、秒以下の時間で運動を区別する必要がある。 私たちの目標は、このギャップを埋めることです。 そこで本研究では,大規模マルチモーダルデータセットである strokerehab を,時間分解能の高い微妙な短デュレーション動作を含む新しい行動認識ベンチマークとして導入する。 これらの短いデュレーションアクションは関数プリミティブと呼ばれ、リーチ、トランスポート、再配置、安定化、アイドルで構成される。 このデータセットは、高品質な慣性測定ユニットセンサーと41人の脳卒中患者のビデオデータからなり、食事や歯磨きなどの日常生活活動を行う。 セグメンテーションに基づく現在の最先端モデルでは、これらのデータに適用するとノイズの予測が発生し、アクションのオーバーカウントに繋がることが多い。 そこで本研究では,アクションのシーケンスを直接予測するシーケンス・ツー・シーケンス・モデルに基づく音声認識技術にヒントを得た,高精度な行動識別手法を提案する。 このアプローチは、StrokeRehabデータセットの現在の最先端メソッド、および標準ベンチマークデータセットの50Salads、Breakfast、Jigsawよりも優れています。

Automatic action identification from video and kinematic data is an important machine learning problem with applications ranging from robotics to smart health. Most existing works focus on identifying coarse actions such as running, climbing, or cutting a vegetable, which have relatively long durations. This is an important limitation for applications that require the identification of subtle motions at high temporal resolution. For example, in stroke recovery, quantifying rehabilitation dose requires differentiating motions with sub-second durations. Our goal is to bridge this gap. To this end, we introduce a large-scale, multimodal dataset, StrokeRehab, as a new action-recognition benchmark that includes subtle short-duration actions labeled at a high temporal resolution. These short-duration actions are called functional primitives, and consist of reaches, transports, repositions, stabilizations, and idles. The dataset consists of high-quality Inertial Measurement Unit sensors and video data of 41 stroke-impaired patients performing activities of daily living like feeding, brushing teeth, etc. We show that current state-of-the-art models based on segmentation produce noisy predictions when applied to these data, which often leads to overcounting of actions. To address this, we propose a novel approach for high-resolution action identification, inspired by speech-recognition techniques, which is based on a sequence-to-sequence model that directly predicts the sequence of actions. This approach outperforms current state-of-the-art methods on the StrokeRehab dataset, as well as on the standard benchmark datasets 50Salads, Breakfast, and Jigsaws.
翻訳日:2021-11-05 15:21:54 公開日:2021-11-03
# 単一rgb画像からのパンオプティカル3次元シーン再構成

Panoptic 3D Scene Reconstruction From a Single RGB Image ( http://arxiv.org/abs/2111.02444v1 )

ライセンス: Link先を確認
Manuel Dahnert, Ji Hou, Matthias Nie{\ss}ner, Angela Dai(参考訳) 1枚の画像から3dシーンを理解することは、ロボティクス、モーションプランニング、拡張現実など、さまざまなタスクの基本である。 単一のRGB画像からの3次元知覚における既存の研究は、幾何学的再構成のみに焦点を当てる傾向がある。 2dパンオプティカルセグメンテーションに触発されて,3d意味セグメンテーション,および3dインスタンスセグメンテーションのタスクを1つのrgb画像からパンオプティカル3dシーンセグメンテーションのタスクに統合し,画像のカメラフラスタムにおけるシーンの完全な幾何学的再構成を予測し,セマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせることを提案する。 そこで本研究では,入力画像から3Dボリュームシーン表現への2D特徴の持ち上げと伝播を学習する,単一のRGB画像からの全体的3Dシーン理解のための新しいアプローチを提案する。 共同シーンの再構築,セマンティック,インスタンスセグメンテーションのこの全体的視点は,タスクを個別に扱うよりも有益であることを示す。

Understanding 3D scenes from a single image is fundamental to a wide variety of tasks, such as for robotics, motion planning, or augmented reality. Existing works in 3D perception from a single RGB image tend to focus on geometric reconstruction only, or geometric reconstruction with semantic segmentation or instance segmentation. Inspired by 2D panoptic segmentation, we propose to unify the tasks of geometric reconstruction, 3D semantic segmentation, and 3D instance segmentation into the task of panoptic 3D scene reconstruction - from a single RGB image, predicting the complete geometric reconstruction of the scene in the camera frustum of the image, along with semantic and instance segmentations. We thus propose a new approach for holistic 3D scene understanding from a single RGB image which learns to lift and propagate 2D features from an input image to a 3D volumetric scene representation. We demonstrate that this holistic view of joint scene reconstruction, semantic, and instance segmentation is beneficial over treating the tasks independently, thus outperforming alternative approaches.
翻訳日:2021-11-05 15:03:18 公開日:2021-11-03
# 生成モデルの周波数バイアスについて

On the Frequency Bias of Generative Models ( http://arxiv.org/abs/2111.02447v1 )

ライセンス: Link先を確認
Katja Schwarz and Yiyi Liao and Andreas Geiger(参考訳) GAN(Generative Adversarial Networks)の主な目的は、提供されるトレーニングデータと同じ統計値で新しいデータを生成することである。 しかし、最近の複数の研究によって、最先端のアーキテクチャがこの目標を達成するのにまだ苦労していることが示されている。 特に、スペクトル統計において高い周波数が報告され、実画像と生成された画像の区別が容易になる。 この現象の説明は物議を醸している: ほとんどの作品が人工物は生成者に帰属するが、他の作品が判別者を指している。 われわれはこれらの説明を精査し、高周波アーティファクトに対する提案された対策について考察する。 これを実現するために,我々はまず,生成器と判別器の両方のアーキテクチャを独立に評価し,高周波コンテンツの分布を特に問題視する周波数バイアスを示すかどうかを検証した。 これらの実験に基づいて、以下の4つの観察を行う。 1) 異なるアップサンプリング操作は、発生器を異なるスペクトル特性に偏らせる。 2)アップサンプリングによって導入されたチェッカーボードのアーティファクトは,ジェネレータがこれらのアーティファクトを補償できるため,スペクトルの相違だけでは説明できない。 3) 判別器は, 高い周波数を検出するのに苦しむのではなく, 低等級の周波数に苦しむ。 4) 判別器におけるダウンサンプリング操作は、提供される訓練信号の品質を損なうことができる。 これらの結果を踏まえて,最先端ganトレーニングにおける高周波アーチファクトに対する提案手法を分析したが,既存の手法ではスペクトルアーチファクトを完全に解決できないことがわかった。 以上の結果から, 判別器の改良には大きな可能性があり, トレーニングデータの分布に適合する鍵となる可能性が示唆された。

The key objective of Generative Adversarial Networks (GANs) is to generate new data with the same statistics as the provided training data. However, multiple recent works show that state-of-the-art architectures yet struggle to achieve this goal. In particular, they report an elevated amount of high frequencies in the spectral statistics which makes it straightforward to distinguish real and generated images. Explanations for this phenomenon are controversial: While most works attribute the artifacts to the generator, other works point to the discriminator. We take a sober look at those explanations and provide insights on what makes proposed measures against high-frequency artifacts effective. To achieve this, we first independently assess the architectures of both the generator and discriminator and investigate if they exhibit a frequency bias that makes learning the distribution of high-frequency content particularly problematic. Based on these experiments, we make the following four observations: 1) Different upsampling operations bias the generator towards different spectral properties. 2) Checkerboard artifacts introduced by upsampling cannot explain the spectral discrepancies alone as the generator is able to compensate for these artifacts. 3) The discriminator does not struggle with detecting high frequencies per se but rather struggles with frequencies of low magnitude. 4) The downsampling operations in the discriminator can impair the quality of the training signal it provides. In light of these findings, we analyze proposed measures against high-frequency artifacts in state-of-the-art GAN training but find that none of the existing approaches can fully resolve spectral artifacts yet. Our results suggest that there is great potential in improving the discriminator and that this could be key to match the distribution of the training data more closely.
翻訳日:2021-11-05 15:02:54 公開日:2021-11-03
# 公共輸送スケジュールを用いた微小領域の教師なし埋め込みと類似性検出

Unsupervised embedding and similarity detection of microregions using public transport schedules ( http://arxiv.org/abs/2111.02405v1 )

ライセンス: Link先を確認
Piotr Gramacki(参考訳) 近年,都市関連課題に取り組むための空間データの役割が増大している。 機械学習モデルでそれを使うには、それらをベクトル表現に変換することがしばしば必要であり、空間データ表現学習の分野の発展に繋がる。 また,表現学習手法を提案する空間データ型も増加している。 公共交通機関の時刻表は、都市内の地域の表現を学ぶタスクにはこれまで使われていなかった。 本研究では,公共交通機関の可用性情報をベクトル空間に埋め込む手法を開発した。 その適用実験を行うため、ヨーロッパの48都市から公共交通機関の時刻表が集められた。 H3空間インデクシング法を用いてマイクロリージョンに分割した。 公共交通機関に類似した特徴を持つ地域を特定する手法も提案した。 その根拠として、地域の公共交通提供の多水準型が定義された。 本論文は,提案手法により,都市間における公共交通特性の類似したマイクロリージョンの識別が可能であり,都市内で利用可能な公共交通の質を評価することができることを示す。

The role of spatial data in tackling city-related tasks has been growing in recent years. To use them in machine learning models, it is often necessary to transform them into a vector representation, which has led to the development in the field of spatial data representation learning. There is also a growing variety of spatial data types for which representation learning methods are proposed. Public transport timetables have so far not been used in the task of learning representations of regions in a city. In this work, a method is developed to embed public transport availability information into vector space. To conduct experiments on its application, public transport timetables were collected from 48 European cities. Using the H3 spatial indexing method, they were divided into micro-regions. A method was also proposed to identify regions with similar characteristics of public transport offers. On its basis, a multi-level typology of public transport offers in the regions was defined. This thesis shows that the proposed representation method makes it possible to identify micro-regions with similar public transport characteristics between the cities, and can be used to evaluate the quality of public transport available in a city.
翻訳日:2021-11-05 14:59:57 公開日:2021-11-03
# AlphaD3M: 機械学習パイプライン合成

AlphaD3M: Machine Learning Pipeline Synthesis ( http://arxiv.org/abs/2111.02508v1 )

ライセンス: Link先を確認
Iddo Drori, Yamuna Krishnamurthy, Remi Rampin, Raoni de Paula Lourenco, Jorge Piazentin Ono, Kyunghyun Cho, Claudio Silva, Juliana Freire(参考訳) 自己再生型シーケンスモデルを用いたメタ強化学習に基づく自動機械学習(automl)システムであるalphad3mを提案する。 AlphaD3Mは、説明可能性を提供する機械学習パイプラインプリミティブ上で実行される編集操作に基づいている。 OpenMLデータセット上で、AlphaD3Mと最先端のAutoMLシステムであるAutosklearn、Autostacker、TPOTを比較した。 alphad3mは桁違いに高速で、計算時間を数時間から数分に短縮し、設計によって説明可能な競合性能を実現している。

We introduce AlphaD3M, an automatic machine learning (AutoML) system based on meta reinforcement learning using sequence models with self play. AlphaD3M is based on edit operations performed over machine learning pipeline primitives providing explainability. We compare AlphaD3M with state-of-the-art AutoML systems: Autosklearn, Autostacker, and TPOT, on OpenML datasets. AlphaD3M achieves competitive performance while being an order of magnitude faster, reducing computation time from hours to minutes, and is explainable by design.
翻訳日:2021-11-05 14:59:41 公開日:2021-11-03
# バンバンバンはコントロールできるのか? Bernoulli Policiesによる継続的制御の解決

Is Bang-Bang Control All You Need? Solving Continuous Control with Bernoulli Policies ( http://arxiv.org/abs/2111.02552v1 )

ライセンス: Link先を確認
Tim Seyde, Igor Gilitschenski, Wilko Schwarting, Bartolomeo Stellato, Martin Riedmiller, Markus Wulfmeier, Daniela Rus(参考訳) 継続的制御のための強化学習(RL)は、通常、アクション空間全体をカバーしている分布を用いる。 本研究では、訓練されたエージェントが、その空間の境界における行動を好むことがよく知られている現象について検討する。 最適制御におけるバンバン動作の出現に関する理論的な関係を描き、近年のRLアルゴリズムにまたがる広範な経験的評価を提供する。 通常のガウス分布をベルヌーイ分布 (bernolli distribution) に置き換え、各作用次元の極値(バンバンバン制御)のみを考える。 ロボットハードウェアとは対照的に、エネルギーとメンテナンスコストがコントローラの選択に影響を与える。 探索,学習,最終解がRLに絡み合っているので,我々の分析に対する探索の影響を低減するために,さらなる模擬学習実験を行う。 最後に,実世界の課題をモデル化し,バンバン・バン・ソリューションの出現を緩和するための要因を評価する環境に,我々の観察が一般化することを示す。 我々の研究は、特に実世界の潜在的な応用の観点から、連続制御アルゴリズムのベンチマークの課題を強調した。

Reinforcement learning (RL) for continuous control typically employs distributions whose support covers the entire action space. In this work, we investigate the colloquially known phenomenon that trained agents often prefer actions at the boundaries of that space. We draw theoretical connections to the emergence of bang-bang behavior in optimal control, and provide extensive empirical evaluation across a variety of recent RL algorithms. We replace the normal Gaussian by a Bernoulli distribution that solely considers the extremes along each action dimension - a bang-bang controller. Surprisingly, this achieves state-of-the-art performance on several continuous control benchmarks - in contrast to robotic hardware, where energy and maintenance cost affect controller choices. Since exploration, learning,and the final solution are entangled in RL, we provide additional imitation learning experiments to reduce the impact of exploration on our analysis. Finally, we show that our observations generalize to environments that aim to model real-world challenges and evaluate factors to mitigate the emergence of bang-bang solutions. Our findings emphasize challenges for benchmarking continuous control algorithms, particularly in light of potential real-world applications.
翻訳日:2021-11-05 14:47:49 公開日:2021-11-03
# Athena 2.0:Alexa Prize SocialBotのためのコンテキスト化された対話管理

Athena 2.0: Contextualized Dialogue Management for an Alexa Prize SocialBot ( http://arxiv.org/abs/2111.02519v1 )

ライセンス: Link先を確認
Juraj Juraska, Kevin K. Bowden, Lena Reed, Vrindavan Harrison, Wen Cui, Omkar Patil, Rishi Rajasekaran, Angela Ramirez, Cecilia Li, Eduardo Zamora, Phillip Lee, Jeshwanth Bheemanpally, Rohan Pandey, Adwait Ratnaparkhi and Marilyn Walker(参考訳) Athena 2.0はAlexa Prize SocialBotで、過去2回のAlexa Prize Grand Challengesでファイナリストを務めた。 アテナの成功の1つの理由は、新しい対話管理戦略であり、コンポーネントモジュールからの対話と応答を動的に構築し、すべての対話と新しい会話をもたらす。 ここでは,athenaのシステム設計と性能を,20/21コンペティションにおけるalexa prizeで紹介する。 Athenaのライブデモとビデオ録画は、会話型AIにおける最先端技術に関する議論を引き起こします。

Athena 2.0 is an Alexa Prize SocialBot that has been a finalist in the last two Alexa Prize Grand Challenges. One reason for Athena's success is its novel dialogue management strategy, which allows it to dynamically construct dialogues and responses from component modules, leading to novel conversations with every interaction. Here we describe Athena's system design and performance in the Alexa Prize during the 20/21 competition. A live demo of Athena as well as video recordings will provoke discussion on the state of the art in conversational AI.
翻訳日:2021-11-05 14:43:47 公開日:2021-11-03
# 教師なし領域適応の確実性予測

Certainty Volume Prediction for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2111.02901v1 )

ライセンス: Link先を確認
Tobias Ringwald, Rainer Stiefelhagen(参考訳) unsupervised domain adaptation (uda) はラベルなしのターゲットドメインデータを分類する問題を扱うが、ラベル付きデータは異なるソースドメインでのみ利用できる。 残念なことに、一般的に使用される分類方法は、ソースとターゲットデータの間のドメインギャップのため、このタスクを適切に満たすことができない。 本稿では,不確かさを特徴空間における多変量ガウス分布としてモデル化する,新しい不確実性認識領域適応設定を提案する。 提案する不確実性尺度は,他の一般的な不確実性定量化と相関し,分類器の判定境界を平滑化させ,一般化能力を向上させる。 我々は、udaデータセットに挑戦するパイプラインを評価し、最先端の結果を得る。 このメソッドのコードはhttps://gitlab.com/t ringwald/cvpで利用可能です。

Unsupervised domain adaptation (UDA) deals with the problem of classifying unlabeled target domain data while labeled data is only available for a different source domain. Unfortunately, commonly used classification methods cannot fulfill this task adequately due to the domain gap between the source and target data. In this paper, we propose a novel uncertainty-aware domain adaptation setup that models uncertainty as a multivariate Gaussian distribution in feature space. We show that our proposed uncertainty measure correlates with other common uncertainty quantifications and relates to smoothing the classifier's decision boundary, therefore improving the generalization capabilities. We evaluate our proposed pipeline on challenging UDA datasets and achieve state-of-the-art results. Code for our method is available at https://gitlab.com/t ringwald/cvp.
翻訳日:2021-11-05 13:18:52 公開日:2021-11-03
# 動物運動の学習による人間と動物の統一3次元メッシュ回復

Unified 3D Mesh Recovery of Humans and Animals by Learning Animal Exercise ( http://arxiv.org/abs/2111.02450v1 )

ライセンス: Link先を確認
Kim Youwang, Kim Ji-Yeon, Kyungdon Joo, Tae-Hyun Oh(参考訳) 本稿では,人間と四足動物のエンドツーエンド統一型3次元メッシュリカバリを提案する。 単一のターゲットクラスのみに焦点を当てた最近の作業とは異なり、我々は単一のマルチタスクモデルでより広いクラスの3dメッシュを回復することを目指している。 しかし、人間と動物の両方のアノテーションが存在しないために、マルチタスク学習を直接可能にするデータセットは存在しない。例えば、人間の画像には動物のポーズのアノテーションがないので、不均一なデータセットを利用する新しい方法を考えなければならない。 不安定なマルチタスク学習を共同学習可能にするために,人間と動物の形態的類似性を活用し,動物のポーズを模倣する動物運動を動機とする。 人間と動物のメッシュ回帰枝の合同訓練を可能にするサブキーポイントと呼ばれる意味対応によって形態的類似性を実現する。 さらに, 平均形バイアスを回避し, 多クラス間の差分性を改善するために, クラス感性正規化手法を提案する。 提案手法は, 様々なヒトおよび動物のデータセット上の最近のユニモーダルモデルに対して, はるかにコンパクトでありながら好適に機能する。

We propose an end-to-end unified 3D mesh recovery of humans and quadruped animals trained in a weakly-supervised way. Unlike recent work focusing on a single target class only, we aim to recover 3D mesh of broader classes with a single multi-task model. However, there exists no dataset that can directly enable multi-task learning due to the absence of both human and animal annotations for a single object, e.g., a human image does not have animal pose annotations; thus, we have to devise a new way to exploit heterogeneous datasets. To make the unstable disjoint multi-task learning jointly trainable, we propose to exploit the morphological similarity between humans and animals, motivated by animal exercise where humans imitate animal poses. We realize the morphological similarity by semantic correspondences, called sub-keypoint, which enables joint training of human and animal mesh regression branches. Besides, we propose class-sensitive regularization methods to avoid a mean-shape bias and to improve the distinctiveness across multi-classes. Our method performs favorably against recent uni-modal models on various human and animal datasets while being far more compact.
翻訳日:2021-11-05 12:40:02 公開日:2021-11-03
# 摂動と最大積:離散エネルギーモデルにおけるサンプリングと学習

Perturb-and-max-prod uct: Sampling and learning in discrete energy-based models ( http://arxiv.org/abs/2111.02458v1 )

ライセンス: Link先を確認
Miguel Lazaro-Gredilla, Antoine Dedieu, Dileep George(参考訳) Perturb-and-MAPは、摂動バージョンのMAP構成を計算し、エネルギーベースモデル(EBM)からおよそサンプルを抽出するエレガントなアプローチを提供する。 サンプリングは学習を可能にする。 しかし、この研究はMAP計算の一般的な難易度によって妨げられている。 トラクタブルなモデル外で動作する作業はほとんどなく、それらが実行された場合、線形プログラミングアプローチを使用します。 本稿では,個別のebmにおけるサンプリングと学習のための並列かつスケーラブルなメカニズムであるperturb-and-max-prod uct (pmp)を提案する。 モデルは、抽出可能な要素を使って構築される限り任意のものとなる。 私たちはそれを示します (a) iting モデルの場合、pmp は、gibbs や gibbs-with-gradients (gwg) を学習し、類似又は良好な品質のサンプルを生成する場合において、桁違いに速い。 b)PMPは、RBMから学習し、サンプリングすることができる。 (c) GibbsとGWGが混在しない大きな絡み合ったグラフィカルモデルでは、PMPは成功する。

Perturb-and-MAP offers an elegant approach to approximately sample from a energy-based model (EBM) by computing the maximum-a-posteriori (MAP) configuration of a perturbed version of the model. Sampling in turn enables learning. However, this line of research has been hindered by the general intractability of the MAP computation. Very few works venture outside tractable models, and when they do, they use linear programming approaches, which as we will show, have several limitations. In this work we present perturb-and-max-prod uct (PMP), a parallel and scalable mechanism for sampling and learning in discrete EBMs. Models can be arbitrary as long as they are built using tractable factors. We show that (a) for Ising models, PMP is orders of magnitude faster than Gibbs and Gibbs-with-Gradients (GWG) at learning and generating samples of similar or better quality; (b) PMP is able to learn and sample from RBMs; (c) in a large, entangled graphical model in which Gibbs and GWG fail to mix, PMP succeeds.
翻訳日:2021-11-05 12:37:39 公開日:2021-11-03
# 順序整合因数グラフのマルチタスク学習

Multi-task Learning of Order-Consistent Causal Graphs ( http://arxiv.org/abs/2111.02545v1 )

ライセンス: Link先を確認
Xinshi Chen, Haoran Sun, Caleb Ellington, Eric Xing, Le Song(参考訳) 我々は、関連するグラフ構造が一貫した因果順序とスパース結合を共有するような、K$関連のガウス有向非巡回グラフ(DAG)を発見する問題を考察する。 マルチタスク学習環境下では, 線形構造方程式モデルを学習するためのMLE ($l_1/l_2$-regulariz ed maximum max estimator) を提案する。 理論的には,結合推定器は関連するタスク間のデータを活用することで,個別の推定よりも因果順序(あるいは位相次数)を回復するためのより良いサンプル複雑性を実現できることを示す。 さらに、関節推定器は、いくつかの同定可能なDAGと一緒に推定することにより、同定不可能なDAGを復元することができる。 最後に,本解析の結果から,構造物の連合支持回復の一貫性が示された。 実用的な実装を実現するために,最適化器はジョイント推定器と同じであり,反復アルゴリズムにより効率的に近似できる連続最適化問題を設計する。 実験における共同推定器の理論的解析と有効性を検証する。

We consider the problem of discovering $K$ related Gaussian directed acyclic graphs (DAGs), where the involved graph structures share a consistent causal order and sparse unions of supports. Under the multi-task learning setting, we propose a $l_1/l_2$-regularize d maximum likelihood estimator (MLE) for learning $K$ linear structural equation models. We theoretically show that the joint estimator, by leveraging data across related tasks, can achieve a better sample complexity for recovering the causal order (or topological order) than separate estimations. Moreover, the joint estimator is able to recover non-identifiable DAGs, by estimating them together with some identifiable DAGs. Lastly, our analysis also shows the consistency of union support recovery of the structures. To allow practical implementation, we design a continuous optimization problem whose optimizer is the same as the joint estimator and can be approximated efficiently by an iterative algorithm. We validate the theoretical analysis and the effectiveness of the joint estimator in experiments.
翻訳日:2021-11-05 12:37:16 公開日:2021-11-03
# FeTAチャレンジ2021における部分的監督

Partial supervision for the FeTA challenge 2021 ( http://arxiv.org/abs/2111.02408v1 )

ライセンス: Link先を確認
Lucas Fidon, Michael Aertsen, Suprosanna Shit, Philippe Demaerel, S\'ebastien Ourselin, Jan Deprest and Tom Vercauteren(参考訳) 本稿では, FeTA Challenge2021(チーム名TRABIT)への参加について述べる。 医用画像分割のための畳み込みニューラルネットワークの性能は,トレーニングデータ数と正の相関があると考えられる。 FeTAチャレンジは、提供されたトレーニングデータのみの使用を制限するだけでなく、他の公開ソースの使用も許可している。 しかし、オープンアクセス胎児の脳データはまだ限られている。 したがって、より広い周産期脳画像源をカバーするためにトレーニングデータを拡張するという利点がある。 FeTAチャレンジデータ以外の周産期脳MRIは、現在公開されており、正常および病理学的胎児のアトラスと新生児スキャンにまたがっている。 しかし、異なるデータセットに区切られた周産期脳MRIは通常、異なるアノテーションプロトコルを持つ。 これにより、これらのデータセットを組み合わせることで、ディープニューラルネットワークのトレーニングが困難になる。 我々は最近,部分教師付き学習のためのラベルセット損失関数という損失関数の族を提案した。 ラベルセット損失関数は、部分分割された画像、すなわちいくつかのクラスをスーパークラスに分類できるセグメンテーションでディープニューラルネットワークを訓練することができる。 本稿では,複数の公開データセットをマージすることで,マルチクラスの胎児脳セグメンテーションのための最先端ディープラーニングパイプラインのセグメンテーション性能を向上させるためにラベルセット損失関数を提案する。 一般化性を促進するため,提案手法は追加のハイパーパラメータチューニングを導入しない。

This paper describes our method for our participation in the FeTA challenge2021 (team name: TRABIT). The performance of convolutional neural networks for medical image segmentation is thought to correlate positively with the number of training data. The FeTA challenge does not restrict participants to using only the provided training data but also allows for using other publicly available sources. Yet, open access fetal brain data remains limited. An advantageous strategy could thus be to expand the training data to cover broader perinatal brain imaging sources. Perinatal brain MRIs, other than the FeTA challenge data, that are currently publicly available, span normal and pathological fetal atlases as well as neonatal scans. However, perinatal brain MRIs segmented in different datasets typically come with different annotation protocols. This makes it challenging to combine those datasets to train a deep neural network. We recently proposed a family of loss functions, the label-set loss functions, for partially supervised learning. Label-set loss functions allow to train deep neural networks with partially segmented images, i.e. segmentations in which some classes may be grouped into super-classes. We propose to use label-set loss functions to improve the segmentation performance of a state-of-the-art deep learning pipeline for multi-class fetal brain segmentation by merging several publicly available datasets. To promote generalisability, our approach does not introduce any additional hyper-parameters tuning.
翻訳日:2021-11-05 12:13:25 公開日:2021-11-03
# 深部時空間学習による超音波血管の自動分割

Automatic ultrasound vessel segmentation with deep spatiotemporal context learning ( http://arxiv.org/abs/2111.02461v1 )

ライセンス: Link先を確認
Baichuan Jiang, Alvin Chen, Shyam Bharat, and Mingxin Zheng(参考訳) 超音波画像シーケンスにおける血管構造の正確なリアルタイムセグメンテーションは、腔径の測定と血管疾患の評価に役立つ。 しかし、特に可視化が難しい非常に小さな船では、この作業は依然として難しい課題である。 超音波で得られるリッチな時空間的文脈を活用し,小型下肢動脈血管の分節化を改善することを提案する。 我々は,Bモードとカラードップラー信号の情報を協調的に活用しながら,時間的,空間的,特徴を考慮したコンテキスト埋め込みを複数の解像度スケールで組み込んだ効率的なディープラーニング手法について述べる。 超音波検査の専門家による健常者に対する大腿骨頭動脈スキャンおよび大腿骨頭動脈動脈スキャンの評価,および内腔境界の根治的アノテーションとの比較を行い,文脈認識モデルを用いてリアルタイムセグメンテーションを実演し,比較ベースラインアプローチを著しく上回ったことを示す。

Accurate, real-time segmentation of vessel structures in ultrasound image sequences can aid in the measurement of lumen diameters and assessment of vascular diseases. This, however, remains a challenging task, particularly for extremely small vessels that are difficult to visualize. We propose to leverage the rich spatiotemporal context available in ultrasound to improve segmentation of small-scale lower-extremity arterial vasculature. We describe efficient deep learning methods that incorporate temporal, spatial, and feature-aware contextual embeddings at multiple resolution scales while jointly utilizing information from B-mode and Color Doppler signals. Evaluating on femoral and tibial artery scans performed on healthy subjects by an expert ultrasonographer, and comparing to consensus expert ground-truth annotations of inner lumen boundaries, we demonstrate real-time segmentation using the context-aware models and show that they significantly outperform comparable baseline approaches.
翻訳日:2021-11-05 12:13:07 公開日:2021-11-03
# 深層学習によるヘキサゴナルサンプリング画像の再サンプリングと超解像

Resampling and super-resolution of hexagonally sampled images using deep learning ( http://arxiv.org/abs/2111.02520v1 )

ライセンス: Link先を確認
Dylan Flaute, Russell C. Hardie, Hamed Elwarfalli(参考訳) 超解像度(SR)は画像の解像度を高めることを目的としている。 アプリケーションには、セキュリティ、医療イメージング、オブジェクト認識が含まれる。 ヘキサゴナルにサンプリングした低解像度画像を入力とし、矩形にサンプリングしたSR画像を出力として生成する深層学習型SRシステムを提案する。 トレーニングやテストには、回折による光学劣化と検出器統合によるセンサ劣化を含む現実的な観察モデルを用いる。 我々のSRアプローチは、まず非一様補間を用いて、観測された六角形画像を部分的にアップサンプリングし、矩形格子に変換する。 次に,sr用に設計されたconvolutional neural network(cnn)アーキテクチャを,残留チャネルアテンションネットワーク(rcan)として活用する。 特に, RCAN を用いて画像のアップサンプリングと復元を行い, 最終的な SR 画像推定値を生成する。 本システムは, 正方形サンプルLR画像に対して, RCANを直接適用するよりも優れていることを示す。 ヘキサゴナルサンプリングの理論的利点はよく知られている。 しかし、我々の知る限りでは、RCAN SRのような現代的な処理技術に照らして六角形サンプリングの実用的メリットは、これまで実証されていない。 ヘキサゴナルSRに改良RCANを用いた場合,本システムでは六角形サンプル画像の顕著な利点が示される。

Super-resolution (SR) aims to increase the resolution of imagery. Applications include security, medical imaging, and object recognition. We propose a deep learning-based SR system that takes a hexagonally sampled low-resolution image as an input and generates a rectangularly sampled SR image as an output. For training and testing, we use a realistic observation model that includes optical degradation from diffraction and sensor degradation from detector integration. Our SR approach first uses non-uniform interpolation to partially upsample the observed hexagonal imagery and convert it to a rectangular grid. We then leverage a state-of-the-art convolutional neural network (CNN) architecture designed for SR known as Residual Channel Attention Network (RCAN). In particular, we use RCAN to further upsample and restore the imagery to produce the final SR image estimate. We demonstrate that this system is superior to applying RCAN directly to rectangularly sampled LR imagery with equivalent sample density. The theoretical advantages of hexagonal sampling are well known. However, to the best of our knowledge, the practical benefit of hexagonal sampling in light of modern processing techniques such as RCAN SR is heretofore untested. Our SR system demonstrates a notable advantage of hexagonally sampled imagery when employing a modified RCAN for hexagonal SR.
翻訳日:2021-11-05 12:12:51 公開日:2021-11-03
# (参考訳) 単一画像からのアイ・イン・ハンドカメラキャリブレーションの学習

Learning Eye-in-Hand Camera Calibration from a Single Image ( http://arxiv.org/abs/2111.01245v2 )

ライセンス: CC BY 4.0
Eugene Valassakis, Kamil Dreczkowski, Edward Johns(参考訳) アイ・イン・ハンドカメラのキャリブレーションはロボット工学の基本的かつ長期にわたる問題である。 本稿では,この問題を解決するための学習的手法を1つのRGB画像からオンライン化し,モデルを完全に合成データでトレーニングする。 画像から外部行列を直接予測する1つの直接回帰モデルと、2次元キーポイントを回帰してPnPを使用する1つの疎対応モデルと、回帰深度とセグメンテーションマップを用いてICPのポーズ推定を可能にする1つの密対応モデルである。 実験では,これらの手法を相互に評価し,確立された古典的手法に対して評価し,直接回帰が他の手法に勝る驚くべき結果を見出した。

Eye-in-hand camera calibration is a fundamental and long-studied problem in robotics. We present a study on using learning-based methods for solving this problem online from a single RGB image, whilst training our models with entirely synthetic data. We study three main approaches: one direct regression model that directly predicts the extrinsic matrix from an image, one sparse correspondence model that regresses 2D keypoints and then uses PnP, and one dense correspondence model that uses regressed depth and segmentation maps to enable ICP pose estimation. In our experiments, we benchmark these methods against each other and against well-established classical methods, to find the surprising result that direct regression outperforms other approaches, and we perform noise-sensitivity analysis to gain further insights into these results.
翻訳日:2021-11-05 11:22:46 公開日:2021-11-03
# OPF-Learn:AC Optimal Power Flowデータセット作成のためのオープンソースフレームワーク

OPF-Learn: An Open-Source Framework for Creating Representative AC Optimal Power Flow Datasets ( http://arxiv.org/abs/2111.01228v2 )

ライセンス: Link先を確認
Trager Joswig-Jones, Kyri Baker, Ahmed S. Zamzam(参考訳) 再生可能発電のレベルの増加は、不確実性を管理するためにac最適電力フロー(ac opf)のためのデータ駆動アプローチへの関心が高まっているが、規律化されたデータセットの作成とベンチマークの欠如は、文献におけるアプローチ間の有用な比較を禁止している。 信頼性を高めるために、モデルは幅広い操作条件で確実に解を予測できなければならない。 本稿では、juliaとpython用のopf-learnパッケージを開発し、ac opf実現可能領域の幅広いスペクトルにまたがる代表データセットを作成するために計算効率の良い手法を用いている。 負荷プロファイルは、AC OPF可能なセットを含む凸集合から一様にサンプリングされる。 検出された各不実現点について、凸集合は緩和された定式化の特性を用いて、不実現性証明を用いて縮小される。 このフレームワークは、文献に見られる従来のテクニックよりも、実現可能なスペース全体を代表するデータセットを生成し、機械学習モデルのパフォーマンスを向上させる。

Increasing levels of renewable generation motivate a growing interest in data-driven approaches for AC optimal power flow (AC OPF) to manage uncertainty; however, a lack of disciplined dataset creation and benchmarking prohibits useful comparison among approaches in the literature. To instill confidence, models must be able to reliably predict solutions across a wide range of operating conditions. This paper develops the OPF-Learn package for Julia and Python, which uses a computationally efficient approach to create representative datasets that span a wide spectrum of the AC OPF feasible region. Load profiles are uniformly sampled from a convex set that contains the AC OPF feasible set. For each infeasible point found, the convex set is reduced using infeasibility certificates, found by using properties of a relaxed formulation. The framework is shown to generate datasets that are more representative of the entire feasible space versus traditional techniques seen in the literature, improving machine learning model performance.
翻訳日:2021-11-05 10:48:54 公開日:2021-11-03
# (参考訳) 機械学習によるタンパク質の2成分分類 [全文訳有]

Binary classification of proteins by a Machine Learning approach ( http://arxiv.org/abs/2111.01975v1 )

ライセンス: CC BY 4.0
Damiano Perri, Marco Simonetti, Andrea Lombardi, Noelia Faginas-Lago, Osvaldo Gervasi(参考訳) 本研究では、タンパク質データバンクに含まれるタンパク質の記述に基づいてアミノ酸のタンパク質鎖を分類できる畳み込みニューラルネットワークを用いて、ディープラーニングアプローチに基づくシステムを提案する。 それぞれのタンパク質は、XML形式でのファイルの化学・物理・幾何学的特性で完全に記述されている。 この研究の目的は、大量のデータの収集と管理のための原型的なディープラーニング機械を設計し、そのアミノ酸配列の分類への応用を通じてそれを検証することである。 本稿では, 生体分子のより一般的な分類問題に対して, 構造的特性と類似性に関連するアプローチを適用することを検討する。

In this work we present a system based on a Deep Learning approach, by using a Convolutional Neural Network, capable of classifying protein chains of amino acids based on the protein description contained in the Protein Data Bank. Each protein is fully described in its chemical-physical-ge ometric properties in a file in XML format. The aim of the work is to design a prototypical Deep Learning machinery for the collection and management of a huge amount of data and to validate it through its application to the classification of a sequences of amino acids. We envisage applying the described approach to more general classification problems in biomolecules, related to structural properties and similarities.
翻訳日:2021-11-04 23:18:24 公開日:2021-11-03
# (参考訳) 機械学習によるタンパク質の2値分類法 [全文訳有]

A new method for binary classification of proteins with Machine Learning ( http://arxiv.org/abs/2111.01976v1 )

ライセンス: CC BY 4.0
Damiano Perri, Marco Simonetti, Andrea Lombardi, Noelia Faginas-Lago, Osvaldo Gervasi(参考訳) 本研究では,深層学習法を用いてタンパク質構造を分類する方法を見出した。 我々の人工知能は、タンパク質データバンク(PDB)データベースから外挿された複雑な生体分子構造を画像として認識するよう訓練されており、この目的のために、インセプションResNetV2やインセプションV3といった事前訓練された畳み込みニューラルネットワークを用いて、これらの画像から重要な特徴を抽出し、分子を正しく分類するために、様々な試験が行われた。 従って、様々なネットワークのパフォーマンスの比較分析が作成される。

In this work we set out to find a method to classify protein structures using a Deep Learning methodology. Our Artificial Intelligence has been trained to recognize complex biomolecule structures extrapolated from the Protein Data Bank (PDB) database and reprocessed as images; for this purpose various tests have been conducted with pre-trained Convolutional Neural Networks, such as InceptionResNetV2 or InceptionV3, in order to extract significant features from these images and correctly classify the molecule. A comparative analysis of the performances of the various networks will therefore be produced.
翻訳日:2021-11-04 23:13:36 公開日:2021-11-03
# (参考訳) 投票規則の明白な操作性 [全文訳有]

Obvious Manipulability of Voting Rules ( http://arxiv.org/abs/2111.01983v1 )

ライセンス: CC BY 4.0
Haris Aziz and Alexander Lam(参考訳) gibbard-satterthwait e の定理は、全会一致かつ非決定的投票ルールは戦略的許容性がないと述べている。 我々は投票規則を再検討し、トロイアンとモリル (2020) が提唱した明確なマニピュラビリティ(英語版)ではないというより弱い戦略的安全性の概念を考察する。 我々はこの概念を満たす投票規則のいくつかのクラスを特定する。 また、k-approvalを含むいくつかの投票規則がこの性質を満たすことができないことを示す。 投票ルールが明らかに操作可能な条件を特徴付ける。 私たちの洞察の1つは、投票者数に比べて選択肢が比較的多い場合、特定のルールは明らかに操作可能であるということです。 Gibbard-Satterthwait eの定理とは対照的に、我々が検討したルールの多くは明らかに操作可能であるわけではない。 これは、戦略の完全情報仮定とは対照的に、概念の比較的容易な満足と明らかでない操作性のゼロ情報仮定を反映している。 また,明らかな操作を計算し,実験報告を行うためのアルゴリズム的結果も提示する。

The Gibbard-Satterthwait e theorem states that no unanimous and non-dictatorial voting rule is strategyproof. We revisit voting rules and consider a weaker notion of strategyproofness called not obvious manipulability that was proposed by Troyan and Morrill (2020). We identify several classes of voting rules that satisfy this notion. We also show that several voting rules including k-approval fail to satisfy this property. We characterize conditions under which voting rules are obviously manipulable. One of our insights is that certain rules are obviously manipulable when the number of alternatives is relatively large compared to the number of voters. In contrast to the Gibbard-Satterthwait e theorem, many of the rules we examined are not obviously manipulable. This reflects the relatively easier satisfiability of the notion and the zero information assumption of not obvious manipulability, as opposed to the perfect information assumption of strategyproofness. We also present algorithmic results for computing obvious manipulations and report on experiments.
翻訳日:2021-11-04 23:05:43 公開日:2021-11-03
# (参考訳) ベクトル型言語間情報検索における対話型および非対話型モデルの活用 [全文訳有]

Leveraging Advantages of Interactive and Non-Interactive Models for Vector-Based Cross-Lingual Information Retrieval ( http://arxiv.org/abs/2111.01992v1 )

ライセンス: CC BY 4.0
Linlong Xu, Baosong Yang, Xiaoyu Lv, Tianchi Bi, Dayiheng Liu, Haibo Zhang(参考訳) 対話型および非対話型モデル(interactive and non-interactive model)は,ベクトル型言語間情報検索(v-clir)における2つのデファクト標準フレームワークである。 検索精度と計算効率の観点から、各モデルには独自の優位性と欠点がある。 本稿では,これら2つのパラダイムの利点を活用するための新しい枠組みを提案する。 具体的には,非対話型アーキテクチャに基づくモデルを構築しながら,関連する多言語クエリとともに各文書をエンコードする半対話型機構を導入する。 したがって、言語横断的特徴は対話型モデルとしてより良く学習することができる。 さらに, 単語の埋め込みを再利用し, 知識蒸留を取り入れることで, 十分に訓練された対話モデルから知識を我々のものに伝達する。 本モデルは,多言語事前学習言語モデルM-BERTから初期化され,ウィキペディアから派生したオープンソースCLIRデータセットと実世界の検索エンジンから収集した社内データセットを用いて評価される。 その結果,計算効率を保ちながら検索精度を大幅に向上させることが判明した。

Interactive and non-interactive model are the two de-facto standard frameworks in vector-based cross-lingual information retrieval (V-CLIR), which embed queries and documents in synchronous and asynchronous fashions, respectively. From the retrieval accuracy and computational efficiency perspectives, each model has its own superiority and shortcoming. In this paper, we propose a novel framework to leverage the advantages of these two paradigms. Concretely, we introduce semi-interactive mechanism, which builds our model upon non-interactive architecture but encodes each document together with its associated multilingual queries. Accordingly, cross-lingual features can be better learned like an interactive model. Besides, we further transfer knowledge from a well-trained interactive model to ours by reusing its word embeddings and adopting knowledge distillation. Our model is initialized from a multilingual pre-trained language model M-BERT, and evaluated on two open-resource CLIR datasets derived from Wikipedia and an in-house dataset collected from a real-world search engine. Extensive analyses reveal that our methods significantly boost the retrieval accuracy while maintaining the computational efficiency.
翻訳日:2021-11-04 22:42:22 公開日:2021-11-03
# (参考訳) 自動リアルタイムICU緊急信号処理:フィールドレベルの実装 [全文訳有]

Automated, real-time hospital ICU emergency signaling: A field-level implementation ( http://arxiv.org/abs/2111.01999v1 )

ライセンス: CC BY 4.0
Nazifa M Shemonti, Shifat Uddin, Saifur Rahman, Tarem Ahmed and Mohammad Faisal Uddin(参考訳) 現代の患者監視システムは、電子健康記録インタフェースに中央監視を合理化した。 機械学習アプローチを採用することで、患者データの膨大な量を処理できる。 しかし、これらのシステムは、多くの病院、主に発展途上国において、人的、経済的、技術的資源に制限のある実施には適していない。 本稿では,集中治療施設の徹底的な研究を通じて,新しい中央患者監視システムを設計し,本システムにおける作業プロトタイプについて述べる。 提案するプロトタイプは,安価な周辺機器と簡易ユーザインタフェースを備える。 当院の患者監視システムは,緊急イベントシグナリングのためのKernel-based On-line Anomaly Detection (KOAD)アルゴリズムを実装している。 連続的な患者データを評価することにより,システムはリアルタイムに重要な事象を確実に検出でき,誤報率が低いことを示す。

Contemporary patient surveillance systems have streamlined central surveillance into the electronic health record interface. They are able to process the sheer volume of patient data by adopting machine learning approaches. However, these systems are not suitable for implementation in many hospitals, mostly in developing countries, with limited human, financial, and technological resources. Through conducting thorough research on intensive care facilities, we designed a novel central patient monitoring system and in this paper, we describe the working prototype of our system. The proposed prototype comprises of inexpensive peripherals and simplistic user interface. Our central patient monitoring system implements Kernel-based On-line Anomaly Detection (KOAD) algorithm for emergency event signaling. By evaluating continuous patient data, we show that the system is able to detect critical events in real-time reliably and has low false alarm rate.
翻訳日:2021-11-04 22:30:09 公開日:2021-11-03
# (参考訳) データ融合による認証人工知能 [全文訳有]

Certifiable Artificial Intelligence Through Data Fusion ( http://arxiv.org/abs/2111.02001v1 )

ライセンス: CC BY 4.0
Erik Blasch, Junchi Bin, Zheng Liu(参考訳) 本稿では,人工知能(AI)システムの採用,フィールド化,保守に関する課題をレビューし,提案する。 AIコミュニティは急速に進歩しているが、AIシステムの認証には課題がある。 設計および運用テストおよび評価からの手順を用いることで、意図された使用の期待を管理するためのパフォーマンス境界を決定する機会がある。 画像データ融合により、精度対距離を考慮したAI物体認識精度を支援する。

This paper reviews and proposes concerns in adopting, fielding, and maintaining artificial intelligence (AI) systems. While the AI community has made rapid progress, there are challenges in certifying AI systems. Using procedures from design and operational test and evaluation, there are opportunities towards determining performance bounds to manage expectations of intended use. A notional use case is presented with image data fusion to support AI object recognition certifiability considering precision versus distance.
翻訳日:2021-11-04 22:23:01 公開日:2021-11-03
# (参考訳) Multi-Glimpse Network: 繰り返しダウンサンプル注意に基づくロバストかつ効率的な分類アーキテクチャ [全文訳有]

Multi-Glimpse Network: A Robust and Efficient Classification Architecture based on Recurrent Downsampled Attention ( http://arxiv.org/abs/2111.02018v1 )

ライセンス: CC BY 4.0
Sia Huat Tan, Runpei Dong, Kaisheng Ma(参考訳) ほとんどのフィードフォワード畳み込みニューラルネットワークは、各ピクセルに対してほぼ同じ労力を費やす。 しかし、人間の視覚認識は、眼球運動と空間的注意の間の相互作用であり、異なる領域の物体を垣間見ることができる。 そこで本研究では,この観測結果に触発されて,高計算の課題と繰り返しダウンサンプリングされた注意機構に基づくロバスト性の欠如に対処することを目的とした,エンドツーエンドのトレーニング可能なマルチグリンプネットワーク(mgnet)を提案する。 特にmgnetは、画像のタスク関連領域を順次選択し、最終予測のために収集された全ての情報を適応的に結合する。 MGNetは、より少ない計算で敵攻撃や一般的な汚職に対して強い抵抗を示す。 また、mgnetは本質的に解釈しやすいので、各イテレーションで焦点を合わせる場所を明示的に知らせてくれます。 imagenet100における実験は, フィードフォワード方式を改善するために, 繰り返しダウンサンプリングされた注意機構の可能性を実証するものである。 例えば、mgnetは平均で4.76%の精度を向上し、計算コストは36.9%である。 さらに、ベースラインの精度は7.6%に低下するが、MGNetはResNet-50バックボーンと同じPGD攻撃強度で44.2%の精度を維持している。 私たちのコードはhttps://github.com/s iahuat0727/mgnetで利用可能です。

Most feedforward convolutional neural networks spend roughly the same efforts for each pixel. Yet human visual recognition is an interaction between eye movements and spatial attention, which we will have several glimpses of an object in different regions. Inspired by this observation, we propose an end-to-end trainable Multi-Glimpse Network (MGNet) which aims to tackle the challenges of high computation and the lack of robustness based on recurrent downsampled attention mechanism. Specifically, MGNet sequentially selects task-relevant regions of an image to focus on and then adaptively combines all collected information for the final prediction. MGNet expresses strong resistance against adversarial attacks and common corruptions with less computation. Also, MGNet is inherently more interpretable as it explicitly informs us where it focuses during each iteration. Our experiments on ImageNet100 demonstrate the potential of recurrent downsampled attention mechanisms to improve a single feedforward manner. For example, MGNet improves 4.76% accuracy on average in common corruptions with only 36.9% computational cost. Moreover, while the baseline incurs an accuracy drop to 7.6%, MGNet manages to maintain 44.2% accuracy in the same PGD attack strength with ResNet-50 backbone. Our code is available at https://github.com/s iahuat0727/MGNet.
翻訳日:2021-11-04 22:08:44 公開日:2021-11-03
# (参考訳) スケーラブル混合領域ガウス過程 [全文訳有]

Scalable mixed-domain Gaussian processes ( http://arxiv.org/abs/2111.02019v1 )

ライセンス: CC BY 4.0
Juho Timonen and Harri L\"ahdesm\"aki(参考訳) カテゴリー的および連続的な入力変数を組み合わせたガウス過程(GP)モデルは、例えば縦方向のデータ解析やコンピュータ実験で用いられる。 しかし、これらのモデルに対する標準的な推論は典型的な3次スケーリングを持ち、共分散関数が非連続であるため、GPに対する一般的なスケーラブルな近似スキームは適用できない。 本研究では,混合領域共分散関数の基底関数近似法を導出し,観測数や基底関数の総数に対して線形にスケールする。 提案手法は任意の観測モデルを用いたベイズGP回帰に適用可能である。 我々は,このアプローチを縦方向データモデリングの文脈で実証し,正確なgpモデルに近似することを示し,それに対応する正確なモデルに適合するよりもランタイムのほんの一部しか必要としないことを示した。

Gaussian process (GP) models that combine both categorical and continuous input variables have found use e.g. in longitudinal data analysis and computer experiments. However, standard inference for these models has the typical cubic scaling, and common scalable approximation schemes for GPs cannot be applied since the covariance function is non-continuous. In this work, we derive a basis function approximation scheme for mixed-domain covariance functions, which scales linearly with respect to the number of observations and total number of basis functions. The proposed approach is naturally applicable to Bayesian GP regression with arbitrary observation models. We demonstrate the approach in a longitudinal data modelling context and show that it approximates the exact GP model accurately, requiring only a fraction of the runtime compared to fitting the corresponding exact model.
翻訳日:2021-11-04 21:53:39 公開日:2021-11-03
# (参考訳) エネルギー部門におけるAIの強力な活用:インテリジェントな予測 [全文訳有]

The Powerful Use of AI in the Energy Sector: Intelligent Forecasting ( http://arxiv.org/abs/2111.02026v1 )

ライセンス: CC BY 4.0
Erik Blasch, Haoran Li, Zhihao Ma, Yang Weng(参考訳) 人工知能(AI)技術は、ほとんどの社会活動において重要なインフラとなる電力やエネルギーなど、政府や公共セクターに広まり続けている。 しかし、信頼性、説明責任、説明可能性の要求により、社会がカスケード障害や大規模な停電を許さないため、AIベースの手法を直接電力システムに適用することは危険である。 本稿では,(1)物理による電力システム計測の理解,(2)需要予測のためのAIアルゴリズムの設計,(3)堅牢で説明可能なAI手法の開発,(4)AIモデルの性能評価のための信頼性の高い尺度を作成することにより,エネルギーセクターにおけるAIシステムの開発と展開,評価を行う手法を提案する。 目標は、エネルギーユーティリティのユーザに高いレベルの信頼性を提供することだ。 本稿では,PMU(Phasor Measurement Units)によって測定された同期位相パターンを慎重に解析する,電力系統イベント予測(PEF)を例として用いた。 このような物理的理解は、物理の次元性を減らし、その事象を高い信頼性で予測するデータ駆動フレームワークにつながる。 具体的には、次元削減のために、機械学習は異なる次元から物理情報を配置し、非効率な情報抽出を行う。 イベント予測では、教師付き学習モデルは異なるモデルの結果を融合させ、信頼性を高める。 最後に、包括的な実験は、他の最先端の機械学習手法と比較して高い精度、効率、信頼性を示す。

Artificial Intelligence (AI) techniques continue to broaden across governmental and public sectors, such as power and energy - which serve as critical infrastructures for most societal operations. However, due to the requirements of reliability, accountability, and explainability, it is risky to directly apply AI-based methods to power systems because society cannot afford cascading failures and large-scale blackouts, which easily cost billions of dollars. To meet society requirements, this paper proposes a methodology to develop, deploy, and evaluate AI systems in the energy sector by: (1) understanding the power system measurements with physics, (2) designing AI algorithms to forecast the need, (3) developing robust and accountable AI methods, and (4) creating reliable measures to evaluate the performance of the AI model. The goal is to provide a high level of confidence to energy utility users. For illustration purposes, the paper uses power system event forecasting (PEF) as an example, which carefully analyzes synchrophasor patterns measured by the Phasor Measurement Units (PMUs). Such a physical understanding leads to a data-driven framework that reduces the dimensionality with physics and forecasts the event with high credibility. Specifically, for dimensionality reduction, machine learning arranges physical information from different dimensions, resulting inefficient information extraction. For event forecasting, the supervised learning model fuses the results of different models to increase the confidence. Finally, comprehensive experiments demonstrate the high accuracy, efficiency, and reliability as compared to other state-of-the-art machine learning methods.
翻訳日:2021-11-04 21:26:53 公開日:2021-11-03
# (参考訳) 法的データセットの構築 [全文訳有]

Building Legal Datasets ( http://arxiv.org/abs/2111.02034v1 )

ライセンス: CC BY-SA 4.0
Jerrold Soh(参考訳) データ中心のAIは、単に大きなデータセットではなく、よりよいデータを要求する。 地球外到達可能なデータ保護法が世界中で拡大するにつれ、データセットが合法であることは、‘better’の重要かつ見過ごされているコンポーネントとしてますます重要になっている。 この論文では、データセット構築者がこの複雑な法的空間をナビゲートしやすくするために、MLデータセットを取り巻く重要な法的義務をレビューし、MLパイプラインにおけるデータ法律の実践的影響を調べ、法的データセットを構築するためのフレームワークを提供する。

Data-centric AI calls for better, not just bigger, datasets. As data protection laws with extra-territorial reach proliferate worldwide, ensuring datasets are legal is an increasingly crucial yet overlooked component of ``better''. To help dataset builders become more willing and able to navigate this complex legal space, this paper reviews key legal obligations surrounding ML datasets, examines the practical impact of data laws on ML pipelines, and offers a framework for building legal datasets.
翻訳日:2021-11-04 21:13:13 公開日:2021-11-03
# (参考訳) 半監督学習によるフェアネス達成は可能か? [全文訳有]

Can We Achieve Fairness Using Semi-Supervised Learning? ( http://arxiv.org/abs/2111.02038v1 )

ライセンス: CC BY-SA 4.0
Joymallya Chakraborty, Huy Tu, Suvodeep Majumder, Tim Menzies(参考訳) 機械学習モデルにおける倫理的バイアスは、ソフトウェアエンジニアリングコミュニティにおいて問題となっている。 以前のソフトウェアエンジニアリングのほとんどは、モデルに修正するよりも、モデルの倫理バイアスを見つけることに集中していた。 バイアスを見つけた後、次のステップは緩和です。 以前の研究者は、主に公正性を達成するために教師付きアプローチを使おうとした。 しかし、現実の世界では、信頼できる基礎的真理を持つデータを得ることは困難であり、基盤的真理は人間のバイアスを含む可能性がある。 半教師あり学習(semi-supervised learning)は、ラベル付きデータを段階的に使用して、残りのデータに対する擬似ラベルを生成する機械学習テクニックである(そして、そのデータはすべてモデルトレーニングに使用される)。 本研究では, 4つの一般的な半教師付き手法を疑似ラベルとして適用し, 公平な分類モデルを構築した。 当社のフレームワークであるFair-SSLは,ラベル付きデータの入力として非常に少量(10\%)のデータを取り込み,ラベルなしデータの擬似ラベルを生成する。 次に,fse 2021でchakrabortyらによって提案されたクラスと保護属性に基づくトレーニングデータのバランスをとるために,新たなデータポイントを合成的に生成する。 最後に、分類モデルはバランスのとれた擬似ラベルデータに基づいて訓練され、テストデータに基づいて検証される。 10のデータセットと3人の学習者で実験した結果、Fair-SSLは3つの最先端バイアス軽減アルゴリズムと同じようなパフォーマンスを実現していることがわかった。 とはいえ、Fair-SSLの明確な利点は、ラベル付きトレーニングデータの10%しか必要としないことです。 私たちの知る限りでは、SE MLモデルにおける倫理的バイアスに対抗するために半教師付きテクニックが使用されるのは、これが初めてです。

Ethical bias in machine learning models has become a matter of concern in the software engineering community. Most of the prior software engineering works concentrated on finding ethical bias in models rather than fixing it. After finding bias, the next step is mitigation. Prior researchers mainly tried to use supervised approaches to achieve fairness. However, in the real world, getting data with trustworthy ground truth is challenging and also ground truth can contain human bias. Semi-supervised learning is a machine learning technique where, incrementally, labeled data is used to generate pseudo-labels for the rest of data (and then all that data is used for model training). In this work, we apply four popular semi-supervised techniques as pseudo-labelers to create fair classification models. Our framework, Fair-SSL, takes a very small amount (10\%) of labeled data as input and generates pseudo-labels for the unlabeled data. We then synthetically generate new data points to balance the training data based on class and protected attribute as proposed by Chakraborty et al. in FSE 2021. Finally, the classification model is trained on the balanced pseudo-labeled data and validated on test data. After experimenting on ten datasets and three learners, we find that Fair-SSL achieves similar performance as three state-of-the-art bias mitigation algorithms. That said, the clear advantage of Fair-SSL is that it requires only 10\% of the labeled training data. To the best of our knowledge, this is the first SE work where semi-supervised techniques are used to fight against ethical bias in SE ML models.
翻訳日:2021-11-04 21:05:18 公開日:2021-11-03
# (参考訳) 視覚特徴表現のための自己監督パラダイムの最近の進歩 [全文訳有]

Recent Advancements in Self-Supervised Paradigms for Visual Feature Representation ( http://arxiv.org/abs/2111.02042v1 )

ライセンス: CC BY 4.0
Mrinal Anand, Aditya Garg(参考訳) 私たちは過去10年で教師付き学習パラダイムが大幅に成長しているのを目撃しました。 教師あり学習は、最先端のパフォーマンスに達するために大量のラベル付きデータを必要とする。 しかし、サンプルのラベル付けには多くの人的アノテーションが必要です。 ラベル付けのコストを回避するため,ラベル付けされていないデータを利用する自己管理手法が提案された。 本研究は,特徴表現のための自己監督パラダイムにおける最近の展開に関する包括的かつ洞察的な調査と分析を行う。 本稿では,異なる環境下での自己監督の有用性に影響を及ぼす要因について検討する。 本稿では,自己スーパービジョン,生成的および対比的手法における2つのアプローチに関する重要な知見を紹介する。 また,教師付き対人訓練の限界と,その限界を克服するための自己監督方法についても検討した。 次に,視覚タスクに自己スーパービジョンを効果的に使用する際の限界と課題について論じる。 最後に、いくつかのオープンな問題を取り上げ、今後の研究の方向性を指摘する。

We witnessed a massive growth in the supervised learning paradigm in the past decade. Supervised learning requires a large amount of labeled data to reach state-of-the-art performance. However, labeling the samples requires a lot of human annotation. To avoid the cost of labeling data, self-supervised methods were proposed to make use of largely available unlabeled data. This study conducts a comprehensive and insightful survey and analysis of recent developments in the self-supervised paradigm for feature representation. In this paper, we investigate the factors affecting the usefulness of self-supervision under different settings. We present some of the key insights concerning two different approaches in self-supervision, generative and contrastive methods. We also investigate the limitations of supervised adversarial training and how self-supervision can help overcome those limitations. We then move on to discuss the limitations and challenges in effectively using self-supervision for visual tasks. Finally, we highlight some open problems and point out future research directions.
翻訳日:2021-11-04 20:44:55 公開日:2021-11-03
# (参考訳) 深層畳み込みニューラルネットワークのき裂検出性能に及ぼす画像ノイズの影響 [全文訳有]

Influence of image noise on crack detection performance of deep convolutional neural networks ( http://arxiv.org/abs/2111.02079v1 )

ライセンス: CC BY 4.0
Riccardo Chianese, Andy Nguyen, Vahidreza Gharehbaghi, Thiru Aravinthan, Mohammad Noori(参考訳) 画像データを解析する深層学習技術の開発は、広範かつ新興の分野である。 画像データから興味のある特徴を追跡、識別、測定、分類することの利点は、コスト、時間、安全性を改善するための無限の応用である。 深層畳み込みニューラルネットワークを用いた画像データからの亀裂の分類に関する研究が盛んに行われているが、ノイズ画像を用いた場合のネットワーク性能の研究は最小限である。 本稿では,この問題に対処し,画像ノイズがネットワーク精度に与える影響について検討する。 使用する手法には,2種類のノイズで意図的に劣化したベンチマーク画像データセットと,画像強調前処理による処理が組み込まれている。 これらの画像は、2つの異なるネットワークのトレーニングと検証に使われ、精度と性能の違いを研究する。 本研究の結果,画像前処理の適用にもかかわらず,ノイズのある画像はネットワークの画像を正確に分類する能力に適度に高い影響を与えることが明らかになった。 計算タイミングと精度の点で最も効率的な分類法を見つけるために,新しい指標が開発された。 その結果、AlexNetは提案したインデックスに基づいて最も効率的なモデルに選ばれた。

Development of deep learning techniques to analyse image data is an expansive and emerging field. The benefits of tracking, identifying, measuring, and sorting features of interest from image data has endless applications for saving cost, time, and improving safety. Much research has been conducted on classifying cracks from image data using deep convolutional neural networks; however, minimal research has been conducted to study the efficacy of network performance when noisy images are used. This paper will address the problem and is dedicated to investigating the influence of image noise on network accuracy. The methods used incorporate a benchmark image data set, which is purposely deteriorated with two types of noise, followed by treatment with image enhancement pre-processing techniques. These images, including their native counterparts, are then used to train and validate two different networks to study the differences in accuracy and performance. Results from this research reveal that noisy images have a moderate to high impact on the network's capability to accurately classify images despite the application of image pre-processing. A new index has been developed for finding the most efficient method for classification in terms of computation timing and accuracy. Consequently, AlexNet was selected as the most efficient model based on the proposed index.
翻訳日:2021-11-04 20:33:03 公開日:2021-11-03
# (参考訳) 勧告における知識グラフの蒸留のための条件付き注意ネットワーク [全文訳有]

Conditional Attention Networks for Distilling Knowledge Graphs in Recommendation ( http://arxiv.org/abs/2111.02100v1 )

ライセンス: CC0 1.0
Ke Tu, Peng Cui, Daixin Wang, Zhiqiang Zhang, Jun Zhou, Yuan Qi, Wenwu Zhu(参考訳) 知識グラフは一般的に、全体的なパフォーマンスを改善するために推奨システムに組み込まれる。 知識グラフの一般化とスケールのため、ほとんどの知識関係はターゲットのユーザ・イテム予測には役に立たない。 この知識グラフを利用してレコメンデーションシステムにおける目標固有の知識関係を抽出するには,有用な情報を保存するために知識グラフを蒸留し,ユーザの好みを捉えるために知識を洗練する必要がある。 そこで本研究では,知識グラフをレコメンデーションシステムに組み込むエンド・ツー・エンドのモデルであるKCAN(Knowledge-Aware Conditional Attention Networks)を提案する。 具体的には、まず、知識認識型注意伝達手法を用いてノード表現を取得し、ユーザ・テーマネットワークと知識グラフのグローバル意味的類似性を捉える。 そして、ターゲット、すなわちユーザーとアイテムのペアが与えられたとき、知識グラフを知識認識の注意に基づいて自動的にターゲット固有のサブグラフに絞り込む。 その後,条件付き注意アグリゲーションをサブグラフに適用することにより,知識グラフを洗練し,対象特定ノード表現を得る。 したがって、全体的なパフォーマンスを達成するために、表現可能性とパーソナライズの両方を得ることができる。 実世界のデータセットに対する実験結果は、最先端のアルゴリズムに対する我々のフレームワークの有効性を示す。

Knowledge graph is generally incorporated into recommender systems to improve overall performance. Due to the generalization and scale of the knowledge graph, most knowledge relationships are not helpful for a target user-item prediction. To exploit the knowledge graph to capture target-specific knowledge relationships in recommender systems, we need to distill the knowledge graph to reserve the useful information and refine the knowledge to capture the users' preferences. To address the issues, we propose Knowledge-aware Conditional Attention Networks (KCAN), which is an end-to-end model to incorporate knowledge graph into a recommender system. Specifically, we use a knowledge-aware attention propagation manner to obtain the node representation first, which captures the global semantic similarity on the user-item network and the knowledge graph. Then given a target, i.e., a user-item pair, we automatically distill the knowledge graph into the target-specific subgraph based on the knowledge-aware attention. Afterward, by applying a conditional attention aggregation on the subgraph, we refine the knowledge graph to obtain target-specific node representations. Therefore, we can gain both representability and personalization to achieve overall performance. Experimental results on real-world datasets demonstrate the effectiveness of our framework over the state-of-the-art algorithms.
翻訳日:2021-11-04 20:23:49 公開日:2021-11-03
# (参考訳) モデルベースエピソディックメモリは動的ハイブリッド制御を誘導する [全文訳有]

Model-Based Episodic Memory Induces Dynamic Hybrid Controls ( http://arxiv.org/abs/2111.02104v1 )

ライセンス: CC BY 4.0
Hung Le, Thommen Karimpanal George, Majid Abdolshah, Truyen Tran, Svetha Venkates(参考訳) エピソード制御は、エピソード記憶から過去の経験を思い出し、強化学習におけるサンプル効率を実現する。 本稿では,最近のエピソディック制御の限界に対処し,トラジェクタのモデルベースエピソディックメモリを提案する。 我々のメモリは軌道値を推定し、エージェントを良いポリシーへと導く。 メモリ上に構築し,モデルベース,エピソディクス,習慣学習を単一アーキテクチャに統合した動的ハイブリッド制御による補完学習モデルを構築する。 実験により,確率的および非マルコフ的設定を含む様々な環境において,強強化学習エージェントよりも有意に高速で優れた学習が可能となった。

Episodic control enables sample efficiency in reinforcement learning by recalling past experiences from an episodic memory. We propose a new model-based episodic memory of trajectories addressing current limitations of episodic control. Our memory estimates trajectory values, guiding the agent towards good policies. Built upon the memory, we construct a complementary learning model via a dynamic hybrid control unifying model-based, episodic and habitual learning into a single architecture. Experiments demonstrate that our model allows significantly faster and better learning than other strong reinforcement learning agents across a variety of environments including stochastic and non-Markovian settings.
翻訳日:2021-11-04 20:07:17 公開日:2021-11-03
# (参考訳) オープンドメイン対話システムの自動評価とモデレーション [全文訳有]

Automatic Evaluation and Moderation of Open-domain Dialogue Systems ( http://arxiv.org/abs/2111.02110v1 )

ライセンス: CC BY 4.0
Zhang Chen and Jo\~ao Sadoc and Luis Fernando D'Haro and Rafael Banchs and Alexander Rudnicky(参考訳) 近年、対話システムは学界と産業の両方で大きな関心を集めている。 特にオープンドメイン対話システムの分野であるチャットボットは大きな勢いを増している。 しかし、研究者を悩ませる長年の課題は、効果的な自動評価指標の欠如であり、現在の研究に重大な障害をもたらす。 オープンドメインの対話モデルの性能を評価する一般的なプラクティスは、時間とコストの両方が集中する最終デプロイモデルに対する広範囲な人間による評価である。 さらに,近年のオープンドメインチャットボット構築の傾向は,大量のソーシャルメディア会話データを用いた対話モデルの事前学習を伴っている。 しかし、ソーシャルメディアの会話に含まれる情報は不快で不適切かもしれない。 このようなデータの無差別使用は、非感受性で有毒な生成モデルをもたらす可能性がある。 本稿では,対話システム技術チャレンジ10(DSTC10)において,トラック5で得られたデータ,ベースライン,結果について述べる。

In recent years, dialogue systems have attracted significant interests in both academia and industry. Especially the discipline of open-domain dialogue systems, aka chatbots, has gained great momentum. Yet, a long standing challenge that bothers the researchers is the lack of effective automatic evaluation metrics, which results in significant impediment in the current research. Common practice in assessing the performance of open-domain dialogue models involves extensive human evaluation on the final deployed models, which is both time- and cost- intensive. Moreover, a recent trend in building open-domain chatbots involve pre-training dialogue models with a large amount of social media conversation data. However, the information contained in the social media conversations may be offensive and inappropriate. Indiscriminate usage of such data can result in insensitive and toxic generative models. This paper describes the data, baselines and results obtained for the Track 5 at the Dialogue System Technology Challenge 10 (DSTC10).
翻訳日:2021-11-04 19:41:02 公開日:2021-11-03
# (参考訳) laion-400m:クリップフィルターによる4億画像テキストペアのオープンデータセット [全文訳有]

LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs ( http://arxiv.org/abs/2111.02114v1 )

ライセンス: CC BY 4.0
Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, Aran Komatsuzaki(参考訳) 数億のイメージテキストペア(例えばCLIP、DALL-E)でトレーニングされたマルチモーダル言語ビジョンモデルは、最近急増し、ターゲット画像データにサンプルごとのラベルがなくても、ゼロまたは少数ショットの学習と転送を行う素晴らしい能力を示した。 この傾向にもかかわらず、これまでそのようなモデルをスクラッチからトレーニングするための十分なスケールのデータセットが公開されていない。 この問題に対処するため、コミュニティの取り組みとして、CLIPをフィルタした4億の画像テキストペア、CLIP埋め込み、効率的な類似検索を可能にするkNNインデックスを備えたデータセットであるLAION-400Mを開発しリリースしました。

Multi-modal language-vision models trained on hundreds of millions of image-text pairs (e.g. CLIP, DALL-E) gained a recent surge, showing remarkable capability to perform zero- or few-shot learning and transfer even in absence of per-sample labels on target image data. Despite this trend, to date there has been no publicly available datasets of sufficient scale for training such models from scratch. To address this issue, in a community effort we build and release for public LAION-400M, a dataset with CLIP-filtered 400 million image-text pairs, their CLIP embeddings and kNN indices that allow efficient similarity search.
翻訳日:2021-11-04 19:33:30 公開日:2021-11-03
# (参考訳) 用語共有タスクを用いたwmt 2021機械翻訳におけるlingua custodiaの参加 [全文訳有]

Lingua Custodia's participation at the WMT 2021 Machine Translation using Terminologies shared task ( http://arxiv.org/abs/2111.02120v1 )

ライセンス: CC BY 4.0
Melissa Ailem, Jinghsu Liu, Raheel Qader(参考訳) 本稿では,lingua custodiaの wmt21 shared task on machine translation using terminologiesについて述べる。 我々は英語からフランス語、ロシア語、中国語の3つの方向を考える。 本稿では,トランスフォーマーをベースとしたアーキテクチャをビルディングブロックとして利用し,用語処理の標準手順に2つの大きな変更を加える手法を提案する。 1つ目は、モデルが用語制約項に遭遇したときのコピーの振る舞いを学習するよう促すように、トレーニングデータを増強することである。 2つ目の変更は制約トークンマスキングで、その目的はコピー動作学習の容易化とモデルの一般化の改善である。 その結果,高い翻訳品質を維持しつつ,ほとんどの用語制約を満たすことがわかった。

This paper describes Lingua Custodia's submission to the WMT21 shared task on machine translation using terminologies. We consider three directions, namely English to French, Russian, and Chinese. We rely on a Transformer-based architecture as a building block, and we explore a method which introduces two main changes to the standard procedure to handle terminologies. The first one consists in augmenting the training data in such a way as to encourage the model to learn a copy behavior when it encounters terminology constraint terms. The second change is constraint token masking, whose purpose is to ease copy behavior learning and to improve model generalization. Empirical results show that our method satisfies most terminology constraints while maintaining high translation quality.
翻訳日:2021-11-04 19:27:04 公開日:2021-11-03
# (参考訳) 近距離再帰畳み込みネットワークを用いた時空間気象データ予測:weather4castチャレンジの解法 [全文訳有]

Spatiotemporal Weather Data Predictions with Shortcut Recurrent-Convolutio nal Networks: A Solution for the Weather4cast challenge ( http://arxiv.org/abs/2111.02121v1 )

ライセンス: CC BY 4.0
Jussi Leinonen(参考訳) 本稿では,衛星ベースの気象データ画像の時間的進化を予測することを目的とした,Weather4cast 2021 Challenge Stage 1で著者らが使用したニューラルネットワークモデルを提案する。 ネットワークは、ゲートリカレントユニット(GRU)、残留ブロック、U-Netに似たショートカットを持つ縮小/拡張アーキテクチャを利用するエンコーダ・フォカスターアーキテクチャに基づいている。 畳み込みに代えて残留ブロックを利用したGRU変種も導入された。 モデルに対する例の予測と評価指標を示す。 これらのことは、モデルが最初の予測のために入力の鋭い特徴を保持することができる一方で、後の予測は不確実性の増加を反映してより曖昧になることを示している。

This paper presents the neural network model that was used by the author in the Weather4cast 2021 Challenge Stage 1, where the objective was to predict the time evolution of satellite-based weather data images. The network is based on an encoder-forecaster architecture making use of gated recurrent units (GRU), residual blocks and a contracting/expandin g architecture with shortcuts similar to U-Net. A GRU variant utilizing residual blocks in place of convolutions is also introduced. Example predictions and evaluation metrics for the model are presented. These demonstrate that the model can retain sharp features of the input for the first predictions, while the later predictions become more blurred to reflect the increasing uncertainty.
翻訳日:2021-11-04 19:20:29 公開日:2021-11-03
# (参考訳) 結婚は桃と聖杯:セマンティックWebにおける文化的象徴のモデル化 [全文訳有]

Marriage is a Peach and a Chalice: Modelling Cultural Symbolism on the SemanticWeb ( http://arxiv.org/abs/2111.02123v1 )

ライセンス: CC BY 4.0
Bruno Sartini, Marieke van Erp, Aldo Gangemi(参考訳) 本研究では,文化象徴主義の文脈において,セマンティックウェブのギャップを埋める。 そこで本研究では,シムラクラの権威論とジャン・ボードリラードのシミュレーションから得られた概念と,スティーブン・オールダーの「シンボリズム:包括的な辞書」から得られる記号構造と内容を組み合わせて,記号的意味の背景知識をモデル化するオントロジーであるシミュレーション・オントロジーを紹介する。 私たちは、異種資源にすでに存在する象徴的知識をオントロジースキーマに変換して、文化的な象徴性に完全に専心した最初の知識グラフであるハイパーリアルを作成することで、再設計しました。 記号論に関する定量的研究の可能性を示すために,知識グラフを用いた最初の実験を行った。

In this work, we fill the gap in the Semantic Web in the context of Cultural Symbolism. Building upon earlier work in, we introduce the Simulation Ontology, an ontology that models the background knowledge of symbolic meanings, developed by combining the concepts taken from the authoritative theory of Simulacra and Simulations of Jean Baudrillard with symbolic structures and content taken from "Symbolism: a Comprehensive Dictionary" by Steven Olderr. We re-engineered the symbolic knowledge already present in heterogeneous resources by converting it into our ontology schema to create HyperReal, the first knowledge graph completely dedicated to cultural symbolism. A first experiment run on the knowledge graph is presented to show the potential of quantitative research on symbolism.
翻訳日:2021-11-04 19:11:26 公開日:2021-11-03
# (参考訳) OpenStack Monascaによる予測自動スケーリング [全文訳有]

Predictive Auto-scaling with OpenStack Monasca ( http://arxiv.org/abs/2111.02133v1 )

ライセンス: CC BY-SA 4.0
Giacomo Lanciano, Filippo Galli, Tommaso Cucinotta, Davide Bacciu, Andrea Passarella(参考訳) クラウドの自動スケーリングメカニズムは一般的に、何らかのメトリクス、例えばインスタンスの平均CPU使用率が予め定義されたしきい値を超えると、クラスタをスケールするリアクティブ自動化ルールに基づいている。 クラスタのスケールアップには、本番クラウドサービスで頻繁に発生するように、新しいインスタンスをブートストラップする非無視の時間が必要になります。 この問題に対処するため,我々は近日中にシステムが進化すると予想される状況に基づいて,クラウドサービスを自動スケーリングするアーキテクチャを提案する。 このアプローチでは,機械学習やニューラルネットワークをベースとした時系列予測技術を活用して,リソース消費指標などの主要なメトリクスの将来のダイナミクスを予測し,しきい値ベースのスケーリングポリシを適用する。 その結果、例えば、クラウドアプリケーションの負荷のピークを自動的に予測し、予想されるトラフィックの増加に対応する適切なスケーリングアクションを事前にトリガーすることができる予測自動化ポリシが生まれます。 私たちは、Monascaが提供する監視機能に依存するオープンソースのOpenStackコンポーネントとして、私たちのアプローチをプロトタイプ化し、その結果、HeatやSenlinといったオーケストレーションコンポーネントによって活用可能な予測メトリクスが追加されました。 本研究では,リカレントニューラルネットワークと多層パーセプトロンを予測器として,単純な線形回帰と従来の非予測オートスケーリングポリシと比較した実験結果を示す。 しかし,提案フレームワークにより,必要に応じて予測ポリシーのカスタマイズが容易になる。

Cloud auto-scaling mechanisms are typically based on reactive automation rules that scale a cluster whenever some metric, e.g., the average CPU usage among instances, exceeds a predefined threshold. Tuning these rules becomes particularly cumbersome when scaling-up a cluster involves non-negligible times to bootstrap new instances, as it happens frequently in production cloud services. To deal with this problem, we propose an architecture for auto-scaling cloud services based on the status in which the system is expected to evolve in the near future. Our approach leverages on time-series forecasting techniques, like those based on machine learning and artificial neural networks, to predict the future dynamics of key metrics, e.g., resource consumption metrics, and apply a threshold-based scaling policy on them. The result is a predictive automation policy that is able, for instance, to automatically anticipate peaks in the load of a cloud application and trigger ahead of time appropriate scaling actions to accommodate the expected increase in traffic. We prototyped our approach as an open-source OpenStack component, which relies on, and extends, the monitoring capabilities offered by Monasca, resulting in the addition of predictive metrics that can be leveraged by orchestration components like Heat or Senlin. We show experimental results using a recurrent neural network and a multi-layer perceptron as predictor, which are compared with a simple linear regression and a traditional non-predictive auto-scaling policy. However, the proposed framework allows for the easy customization of the prediction policy as needed.
翻訳日:2021-11-04 18:57:26 公開日:2021-11-03
# (参考訳) ソースカメラ識別のための堅牢なデバイス固有の指紋を学習するbeyond prnu [全文訳有]

Beyond PRNU: Learning Robust Device-Specific Fingerprint for Source Camera Identification ( http://arxiv.org/abs/2111.02144v1 )

ライセンス: CC BY 4.0
Manisha, Chang-Tsun Li, Xufeng Lin, Karunakar A. Kotegar(参考訳) ソースカメラ識別ツールは、画像検査官が被疑者カメラと画像の関連付けを補助する。 取得時の画像に残る微妙な痕跡の分析に基づいて,様々な技術が開発されている。 センサの不完全性に起因する光応答不均一(PRNU)ノイズパターンは、ソースカメラの識別に有効な方法であることが証明されている。 既存の文献では、PRNUはデバイス固有の唯一の指紋であり、正確なソースデバイスを識別できることを示している。 しかし、prnuはカメラの設定、画像コンテンツ、画像処理操作、および対物攻撃の影響を受けやすい。 防犯攻撃や偶発的な画像操作を知らない法医学研究者は、誤解されるリスクがあります。 2つのPRNUのマッチングにおける空間的同期要件は、PRNUの大きな制限でもある。 近年、ディープラーニングベースのアプローチは、ソースカメラモデルの識別に成功している。 しかし、これらのデータ駆動アプローチによる同一モデルの個々のカメラの識別は相変わらず不満足である。 本稿では,デジタル画像にロバストなデータ駆動型デバイス固有の指紋が新たに存在し,同一モデルの個々のカメラを識別できることを示す。 新しいデバイス指紋は位置非依存で、確率的であり、グローバルに利用でき、空間同期問題を解決している。 高周波帯に存在するPRNUとは異なり、新しいデバイス指紋は低周波帯と中周波帯から抽出され、PRNUが競合できない脆弱な問題を解消する。 各種データセットを用いた実験により,新しい指紋は回転,ガンマ補正,積極的なjpeg圧縮などの画像操作に強い回復性を示す。

Source camera identification tools assist image forensic investigators to associate an image in question with a suspect camera. Various techniques have been developed based on the analysis of the subtle traces left in the images during the acquisition. The Photo Response Non Uniformity (PRNU) noise pattern caused by sensor imperfections has been proven to be an effective way to identify the source camera. The existing literature suggests that the PRNU is the only fingerprint that is device-specific and capable of identifying the exact source device. However, the PRNU is susceptible to camera settings, image content, image processing operations, and counter-forensic attacks. A forensic investigator unaware of counter-forensic attacks or incidental image manipulations is at the risk of getting misled. The spatial synchronization requirement during the matching of two PRNUs also represents a major limitation of the PRNU. In recent years, deep learning based approaches have been successful in identifying source camera models. However, the identification of individual cameras of the same model through these data-driven approaches remains unsatisfactory. In this paper, we bring to light the existence of a new robust data-driven device-specific fingerprint in digital images which is capable of identifying the individual cameras of the same model. It is discovered that the new device fingerprint is location-independent , stochastic, and globally available, which resolve the spatial synchronization issue. Unlike the PRNU, which resides in the high-frequency band, the new device fingerprint is extracted from the low and mid-frequency bands, which resolves the fragility issue that the PRNU is unable to contend with. Our experiments on various datasets demonstrate that the new fingerprint is highly resilient to image manipulations such as rotation, gamma correction, and aggressive JPEG compression.
翻訳日:2021-11-04 18:44:38 公開日:2021-11-03
# (参考訳) マルチエージェント深層ニューラルネットワークを用いた共有e-mobilityシステムの配置最適化 [全文訳有]

Deployment Optimization for Shared e-Mobility Systems with Multi-agent Deep Neural Search ( http://arxiv.org/abs/2111.02149v1 )

ライセンス: CC BY 4.0
Man Luo, Bowen Du, Konstantin Klemmer, Hongming Zhu, Hongkai Wen(参考訳) 共有のe-mobilityサービスは、世界中の都市で広くテストされ、試験されているが、既に現代の都市計画の布地に織り込まれている。 本稿では,それらのシステムにおける実用的かつ重要な課題である,空間と時間にわたってインフラストラクチャをデプロイし管理する方法について検討する。 しかし、現実世界のシステムでは、異なる配置戦略のパフォーマンスを評価し、最適な計画を見つけることは、しばしば試行錯誤のイテレーションを実行することができないため、非常に高価である。 本研究では,共有電子移動システムの主要動作詳細を粒度で抽象化し,実世界から収集したデータを用いてキャリブレーションする高忠実度シミュレーション環境を設計する。 これにより、現実世界のシステムで実際に実装する前に、最適な特定のコンテキストを学ぶための任意のデプロイメント計画を試すことができます。 特に,新たなマルチエージェント・ニューラルサーチ手法を提案し,暫定的な展開計画を作成する階層型コントローラを設計する。 生成されたデプロイメント計画は、マルチシミュレーションパラダイム(すなわち、並列に評価される)を使ってテストされ、その結果は、深い強化学習でコントローラをトレーニングするために使用される。 このクローズドループにより、コントローラは、将来のイテレーションでより良いデプロイメント計画を生成する確率を高めるように調整できる。 提案手法はシミュレーション環境において広く評価されており,人間知識や最先端のヒューリスティックベース最適化手法を,サービスカバレッジと純収益の両方において上回っている。

Shared e-mobility services have been widely tested and piloted in cities across the globe, and already woven into the fabric of modern urban planning. This paper studies a practical yet important problem in those systems: how to deploy and manage their infrastructure across space and time, so that the services are ubiquitous to the users while sustainable in profitability. However, in real-world systems evaluating the performance of different deployment strategies and then finding the optimal plan is prohibitively expensive, as it is often infeasible to conduct many iterations of trial-and-error. We tackle this by designing a high-fidelity simulation environment, which abstracts the key operation details of the shared e-mobility systems at fine-granularity, and is calibrated using data collected from the real-world. This allows us to try out arbitrary deployment plans to learn the optimal given specific context, before actually implementing any in the real-world systems. In particular, we propose a novel multi-agent neural search approach, in which we design a hierarchical controller to produce tentative deployment plans. The generated deployment plans are then tested using a multi-simulation paradigm, i.e., evaluated in parallel, where the results are used to train the controller with deep reinforcement learning. With this closed loop, the controller can be steered to have higher probability of generating better deployment plans in future iterations. The proposed approach has been evaluated extensively in our simulation environment, and experimental results show that it outperforms baselines e.g., human knowledge, and state-of-the-art heuristic-based optimization approaches in both service coverage and net revenue.
翻訳日:2021-11-04 18:26:00 公開日:2021-11-03
# (参考訳) 高速分岐型フレキシブルアクティベーションイベントの教師なし検出とオープンセット分類 [全文訳有]

Unsupervised detection and open-set classification of fast-ramped flexibility activation events ( http://arxiv.org/abs/2111.02174v1 )

ライセンス: CC BY 4.0
Nils M\"uller, Carsten Heinrich, Kai Heussen, Henrik W. Bindner(参考訳) モビリティと暖房の継続的な電化により、配電網運用に新たな課題がもたらされる。 価格信号に対する反応として電気自動車を同時に充電するなど、フレキシブルユニットの非協調的なアクティベーションは、系統的にトランスフォーマーやラインプロテクションをトリガーする可能性がある。 このような迅速な柔軟なアクティベーションのリアルタイムな識別は、社会的および財政的なコストを避けるために対抗措置を取ることができるだろう。 本研究では,高速なフレキシブルアクティベーションイベントを識別する新しいデータ処理パイプラインを提案する。 このパイプラインは教師なしイベント検出とオープンセット分類のテクニックを組み合わせる。 実負荷データに対する体系的な評価は、分散イベント検出アーキテクチャにおけるアプリケーションの重要な要件を満たすメソッドによって、提案パイプラインの主要なビルディングブロックを実現できることを示している。 柔軟性アクティベーションイベントの検出には、高いパフォーマンス限界が特定される。 さらに,オープンセット分類器のフレキシビリティ・アクティベーション・イベントの分類への応用により,広く適用されたクローズドセット分類器と比較して性能が向上することを示した。

The continuous electrification of the mobility and heating sector will introduce new challenges to distribution grid operation. Uncoordinated activation of flexible units, e.g. simultaneous charging of electric vehicles as a reaction to price signals, could systematically trigger transformer or line protections. Real-time identification of such fast-ramped flexibility activations would allow taking counteractions to avoid potential social and financial cost. In this work, a novel data processing pipeline for identification of fast-ramped flexibility activation events is proposed. The pipeline combines techniques for unsupervised event detection and open-set classification. The systematic evaluation on real load data demonstrates that main building blocks of the proposed pipeline can be realized with methods that fulfill important requirements for an application in a distributed event detection architecture. For the detection of flexibility activation events an upper performance limit is identified. Moreover, it is demonstrated that application of an open-set classifier for classification of flexibility activation events can improve the performance compared to widely-applied closed-set classifiers.
翻訳日:2021-11-04 18:02:28 公開日:2021-11-03
# (参考訳) 識別器合成:生成的対立ネットワークの残りの半分の再利用について [全文訳有]

Discriminator Synthesis: On reusing the other half of Generative Adversarial Networks ( http://arxiv.org/abs/2111.02175v1 )

ライセンス: CC BY 4.0
Diego Porres(参考訳) 生成的な敵ネットワークは、コンピュータビジョンの世界に革命をもたらし、それと結びついた芸術の世界へと長い道のりを歩んできた。 ジェネレータネットワークの出力が最大限に忠実になるよう、トレーニングの活用と安定化に熱心に取り組んできたが、トレーニングが完了すると判別器を使うことはほとんどない。 本研究では,後者を用いて,トレーニングデータセットから学んだ特徴を,画像の変更とスクラッチからの生成の両方に使用する方法を提案する。 私たちはこのメソッドをDreamingと名付け、完全なコードはhttps://github.com/P Dillis/stylegan3-fun .orgにある。

Generative Adversarial Networks have long since revolutionized the world of computer vision and, tied to it, the world of art. Arduous efforts have gone into fully utilizing and stabilizing training so that outputs of the Generator network have the highest possible fidelity, but little has gone into using the Discriminator after training is complete. In this work, we propose to use the latter and show a way to use the features it has learned from the training dataset to both alter an image and generate one from scratch. We name this method Discriminator Dreaming, and the full code can be found at https://github.com/P Dillis/stylegan3-fun .
翻訳日:2021-11-04 17:32:11 公開日:2021-11-03
# (参考訳) BERT-DRE:自然言語文マッチングのための深部再帰エンコーダを用いたBERT [全文訳有]

BERT-DRE: BERT with Deep Recursive Encoder for Natural Language Sentence Matching ( http://arxiv.org/abs/2111.02188v1 )

ライセンス: CC BY 4.0
Ehsan Tavan, Ali Rahmati, Maryam Najafi, Saeed Bibak(参考訳) 本稿では,深層再帰エンコーダ(BERT-DRE)をBERTに付加することにより,自然言語文マッチング(NLSM)のためのディープニューラルネットワークを提案する。 モデル動作の解析から,BERTはテキストの複雑さをフルに捉えていないことが分かるので,BERT上に深層再帰エンコーダを適用する。 残コネクションを持つ3つのBi-LSTM層を用いて再帰エンコーダを設計し、このエンコーダの上にアテンションモジュールを用いる。 最終ベクトルを得るには、平均および最大プーリングからなるプーリング層を用いる。 我々は、SNLI、FarsTail、MultiNLI、SciTailの4つのベンチマークと、新しいペルシアの宗教的質問データセットでモデルを実験した。 本稿では,NLSMタスクにおけるBERT結果の改善に焦点を当てる。 この場合、BERT-DREとBERTの比較を行い、すべての場合、BERT-DREはBERTよりも優れていることを示す。 BERTアルゴリズムは89.70%の精度を達成し、BERT-DREアーキテクチャは90.29%まで改善された。

This paper presents a deep neural architecture, for Natural Language Sentence Matching (NLSM) by adding a deep recursive encoder to BERT so called BERT with Deep Recursive Encoder (BERT-DRE). Our analysis of model behavior shows that BERT still does not capture the full complexity of text, so a deep recursive encoder is applied on top of BERT. Three Bi-LSTM layers with residual connection are used to design a recursive encoder and an attention module is used on top of this encoder. To obtain the final vector, a pooling layer consisting of average and maximum pooling is used. We experiment our model on four benchmarks, SNLI, FarsTail, MultiNLI, SciTail, and a novel Persian religious questions dataset. This paper focuses on improving the BERT results in the NLSM task. In this regard, comparisons between BERT-DRE and BERT are conducted, and it is shown that in all cases, BERT-DRE outperforms only BERT. The BERT algorithm on the religious dataset achieved an accuracy of 89.70%, and BERT-DRE architectures improved to 90.29% using the same dataset.
翻訳日:2021-11-04 17:23:34 公開日:2021-11-03
# (参考訳) 教師付きコントラストプレトレーニングによるアスペクトベース感情分析における暗黙的感情学習 [全文訳有]

Learning Implicit Sentiment in Aspect-based Sentiment Analysis with Supervised Contrastive Pre-Training ( http://arxiv.org/abs/2111.02194v1 )

ライセンス: CC BY-SA 4.0
Zhengyan Li, Yicheng Zou, Chong Zhang, Qi Zhang and Zhongyu Wei(参考訳) アスペクトベースの感情分析は、製品レビューにおける特定の側面の感情極性を特定することを目的としている。 レビューの約30%は明確な意見語を含まないが、暗黙の感情として知られる人間の意識指向を明確に伝達している。 しかし、最近のニューラルネットワークベースのアプローチは、レビューにまつわる暗黙の感情にはほとんど注意を払わなかった。 そこで我々は,ドメイン内言語資源から抽出した大規模感情アノテートコーパスに対して,教師付きコントラスト事前学習を採用する。 暗黙の感情表現を同一の感情ラベルを持つものと整合させることで、事前学習プロセスは、レビューの側面に対する暗黙の感情指向と明示的な感情指向の両方をよりよく捉える。 実験結果から,SemEval2014ベンチマークの最先端性能を実現し,包括的解析により暗黙的感情学習の有効性が検証された。

Aspect-based sentiment analysis aims to identify the sentiment polarity of a specific aspect in product reviews. We notice that about 30% of reviews do not contain obvious opinion words, but still convey clear human-aware sentiment orientation, which is known as implicit sentiment. However, recent neural network-based approaches paid little attention to implicit sentiment entailed in the reviews. To overcome this issue, we adopt Supervised Contrastive Pre-training on large-scale sentiment-annotated corpora retrieved from in-domain language resources. By aligning the representation of implicit sentiment expressions to those with the same sentiment label, the pre-training process leads to better capture of both implicit and explicit sentiment orientation towards aspects in reviews. Experimental results show that our method achieves state-of-the-art performance on SemEval2014 benchmarks, and comprehensive analysis validates its effectiveness on learning implicit sentiment.
翻訳日:2021-11-04 17:10:14 公開日:2021-11-03
# (参考訳) 教師なし領域適応のための奥行き角アライメント [全文訳有]

Deep Least Squares Alignment for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2111.02207v1 )

ライセンス: CC0 1.0
Youshan Zhang and Brian D. Davison(参考訳) 教師なしのドメイン適応はラベル付きソースドメインからの豊富な情報を活用してラベルなしのターゲットドメインをモデル化する。 既存のメソッドは、クロスドメイン分布を調整しようとする。 しかし、2つの領域のアライメントの統計的表現はうまく対応されていない。 本稿では,線形モデルを用いて潜在空間における2つの領域の分布を推定する深部最小二乗アライメント(dlsa)を提案する。 さらに,適合線間の角度を最小化し,インターセプタ差を最小化し,さらに学習領域不変性を持たせることにより,領域不一致を低減し,限界適応損失と条件適応損失を更に発展させる。 拡張実験により,提案したDLSAモデルは領域分布の整合に有効であり,最先端の手法より優れていることが示された。

Unsupervised domain adaptation leverages rich information from a labeled source domain to model an unlabeled target domain. Existing methods attempt to align the cross-domain distributions. However, the statistical representations of the alignment of the two domains are not well addressed. In this paper, we propose deep least squares alignment (DLSA) to estimate the distribution of the two domains in a latent space by parameterizing a linear model. We further develop marginal and conditional adaptation loss to reduce the domain discrepancy by minimizing the angle between fitting lines and intercept differences and further learning domain invariant features. Extensive experiments demonstrate that the proposed DLSA model is effective in aligning domain distributions and outperforms state-of-the-art methods.
翻訳日:2021-11-04 16:54:17 公開日:2021-11-03
# (参考訳) 独立したメディアのコレクションへのストーリーの自動埋め込み [全文訳有]

Automatic Embedding of Stories Into Collections of Independent Media ( http://arxiv.org/abs/2111.02216v1 )

ライセンス: CC BY 4.0
Dylan R. Ashley and Vincent Herrmann and Zachary Friggstad and Kory W. Mathewson and J\"urgen Schmidhuber(参考訳) 我々は、独立したメディアコレクション内のアイテムの特性を導出する機械学習技術を用いて、ストーリーを自動的にそのようなコレクションに埋め込む方法について検討する。 そのために、曲のテンポを抽出するモデルを用いて、音楽プレイリストを物語の弧に追従させる。 我々の研究は、トレーニング済みニューラルネットワークモデルを使用して生オーディオファイルのグローバルなテンポを抽出し、これらの尺度を適用して、物語をフォローするプレイリストを作成するオープンソースツールである。 このツールはhttps://github.com/d ylanashley/playlist- story-builder/releas es/tag/v1.0.0で入手できる。

We look at how machine learning techniques that derive properties of items in a collection of independent media can be used to automatically embed stories into such collections. To do so, we use models that extract the tempo of songs to make a music playlist follow a narrative arc. Our work specifies an open-source tool that uses pre-trained neural network models to extract the global tempo of a set of raw audio files and applies these measures to create a narrative-following playlist. This tool is available at https://github.com/d ylanashley/playlist- story-builder/releas es/tag/v1.0.0
翻訳日:2021-11-04 16:40:52 公開日:2021-11-03
# (参考訳) 金融セクターにおける説明可能なAIの探求:銀行と監督当局の視点 [全文訳有]

Exploring Explainable AI in the Financial Sector: Perspectives of Banks and Supervisory Authorities ( http://arxiv.org/abs/2111.02244v1 )

ライセンス: CC BY 4.0
Ouren Kuiper, Martin van den Berg, Joost van den Burgt, Stefan Leijnen(参考訳) 説明可能な人工知能(xAI)は、AIシステムをブラックボックスより少なくするためのソリューションと見なされている。 透明性、公正性、説明責任を確保することが不可欠であり、特に金融セクターにおいて重要となる。 本研究の目的は、金融セクターにおけるxAIの適用に関する監督当局及び規制機関の視点を予備調査することであった。 オランダの3つの銀行と2つの監督当局で半構造化インタビューを行い、3つのユースケース(消費者信用、信用リスク、反マネーロンダリング)を調査した。 調査を行った場合,AIシステムの説明可能性の望ましい範囲について,監督当局と銀行の間で格差が存在することがわかった。 金融セクターは、適用可能な法律や規制に関連して、技術的AI(モデル)の非説明可能性要件とより広範なAIシステムの説明可能性要件との明確な区別の恩恵を受けることができる、と我々は主張する。

Explainable artificial intelligence (xAI) is seen as a solution to making AI systems less of a black box. It is essential to ensure transparency, fairness, and accountability, which are especially paramount in the financial sector. The aim of this study was a preliminary investigation of the perspectives of supervisory authorities and regulated entities regarding the application of xAI in the fi-nancial sector. Three use cases (consumer credit, credit risk, and anti-money laundering) were examined using semi-structured interviews at three banks and two supervisory authorities in the Netherlands. We found that for the investigated use cases a disparity exists between supervisory authorities and banks regarding the desired scope of explainability of AI systems. We argue that the financial sector could benefit from clear differentiation between technical AI (model) ex-plainability requirements and explainability requirements of the broader AI system in relation to applicable laws and regulations.
翻訳日:2021-11-04 16:32:07 公開日:2021-11-03
# (参考訳) 次世代競馬場記憶における脳誘発認知 [全文訳有]

Brain-inspired Cognition in Next Generation Racetrack Memories ( http://arxiv.org/abs/2111.02246v1 )

ライセンス: CC BY 4.0
Asif Ali Khan, Sebastien Ollivier, Stephen Longofono, Gerald Hempel, Jeronimo Castrillon and Alex K. Jones(参考訳) hyperdimensional computing (hdc) は、認知をエミュレートするために数千次元のベクトルを操作する脳に触発された新しい計算フレームワークである。 数を扱う従来の計算フレームワークとは異なり、hdcは脳と同様に高次元ランダムベクトルを使用し、ワンショット学習が可能である。 HDCは、よく定義された演算セットに基づいており、非常にエラー耐性がある。 HDCのコア操作はHDベクトルをビット単位で操作し、並列性を活用する多くの機会を提供する。 残念なことに、Von-Neumanアーキテクチャでは、プロセッサとメモリ間のHDベクトルの連続的な移動は、認識タスクを極めて遅くエネルギー集約的にすることができる。 ハードウェアアクセラレーターは、関連するメトリクスをわずかに改善するだけだ。 それとは対照的に、メモリ内のhdcフレームワークの一部実装のみが、新たなmemristiveデバイスを使用して、かなりのパフォーマンス/エネルギ向上を報告している。 本稿では,レーストラックメモリ(RTM)をベースとして,メモリ内のHDCフレームワーク全体の実行と高速化を行うアーキテクチャを提案する。 提案手法では、最小限のCMOS回路が必要であり、Transverse Read (TR) と呼ばれるRTM内の複数の領域にまたがる読み出し演算を用いて排他的または追加操作を実現する。 CMOS回路のオーバーヘッドを最小限に抑えるため,TR演算と標準RTM演算を利用するRTMナノワイヤを用いたカウント機構を提案する。 言語認識をユースケースとして使用すると、FPGA設計と比較して、ランタイム全体の7.8倍と5.3倍のエネルギー消費が減少する。 最先端のインメモリ実装と比較して、提案したHDCシステムはエネルギー消費を8.6倍削減する。

Hyperdimensional computing (HDC) is an emerging computational framework inspired by the brain that operates on vectors with thousands of dimensions to emulate cognition. Unlike conventional computational frameworks that operate on numbers, HDC, like the brain, uses high dimensional random vectors and is capable of one-shot learning. HDC is based on a well-defined set of arithmetic operations and is highly error-resilient. The core operations of HDC manipulate HD vectors in bulk bit-wise fashion, offering many opportunities to leverage parallelism. Unfortunately, on conventional Von-Neuman architectures, the continuous movement of HD vectors among the processor and the memory can make the cognition task prohibitively slow and energy-intensive. Hardware accelerators only marginally improve related metrics. On the contrary, only partial implementation of an HDC framework inside memory, using emerging memristive devices, has reported considerable performance/energy gains. This paper presents an architecture based on racetrack memory (RTM) to conduct and accelerate the entire HDC framework within the memory. The proposed solution requires minimal additional CMOS circuitry and uses a read operation across multiple domains in RTMs called transverse read (TR) to realize exclusive-or (XOR) and addition operations. To minimize the overhead the CMOS circuitry, we propose an RTM nanowires-based counting mechanism that leverages the TR operation and the standard RTM operations. Using language recognition as the use case demonstrates 7.8x and 5.3x reduction in the overall runtime and energy consumption compared to the FPGA design, respectively. Compared to the state-of-the-art in-memory implementation, the proposed HDC system reduces the energy consumption by 8.6x.
翻訳日:2021-11-04 16:18:42 公開日:2021-11-03
# (参考訳) 畳み込みモチーフカーネルネットワーク [全文訳有]

Convolutional Motif Kernel Networks ( http://arxiv.org/abs/2111.02272v1 )

ライセンス: CC BY-SA 4.0
Jonas C. Ditz, Bernhard Reuter, Nico Pfeifer(参考訳) ニューラルネットワークは、特定の結果に関連するデータ内の相関を検出するのに非常に適しています。 しかし、知識の深化とさらなる研究を支援するために、研究者はデータ領域内の予測結果を説明する必要がある。 さらに、Healthcare Providersのようなドメインの専門家は、予測された結果が高い利害関係のシナリオで信頼できるかどうかを評価するために、これらの説明を必要とします。 本稿では,モチーフカーネル関数の再生カーネルヒルベルト空間の部分空間内で特徴表現を学習するニューラルネットワークアーキテクチャである畳み込みモチーフカーネルネットワークを提案する。 結果として得られたモデルは最先端のパフォーマンスを持ち、研究者やドメインの専門家がポストホックな説明可能性メソッドを必要とせずに、予測結果を直接解釈し検証することができる。

Artificial neural networks are exceptionally good in learning to detect correlations within data that are associated with specified outcomes. However to deepen knowledge and support further research, researchers have to be able to explain predicted outcomes within the data's domain. Furthermore, domain experts like Healthcare Providers need these explanations to assess whether a predicted outcome can be trusted in high stakes scenarios and to help them incorporating a model into their own routine. In this paper we introduce Convolutional Motif Kernel Networks, a neural network architecture that incorporates learning a feature representation within a subspace of the reproducing kernel Hilbert space of the motif kernel function. The resulting model has state-of-the-art performance and enables researchers and domain experts to directly interpret and verify prediction outcomes without the need for a post hoc explainability method.
翻訳日:2021-11-04 15:46:13 公開日:2021-11-03
# (参考訳) 境界校正による生成相反ネットワークのモデル適合性の向上 [全文訳有]

Improving Model Compatibility of Generative Adversarial Networks by Boundary Calibration ( http://arxiv.org/abs/2111.02316v1 )

ライセンス: CC BY 4.0
Si-An Chen, Chun-Liang Li, Hsuan-Tien Lin(参考訳) Generative Adversarial Networks (GAN) は、基礎となる分布を学習して合成データを生成する強力なモデル群である。 gansの既存の研究の多くは、視覚アプリケーションのために生成された画像データの現実性を改善することに焦点を当てており、それらのうち、他の分類器を訓練するための生成されたデータの品質向上に関心を持つものはほとんどない。 その結果、既存のganは分類器の境界に遠く及ばない'easier'合成データを生成することを好むことが多く、分類器の訓練において重要な役割を果たすことが知られている、境界に近いデータの生成を控えている。 モデル整合性の観点からGANを改善するために,元データを用いて事前学習した分類器の集合からの境界情報を利用する境界校正GAN(BCGAN)を提案する。 特に, GAN の生成元に補助的境界校正損失 (BC-loss) を導入し, 事前学習した分類器の境界に関する原データの後方分布と生成されたデータの統計値とを一致させる。 BC-loss は明らかにバイアスがなく、モデル互換性を改善するために異なる GAN 変種と簡単に結合できる。 実験により、BCGANはオリジナルのGANのようなリアルな画像を生成するだけでなく、オリジナルのGANよりも優れたモデル互換性を実現することが示された。

Generative Adversarial Networks (GANs) is a powerful family of models that learn an underlying distribution to generate synthetic data. Many existing studies of GANs focus on improving the realness of the generated image data for visual applications, and few of them concern about improving the quality of the generated data for training other classifiers -- a task known as the model compatibility problem. As a consequence, existing GANs often prefer generating `easier' synthetic data that are far from the boundaries of the classifiers, and refrain from generating near-boundary data, which are known to play an important roles in training the classifiers. To improve GAN in terms of model compatibility, we propose Boundary-Calibration GANs (BCGANs), which leverage the boundary information from a set of pre-trained classifiers using the original data. In particular, we introduce an auxiliary Boundary-Calibration loss (BC-loss) into the generator of GAN to match the statistics between the posterior distributions of original data and generated data with respect to the boundaries of the pre-trained classifiers. The BC-loss is provably unbiased and can be easily coupled with different GAN variants to improve their model compatibility. Experimental results demonstrate that BCGANs not only generate realistic images like original GANs but also achieves superior model compatibility than the original GANs.
翻訳日:2021-11-04 15:28:39 公開日:2021-11-03
# (参考訳) ハンド衛生映像の予測のための深層学習モデルの比較 [全文訳有]

A Comparison of Deep Learning Models for the Prediction of Hand Hygiene Videos ( http://arxiv.org/abs/2111.02322v1 )

ライセンス: CC BY 4.0
Rashmi Bakshi(参考訳) 本稿では,世界保健機関(WHO)のガイドラインに従って記録された手の衛生的ジェスチャーの分類と予測のための,Exception,Resnet-50 ,Inception V3などの様々な深層学習モデルの比較を行った。 データセットはビデオ形式での6つの手動衛生運動で構成され、30人が参加する。 ネットワークは、トレーニング済みのモデルと、画像の重みとモデルの修正されたヘッドで構成されている。 37%(Xセプションモデル),33%(インセプションV3),72%(ResNet-50)の精度は,25エポックモデルのトレーニング後の分類報告において達成された。 ResNet-50モデルは、正しいクラス予測で明らかに優れています。 主要な速度制限は、将来の作業のために高速処理gpuを使用することで克服できる。 resnet-50アーキテクチャと医療従事者向けに、片手動作(リニアハンドモーション、円形ハンドローテーション)などの一般的なジェスチャとともに、完全な手衛生データセットをテストする。

This paper presents a comparison of various deep learning models such as Exception, Resnet-50, and Inception V3 for the classification and prediction of hand hygiene gestures, which were recorded in accordance with the World Health Organization (WHO) guidelines. The dataset consists of six hand hygiene movements in a video format, gathered for 30 participants. The network consists of pre-trained models with image net weights and a modified head of the model. An accuracy of 37% (Xception model), 33% (Inception V3), and 72% (ResNet-50) is achieved in the classification report after the training of the models for 25 epochs. ResNet-50 model clearly outperforms with correct class predictions. The major speed limitation can be overcome with the use of fast processing GPU for future work. A complete hand hygiene dataset along with other generic gestures such as one-hand movements (linear hand motion; circular hand rotation) will be tested with ResNet-50 architecture and the variants for health care workers.
翻訳日:2021-11-04 15:17:08 公開日:2021-11-03
# (参考訳) クラウドソーシング単一ラベル感性解析におけるエンド・ツー・エンドアノテータバイアス近似 [全文訳有]

End-to-End Annotator Bias Approximation on Crowdsourced Single-Label Sentiment Analysis ( http://arxiv.org/abs/2111.02326v1 )

ライセンス: CC BY 4.0
Gerhard Hagerer, David Szabo, Andreas Koch, Maria Luisa Ripoll Dominguez, Christian Widmer, Maximilian Wich, Hannah Danner, Georg Groh(参考訳) 感性分析は、多くのアノテータから与えられた主観的なラベルをクラウドソーシングする作業であることが多い。 各アノテータのアノテーションバイアスがいかにして最先端の手法で正しくモデル化できるかは、まだ完全には分かっていない。 しかしながら、アノテーションのバイアスを正確かつ確実に解決することは、アノテーションのラベリング動作を理解し、アノテーションタスクに関する個々の誤解や不正をうまく解決するための鍵となる。 私たちの貢献は、正確なニューラル・エンド・ツー・エンドのバイアスモデリングと基底的真理推定のための説明と改善であり、既存の最先端に関して望ましくないミスマッチを低減します。 分類実験により、各サンプルが1つのアノテータでアノテートされた場合にのみ精度が向上する可能性が示された。 我々は、ソースコード全体を公開し、有機食品に関する1万文を含む独自のドメイン固有の感情データセットをリリースする。 これらはソーシャルメディアからクロールされ、10人の専門家以外のアノテータによって単独でラベル付けされる。

Sentiment analysis is often a crowdsourcing task prone to subjective labels given by many annotators. It is not yet fully understood how the annotation bias of each annotator can be modeled correctly with state-of-the-art methods. However, resolving annotator bias precisely and reliably is the key to understand annotators' labeling behavior and to successfully resolve corresponding individual misconceptions and wrongdoings regarding the annotation task. Our contribution is an explanation and improvement for precise neural end-to-end bias modeling and ground truth estimation, which reduces an undesired mismatch in that regard of the existing state-of-the-art. Classification experiments show that it has potential to improve accuracy in cases where each sample is annotated only by one single annotator. We provide the whole source code publicly and release an own domain-specific sentiment dataset containing 10,000 sentences discussing organic food products. These are crawled from social media and are singly labeled by 10 non-expert annotators.
翻訳日:2021-11-04 15:11:53 公開日:2021-11-03
# (参考訳) ランダムネットワークファミリーの測地統計

Geodesic statistics for random network families ( http://arxiv.org/abs/2111.02330v1 )

ライセンス: CC BY 4.0
Sahil Loomba, Nick S. Jones(参考訳) ネットワークシステムの研究における重要なタスクは、接続性、同期性、堅牢性に影響を与える局所的およびグローバルな特性を導出することである。 ネットワークにおける最短経路や測地線を計算することは、そのような現象を説明するのに寄与するノード集中性とネットワーク接続性の尺度をもたらす。 超臨界レジームの巨成分、あるいは亜臨界レジームの小さな成分上の最短経路長の解析分布を、条件付き独立な辺を持つ任意のスパースグラフ(おそらく有向グラフ)の無限大極限で導出する。 確率的ブロックモデル,ドット生成グラフ,ランダム幾何グラフ,グラフなど,広く使用されているネットワークファミリに対して,具体的な結果を提供する。 最短経路長分布の生存関数は、有限長に対して漸近的に厳密な単純な閉形式下界を持ち、ネットワーク内の独立測地線を横断する自然な解釈を持ち、上記のネットワークファミリーに新たな洞察を与える。 特に、最短経路長分布は、上述のネットワーク族に対して、結合パーコレーションしきい値、巨大成分のサイズ、平均最短経路長、近接性と間隙中心性といった重要なグラフ特性を導出することができる。 また、20の経験的ネットワークの集合の相関解析も提供する。 この統合化フレームワークは、乱数グラフの豊富な族に対する測地統計を、真またはシミュレートされたネットワークにアクセスすることなく安価に計算できることを示す。

A key task in the study of networked systems is to derive local and global properties that impact connectivity, synchronizability, and robustness. Computing shortest paths or geodesics in the network yields measures of node centrality and network connectivity that can contribute to explain such phenomena. We derive an analytic distribution of shortest path lengths, on the giant component in the supercritical regime or on small components in the subcritical regime, of any sparse (possibly directed) graph with conditionally independent edges, in the infinite-size limit. We provide specific results for widely used network families like stochastic block models, dot-product graphs, random geometric graphs, and graphons. The survival function of the shortest path length distribution possesses a simple closed-form lower bound which is asymptotically tight for finite lengths, has a natural interpretation of traversing independent geodesics in the network, and delivers novel insight in the above network families. Notably, the shortest path length distribution allows us to derive, for the network families above, important graph properties like the bond percolation threshold, size of the giant component, average shortest path length, and closeness and betweenness centralities. We also provide a corroborative analysis of a set of 20 empirical networks. This unifying framework demonstrates how geodesic statistics for a rich family of random graphs can be computed cheaply without having access to true or simulated networks, especially when they are sparse but prohibitively large.
翻訳日:2021-11-04 14:49:35 公開日:2021-11-03
# (参考訳) 重量、ブロック、ユニット? Tiny Neural Acceleratorにおける音声強調のための空間トレードオフ探索 [全文訳有]

Weight, Block or Unit? Exploring Sparsity Tradeoffs for Speech Enhancement on Tiny Neural Accelerators ( http://arxiv.org/abs/2111.02351v1 )

ライセンス: CC BY 4.0
Marko Stamenovic, Nils L. Westhausen, Li-Chia Yang, Carl Jensen, Alex Pawlicki(参考訳) 我々は,低消費電力マイクロコントローラを用いたニューラルアクセラレータ(microNPU)の新世代のための最適構成まで,ニューラルネットワーク拡張(SE)を圧縮する目的で,ネットワークスペーシフィケーション戦略を検討する。 本研究は, 軽量刈り, ブロック刈り, ユニット刈りの3つの特異な空間構造について検討し, SEに適用した場合の利点と欠点について考察する。 我々は,計算スループットとメモリフットプリント,モデル品質の相互作用に注目した。 上記の3つの構造を全てサポートし、空間性とともに整数量子化重みを共同学習する。 さらに、整数量子化モデルのオフライン等級に基づくプルーニングを性能ベースラインとして示す。 効率的な音声強調は研究の活発な領域であるが,我々はまずSEにブロックプルーニングを適用し,まずマイクロNPUの文脈でSEモデル圧縮に対処する。 重み付け法を用いて、既にコンパクトなモデルのメモリフットプリントを3.7MBから87kBまで42倍圧縮でき、性能は0.1dBのSDRしか失わないことを示す。 また,ブロックプルーニングを用いて,SDRの0.59dB SDRに対応する6.7倍の高速化を示す。

We explore network sparsification strategies with the aim of compressing neural speech enhancement (SE) down to an optimal configuration for a new generation of low power microcontroller based neural accelerators (microNPU's). We examine three unique sparsity structures: weight pruning, block pruning and unit pruning; and discuss their benefits and drawbacks when applied to SE. We focus on the interplay between computational throughput, memory footprint and model quality. Our method supports all three structures above and jointly learns integer quantized weights along with sparsity. Additionally, we demonstrate offline magnitude based pruning of integer quantized models as a performance baseline. Although efficient speech enhancement is an active area of research, our work is the first to apply block pruning to SE and the first to address SE model compression in the context of microNPU's. Using weight pruning, we show that we are able to compress an already compact model's memory footprint by a factor of 42x from 3.7MB to 87kB while only losing 0.1 dB SDR in performance. We also show a computational speedup of 6.7x with a corresponding SDR drop of only 0.59 dB SDR using block pruning.
翻訳日:2021-11-04 14:47:33 公開日:2021-11-03
# (参考訳) Virus-MNIST:画像分類のための機械学習ベースライン計算 [全文訳有]

Virus-MNIST: Machine Learning Baseline Calculations for Image Classification ( http://arxiv.org/abs/2111.02375v1 )

ライセンス: CC BY 4.0
Erik Larsen, Korey MacVittie, and John Lilly(参考訳) Virus-MNISTデータセットは、ユビキタスなMNISTの手書き桁に類似したサムネイル画像の集合である。 しかし、これらは可能なマルウェアコードを画像配列に再構成することでキャストされる。 当然のことながら、ウイルス分類器モデルの訓練の進捗をベンチマークする役割を担っている。 10種類あり、9種類がマルウェア、1種類が良性である。 帰納試験は、分類と前処理の方法を選択する際に考慮すべき不等級人口やその他の重要な側面を明らかにする。 探索分析は、集約メトリクス(ピクセルの中央値など)や、強い相関を識別することで特徴の数を減らす方法から、識別可能な特性を示す。 モデルの比較により、光勾配ブースティングマシン、勾配ブースティング分類器、ランダムフォレストアルゴリズムが最も精度の高いスコアを示し、より深い精査が期待できることを示した。

The Virus-MNIST data set is a collection of thumbnail images that is similar in style to the ubiquitous MNIST hand-written digits. These, however, are cast by reshaping possible malware code into an image array. Naturally, it is poised to take on a role in benchmarking progress of virus classifier model training. Ten types are present: nine classified as malware and one benign. Cursory examination reveals unequal class populations and other key aspects that must be considered when selecting classification and pre-processing methods. Exploratory analyses show possible identifiable characteristics from aggregate metrics (e.g., the pixel median values), and ways to reduce the number of features by identifying strong correlations. A model comparison shows that Light Gradient Boosting Machine, Gradient Boosting Classifier, and Random Forest algorithms produced the highest accuracy scores, thus showing promise for deeper scrutiny.
翻訳日:2021-11-04 14:34:17 公開日:2021-11-03
# ランダム初期化CNNのためのJohnson-Lindenstraus sフレームワーク

A Johnson--Lindenstrau ss Framework for Randomly Initialized CNNs ( http://arxiv.org/abs/2111.02155v1 )

ライセンス: Link先を確認
Ido Nachum, Jan H\k{a}z{\l}a, Michael Gastpar, Anatoly Khina(参考訳) ニューラルネットワークの各ランダム初期化層の適用後、データセットの幾何表現はどのように変化するのか? 有名なjohnson-lindenstraus s lemmaは、線形完全連結ニューラルネットワーク(fnn)に関するこの疑問に答え、幾何学は本質的に保存されていると述べた。 ReLUアクティベーションを持つFNNでは、2つの入力間の角度は既知のマッピングに従って収縮する。 非線形畳み込みニューラルネットワーク(CNN)の問題はさらに複雑になる。 この質問に答えるために、幾何学的枠組みを紹介する。 線形CNNに対しては、ジョンソン-リンデンシュトラウス補題が引き続き保持され、すなわち、2つの入力間の角度が保存されていることを示す。 reluアクティベーションを持つcnnの場合、その挙動はより豊かである:出力間の角度は収縮し、そこでは収縮のレベルは入力の性質に依存する。 特に、ある層の後、自然画像の幾何学は本質的に保存され、ガウス相関入力の場合、cnnはreluアクティベーションを持つfnnと同じ収縮挙動を示す。

How does the geometric representation of a dataset change after the application of each randomly initialized layer of a neural network? The celebrated Johnson--Lindenstrau ss lemma answers this question for linear fully-connected neural networks (FNNs), stating that the geometry is essentially preserved. For FNNs with the ReLU activation, the angle between two inputs contracts according to a known mapping. The question for non-linear convolutional neural networks (CNNs) becomes much more intricate. To answer this question, we introduce a geometric framework. For linear CNNs, we show that the Johnson--Lindenstrau ss lemma continues to hold, namely, that the angle between two inputs is preserved. For CNNs with ReLU activation, on the other hand, the behavior is richer: The angle between the outputs contracts, where the level of contraction depends on the nature of the inputs. In particular, after one layer, the geometry of natural images is essentially preserved, whereas for Gaussian correlated inputs, CNNs exhibit the same contracting behavior as FNNs with ReLU activation.
翻訳日:2021-11-04 14:28:06 公開日:2021-11-03
# 分散グラフニューラルネットワークを用いたパワーフローバランシング

Power Flow Balancing with Decentralized Graph Neural Networks ( http://arxiv.org/abs/2111.02169v1 )

ライセンス: Link先を確認
Jonas Berg Hansen, Stian Normann Anfinsen, Filippo Maria Bianchi(参考訳) 汎用グリッド内の電力フローのバランスをとるために,グラフニューラルネットワーク(GNN)に基づくエンドツーエンドフレームワークを提案する。 最適化は、制御された頂点回帰タスクとして構成され、GNNは、電力フローバランスをもたらす各グリッドブランチにおける電流および電力注入を予測するために訓練される。 電力グリッドを分岐を頂点とした線グラフとして表現することにより、基底トポロジの変化に対してより正確で堅牢なGNNを訓練することができる。 さらに、特殊なGNNレイヤを使用することで、グラフ上の大きな近傍を考慮に入れながら、ローカライズされた操作のみを実装しながら、非常に深いアーキテクチャを構築することができる。 評価するために3つの異なる実験を行います 一 グローバルオペレーションではなくローカライズドを使用することの利点及び深層gnnモデルの使用時に過度に動揺する傾向 二 グラフトポロジーにおける摂動に対する弾力性 三 複数のグリッドトポロジ上でモデルを同時に訓練する能力及び新しい目に見えないグリッドへの一般化の連続的な改善 提案するフレームワークは,ディープラーニングに基づく他の解法と比較して効率的であり,グリッドコンポーネントの物理量だけでなくトポロジにも頑健である。

We propose an end-to-end framework based on a Graph Neural Network (GNN) to balance the power flows in a generic grid. The optimization is framed as a supervised vertex regression task, where the GNN is trained to predict the current and power injections at each grid branch that yield a power flow balance. By representing the power grid as a line graph with branches as vertices, we can train a GNN that is more accurate and robust to changes in the underlying topology. In addition, by using specialized GNN layers, we are able to build a very deep architecture that accounts for large neighborhoods on the graph, while implementing only localized operations. We perform three different experiments to evaluate: i) the benefits of using localized rather than global operations and the tendency to oversmooth when using deep GNN models; ii) the resilience to perturbations in the graph topology; and iii) the capability to train the model simultaneously on multiple grid topologies and the consequential improvement in generalization to new, unseen grids. The proposed framework is efficient and, compared to other solvers based on deep learning, is robust to perturbations not only to the physical quantities on the grid components, but also to the topology.
翻訳日:2021-11-04 14:27:48 公開日:2021-11-03
# 畳み込みニューラルネットワークを用いたエクソムーンの光度探索

Photometric Search for Exomoons by using Convolutional Neural Networks ( http://arxiv.org/abs/2111.02293v1 )

ライセンス: Link先を確認
Lukas Weghs(参考訳) 今まで、太陽系外惑星以外の衛星は確認されていません。 エクソモーンは、古典的居住ゾーンの外にある可能性のある新しい居住可能な場所を提供します。 しかし、これまでは古典的統計手法が採用されているため、エクソムーンの探索には多くの計算能力が必要だった。 深層学習と畳み込みニューラルネットワーク(CNN)を用いて, 実光曲線とトランジットのない実光曲線を併用した合成光曲線を学習することにより, エキソモンシグネチャを検出できることが示されている。 合成光曲線と観測光曲線の組み合わせによって訓練されたCNNはケプラーデータセットや同等のデータセットにおいて、衛星がより大きく、あるいはほぼ2-3地球半径に等しいものを見つけるために用いられる。 惑星トランジットや星の振動(plato)といった将来のミッションでニューラルネットワークを使用することで、エクソムーンの検出が可能になる。

Until now, there is no confirmed moon beyond our solar system (exomoon). Exomoons offer us new possibly habitable places which might also be outside the classical habitable zone. But until now, the search for exomoons needs much computational power because classical statistical methods are employed. It is shown that exomoon signatures can be found by using deep learning and Convolutional Neural Networks (CNNs), respectively, trained with synthetic light curves combined with real light curves with no transits. It is found that CNNs trained by combined synthetic and observed light curves may be used to find moons bigger or equal to roughly 2-3 earth radii in the Kepler data set or comparable data sets. Using neural networks in future missions like Planetary Transits and Oscillation of stars (PLATO) might enable the detection of exomoons.
翻訳日:2021-11-04 14:27:30 公開日:2021-11-03
# NIST SRE 2021のためのSTC話者認識システム

STC speaker recognition systems for the NIST SRE 2021 ( http://arxiv.org/abs/2111.02298v1 )

ライセンス: Link先を確認
Anastasia Avdeeva, Aleksei Gusev, Igor Korsunov, Alexander Kozlov, Galina Lavrentyeva, Sergey Novoselov, Timur Pekhovsky, Andrey Shulipa, Alisa Vinogradova, Vladimir Volokhov, Evgeny Smirnov, Vasily Galyuk(参考訳) 本稿では,nist 2021 話者認識評価に提出した stc ltd. システムについて,固定学習条件と開放学習条件の両方について述べる。 これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。 NIST 2021 SREの課題では、加算角マージンに基づく損失関数を用いて、ResNets や ECAPA ネットワークのような最先端の深層話者埋め込み抽出器の訓練に焦点をあてた。 さらに,音声認識におけるwav2vec 2.0の最近の成功に触発されて,提案手法の有効性について検討した。 我々の観測によれば、事前訓練された大型wav2vec 2.0モデルの微調整は、オープントラック条件に最適な性能を提供する。 固定条件に対するwav2vec 2.0ベースの抽出器を用いた実験により、コントラスト予測符号化損失を伴う教師なし自己回帰プリトレーニングが、生の音声信号から強力なトランスフォーマベースの抽出器を訓練するための扉を開くことが分かった。 ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。 一次システムの最終結果は, スコアレベルにおけるサブシステム融合の異なる構成と, スコアキャリブレーションによって得られた。

This paper presents a description of STC Ltd. systems submitted to the NIST 2021 Speaker Recognition Evaluation for both fixed and open training conditions. These systems consists of a number of diverse subsystems based on using deep neural networks as feature extractors. During the NIST 2021 SRE challenge we focused on the training of the state-of-the-art deep speaker embeddings extractors like ResNets and ECAPA networks by using additive angular margin based loss functions. Additionally, inspired by the recent success of the wav2vec 2.0 features in automatic speech recognition we explored the effectiveness of this approach for the speaker verification filed. According to our observation the fine-tuning of the pretrained large wav2vec 2.0 model provides our best performing systems for open track condition. Our experiments with wav2vec 2.0 based extractors for the fixed condition showed that unsupervised autoregressive pretraining with Contrastive Predictive Coding loss opens the door to training powerful transformer-based extractors from raw speech signals. For video modality we developed our best solution with RetinaFace face detector and deep ResNet face embeddings extractor trained on large face image datasets. The final results for primary systems were obtained by different configurations of subsystems fusion on the score level followed by score calibration.
翻訳日:2021-11-04 14:25:48 公開日:2021-11-03
# MIMO通信用SVD組み込みディープオートエンコーダ

SVD-Embedded Deep Autoencoder for MIMO Communications ( http://arxiv.org/abs/2111.02359v1 )

ライセンス: Link先を確認
Xinliang Zhang, Mojtaba Vaezi, Timothy J. O'Shea(参考訳) マルチインプットマルチアウトプット(MIMO)システムにおけるエンドツーエンド通信にディープオートエンコーダ(DAE)を用いることは、大きな可能性を秘めている新しい概念である。 DAE支援MIMOは、ビット誤り率(BER)の観点から、特異値分解(SVD)ベースのプリコードMIMOより優れていることが示されている。 本稿では,daeエンコーダとデコーダにチャネル行列の左右特異ベクトルを埋め込み,mimo空間多重化の性能をさらに向上させる手法を提案する。 SVD埋め込みDAEはBERの点で理論線形プリコーディングよりも優れている。 提案したDAEは,通信システムを単一エンドツーエンドの最適化ブロックとして扱うことにより,現在のシステム設計の限界を超える大きな可能性を実証している。 シミュレーション結果から,SNR=10dB において提案した SVD 埋め込み設計は BER を 10^{-5}$ に近づき,既存の SVD のない DAE と比較して BER を 10 倍,理論線形プリコーディングに比べて 18 倍向上させることができる。 我々は、提案するdaeが入力と出力とを有限アルファベット入力と適応変調構造としてマッチングできることを特徴とする。 また,DAEに残差接続を追加することで性能がさらに向上することが観察された。

Using a deep autoencoder (DAE) for end-to-end communication in multiple-input multiple-output (MIMO) systems is a novel concept with significant potential. DAE-aided MIMO has been shown to outperform singular-value decomposition (SVD)-based precoded MIMO in terms of bit error rate (BER). This paper proposes embedding left- and right-singular vectors of the channel matrix into DAE encoder and decoder to further improve the performance of MIMO spatial multiplexing. SVD-embedded DAE largely outperforms theoretic linear precoding in terms of BER. This is remarkable since it demonstrates that the proposed DAEs have significant potential to exceed the limits of current system design by treating the communication system as a single, end-to-end optimization block. Based on the simulation results, at SNR=10dB, the proposed SVD-embedded design can achieve BER nearly $10^{-5}$ and reduce the BER at least 10 times compared with existing DAE without SVD, and up to 18 times improvement compared with theoretical linear precoding. We attribute this to the fact that the proposed DAE can match the input and output as an adaptive modulation structure with finite alphabet input. We also observe that adding residual connections to the DAE further improves the performance.
翻訳日:2021-11-04 14:25:29 公開日:2021-11-03
# クロスドメイン特徴を有する深層学習に基づく非侵入的多目的音声評価モデル

Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features ( http://arxiv.org/abs/2111.02363v1 )

ライセンス: Link先を確認
Ryandhimas E. Zezario, Szu-Wei Fu, Fei Chen, Chiou-Shann Fuh, Hsin-Min Wang, Yu Tsao(参考訳) 本研究では,複数の発話評価指標を同時に推定できるクロスドメイン多目的音声評価モデル,すなわちmosa-netを提案する。 より具体的には、MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。 畳み込みニューラルネットワークと、表現抽出のための双方向長短期メモリ(CNN-BLSTM)アーキテクチャと、各評価基準に対する乗法的注意層と完全連結層とを備える。 さらに、自己教師付き学習モデルのクロスドメイン特徴(スペクトルと時間領域の特徴)と潜時表現を入力として、異なる音声表現からの豊かな音響情報を組み合わせてより正確な評価を得る。 実験結果から,MOSA-Netは,音声品質の知覚的評価(PESQ),短時間客観的インテリジェンス(STOI),音声歪み指数(SDI)のスコアを,テスト条件(テスト話者とノイズタイプがトレーニングセットに関与している場合)と,テスト条件(テスト話者とノイズタイプがトレーニングセットに関与していない場合)のいずれにおいても正確に予測できることがわかった。 確認された予測能力を考慮して、MOSA-Netの潜在表現を更に適用して、音声強調(SE)プロセスを導出し、品質認識性(QI-SE)アプローチを導出する。 実験結果から,QIA-SEは,客観的評価指標と定性評価試験の観点から,ベースラインSEシステムと比較して優れた向上性能を示すことが示された。

In this study, we propose a cross-domain multi-objective speech assessment model, i.e., the MOSA-Net, which can estimate multiple speech assessment metrics simultaneously. More specifically, the MOSA-Net is designed to estimate speech quality, intelligibility, and distortion assessment scores based on a test speech signal as input. It comprises a convolutional neural network and bidirectional long short-term memory (CNN-BLSTM) architecture for representation extraction, as well as a multiplicative attention layer and a fully-connected layer for each assessment metric. In addition, cross-domain features (spectral and time-domain features) and latent representations from self-supervised learned models are used as inputs to combine rich acoustic information from different speech representations to obtain more accurate assessments. Experimental results reveal that the MOSA-Net can precisely predict perceptual evaluation of speech quality (PESQ), short-time objective intelligibility (STOI), and speech distortion index (SDI) scores when tested on both noisy and enhanced speech utterances under either seen test conditions (where the test speakers and noise types are involved in the training set) or unseen test conditions (where the test speakers and noise types are not involved in the training set). In light of the confirmed prediction capability, we further adopt the latent representations of the MOSA-Net to guide the speech enhancement (SE) process and derive a quality-intelligibil ity (QI)-aware SE (QIA-SE) approach accordingly. Experimental results show that QIA-SE provides superior enhancement performance compared with the baseline SE system in terms of objective evaluation metrics and qualitative evaluation test.
翻訳日:2021-11-04 14:25:07 公開日:2021-11-03
# どんなロボットが必要なの? グラフニューラルネットワークを用いた形態と制御の高速同時適応

What Robot do I Need? Fast Co-Adaptation of Morphology and Control using Graph Neural Networks ( http://arxiv.org/abs/2111.02371v1 )

ライセンス: Link先を確認
Kevin Sebastian Luck, Roberto Calandra, Michael Mistry(参考訳) 高速な3次元製造法と効率的な深層強化学習アルゴリズムの出現に伴い,ロボット形態と行動の共適応がますます重要になる。 共適応手法を現実世界に適用する上での大きな課題は、モデルとシミュレーションの不正確さによるシミュレーション対現実ギャップである。 しかし、先行研究は主に、解析モデルや、人口規模が大きい(微分可能な)シミュレータを活用した形態学の進化的適応の研究に焦点をあて、シミュレーション・トゥ・レアリティ・ギャップの存在や実世界における製造サイクルのコストを無視している。 本稿では,従来の高周波数深部ニューラルネットワークと計算コストの高いグラフニューラルネットワークを組み合わせることで,自由度が変化するエージェントのデータ効率の共適応を提案する。 シミュレーションによる評価は, 設計最適化とオフライン強化学習を効率的に組み合わせることで, 限られた数の生産サイクル内でエージェントを協調的に適用できることを示す。

The co-adaptation of robot morphology and behaviour becomes increasingly important with the advent of fast 3D-manufacturing methods and efficient deep reinforcement learning algorithms. A major challenge for the application of co-adaptation methods to the real world is the simulation-to-realit y-gap due to model and simulation inaccuracies. However, prior work focuses primarily on the study of evolutionary adaptation of morphologies exploiting analytical models and (differentiable) simulators with large population sizes, neglecting the existence of the simulation-to-realit y-gap and the cost of manufacturing cycles in the real world. This paper presents a new approach combining classic high-frequency deep neural networks with computational expensive Graph Neural Networks for the data-efficient co-adaptation of agents with varying numbers of degrees-of-freedom. Evaluations in simulation show that the new method can co-adapt agents within such a limited number of production cycles by efficiently combining design optimization with offline reinforcement learning, that it allows for the direct application to real-world co-adaptation tasks in future work
翻訳日:2021-11-04 14:24:37 公開日:2021-11-03
# (参考訳) 侵入検出:画像分類のための機械学習ベースライン計算 [全文訳有]

Intrusion Detection: Machine Learning Baseline Calculations for Image Classification ( http://arxiv.org/abs/2111.02378v1 )

ライセンス: CC BY 4.0
Erik Larsen, Korey MacVittie, John Lilly(参考訳) サイバーセキュリティは、ネットワーク攻撃データをイメージフォーマットに再キャストし、教師付きコンピュータビジョンやその他の機械学習技術を用いて悪意ある検体を検出することによって、機械学習の適用によって強化することができる。 探索データ分析では,本研究で使用されている10種類のマルウェアの相関性はほとんどなく,識別性もほとんどない。 一般的なモデル比較では、考慮すべき最も有望な候補は、光グラディエントブースティングマシン、ランダムフォレスト分類器、エクストラツリー分類器である。 畳み込みネットワークは、単純で完全に接続されたアーキテクチャに取って代わられ、優れた分類能力を提供できない。 ほとんどのテストでは、80%の精度を損ねて低いf1スコアを提示できず、パフォーマンスを最大化するためにより洗練されたアプローチ(ブートストラップ、ランダムサンプル、特徴選択など)が必要となる可能性がある。

Cyber security can be enhanced through application of machine learning by recasting network attack data into an image format, then applying supervised computer vision and other machine learning techniques to detect malicious specimens. Exploratory data analysis reveals little correlation and few distinguishing characteristics between the ten classes of malware used in this study. A general model comparison demonstrates that the most promising candidates for consideration are Light Gradient Boosting Machine, Random Forest Classifier, and Extra Trees Classifier. Convolutional networks fail to deliver their outstanding classification ability, being surpassed by a simple, fully connected architecture. Most tests fail to break 80% categorical accuracy and present low F1 scores, indicating more sophisticated approaches (e.g., bootstrapping, random samples, and feature selection) may be required to maximize performance.
翻訳日:2021-11-04 14:23:33 公開日:2021-11-03
# データの粒度をまたぐリンク:多変量ホークプロセスと部分的間隔補正データ

Linking Across Data Granularity: Fitting Multivariate Hawkes Processes to Partially Interval-Censored Data ( http://arxiv.org/abs/2111.02062v1 )

ライセンス: Link先を確認
Pio Calderon, Alexander Soen, Marian-Andrei Rizoiu(参考訳) 本研究は,多変量ホークス過程を,次元のサブセット上のイベントタイムスタンプの混合と相補的次元の区間補正イベントカウントからなる部分的区間検閲データに適合させるために利用できる,新しい多変量時間点過程である部分平均行動ポアソン(pmbp)プロセスを導入する。 まず, PMBP過程を条件強度で定義し, サブクリティカル性の規則性条件を導出する。 我々は,Hawkes法とMBP法の両方(Rizoiu et al. (2021))がPMBP法の特別な場合であることを示す。 第2に,pmbpプロセスの条件強度とサンプリングイベント履歴の計算を可能にする数値スキームを提案する。 第3に,合成および実世界のデータセットを用いて実証実験を行い,PMBPプロセスの適用性を実証する: ホークスプロセスのサンプルイベント履歴から,多変量ホークスパラメータを復元するPMBPプロセスの有効性を検証する。 次に、Youtubeの人気予測タスクにおけるPMBPプロセスの評価を行い、現在最先端のホークス強度プロセス(Rizoiu et al. (2017b))より優れていることを示す。 最後に、各国の事例数とCOVID19関連ニュース記事のキュレートしたデータセットを用いて、PMBPに適合したパラメータのクラスタリングにより、ケースとニュースレポートの国レベルの相互作用に関して、各国の分類が可能となることを示す。

This work introduces a novel multivariate temporal point process, the Partial Mean Behavior Poisson (PMBP) process, which can be leveraged to fit the multivariate Hawkes process to partially interval-censored data consisting of a mix of event timestamps on a subset of dimensions and interval-censored event counts on the complementary dimensions. First, we define the PMBP process via its conditional intensity and derive the regularity conditions for subcriticality. We show that both the Hawkes process and the MBP process (Rizoiu et al. (2021)) are special cases of the PMBP process. Second, we provide numerical schemes that enable calculating the conditional intensity and sampling event histories of the PMBP process. Third, we demonstrate the applicability of the PMBP process by empirical testing using synthetic and real-world datasets: We test the capability of the PMBP process to recover multivariate Hawkes parameters given sample event histories of the Hawkes process. Next, we evaluate the PMBP process on the Youtube popularity prediction task and show that it outperforms the current state-of-the-art Hawkes Intensity process (Rizoiu et al. (2017b)). Lastly, on a curated dataset of COVID19 daily case counts and COVID19-related news articles for a sample of countries, we show that clustering on the PMBP-fitted parameters enables a categorization of countries with respect to the country-level interaction of cases and news reporting.
翻訳日:2021-11-04 14:17:46 公開日:2021-11-03
# 異質性緩和と分散低減を伴う連合期待最大化

Federated Expectation Maximization with heterogeneity mitigation and variance reduction ( http://arxiv.org/abs/2111.02083v1 )

ライセンス: Link先を確認
Aymeric Dieuleveut (X-DEP-MATHAPP), Gersende Fort (IMT), Eric Moulines (X-DEP-MATHAPP), Genevi\`eve Robin (LaMME)(参考訳) expectation Maximization (EM)アルゴリズムは、潜在変数モデルにおける推論のデフォルトアルゴリズムである。 機械学習の他の分野と同様に、非常に大きなデータセットへの潜在変数モデルの応用は、高度な並列および分散アーキテクチャの使用を必須とする。 本稿では,フェデレート学習コンテキストへのEMアルゴリズムの最初の拡張であるFedEMを紹介する。 FedEMは、ローカルデバイスの部分的な参加を扱う新しい通信効率向上手法であり、データセットの異種分布に対して堅牢である。 通信ボトルネックを軽減するため、FedEMは適切に定義された完全な統計データを圧縮する。 我々はまた、分散還元スキームをさらに組み込むためのFedEMの拡張を開発し、分析する。 いずれの場合も、滑らかな非凸問題に対する有限時間複雑性境界を導出する。 本研究の理論的知見と,生物多様性モニタリングのためのフェデレーション付き欠落値計算への応用について検討した。

The Expectation Maximization (EM) algorithm is the default algorithm for inference in latent variable models. As in any other field of machine learning, applications of latent variable models to very large datasets make the use of advanced parallel and distributed architectures mandatory. This paper introduces FedEM, which is the first extension of the EM algorithm to the federated learning context. FedEM is a new communication efficient method, which handles partial participation of local devices, and is robust to heterogeneous distributions of the datasets. To alleviate the communication bottleneck, FedEM compresses appropriately defined complete data sufficient statistics. We also develop and analyze an extension of FedEM to further incorporate a variance reduction scheme. In all cases, we derive finite-time complexity bounds for smooth non-convex problems. Numerical results are presented to support our theoretical findings, as well as an application to federated missing values imputation for biodiversity monitoring.
翻訳日:2021-11-04 14:17:19 公開日:2021-11-03
# reluニューラルネットワークにおける誤分類による正規化

Regularization by Misclassification in ReLU Neural Networks ( http://arxiv.org/abs/2111.02154v1 )

ライセンス: Link先を確認
Elisabetta Cornacchia, Jan H\k{a}z{\l}a, Ido Nachum, Amir Yehudayoff(参考訳) sgd の変種によって訓練された relu ニューラルネットワークの暗黙のバイアスについて検討し,各ステップにおいて確率 $p$ でラベルをランダムラベルに変更する(ラベル平滑化はこの手順の近縁な変種である)。 実験により、ラベルノイズは、典型的な入力の場合、少数のニューロンがアクティブであり、隠れた層の発火パターンはスペーサーである。 実際に、いくつかのケースでは、適切なラベルノイズがネットワークを混乱させるだけでなく、テストエラーを減らす。 すると、そのようなスパーシフィケーション機構の理論解析に目を向け、$p=1$の極端ケースに焦点をあてる。 このケースでは、ネットワークは実験から予想されたように枯渇するが、驚くべきことに、学習速度とバイアスの存在に依存するさまざまな方法で、重みが消失するか、ニューロンが燃え尽きるかのどちらかである。

We study the implicit bias of ReLU neural networks trained by a variant of SGD where at each step, the label is changed with probability $p$ to a random label (label smoothing being a close variant of this procedure). Our experiments demonstrate that label noise propels the network to a sparse solution in the following sense: for a typical input, a small fraction of neurons are active, and the firing pattern of the hidden layers is sparser. In fact, for some instances, an appropriate amount of label noise does not only sparsify the network but further reduces the test error. We then turn to the theoretical analysis of such sparsification mechanisms, focusing on the extremal case of $p=1$. We show that in this case, the network withers as anticipated from experiments, but surprisingly, in different ways that depend on the learning rate and the presence of bias, with either weights vanishing or neurons ceasing to fire.
翻訳日:2021-11-04 14:17:05 公開日:2021-11-03
# 固定翼uavセルアクセスポイントのエネルギー効率を最適化するマルチエージェント深層強化学習

Multi-Agent Deep Reinforcement Learning For Optimising Energy Efficiency of Fixed-Wing UAV Cellular Access Points ( http://arxiv.org/abs/2111.02258v1 )

ライセンス: Link先を確認
Boris Galkin, Babatunji Omoniwa, Ivana Dusparic(参考訳) 無人航空機(uavs)は、既存の地上ネットワークを補完するために地上ユーザーにワイヤレス接続を提供するため、次世代通信の本質的な部分になることを約束している。 UAVアクセスポイントの使用に関する既存の研究の大部分は、回転翼型UAV設計(すなわちクワッドコプター)を考慮に入れている。 しかし、固定翼uavは、回転翼設計に比べてエネルギー効率の良い飛行形態に依存しているため、長い飛行時間が必要なシナリオ(農村圏など)において、接続性のためにより適していると期待する。 固定翼UAVは、通常はホバリングができないため、その展開最適化は、地上のユーザーに対してエネルギー効率のよい高品質なサービスを提供できるように、個々の飛行軌跡を最適化する。 本稿では,固定翼uavセルラーアクセスポイントのエネルギー効率を最適化し,地上ユーザに対して高品質なサービスを提供するためのマルチエージェント深層強化学習手法を提案する。 我々の分散化アプローチでは、各UAVは、一連のタイムステップでUAVの3次元軌道を調整できるDueling Deep Q-Network (DDQN)エージェントを備えている。 近隣諸国と協調することで、UAVは個々の飛行軌道を調整し、システム全体のエネルギー効率を最適化する。 我々は,一連のヒューリスティックな軌道計画戦略に対してアプローチの性能をベンチマークし,我々の手法がシステムエネルギー効率を最大70%向上できることを実証した。

Unmanned Aerial Vehicles (UAVs) promise to become an intrinsic part of next generation communications, as they can be deployed to provide wireless connectivity to ground users to supplement existing terrestrial networks. The majority of the existing research into the use of UAV access points for cellular coverage considers rotary-wing UAV designs (i.e. quadcopters). However, we expect fixed-wing UAVs to be more appropriate for connectivity purposes in scenarios where long flight times are necessary (such as for rural coverage), as fixed-wing UAVs rely on a more energy-efficient form of flight when compared to the rotary-wing design. As fixed-wing UAVs are typically incapable of hovering in place, their deployment optimisation involves optimising their individual flight trajectories in a way that allows them to deliver high quality service to the ground users in an energy-efficient manner. In this paper, we propose a multi-agent deep reinforcement learning approach to optimise the energy efficiency of fixed-wing UAV cellular access points while still allowing them to deliver high-quality service to users on the ground. In our decentralized approach, each UAV is equipped with a Dueling Deep Q-Network (DDQN) agent which can adjust the 3D trajectory of the UAV over a series of timesteps. By coordinating with their neighbours, the UAVs adjust their individual flight trajectories in a manner that optimises the total system energy efficiency. We benchmark the performance of our approach against a series of heuristic trajectory planning strategies, and demonstrate that our method can improve the system energy efficiency by as much as 70%.
翻訳日:2021-11-04 14:16:48 公開日:2021-11-03
# 粒子相互作用の学習による粒状物質の操作

Manipulation of granular materials by learning particle interactions ( http://arxiv.org/abs/2111.02274v1 )

ライセンス: Link先を確認
Neea Tuomainen, David Blanco-Mulero, Ville Kyrki(参考訳) 砂や米などの粒状物質の操作は、材料粒子の相互作用のモデル化が困難であるため、未解決の課題である。 現在のアプローチは物質力学を単純化し、粒子間の相互作用を省略する傾向がある。 本稿では,物質とそれを操作する剛体との相互作用のダイナミクスをモデル化するために,グラフに基づく表現を提案する。 これにより、操作軌跡の計画がその素材の所望の構成に到達することができる。 グラフニューラルネットワーク(GNN)を用いて、メッセージパッシングによる粒子間相互作用をモデル化する。 そこで本研究では,粒子分布と所望の形状とのワッサーシュタイン距離を最小化することを提案する。 提案手法は, シミュレーションと実シナリオの両方において, 所望の構成に粒状材料を注入できることを実証する。

Manipulation of granular materials such as sand or rice remains an unsolved challenge due to the difficulty of modeling material particles interacting with each other. Current approaches tend to simplify the material dynamics and omit the interactions between the particles. In this paper, we propose to use a graph-based representation to model the interaction dynamics of the material and rigid bodies manipulating it. This allows the planning of manipulation trajectories to reach a desired configuration of the material. We use a graph neural network (GNN) to model the particle interactions via message-passing. To plan manipulation trajectories, we propose to minimise the Wasserstein distance between the distribution of granular particles and the desired configuration. We demonstrate that the proposed method is able to pour granular materials into the desired configuration both in simulated and real scenarios.
翻訳日:2021-11-04 14:16:23 公開日:2021-11-03
# プライベートに公開可能な個人プライバシ

Privately Publishable Per-instance Privacy ( http://arxiv.org/abs/2111.02281v1 )

ライセンス: Link先を確認
Rachel Redberg, Yu-Xiang Wang(参考訳) 目的の摂動によって生じるパーソナライズされたプライバシ損失を,PDP(Per-instance differential privacy)を用いてプライベートに共有する方法を検討する。 標準差分プライバシ(dp)は、固定データセットに対する特定の個人に対するプライバシの損失よりも桁違いに大きい、最悪のケース境界を提供します。 pDPフレームワークは、ターゲット個人に対してより詳細なプライバシ保証の分析を提供するが、インスタンスごとのプライバシ損失自体が機密データの機能である可能性がある。 本稿では,目的的摂動によって学習した個人的経験的リスク最小化によるプライバシ損失を分析し,プライバシコストを少しか全く増やさずに,個人的かつ正確にpdp損失を公表する方法を提案する。

We consider how to privately share the personalized privacy losses incurred by objective perturbation, using per-instance differential privacy (pDP). Standard differential privacy (DP) gives us a worst-case bound that might be orders of magnitude larger than the privacy loss to a particular individual relative to a fixed dataset. The pDP framework provides a more fine-grained analysis of the privacy guarantee to a target individual, but the per-instance privacy loss itself might be a function of sensitive data. In this paper, we analyze the per-instance privacy loss of releasing a private empirical risk minimizer learned via objective perturbation, and propose a group of methods to privately and accurately publish the pDP losses at little to no additional privacy cost.
翻訳日:2021-11-04 14:16:13 公開日:2021-11-03
# スパース・フェデレーション・アナリティクスに向けて:セキュアアグリゲーションによる分散差分プライバシー下の位置ヒートマップ

Towards Sparse Federated Analytics: Location Heatmaps under Distributed Differential Privacy with Secure Aggregation ( http://arxiv.org/abs/2111.02356v1 )

ライセンス: Link先を確認
Eugene Bagdasaryan, Peter Kairouz, Stefan Mellem, Adri\`a Gasc\'on, Kallista Bonawitz, Deborah Estrin and Marco Gruteser(参考訳) 何百万ものユーザデバイスから分散データに対して,位置情報ヒートマップをプライベートに生成するためのスケーラブルなアルゴリズムを設計した。 データの精度が高く、ユーザのデバイス上のリソース消費を最小限に抑えながら、データがサービスプロバイダに見えるようになる前に、ディファレンシャルプライバシを確保することを目的としている。 そこで我々は,セキュアなマルチパーティ計算分野における最近の結果に基づいて分散微分プライバシーの概念を再検討し,位置分析のためのスケーラブルで適応的な分散微分プライバシーアプローチを設計する。 パブリックロケーションデータセットの評価から、このアプローチは数百万のユーザサンプルから、最先端のクライアント通信オーバーヘッドを持つ大都市圏のヒートマップを生成することに成功した。

We design a scalable algorithm to privately generate location heatmaps over decentralized data from millions of user devices. It aims to ensure differential privacy before data becomes visible to a service provider while maintaining high data accuracy and minimizing resource consumption on users' devices. To achieve this, we revisit the distributed differential privacy concept based on recent results in the secure multiparty computation field and design a scalable and adaptive distributed differential privacy approach for location analytics. Evaluation on public location datasets shows that this approach successfully generates metropolitan-scale heatmaps from millions of user samples with a worst-case client communication overhead that is significantly smaller than existing state-of-the-art private protocols of similar accuracy.
翻訳日:2021-11-04 14:15:57 公開日:2021-11-03
# マルチキュー適応感情認識ネットワーク

Multi-Cue Adaptive Emotion Recognition Network ( http://arxiv.org/abs/2111.02273v1 )

ライセンス: Link先を確認
Willams Costa, David Mac\^edo, Cleber Zanchettin, Lucas S. Figueiredo and Veronica Teichrieb(参考訳) 表情や身体表現を通じて感情を表現し識別することは、社会的相互作用の重要な部分である。 感情認識はコンピュータビジョンにおいて、その様々な応用と、主に人間と機械とのより自然な相互作用を可能にするために不可欠なタスクである。 感情認識の一般的なアプローチは表情の分析に重点を置いており、画像中の顔を自動的に位置決めする必要がある。 これらの手法は、制御されたシナリオで感情を正しく分類することができるが、制約のない日々のインタラクションを扱う場合に制限される。 本研究では,社会的相互作用やコミュニケーションに一般的に使用されるコンテキストや身体のポーズから情報を抽出する適応型マルチキューに基づく感情認識のための新しい深層学習手法を提案する。 提案手法とCAER-Sデータセットの最先端アプローチを比較し,89.30%の精度でパイプライン内の異なるコンポーネントを評価する。

Expressing and identifying emotions through facial and physical expressions is a significant part of social interaction. Emotion recognition is an essential task in computer vision due to its various applications and mainly for allowing a more natural interaction between humans and machines. The common approaches for emotion recognition focus on analyzing facial expressions and requires the automatic localization of the face in the image. Although these methods can correctly classify emotion in controlled scenarios, such techniques are limited when dealing with unconstrained daily interactions. We propose a new deep learning approach for emotion recognition based on adaptive multi-cues that extract information from context and body poses, which humans commonly use in social interaction and communication. We compare the proposed approach with the state-of-art approaches in the CAER-S dataset, evaluating different components in a pipeline that reached an accuracy of 89.30%
翻訳日:2021-11-04 14:15:41 公開日:2021-11-03
# (参考訳) IoTファームウェアにおけるマルウェア検出のための機械学習アルゴリズムの検討 [全文訳有]

A Survey of Machine Learning Algorithms for Detecting Malware in IoT Firmware ( http://arxiv.org/abs/2111.02388v1 )

ライセンス: CC BY 4.0
Erik Larsen, Korey MacVittie, John Lilly(参考訳) この研究は、iot(internet-of-thin gs)ファームウェアデータセットで機械学習技術を使用して、エッジデバイスへの悪意のある侵入や、ネットワーク全体の破壊を検知する。 ファームウェアのアップデートはIoTデバイスでは珍しく、脆弱性が多い。 このようなデバイスに対する攻撃は気づかず、ユーザはセキュリティの弱点になる可能性がある。 マルウェアはddos攻撃を引き起こし、人々の家のような機密性の高い地域をスパイする。 この脅威を軽減するため、本論文ではiotファームウェアを分類する機械学習アルゴリズムを数多く採用し、最も優れたモデルが報告されている。 一般的な比較では、上位3つのアルゴリズムは勾配ブースティング、ロジスティック回帰、ランダムフォレスト分類器である。 ConvolutionalやFully Connected Neural Networksなど、実験的および実証済みのアーキテクチャによるディープラーニングアプローチも検討されている。

This work explores the use of machine learning techniques on an Internet-of-Things firmware dataset to detect malicious attempts to infect edge devices or subsequently corrupt an entire network. Firmware updates are uncommon in IoT devices; hence, they abound with vulnerabilities. Attacks against such devices can go unnoticed, and users can become a weak point in security. Malware can cause DDoS attacks and even spy on sensitive areas like peoples' homes. To help mitigate this threat, this paper employs a number of machine learning algorithms to classify IoT firmware and the best performing models are reported. In a general comparison, the top three algorithms are Gradient Boosting, Logistic Regression, and Random Forest classifiers. Deep learning approaches including Convolutional and Fully Connected Neural Networks with both experimental and proven successful architectures are also explored.
翻訳日:2021-11-04 14:14:17 公開日:2021-11-03
# 超高分解能SARインテンシティデータを用いた深層学習に基づくシングルイメージハイト再構成

Deep-Learning-Based Single-Image Height Reconstruction from Very-High-Resolution SAR Intensity Data ( http://arxiv.org/abs/2111.02061v1 )

ライセンス: Link先を確認
Michael Recla, Michael Schmitt(参考訳) 当初、画像に基づくナビゲーションを念頭に置いて、ロボット工学や自動運転などの分野で開発された深層学習に基づく単一画像深度推定(SIDE)は、より広い画像分析コミュニティにおいて大きな関心を集めている。 リモートセンシングは例外ではなく、単一の空中画像や衛星画像から高度マップを推定できる可能性は、地形復元の文脈において大きな可能性がある。 いくつかの先駆的な研究により、光学的リモートセンシング画像からの単一画像高さ予測の汎用性が実証され、その方向へのさらなる研究の動機となった。 本稿では,リモートセンシングにおける他の重要なセンサモードである合成開口レーダ(SAR)データに対する,深層学習に基づく単一画像の高さ予測の初めての実演を示す。 SAR強度画像に対する畳み込みニューラルネットワーク(CNN)アーキテクチャの適用に加えて、トレーニングデータの生成のためのワークフローと、異なるSARイメージングモードとテストサイトに対する広範な実験結果を示す。 トランスファー可能性に特に重点を置いているため,異なる撮像モードや撮像パラメータが取得した場合でも,深層学習に基づく1画像高さ推定が可能となるだけでなく,未認識データへの転送も良好であることが確認できた。

Originally developed in fields such as robotics and autonomous driving with image-based navigation in mind, deep learning-based single-image depth estimation (SIDE) has found great interest in the wider image analysis community. Remote sensing is no exception, as the possibility to estimate height maps from single aerial or satellite imagery bears great potential in the context of topographic reconstruction. A few pioneering investigations have demonstrated the general feasibility of single image height prediction from optical remote sensing images and motivate further studies in that direction. With this paper, we present the first-ever demonstration of deep learning-based single image height prediction for the other important sensor modality in remote sensing: synthetic aperture radar (SAR) data. Besides the adaptation of a convolutional neural network (CNN) architecture for SAR intensity images, we present a workflow for the generation of training data, and extensive experimental results for different SAR imaging modes and test sites. Since we put a particular emphasis on transferability, we are able to confirm that deep learning-based single-image height estimation is not only possible, but also transfers quite well to unseen data, even if acquired by different imaging modes and imaging parameters.
翻訳日:2021-11-04 14:06:44 公開日:2021-11-03
# 機械知覚のための学習画像圧縮

Learned Image Compression for Machine Perception ( http://arxiv.org/abs/2111.02249v1 )

ライセンス: Link先を確認
Felipe Codevilla, Jean Gabriel Simard, Ross Goroshin and Chris Pal(参考訳) 近年の研究では、学習した画像圧縮戦略が、速度歪みトレードオフに関する何十年にも渡って開発されてきた標準的な手作り圧縮アルゴリズムより優れていることが示されている。 コンピュータビジョンの応用が増えているため、圧縮性表現からの高品質な画像再構成は、しばしば二次的な目的である。 画像のセグメンテーション、分類、検出などのコンピュータビジョンタスクにおいて高い精度を保証する圧縮は、様々な環境において大きな影響を与える可能性がある。 本研究では,人間の知覚と機械知覚の両方に適した圧縮フォーマットを生成するフレームワークを開発する。 コアビジョンタスクの圧縮と性能を同時に最適化する表現が学習可能であることを示す。 このアプローチでは,圧縮表現からモデルを直接トレーニングすることが可能であり,新しいタスクや低ショット学習環境でのパフォーマンス向上を実現する。 本稿では,標準品質のJPGに比べてセグメント化と検出性能が向上するが,画素あたりのビット数では4倍から10倍の表現が可能であることを示す。 さらに,従来のJEPGの10倍の圧縮手法とは異なり,我々のフォーマットからトレーニングしたセグメンテーションと検出モデルは,性能がわずかに低下するのみである。

Recent work has shown that learned image compression strategies can outperform standard hand-crafted compression algorithms that have been developed over decades of intensive research on the rate-distortion trade-off. With growing applications of computer vision, high quality image reconstruction from a compressible representation is often a secondary objective. Compression that ensures high accuracy on computer vision tasks such as image segmentation, classification, and detection therefore has the potential for significant impact across a wide variety of settings. In this work, we develop a framework that produces a compression format suitable for both human perception and machine perception. We show that representations can be learned that simultaneously optimize for compression and performance on core vision tasks. Our approach allows models to be trained directly from compressed representations, and this approach yields increased performance on new tasks and in low-shot learning settings. We present results that improve upon segmentation and detection performance compared to standard high quality JPGs, but with representations that are four to ten times smaller in terms of bits per pixel. Further, unlike naive compression methods, at a level ten times smaller than standard JEPGs, segmentation and detection models trained from our format suffer only minor degradation in performance.
翻訳日:2021-11-04 14:06:22 公開日:2021-11-03
# ml-persref: 移動車両から外部オブジェクトを参照する機械学習ベースのパーソナライズされたマルチモーダル融合アプローチ

ML-PersRef: A Machine Learning-based Personalized Multimodal Fusion Approach for Referencing Outside Objects From a Moving Vehicle ( http://arxiv.org/abs/2111.02327v1 )

ライセンス: Link先を確認
Amr Gomaa, Guillermo Reyes, Michael Feld(参考訳) 過去数十年、何百ものセンサーが現代の車両に追加され、その能力は指数関数的に増加した。 これにより、感情認識、頭部回転、視線、ポインティングジェスチャーといった従来のタッチベースおよび音声コマンドアプローチを越えて、車両と対話する新たなアプローチが可能になる。 視線とポインティングのジェスチャーは、以前は車内外の物体を参照するために用いられてきたが、これらのジェスチャーのマルチモーダル相互作用と融合は、これまで広く研究されていない。 シミュレーション環境下での長い運転経路を維持しながら、車外物体を参照するための学習に基づく新しいマルチモーダル融合手法を提案する。 提案するマルチモーダルアプローチは,複数の側面と条件において単一モダリティアプローチよりも優れている。 さらに,参照タスクの完了時にユーザ間の行動差を利用する方法を示し,各ドライバに適応可能なパーソナライズシステムを実現する。 本稿では,個人主義的参照行動に適応し,予測性を高めるために,超小型データサイズの学習概念に基づくパーソナライズ手法を提案する。 私たちのコードはhttps://github.com/a mr-gomaa/ML-PersRefで公開されています。

Over the past decades, the addition of hundreds of sensors to modern vehicles has led to an exponential increase in their capabilities. This allows for novel approaches to interaction with the vehicle that go beyond traditional touch-based and voice command approaches, such as emotion recognition, head rotation, eye gaze, and pointing gestures. Although gaze and pointing gestures have been used before for referencing objects inside and outside vehicles, the multimodal interaction and fusion of these gestures have so far not been extensively studied. We propose a novel learning-based multimodal fusion approach for referencing outside-the-vehicle objects while maintaining a long driving route in a simulated environment. The proposed multimodal approaches outperform single-modality approaches in multiple aspects and conditions. Moreover, we also demonstrate possible ways to exploit behavioral differences between users when completing the referencing task to realize an adaptable personalized system for each driver. We propose a personalization technique based on the transfer-of-learning concept for exceedingly small data sizes to enhance prediction and adapt to individualistic referencing behavior. Our code is publicly available at https://github.com/a mr-gomaa/ML-PersRef.
翻訳日:2021-11-04 14:06:03 公開日:2021-11-03
# Phylo Transformer:マルチヘッド自己注意機構に基づく突然変異予測の判別モデル

PhyloTransformer: A Discriminative Model for Mutation Prediction Based on a Multi-head Self-attention Mechanism ( http://arxiv.org/abs/2111.01969v1 )

ライセンス: Link先を確認
Yingying Wu, Shusheng Xu, Shing-Tung Yau, Yi Wu(参考訳) 重症急性呼吸器症候群ウイルス2(SARS-CoV-2)は10/19/21で219万人が感染し、死亡率は3.6%となっている。 しかし、特定されたウイルスは氷山の一角であり、潜在的に致命的な種類の懸念(VOC)が時間とともに出現する可能性がある。 出現するVOCのパターンを理解し、機能の獲得や免疫的脱出につながる可能性のある突然変異を予測することが急務である。 そこで我々は遺伝子変異をモデル化するために多頭自己付着機構を組み込んだトランスフォーマによる識別モデルであるphylotransformerを開発した。 入力シーケンスの各要素間の複雑な依存関係を識別するために、Phylo TransformerはPerformerからの新しいFast Attention Via positive Orthogonal Random Feature approach (FAVOR+)、Bidirectional Encoder Representations from Transformers (BERT)からのMasked Language Model (MLM)など、高度なモデリング技術を使用している。 PhyloTransformerはGISAID(Global Initiative for Sharing All Influenza Data)データベースから取得した1,765,297の遺伝子配列で訓練された。 まず,新しい変異と新しい組み合わせの予測精度を広範なベースラインモデルを用いて比較したところ,PhyloTransformerはすべてのベースライン法で統計的に優れていた。 次に、受容体結合モチーフ(rbm)の各ヌクレオチドの変異の予測について検討し、その予測が正確かつ正確であることを見出した。 第3に,N-グリコシル化部位の変異を予測し,ウイルスの進化に好適な変異を同定した。 我々はPhyloTransformerが将来のSARS-CoV-2変異体を効果的に標的としたプロアクティブワクチン設計を導くことを期待する。

Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) has caused an ongoing pandemic infecting 219 million people as of 10/19/21, with a 3.6% mortality rate. Natural selection can generate favorable mutations with improved fitness advantages; however, the identified coronaviruses may be the tip of the iceberg, and potentially more fatal variants of concern (VOCs) may emerge over time. Understanding the patterns of emerging VOCs and forecasting mutations that may lead to gain of function or immune escape is urgently required. Here we developed PhyloTransformer, a Transformer-based discriminative model that engages a multi-head self-attention mechanism to model genetic mutations that may lead to viral reproductive advantage. In order to identify complex dependencies between the elements of each input sequence, PhyloTransformer utilizes advanced modeling techniques, including a novel Fast Attention Via positive Orthogonal Random features approach (FAVOR+) from Performer, and the Masked Language Model (MLM) from Bidirectional Encoder Representations from Transformers (BERT). PhyloTransformer was trained with 1,765,297 genetic sequences retrieved from the Global Initiative for Sharing All Influenza Data (GISAID) database. Firstly, we compared the prediction accuracy of novel mutations and novel combinations using extensive baseline models; we found that PhyloTransformer outperformed every baseline method with statistical significance. Secondly, we examined predictions of mutations in each nucleotide of the receptor binding motif (RBM), and we found our predictions were precise and accurate. Thirdly, we predicted modifications of N-glycosylation sites to identify mutations associated with altered glycosylation that may be favored during viral evolution. We anticipate that PhyloTransformer may guide proactive vaccine design for effective targeting of future SARS-CoV-2 variants.
翻訳日:2021-11-04 14:02:44 公開日:2021-11-03
# (参考訳) hs3:階層的教師付き意味セグメンテーションにおける適切なタスク複雑性を伴う学習 [全文訳有]

HS3: Learning with Proper Task Complexity in Hierarchically Supervised Semantic Segmentation ( http://arxiv.org/abs/2111.02333v1 )

ライセンス: CC BY 4.0
Shubhankar Borse, Hong Cai, Yizhe Zhang, Fatih Porikli(参考訳) 近年の文献では、深く監視されたネットワークが一般的であるが、表現力が異なるにもかかわらず、それらは通常、全ての遷移層に同じ学習目標を課す。 本稿では,階層的教師付きセマンティックセグメンテーション(hs3)を提案する。これは,セグメンテーションネットワークの中間層を監督し,タスクの複雑さを変化させて意味のある表現を学習するトレーニングスキームである。 ネットワーク全体にわたる一貫したパフォーマンス対複雑性のトレードオフを実施するため、ネットワークの各遷移層を監督するさまざまなクラスクラスタを導出する。 さらに,これらの層が生成する階層的特徴を集約するために,hs3-fuseという融合フレームワークを考案した。 広範な実験により,提案するhs3スキームは推定コストを増すことなく,バニラ深層監視をかなり上回ることがわかった。 提案するHS3-Fuseフレームワークはセグメンテーション予測をさらに改善し、2つの大きなセグメンテーションベンチマークであるNYUD-v2とCityscapesで最先端の結果を得る。

While deeply supervised networks are common in recent literature, they typically impose the same learning objective on all transitional layers despite their varying representation powers. In this paper, we propose Hierarchically Supervised Semantic Segmentation (HS3), a training scheme that supervises intermediate layers in a segmentation network to learn meaningful representations by varying task complexity. To enforce a consistent performance vs. complexity trade-off throughout the network, we derive various sets of class clusters to supervise each transitional layer of the network. Furthermore, we devise a fusion framework, HS3-Fuse, to aggregate the hierarchical features generated by these layers, which can provide rich semantic contexts and further enhance the final segmentation. Extensive experiments show that our proposed HS3 scheme considerably outperforms vanilla deep supervision with no added inference cost. Our proposed HS3-Fuse framework further improves segmentation predictions and achieves state-of-the-art results on two large segmentation benchmarks: NYUD-v2 and Cityscapes.
翻訳日:2021-11-04 14:00:49 公開日:2021-11-03
# 逆摂動ウェーブレットによる形態素顔生成

Adversarially Perturbed Wavelet-based Morphed Face Generation ( http://arxiv.org/abs/2111.01965v1 )

ライセンス: Link先を確認
Kelsey O'Haire, Sobhan Soleymani, Baaria Chaudhary, Poorya Aghdaie, Jeremy Dawson, Nasser M. Nasrabadi(参考訳) モーフィング(英: Morphing)とは、画像中の2つ以上の主題を組み合わせて、両方の個人の特徴を含む新しいアイデンティティを作成する過程である。 モールフされた画像は、顔認識システム(FRS)を騙して複数の人を誤って受け入れ、国家安全保障の失敗に繋がる。 画像合成が容易になるにつれて、このジレンマと戦うために研究コミュニティの利用可能なデータを拡張することが不可欠である。 本稿では, 変形画像生成のための2つの手法, 幾何変換(変形とブレンディングによる変形画像の生成)と光度摂動の組み合わせについて検討する。 両手法を用いて、FERET, FRGC, FRLLデータセットから高品質な逆摂動形態を生成する。 最終的な画像は両方の入力対象と高い類似性を保ちながら、視覚領域における最小のアーティファクトを生成する。 画像は2つの被写体からウェーブレットサブバンドを融合させて合成され、逆向きに摂動して、人間と深層モルヒネ検出器の両方を騙す高精細な画像を生成する。

Morphing is the process of combining two or more subjects in an image in order to create a new identity which contains features of both individuals. Morphed images can fool Facial Recognition Systems (FRS) into falsely accepting multiple people, leading to failures in national security. As morphed image synthesis becomes easier, it is vital to expand the research community's available data to help combat this dilemma. In this paper, we explore combination of two methods for morphed image generation, those of geometric transformation (warping and blending to create morphed images) and photometric perturbation. We leverage both methods to generate high-quality adversarially perturbed morphs from the FERET, FRGC, and FRLL datasets. The final images retain high similarity to both input subjects while resulting in minimal artifacts in the visual domain. Images are synthesized by fusing the wavelet sub-bands from the two look-alike subjects, and then adversarially perturbed to create highly convincing imagery to deceive both humans and deep morph detectors.
翻訳日:2021-11-04 13:48:56 公開日:2021-11-03
# 勾配場による深部点集合のサンプリング

Deep Point Set Resampling via Gradient Fields ( http://arxiv.org/abs/2111.02045v1 )

ライセンス: Link先を確認
Haolan Chen, Bi'an Du, Shitong Luo and Wei Hu(参考訳) 現実世界のオブジェクトやシーンをスキャンして取得した3Dポイントクラウドは、没入型テレプレゼンス、自動運転、監視など、幅広いアプリケーションを見つけている。 しばしば騒音や低密度に悩まされ、表面の再構築や理解といった下流の作業を妨げる。 本稿では,下面に点を収束させる点雲の連続勾配場を学習し,復元のための点集合再サンプリングの新しいパラダイムを提案する。 特に、その勾配場(対数確率密度関数の勾配)を通じて点雲を表現し、勾配場が連続であるように強制することにより、可解最適化のためのモデルの連続性を保証する。 提案するニューラルネットワークによって推定される連続勾配場に基づいて、ポイントクラウドをサンプリングすることで、入力ノイズまたはスパースポイントクラウド上でグラデーションベースのマルコフチェーンモンテカルロ(mcmc)を実行する。 さらに,中間再サンプリングされた点雲を反復的に洗練し,再サンプリングプロセスにおいて様々な事前処理を適応させる点クラウド復元中に,勾配に基づくmcmcに正規化を導入することを提案する。 広範な実験結果から,提案するポイントセットの再サンプリングは,ポイントクラウドのデノイジングやアップサンプリングなど,代表的な復元タスクにおける最先端のパフォーマンスを実現することが示された。

3D point clouds acquired by scanning real-world objects or scenes have found a wide range of applications including immersive telepresence, autonomous driving, surveillance, etc. They are often perturbed by noise or suffer from low density, which obstructs downstream tasks such as surface reconstruction and understanding. In this paper, we propose a novel paradigm of point set resampling for restoration, which learns continuous gradient fields of point clouds that converge points towards the underlying surface. In particular, we represent a point cloud via its gradient field -- the gradient of the log-probability density function, and enforce the gradient field to be continuous, thus guaranteeing the continuity of the model for solvable optimization. Based on the continuous gradient fields estimated via a proposed neural network, resampling a point cloud amounts to performing gradient-based Markov Chain Monte Carlo (MCMC) on the input noisy or sparse point cloud. Further, we propose to introduce regularization into the gradient-based MCMC during point cloud restoration, which essentially refines the intermediate resampled point cloud iteratively and accommodates various priors in the resampling process. Extensive experimental results demonstrate that the proposed point set resampling achieves the state-of-the-art performance in representative restoration tasks including point cloud denoising and upsampling.
翻訳日:2021-11-04 13:48:35 公開日:2021-11-03
# 一般化ゼロショット学習のためのデュアルプロトタイプネットワーク

Dual Progressive Prototype Network for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2111.02073v1 )

ライセンス: Link先を確認
Chaoqun Wang, Shaobo Min, Xuejin Chen, Xiaoyan Sun, Houqiang Li(参考訳) Generalized Zero-Shot Learning (GZSL) は、カテゴリ属性などの補助的な意味情報を持つ新しいカテゴリを認識することを目的としている。 本稿では,視覚表現の領域間移動可能性やカテゴリ識別性の向上により,目に見えるカテゴリと見えないカテゴリの混同という,ドメインシフトの問題に対処する。 提案手法はDPPN (Dual Progressive Prototype Network) と呼ばれ, 属性とカテゴリの視覚パターンをそれぞれ記録する2種類のプロトタイプを構築した。 属性プロトタイプでは、dppnは属性関連地域を交互に検索し、属性プロトタイプを更新して属性-地域対応を段階的に調査する。 これによってdppnは、正確な属性ローカライゼーション能力を持つ視覚的表現を作成でき、セマンティック・ビジュアルアライメントと表現転送可能性の恩恵を受ける。 さらに、プログレッシブ属性のローカライゼーションとともに、DPPNはプロトタイプを複数の空間に計画し、異なるカテゴリから視覚表現を段階的に取り除き、カテゴリ識別性を高める。 属性とカテゴリのプロトタイプは、dppnの視覚的表現を転送可能かつ識別可能な統一フレームワークで協調的に学習される。 4つのベンチマークの実験により、DPPNはGZSLの領域シフト問題を効果的に軽減することが示された。

Generalized Zero-Shot Learning (GZSL) aims to recognize new categories with auxiliary semantic information,e.g., category attributes. In this paper, we handle the critical issue of domain shift problem, i.e., confusion between seen and unseen categories, by progressively improving cross-domain transferability and category discriminability of visual representations. Our approach, named Dual Progressive Prototype Network (DPPN), constructs two types of prototypes that record prototypical visual patterns for attributes and categories, respectively. With attribute prototypes, DPPN alternately searches attribute-related local regions and updates corresponding attribute prototypes to progressively explore accurate attribute-region correspondence. This enables DPPN to produce visual representations with accurate attribute localization ability, which benefits the semantic-visual alignment and representation transferability. Besides, along with progressive attribute localization, DPPN further projects category prototypes into multiple spaces to progressively repel visual representations from different categories, which boosts category discriminability. Both attribute and category prototypes are collaboratively learned in a unified framework, which makes visual representations of DPPN transferable and distinctive. Experiments on four benchmarks prove that DPPN effectively alleviates the domain shift problem in GZSL.
翻訳日:2021-11-04 13:48:14 公開日:2021-11-03
# 高能率3次元深部LiDARオドメトリー

Efficient 3D Deep LiDAR Odometry ( http://arxiv.org/abs/2111.02135v1 )

ライセンス: Link先を確認
Guangming Wang, Xinrui Wu, Shuyang Jiang, Zhe Liu, Hesheng Wang(参考訳) 本稿では,LiDARオドメトリーのためのPWCLO-Netという,効率的な3Dポイントクラウド学習アーキテクチャを提案する。 このアーキテクチャでは、3Dポイントクラウドのプロジェクション対応表現が提案され、生の3Dポイントクラウドを順序付きデータ形式に整理して効率を上げる。 LiDARオドメトリータスクのピラミッド・ウォーピング・コストボリューム(PWC)構造は、階層的かつ効率的に粗いアプローチでポーズを推定・精査するために構築される。 2つの離散点雲を直接関連付けて埋め込み動作パターンを得るために、投影対応注意コストボリュームを構築する。 そこで, トレーニング可能な埋め込みマスクを提案し, 局所的な動きパターンの重み付けを行い, 全体のポーズを抑え, 外れ点をフィルタする。 トレーニング可能なポーズwarp-refinementモジュールは階層的に最適化された埋め込みマスクで反復的に使用される。 アーキテクチャ全体は、コストボリュームとマスクの適応学習を達成するために全体最適化されたエンドツーエンドであり、プロジェクションアウェアな3d特徴学習手法により、ポイントクラウドサンプリングとグループ化を含む全ての操作が促進される。 当社のlidarオドメトリアーキテクチャの優れた性能と有効性をkittiオドメトリデータセットで実証した。 提案手法は,KITTI odometry データセットのほとんどのシーケンスにおいて,最近の学習手法や幾何学的アプローチである LOAM よりも優れている。

An efficient 3D point cloud learning architecture, named PWCLO-Net, for LiDAR odometry is first proposed in this paper. In this architecture, the projection-aware representation of the 3D point cloud is proposed to organize the raw 3D point cloud into an ordered data form to achieve efficiency. The Pyramid, Warping, and Cost volume (PWC) structure for the LiDAR odometry task is built to estimate and refine the pose in a coarse-to-fine approach hierarchically and efficiently. A projection-aware attentive cost volume is built to directly associate two discrete point clouds and obtain embedding motion patterns. Then, a trainable embedding mask is proposed to weigh the local motion patterns to regress the overall pose and filter outlier points. The trainable pose warp-refinement module is iteratively used with embedding mask optimized hierarchically to make the pose estimation more robust for outliers. The entire architecture is holistically optimized end-to-end to achieve adaptive learning of cost volume and mask, and all operations involving point cloud sampling and grouping are accelerated by projection-aware 3D feature learning methods. The superior performance and effectiveness of our LiDAR odometry architecture are demonstrated on KITTI odometry dataset. Our method outperforms all recent learning-based methods and even the geometry-based approach, LOAM with mapping optimization, on most sequences of KITTI odometry dataset.
翻訳日:2021-11-04 13:47:50 公開日:2021-11-03
# 顔のランドマーク位置推定のためのサブピクセル・ヒートマップ・レグレッション

Subpixel Heatmap Regression for Facial Landmark Localization ( http://arxiv.org/abs/2111.02360v1 )

ライセンス: Link先を確認
Adrian Bulat and Enrique Sanchez and Georgios Tzimiropoulos(参考訳) ヒートマップ回帰に基づくディープラーニングモデルは、既存のモデルが大きなポーズ、非一様照明と影、オクルージョンと自己排他性、低解像度、ぼやけの下で頑健に動作することによって、顔のランドマークのローカライズというタスクに革命をもたらした。 しかし、熱マップ回帰手法は広く採用されているにもかかわらず、熱マップ符号化と復号処理の両方に関連する離散化による誤差に悩まされている。 本研究では,これらの誤りが顔のアライメント精度に驚くほど大きな悪影響を及ぼすことを示す。 この問題を軽減するため,本手法では,基礎となる連続分布を活用し,ヒートマップ符号化と復号化の新たな手法を提案する。 新たに提案した符号化復号機構をフル活用するために,様々な幾何学的画像変換における熱マップの整合性を実現するシームズに基づくトレーニングを導入する。 当社のアプローチでは,複数のデータセットにまたがって,新たな最先端の結果が顔ランドマークのローカライズを可能にする。 事前トレーニングされたモデルとともに、コードはhttps://www.adrianbu lat.com/face-alignme ntで利用可能になる。

Deep Learning models based on heatmap regression have revolutionized the task of facial landmark localization with existing models working robustly under large poses, non-uniform illumination and shadows, occlusions and self-occlusions, low resolution and blur. However, despite their wide adoption, heatmap regression approaches suffer from discretization-induc ed errors related to both the heatmap encoding and decoding process. In this work we show that these errors have a surprisingly large negative impact on facial alignment accuracy. To alleviate this problem, we propose a new approach for the heatmap encoding and decoding process by leveraging the underlying continuous distribution. To take full advantage of the newly proposed encoding-decoding mechanism, we also introduce a Siamese-based training that enforces heatmap consistency across various geometric image transformations. Our approach offers noticeable gains across multiple datasets setting a new state-of-the-art result in facial landmark localization. Code alongside the pretrained models will be made available at https://www.adrianbu lat.com/face-alignme nt
翻訳日:2021-11-04 13:46:09 公開日:2021-11-03
# コントラスト特徴とアテンションモジュールによるビデオ・サイレント物体検出

Video Salient Object Detection via Contrastive Features and Attention Modules ( http://arxiv.org/abs/2111.02368v1 )

ライセンス: Link先を確認
Yi-Wen Chen, Xiaojie Jin, Xiaohui Shen, Ming-Hsuan Yang(参考訳) video salient object detectionは、ビデオの中で最も視覚的なオブジェクトを見つけることを目的としている。 時間的依存性を調べるために、既存の手法は通常、リカレントニューラルネットワークやオプティカルフローに頼る。 しかし、これらのアプローチは高い計算コストを必要とし、時間とともに不正確さを蓄積する傾向がある。 本稿では,高計算時間モデリング手法を使わずに映像サリエント物体検出のためのコントラスト特徴を学習するための注意モジュール付きネットワークを提案する。 ビデオフレーム内のグローバルな情報をキャプチャする非ローカル自己注意方式を開発した。 低レベルと高レベルを組み合わせるためにコアテンション式を用いる。 さらに、コントラスト学習を適用して、同一映像からのフォアグラウンド領域ペアをプルし、潜在空間内でフォアグラウンド・バックグラウンド領域ペアをプッシュする特徴表現を改善する。 フレーム内コントラスト損失は前景と背景の特徴を分離するのに役立ち、フレーム間コントラスト損失は時間的一貫性を改善する。 本研究では,ビデオサリエントオブジェクト検出と教師なしビデオオブジェクトセグメンテーションのためのいくつかのベンチマークデータセットについて広範な実験を行い,提案手法が計算量が少なく,最先端のアプローチに対して好適に動作することを示す。

Video salient object detection aims to find the most visually distinctive objects in a video. To explore the temporal dependencies, existing methods usually resort to recurrent neural networks or optical flow. However, these approaches require high computational cost, and tend to accumulate inaccuracies over time. In this paper, we propose a network with attention modules to learn contrastive features for video salient object detection without the high computational temporal modeling techniques. We develop a non-local self-attention scheme to capture the global information in the video frame. A co-attention formulation is utilized to combine the low-level and high-level features. We further apply the contrastive learning to improve the feature representations, where foreground region pairs from the same video are pulled together, and foreground-backgroun d region pairs are pushed away in the latent space. The intra-frame contrastive loss helps separate the foreground and background features, and the inter-frame contrastive loss improves the temporal consistency. We conduct extensive experiments on several benchmark datasets for video salient object detection and unsupervised video object segmentation, and show that the proposed method requires less computation, and performs favorably against the state-of-the-art approaches.
翻訳日:2021-11-04 13:45:49 公開日:2021-11-03
# FAST:ミニマリストカーネル表現を用いた高速任意形テキスト検出器の探索

FAST: Searching for a Faster Arbitrarily-Shaped Text Detector with Minimalist Kernel Representation ( http://arxiv.org/abs/2111.02394v1 )

ライセンス: Link先を確認
Zhe Chen, Wenhai Wang, Enze Xie, ZhiBo Yang, Tong Lu, Ping Luo(参考訳) 本研究では,FAST(高速な任意形テキスト検出器)と呼ばれる高精度かつ効率的なシーンテキスト検出フレームワークを提案する。 手作りのネットワークアーキテクチャと複雑な後処理を使用した最近の高度なテキスト検出器とは異なり、FASTは2つの新しい設計を持つ。 1) ネットワーク検索空間を設計してネットワークアーキテクチャを検索し, テキスト検出に適した報奨関数を慎重に設計し, 画像分類を行うほとんどのネットワークよりも強力な特徴を与える。 2) 任意の形状のテキストをモデル化するミニマリスト表現(1チャネル出力のみ)を設計し,GPU並列後処理によりテキスト行を無視できない時間オーバーヘッドで効率的に組み立てる。 この2つの設計の利点により、fastはいくつかの挑戦的なデータセットで精度と効率の優れたトレードオフを実現している。 例えば、FAST-A0はトータルテキスト上で152FPSで81.4%のF値を示し、精度と速度で1.5ポイント、70FPSよりも高速である。 TensorRTの最適化により、推論速度は600FPS以上に加速できる。

We propose an accurate and efficient scene text detection framework, termed FAST (i.e., faster arbitrarily-shaped text detector). Different from recent advanced text detectors that used hand-crafted network architectures and complicated post-processing, resulting in low inference speed, FAST has two new designs. (1) We search the network architecture by designing a network search space and reward function carefully tailored for text detection, leading to more powerful features than most networks that are searched for image classification. (2) We design a minimalist representation (only has 1-channel output) to model text with arbitrary shape, as well as a GPU-parallel post-processing to efficiently assemble text lines with negligible time overhead. Benefiting from these two designs, FAST achieves an excellent trade-off between accuracy and efficiency on several challenging datasets. For example, FAST-A0 yields 81.4% F-measure at 152 FPS on Total-Text, outperforming the previous fastest method by 1.5 points and 70 FPS in terms of accuracy and speed. With TensorRT optimization, the inference speed can be further accelerated to over 600 FPS.
翻訳日:2021-11-04 13:45:29 公開日:2021-11-03
# 単純言語横断的意見マイニングの事例研究と質的分析

A Case Study and Qualitative Analysis of Simple Cross-Lingual Opinion Mining ( http://arxiv.org/abs/2111.02259v1 )

ライセンス: Link先を確認
Gerhard Hagerer, Wing Sheung Leung, Qiaoxi Liu, Hannah Danner, Georg Groh(参考訳) ソーシャルメディアからのユーザ生成コンテンツは多くの言語で作られており、異なる文化や地域にわたってあるドメインから議論されたテーマを比較することは技術的に困難である。 これは、市場調査のようなグローバル化した世界のドメインに関係しており、2つの国と市場の人々が製品に対して異なる要件を持つ可能性がある。 本稿では,自然言語理解のための事前学習された最先端ニューラルネットワークに基づいて,複数の言語を同時にカバー可能な感情分析を用いた単一トピックモデルの構築方法を提案する。 その実現可能性を示すために,本モデルは新聞記事や特定のドメイン,すなわち有機食品および関連する消費行動のユーザコメントに適用する。 テーマは言語間で一致している。 また,安定的かつドメイン関連性の高い話題の比率が高いこと,トピックとそれぞれのテキスト内容の有意義な関係,ソーシャルメディア文書の解釈可能な表現が得られる。 マーケティングは、世界中の異なる市場地域から特定の顧客の興味に対処するための使いやすい手段を提供するので、当社の手法の恩恵を受ける可能性がある。 再現性のために、我々は研究のコード、データ、結果を提供する。

User-generated content from social media is produced in many languages, making it technically challenging to compare the discussed themes from one domain across different cultures and regions. It is relevant for domains in a globalized world, such as market research, where people from two nations and markets might have different requirements for a product. We propose a simple, modern, and effective method for building a single topic model with sentiment analysis capable of covering multiple languages simultanteously, based on a pre-trained state-of-the-art deep neural network for natural language understanding. To demonstrate its feasibility, we apply the model to newspaper articles and user comments of a specific domain, i.e., organic food products and related consumption behavior. The themes match across languages. Additionally, we obtain an high proportion of stable and domain-relevant topics, a meaningful relation between topics and their respective textual contents, and an interpretable representation for social media documents. Marketing can potentially benefit from our method, since it provides an easy-to-use means of addressing specific customer interests from different market regions around the globe. For reproducibility, we provide the code, data, and results of our study.
翻訳日:2021-11-04 13:45:07 公開日:2021-11-03
# ワンパスイメージネット

One Pass ImageNet ( http://arxiv.org/abs/2111.01956v1 )

ライセンス: Link先を確認
Huiyi Hu, Ang Li, Daniele Calandriello, Dilan Gorur(参考訳) 本稿では,ストリーミング環境における深層学習の有効性を検討するために,One Pass ImageNet(OPIN)問題を提案する。 imagenetは広く知られたベンチマークデータセットであり、ディープラーニングの最近の進歩を駆動し、評価するのに役立った。 通常、ディープラーニング手法は、モデルがランダムにアクセスする静的データに基づいてトレーニングされ、トレーニングの各エポックにランダムシャッフルのあるデータセットを複数回使用します。 このようなデータアクセスの仮定は、ストリームから大量のデータが収集され、すべてのデータの保存とアクセスがストレージコストとプライバシの懸念のために非現実的になるような、多くの現実のシナリオでは成り立たない。 OPINでは、ImageNetデータを逐次到着として扱い、データの小さなサブセットを格納するためのメモリ予算が限られています。 深層ネットワークを1回のパスでトレーニングし、複数のエポックトレーニングに使用する同じトレーニング設定で、予測精度が大幅に低下するのを観察する。 我々は,OPINが典型的な連続問題設定と異なるにもかかわらず,メモリコストの削減と連続学習のための技術を活用することで,性能ギャップを著しく低減できることを示す。 我々はopinを用いて資源効率のよい深層学習法を提案する。

We present the One Pass ImageNet (OPIN) problem, which aims to study the effectiveness of deep learning in a streaming setting. ImageNet is a widely known benchmark dataset that has helped drive and evaluate recent advancements in deep learning. Typically, deep learning methods are trained on static data that the models have random access to, using multiple passes over the dataset with a random shuffle at each epoch of training. Such data access assumption does not hold in many real-world scenarios where massive data is collected from a stream and storing and accessing all the data becomes impractical due to storage costs and privacy concerns. For OPIN, we treat the ImageNet data as arriving sequentially, and there is limited memory budget to store a small subset of the data. We observe that training a deep network in a single pass with the same training settings used for multi-epoch training results in a huge drop in prediction accuracy. We show that the performance gap can be significantly decreased by paying a small memory cost and utilizing techniques developed for continual learning, despite the fact that OPIN differs from typical continual problem settings. We propose using OPIN to study resource-efficient deep learning.
翻訳日:2021-11-04 13:43:16 公開日:2021-11-03
# 監視学習におけるてんかん(モデル)不確実性に関する調査研究:最近の進歩と応用

A Survey on Epistemic (Model) Uncertainty in Supervised Learning: Recent Advances and Applications ( http://arxiv.org/abs/2111.01968v1 )

ライセンス: Link先を確認
Xinlei Zhou and Han Liu and Farhad Pourpanah and Tieyong Zengd and Xizhao Wang(参考訳) 教師付き学習モデルの不確かさの定量化は、より信頼できる予測を行う上で重要な役割を果たす。 通常、モデルに関する知識不足が原因で生じるてんかんの不確実性は、より多くのデータを収集したり、学習モデルを精査することで軽減することができる。 ここ数年、学者は、ベイズとアンサンブルの2つのカテゴリに大まかに分類できる多くの疫学的不確実性処理技術を提案してきた。 本稿では,過去5年間の教師あり学習における疫学不確実性学習手法の総合的なレビューを行う。 このようにして、我々はまず、認識の不確実性をバイアスと分散項に分解する。 そして, その代表モデルとともに, エピステマティック不確実性学習技術の階層的分類を導入する。 さらに,コンピュータビジョン (cv) や自然言語処理 (nlp) などの応用例を提示するとともに,研究ギャップと今後の研究方向性について考察した。

Quantifying the uncertainty of supervised learning models plays an important role in making more reliable predictions. Epistemic uncertainty, which usually is due to insufficient knowledge about the model, can be reduced by collecting more data or refining the learning models. Over the last few years, scholars have proposed many epistemic uncertainty handling techniques which can be roughly grouped into two categories, i.e., Bayesian and ensemble. This paper provides a comprehensive review of epistemic uncertainty learning techniques in supervised learning over the last five years. As such, we, first, decompose the epistemic uncertainty into bias and variance terms. Then, a hierarchical categorization of epistemic uncertainty learning techniques along with their representative models is introduced. In addition, several applications such as computer vision (CV) and natural language processing (NLP) are presented, followed by a discussion on research gaps and possible future research directions.
翻訳日:2021-11-04 13:42:56 公開日:2021-11-03
# Pareto Adversarial Robustness: 空間的ロバストネスと感性に基づくロバストネスのバランス

Pareto Adversarial Robustness: Balancing Spatial Robustness and Sensitivity-based Robustness ( http://arxiv.org/abs/2111.01996v1 )

ライセンス: Link先を確認
Ke Sun, Mingjie Li, Zhouchen Lin(参考訳) 相対ロバスト性は主に感度に基づくロバスト性と空間ロバスト性を含み、ロバスト一般化において重要な役割を果たす。 本稿では,普遍的対角強靭性を実現するための戦略設計に尽力する。 この目標を達成するために,まず,学習不足の空間的ロバストネスを調査し,既存の空間的ロバストネス手法を,局所的および大域的空間的脆弱性を1つの空間攻撃と敵対的訓練に組み込むことにより統合する。 本研究は,強固な表現の観点からの強固な証拠によって支持される,自然の正確性,感度,空間的ロバスト性との包括的関係を示す。 さらに, 異なるロバスト性の相互影響を一つの統一的枠組みにバランスさせるため, 対角的ロバストネス解析に \textit{Pareto criterion} を組み込むことで, 普遍的ロバストネスに対する新戦略である \textit{Pareto criterion} を導出する。 結果として得られる最適解の集合であるパレートフロントは、自然の精度と異なる対向ロバスト性の間の最適均衡のセットを提供し、将来の普遍ロバスト性への解に光を当てる。 我々の知識を最大限に活用するために、我々は多目的最適化による普遍的対角ロバスト性を考える。

Adversarial robustness, which mainly contains sensitivity-based robustness and spatial robustness, plays an integral part in the robust generalization. In this paper, we endeavor to design strategies to achieve universal adversarial robustness. To hit this target, we firstly investigate the less-studied spatial robustness and then integrate existing spatial robustness methods by incorporating both local and global spatial vulnerability into one spatial attack and adversarial training. Based on this exploration, we further present a comprehensive relationship between natural accuracy, sensitivity-based and different spatial robustness, supported by the strong evidence from the perspective of robust representation. More importantly, in order to balance these mutual impacts of different robustness into one unified framework, we incorporate \textit{Pareto criterion} into the adversarial robustness analysis, yielding a novel strategy called \textit{Pareto Adversarial Training} towards universal robustness. The resulting Pareto front, the set of optimal solutions, provides the set of optimal balance among natural accuracy and different adversarial robustness, shedding light on solutions towards universal robustness in the future. To the best of our knowledge, we are the first to consider the universal adversarial robustness via multi-objective optimization.
翻訳日:2021-11-04 13:42:41 公開日:2021-11-03
# ニューラルネットワークはヘテロジニアスだ - フェーズがより重要

Neural network is heterogeneous: Phase matters more ( http://arxiv.org/abs/2111.02014v1 )

ライセンス: Link先を確認
Yuqi Nie, Hui Yuan(参考訳) 重み行列における位相の役割は、振幅行列よりもはるかに重要であると主張し、波動光学からの洞察による複雑なニューラルネットワークと実数値ニューラルネットワークの両面で異質性を見出した。 複素数値ニューラルネットワークでは, 位相情報のみを保存した重み行列が, 様々な深さと幅で頑健に保持する最適精度を達成できることが示される。 この結論は、信号が位相に取って代わる実数値ニューラルネットワークに一般化することができる。 これらの着想的な発見は、ネットワークプラニングとバイナリ計算のテクニックを豊かにする。

We find a heterogeneity in both complex and real valued neural networks with the insight from wave optics, claiming a much more important role of phase in the weight matrix than its amplitude counterpart. In complex-valued neural networks, we show that among different types of pruning, the weight matrix with only phase information preserved achieves the best accuracy, which holds robustly under various depths and widths. The conclusion can be generalized to real-valued neural networks, where signs take the place of phases. These inspiring findings enrich the techniques of network pruning and binary computation.
翻訳日:2021-11-04 13:42:13 公開日:2021-11-03
# 対立型MDPにおけるオンライン学習はエルゴードよりも難しいか?

Online Learning in Adversarial MDPs: Is the Communicating Case Harder than Ergodic? ( http://arxiv.org/abs/2111.02024v1 )

ライセンス: Link先を確認
Gautam Chandrasekaran and Ambuj Tewari(参考訳) マルコフ決定過程を全情報で通信する対人コミュニケーションにおけるオンライン学習について検討する。 我々は、遷移が決定論的である場合、後見において最良の固定決定論的ポリシーに対して$O(\sqrt{T})$を後悔するアルゴリズムを与える。 また、この設定において、MDPパラメータの多項式因子に密接な後悔の少ない境界が証明される。 また、MPPの通信において、$O(\sqrt{T})$の後悔を達成する非効率なアルゴリズムも与えている(遷移力学にさらなる制限を加えて)。

We study online learning in adversarial communicating Markov Decision Processes with full information. We give an algorithm that achieves a regret of $O(\sqrt{T})$ with respect to the best fixed deterministic policy in hindsight when the transitions are deterministic. We also prove a regret lower bound in this setting which is tight up to polynomial factors in the MDP parameters. We also give an inefficient algorithm that achieves $O(\sqrt{T})$ regret in communicating MDPs (with an additional mild restriction on the transition dynamics).
翻訳日:2021-11-04 13:42:03 公開日:2021-11-03
# SVMパラメータのヒューリスティックな選択

Heuristical choice of SVM parameters ( http://arxiv.org/abs/2111.02164v1 )

ライセンス: Link先を確認
Micha{\l} Cholewa, Micha{\l} Romaszewski, Przemys{\l}aw G{\l}omb(参考訳) Support Vector Machine (SVM)は最も一般的な分類手法の1つであり、多くの機械学習アプローチのデファクト参照である。 その性能はパラメータ選択によって決定され、通常は時間を要するグリッド探索クロスバリデーションによって達成される。 しかし、クラスラベル情報を使う代わりにパラメータを選択するためにデータセットの特性を利用する教師なしヒューリスティックがいくつか存在する。 教師なしのヒューリスティックは、桁違いに速いが、グリッド検索よりも結果が著しく悪いという仮定の下ではほとんど使われない。 この仮定に挑戦するために、30以上のデータセット上でSVMパラメータ選択のための様々なヒューリスティックを、教師付きシナリオと半教師付きシナリオの両方で幅広く研究した。 ほとんどの場合、クロスバリデーショングリッドサーチはヒューリスティックスに対して大きな優位性は得られなかった。 特に、ヒューリスティックなパラメータの選択は、高次元および不均衡データセットや、少数の例が利用可能である場合に望ましい。 以上の結果から,さらなるクロスバリデーションの開始点を決定するためにヒューリスティックを用いることで,デフォルトの開始点よりもはるかに優れた結果が得られないことが示唆された。

Support Vector Machine (SVM) is one of the most popular classification methods, and a de-facto reference for many Machine Learning approaches. Its performance is determined by parameter selection, which is usually achieved by a time-consuming grid search cross-validation procedure. There exist, however, several unsupervised heuristics that take advantage of the characteristics of the dataset for selecting parameters instead of using class label information. Unsupervised heuristics, while an order of magnitude faster, are scarcely used under the assumption that their results are significantly worse than those of grid search. To challenge that assumption we have conducted a wide study of various heuristics for SVM parameter selection on over thirty datasets, in both supervised and semi-supervised scenarios. In most cases, the cross-validation grid search did not achieve a significant advantage over the heuristics. In particular, heuristical parameter selection may be preferable for high dimensional and unbalanced datasets or when a small number of examples is available. Our results also show that using a heuristic to determine the starting point of further cross-validation does not yield significantly better results than the default start.
翻訳日:2021-11-04 13:41:52 公開日:2021-11-03
# ドロップ、スワップ、ジェネレーション:神経活動生成のための自己監督的アプローチ

Drop, Swap, and Generate: A Self-Supervised Approach for Generating Neural Activity ( http://arxiv.org/abs/2111.02338v1 )

ライセンス: Link先を確認
Ran Liu, Mehdi Azabou, Max Dabagia, Chi-Heng Lin, Mohammad Gheshlaghi Azar, Keith B. Hengen, Michal Valko, Eva L. Dyer(参考訳) 神経活動の有意義で単純化された表現は、神経回路内でどのような情報が処理されているかについての洞察を与える。 しかしラベルがなければ、脳と行動の関係を明らかにする表現を見つけることは困難である。 本稿では,Swap-VAEと呼ばれる神経活動の非絡み合い表現を学習するための新しい教師なしアプローチを提案する。 提案手法では,入力(脳状態)の変換ビュー間の表現的類似性を最大化するために,生成モデリングフレームワークとインスタンス固有のアライメント損失を組み合わせる。 これらの変換された(または拡張された)ビューは、ニューロンをドロップアウトしてサンプルを揺らぎ、直感的にネットワークを神経状態を表すために使用される特定のニューロンに対する時間的一貫性と不変性の両方を維持する表現に導くべきである。 異なる霊長類脳の数百のニューロンから合成データと神経記録の両方を評価することで、行動に関連する潜伏次元に沿って神経データセットをアンタングルする表現を構築することができることを示す。

Meaningful and simplified representations of neural activity can yield insights into how and what information is being processed within a neural circuit. However, without labels, finding representations that reveal the link between the brain and behavior can be challenging. Here, we introduce a novel unsupervised approach for learning disentangled representations of neural activity called Swap-VAE. Our approach combines a generative modeling framework with an instance-specific alignment loss that tries to maximize the representational similarity between transformed views of the input (brain state). These transformed (or augmented) views are created by dropping out neurons and jittering samples in time, which intuitively should lead the network to a representation that maintains both temporal consistency and invariance to the specific neurons used to represent the neural state. Through evaluations on both synthetic data and neural recordings from hundreds of neurons in different primate brains, we show that it is possible to build representations that disentangle neural datasets along relevant latent dimensions linked to behavior.
翻訳日:2021-11-04 13:41:33 公開日:2021-11-03
# 陰影認識型デュアルエージェントフレームワークを用いた自律脊髄超音波診断用ロボット超音波プローブの画像誘導ナビゲーション

Image-Guided Navigation of a Robotic Ultrasound Probe for Autonomous Spinal Sonography Using a Shadow-aware Dual-Agent Framework ( http://arxiv.org/abs/2111.02167v1 )

ライセンス: Link先を確認
Keyu Li, Yangxin Xu, Jian Wang, Dong Ni, Li Liu, Max Q.-H. Meng(参考訳) 超音波(US)イメージングは脊椎疾患の診断と治療を支援するのが一般的であるが、プローブを手動で操作する米国の標準化された取得には、ソノグラフィーのかなりの経験と訓練が必要である。 そこで本研究では,usプローブの運動をリアルタイムus画像に基づいて共同決定するために,強化学習(rl)エージェントと深層学習(dl)エージェントを統合した新しいデュアルエージェントフレームワークを提案する。 さらに,USの伝搬特性や脊椎解剖の特徴に触発されて,影情報を利用した視覚特異的音響シャドウ報酬を導入し,プローブのナビゲーションを脊椎の異なる標準的な視界に向けて暗黙的に案内する。 本手法は,17ドルのボランティアから得られた米国データを用いたシミュレーション環境において,定量的および定性的な実験を行った。 異なる標準ビューに対する平均航法精度は、5.18mm/5.25^\circ$と12.87mm/17.49^\circ$である。 以上の結果から,本手法は米国の画像を効果的に解釈し,プローブをナビゲートし,脊椎の標準的なビューを複数取得できることを示した。

Ultrasound (US) imaging is commonly used to assist in the diagnosis and interventions of spine diseases, while the standardized US acquisitions performed by manually operating the probe require substantial experience and training of sonographers. In this work, we propose a novel dual-agent framework that integrates a reinforcement learning (RL) agent and a deep learning (DL) agent to jointly determine the movement of the US probe based on the real-time US images, in order to mimic the decision-making process of an expert sonographer to achieve autonomous standard view acquisitions in spinal sonography. Moreover, inspired by the nature of US propagation and the characteristics of the spinal anatomy, we introduce a view-specific acoustic shadow reward to utilize the shadow information to implicitly guide the navigation of the probe toward different standard views of the spine. Our method is validated in both quantitative and qualitative experiments in a simulation environment built with US data acquired from $17$ volunteers. The average navigation accuracy toward different standard views achieves $5.18mm/5.25^\circ$ and $12.87mm/17.49^\circ$ in the intra- and inter-subject settings, respectively. The results demonstrate that our method can effectively interpret the US images and navigate the probe to acquire multiple standard views of the spine.
翻訳日:2021-11-04 13:40:27 公開日:2021-11-03
# HoneyCar: 自動車のインターネット上でのHoneypotVulnerabilit yの設定フレームワーク

HoneyCar: A Framework to Configure HoneypotVulnerabilit ies on the Internet of Vehicles ( http://arxiv.org/abs/2111.02364v1 )

ライセンス: Link先を確認
Sakshyam Panda, Stefan Rass, Sotiris Moschoyiannis, Kaitai Liang, George Loukas, Emmanouil Panaousis(参考訳) 相互接続された車両が相互に通信し、共通のネットワーク上の道路インフラと通信する「internet of vehicles(iov)」は、社会経済的利益を約束する一方で、新たなサイバーフィジカルな脅威をもたらす。 ハニーポットのようなシステムを使って、車載攻撃者のデータはサイバー脅威情報を通じて現実的に収集することができる。 確かに、ハニーポットの設定は、ハニーポットとアタッカーの相互作用のレベルと、これらのハニーポットの実装と監視に要するオーバーヘッドとコストの間のトレードオフをもたらす。 我々は、IoVの構成要素を表すためにハニーポットを戦略的に構成し、攻撃者がサイバー脅威情報を集めることで効果的な騙しが達成できると主張している。 本稿では,IoVにおけるハニーポット詐欺の新しい意思決定支援フレームワークであるHoneyCarを紹介する。 HoneyCarは、National Vulnerability Database(NVD)内のCommon Vulnerabilities and Exposure(CVE)データにある、自律および接続された車両の既知の脆弱性のリポジトリの上に構築され、最適なハニーポット構成戦略を計算する。 IoVネットワーク管理者がハニーポットで提供すべき脆弱性セットを選択し、戦略攻撃者が不確実性に乗じてIoVの脆弱性を選択するような、繰り返し不完全な情報ゼロサムゲームとして、敵の相互作用をモデル化する。 本研究は,ネットワーク管理者が最適なハニーポット構成を決定するための再設定コストを伴わずに,2つの異なるバージョンのゲームを検証することによって実証された。 我々は,戦略展開のための最適なハニーポット構成戦略を決定づけることで意思決定者を支援するために,ハニーカーを現実的なユースケースで評価する。

The Internet of Vehicles (IoV), whereby interconnected vehicles communicate with each other and with road infrastructure on a common network, has promising socio-economic benefits but also poses new cyber-physical threats. Data on vehicular attackers can be realistically gathered through cyber threat intelligence using systems like honeypots. Admittedly, configuring honeypots introduces a trade-off between the level of honeypot-attacker interactions and any incurred overheads and costs for implementing and monitoring these honeypots. We argue that effective deception can be achieved through strategically configuring the honeypots to represent components of the IoV and engage attackers to collect cyber threat intelligence. In this paper, we present HoneyCar, a novel decision support framework for honeypot deception in IoV. HoneyCar builds upon a repository of known vulnerabilities of the autonomous and connected vehicles found in the Common Vulnerabilities and Exposure (CVE) data within the National Vulnerability Database (NVD) to compute optimal honeypot configuration strategies. By taking a game-theoretic approach, we model the adversarial interaction as a repeated imperfect-informatio n zero-sum game in which the IoV network administrator chooses a set of vulnerabilities to offer in a honeypot and a strategic attacker chooses a vulnerability of the IoV to exploit under uncertainty. Our investigation is substantiated by examining two different versions of the game, with and without the re-configuration cost to empower the network administrator to determine optimal honeypot configurations. We evaluate HoneyCar in a realistic use case to support decision makers with determining optimal honeypot configuration strategies for strategic deployment in IoV.
翻訳日:2021-11-04 13:40:06 公開日:2021-11-03
# ブラックボックスシステムの希少事象シミュレーションのための認証深度サンプリング

Certifiable Deep Importance Sampling for Rare-Event Simulation of Black-Box Systems ( http://arxiv.org/abs/2111.02204v1 )

ライセンス: Link先を確認
Mansur Arief, Yuanlu Bai, Wenhao Ding, Shengyi He, Zhiyuan Huang, Henry Lam, Ding Zhao(参考訳) 重要サンプリング(is)のような希少事象シミュレーション技術は、稀な破滅的な事象の困難な推定を高速化する強力なツールである。 これらの技術は、しばしばシステム構造に関する知識と分析を利用して、望ましい効率を保証する。 しかし、ブラックボックス問題、特に最近のAI駆動物理システムの安全クリティカルな応用から生じる問題は、その効率の保証を根本的に損なう可能性があり、診断的に検出されることなく危険な過小評価につながる。 我々は、多目的で保証が得られないブラックボックスサンプリングを、希少な確率のバウンダリを正確に推定できる緩和された効率証明と呼ぶものに変換することで、統計的に保証されたISを設計するためのDeep Probabilistic Accelerated Evaluation(Deep-PrAE )と呼ばれるフレームワークを提案する。 本稿では、支配点の概念と深層ニューラルネットワーク分類器による希少集合学習を組み合わせたDeep-PrAEの理論を提案し、インテリジェントな駆動アルゴリズムの安全性テストを含む数値例でその効果を実証する。

Rare-event simulation techniques, such as importance sampling (IS), constitute powerful tools to speed up challenging estimation of rare catastrophic events. These techniques often leverage the knowledge and analysis on underlying system structures to endow desirable efficiency guarantees. However, black-box problems, especially those arising from recent safety-critical applications of AI-driven physical systems, can fundamentally undermine their efficiency guarantees and lead to dangerous under-estimation without diagnostically detected. We propose a framework called Deep Probabilistic Accelerated Evaluation (Deep-PrAE) to design statistically guaranteed IS, by converting black-box samplers that are versatile but could lack guarantees, into one with what we call a relaxed efficiency certificate that allows accurate estimation of bounds on the rare-event probability. We present the theory of Deep-PrAE that combines the dominating point concept with rare-event set learning via deep neural network classifiers, and demonstrate its effectiveness in numerical examples including the safety-testing of intelligent driving algorithms.
翻訳日:2021-11-04 13:39:34 公開日:2021-11-03
# 深層学習を用いた航空交通通信における話者の役割同定の比較検討

A Comparative Study of Speaker Role Identification in Air Traffic Communication Using Deep Learning Approaches ( http://arxiv.org/abs/2111.02041v1 )

ライセンス: Link先を確認
Dongyue Guo, Jianwei Zhang, Bo Yang, Yi Lin(参考訳) 航空交通管制(atc)における制御-操縦者会話の自動音声指示理解(siu)は、音声の単語や意味を認識するだけでなく、話者の役割を判断する必要がある。 しかし、航空交通通信における自動理解システムに関する論文のほとんどが話者役割識別(sri)に焦点をあてている。 本稿では,二項分類問題として,制御パイロット通信のSRIタスクを定式化する。 さらに,SRIタスクを包括的に比較するために,テキストベース,音声ベース,音声およびテキストベースのマルチモーダル手法を提案する。 比較アプローチの影響を緩和するために、テキストベースおよび音声ベースの手法の実装を最適化するために、様々な高度なニューラルネットワークアーキテクチャを適用した。 最も重要なことは、マルチモーダル話者ロール識別ネットワーク(MMSRINet)は、音声とテキストの両モードの特徴を考慮してSRIタスクを実現するように設計されている。 モーダル・フュージョン・モジュールは,モーダル・アテンション・メカニズムと自己アテンション・プール・レイヤによって,それぞれ音響表現とテキスト表現を融合・圧縮する。 最後に,実環境のATC環境から収集したATCSpeechコーパスについて比較検討を行った。 実験の結果、sriタスクでは全ての比較手法が動作し、提案されたmmsrinetは、観測データと未確認データの両方における他の手法と比較して、それぞれ98.56%と98.08%の精度で競合性能と堅牢性を示している。

Automatic spoken instruction understanding (SIU) of the controller-pilot conversations in the air traffic control (ATC) requires not only recognizing the words and semantics of the speech but also determining the role of the speaker. However, few of the published works on the automatic understanding systems in air traffic communication focus on speaker role identification (SRI). In this paper, we formulate the SRI task of controller-pilot communication as a binary classification problem. Furthermore, the text-based, speech-based, and speech and text based multi-modal methods are proposed to achieve a comprehensive comparison of the SRI task. To ablate the impacts of the comparative approaches, various advanced neural network architectures are applied to optimize the implementation of text-based and speech-based methods. Most importantly, a multi-modal speaker role identification network (MMSRINet) is designed to achieve the SRI task by considering both the speech and textual modality features. To aggregate modality features, the modal fusion module is proposed to fuse and squeeze acoustic and textual representations by modal attention mechanism and self-attention pooling layer, respectively. Finally, the comparative approaches are validated on the ATCSpeech corpus collected from a real-world ATC environment. The experimental results demonstrate that all the comparative approaches are worked for the SRI task, and the proposed MMSRINet shows the competitive performance and robustness than the other methods on both seen and unseen data, achieving 98.56%, and 98.08% accuracy, respectively.
翻訳日:2021-11-04 13:39:14 公開日:2021-11-03
# (参考訳) 円滑なコストと円滑なポリシーによる円滑な模倣学習 [全文訳有]

Smooth Imitation Learning via Smooth Costs and Smooth Policies ( http://arxiv.org/abs/2111.02354v1 )

ライセンス: CC BY 4.0
Sapana Chaudhary, Balaraman Ravindran(参考訳) 模倣学習(il)は,強化学習(rl)における報酬の誤特定や探索の問題を回避しようとする他の理由として,継続的制御環境において一般的なアプローチである。 デモンストレーションからのilでは、入力に対してスムーズなエージェントポリシーを取得することが重要な課題である。 大規模な状態作用(英語版)(s$-a$)空間(高次元連続制御環境の典型)の関数として滑らかなポリシーを模倣して学ぶことは困難である。 我々は,この課題に取り組むための第一歩として,逆模倣学習のコストモデルである \textit{both} 上の正規化子を,滑らかに誘導することで解決する。 私たちの正規化子は、コスト関数が$s$-$a$の関数として制御された方法で変化することを保証し、エージェントポリシーは状態空間に関してうまく振る舞う。 我々は新しいスムースilアルゴリズム \textit{smooth policy and cost imitation learning} (spacil, 発音は「特殊」)と呼ぶ。 我々は,学習方針の円滑さを定量化する新しい指標を提案する。 我々は,MuJoCoの連続制御タスクにおけるSPaCILの優れた性能を示す。 このアルゴリズムは、提案された滑らかさのメトリクスに対して最先端のilアルゴリズムを上回るだけでなく、学習の高速化と平均リターンの大幅な向上というメリットを享受しています。

Imitation learning (IL) is a popular approach in the continuous control setting as among other reasons it circumvents the problems of reward mis-specification and exploration in reinforcement learning (RL). In IL from demonstrations, an important challenge is to obtain agent policies that are smooth with respect to the inputs. Learning through imitation a policy that is smooth as a function of a large state-action ($s$-$a$) space (typical of high dimensional continuous control environments) can be challenging. We take a first step towards tackling this issue by using smoothness inducing regularizers on \textit{both} the policy and the cost models of adversarial imitation learning. Our regularizers work by ensuring that the cost function changes in a controlled manner as a function of $s$-$a$ space; and the agent policy is well behaved with respect to the state space. We call our new smooth IL algorithm \textit{Smooth Policy and Cost Imitation Learning} (SPaCIL, pronounced 'Special'). We introduce a novel metric to quantify the smoothness of the learned policies. We demonstrate SPaCIL's superior performance on continuous control tasks from MuJoCo. The algorithm not just outperforms the state-of-the-art IL algorithm on our proposed smoothness metric, but, enjoys added benefits of faster learning and substantially higher average return.
翻訳日:2021-11-04 13:38:19 公開日:2021-11-03
# Causal-BALD:観測データによる治療効果の推定結果のベイズ的アクティブラーニング

Causal-BALD: Deep Bayesian Active Learning of Outcomes to Infer Treatment-Effects from Observational Data ( http://arxiv.org/abs/2111.02275v1 )

ライセンス: Link先を確認
Andrew Jesson and Panagiotis Tigas and Joost van Amersfoort and Andreas Kirsch and Uri Shalit and Yarin Gal(参考訳) 高次元観測データからパーソナライズされた治療効果を推定することは、実験的な設計が実現不可能、非倫理的、あるいは高価である状況において不可欠である。 既存のアプローチは、治療と管理のために観察された結果に深いモデルを適用することに依存している。 しかし、腫瘍生検の場合と同様に、個々の結果を測定するのにコストがかかる場合、各結果を取得するためのサンプル効率の戦略が必要である。 Deep Bayesian Active Learningは、不確実性の高い点を選択することによって、効率的なデータ取得のためのフレームワークを提供する。 しかし、既存の方法では、治療対象と管理対象の非重複支援領域への偏り学習データ取得が可能であった。 これらの領域では処理効果が同定できないため、試料効率は低い。 本稿では, パーソナライズされた治療効果を学習するためのサンプル効率を最大化するために, 重複する領域に対するバイアスデータ取得という情報理論に基づく因果的ベイズ買収機能を紹介する。 本稿では,合成および半合成データセットihdpおよびcmnistとその拡張における,共通データセットバイアスと病理をシミュレートすることを目的とした,提案手法の性能を示す。

Estimating personalized treatment effects from high-dimensional observational data is essential in situations where experimental designs are infeasible, unethical, or expensive. Existing approaches rely on fitting deep models on outcomes observed for treated and control populations. However, when measuring individual outcomes is costly, as is the case of a tumor biopsy, a sample-efficient strategy for acquiring each result is required. Deep Bayesian active learning provides a framework for efficient data acquisition by selecting points with high uncertainty. However, existing methods bias training data acquisition towards regions of non-overlapping support between the treated and control populations. These are not sample-efficient because the treatment effect is not identifiable in such regions. We introduce causal, Bayesian acquisition functions grounded in information theory that bias data acquisition towards regions with overlapping support to maximize sample efficiency for learning personalized treatment effects. We demonstrate the performance of the proposed acquisition strategies on synthetic and semi-synthetic datasets IHDP and CMNIST and their extensions, which aim to simulate common dataset biases and pathologies.
翻訳日:2021-11-04 13:18:10 公開日:2021-11-03
# 広ReLUネットワークにおける線形解の平均場解析

Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks ( http://arxiv.org/abs/2111.02278v1 )

ライセンス: Link先を確認
Alexander Shevchenko, Vyacheslav Kungurtsev, Marco Mondelli(参考訳) 確率勾配降下(SGD)によって訓練されたニューラルネットワークの性質を理解することは、ディープラーニング理論の中心にある。 本研究では,SGDを用いてトレーニングした2層ReLUネットワークを,一変量正規化回帰問題に適用する。 我々の主な成果は、SGD が単純な解に偏っていることである:収束において、ReLU ネットワークは入力の断片的に線形写像を実装し、ReLU ネットワーク推定器の接点が2つの連続するトレーニング入力の間で少なくとも3つの点が変化する点である。 特に、ネットワークのニューロンの数が増えるにつれて、SGDのダイナミクスは勾配流の解によって捉えられ、収束すると、重みの分布はギブス形式を持つ関連する自由エネルギーのユニークな最小化に近づく。 我々の重要な技術的貢献は、この最小化子から生じる推定器の分析である:我々は、その2番目の微分が「結び目」の点を表す特定の位置を除いて、至る所で消えることを示す。 また、我々の理論が予測したように、データポイントとは異なる場所で結び目が発生するという経験的証拠も提供する。

Understanding the properties of neural networks trained via stochastic gradient descent (SGD) is at the heart of the theory of deep learning. In this work, we take a mean-field view, and consider a two-layer ReLU network trained via SGD for a univariate regularized regression problem. Our main result is that SGD is biased towards a simple solution: at convergence, the ReLU network implements a piecewise linear map of the inputs, and the number of "knot" points - i.e., points where the tangent of the ReLU network estimator changes - between two consecutive training inputs is at most three. In particular, as the number of neurons of the network grows, the SGD dynamics is captured by the solution of a gradient flow and, at convergence, the distribution of the weights approaches the unique minimizer of a related free energy, which has a Gibbs form. Our key technical contribution consists in the analysis of the estimator resulting from this minimizer: we show that its second derivative vanishes everywhere, except at some specific locations which represent the "knot" points. We also provide empirical evidence that knots at locations distinct from the data points might occur, as predicted by our theory.
翻訳日:2021-11-04 13:17:51 公開日:2021-11-03
# クラスタ数、クラスタリングモデル、アルゴリズムを選択する。 二次判別スコアに基づく統一的アプローチ

Selecting the number of clusters, clustering models, and algorithms. A unifying approach based on the quadratic discriminant score ( http://arxiv.org/abs/2111.02302v1 )

ライセンス: Link先を確認
Luca Coraggio and Pietro Coretto(参考訳) クラスタ分析には、クラスタリング法と暗黙の参照モデル、クラスタの数、そしてしばしば、いくつかのハイパーパラメータとアルゴリズムのチューニングなど、多くの決定が必要である。 実際には、いくつかのパーティションを生成し、最後のパーティションは検証基準や選択基準に基づいて選択される。 暗黙的または明示的に特定のクラスタリングの概念を仮定する検証方法が多数存在する。 さらに、特定のメソッドから取得したパーティションの操作に制限されることが多い。 本稿では,2次境界あるいは線形境界で十分に分離できる群に焦点をあてる。 参照クラスタの概念は、二次判別スコア関数とクラスタのサイズ、中心、散乱を記述するパラメータによって定義される。 我々は二次スコアと呼ばれる2つのクラスタ品質基準を考案する。 これらの基準は、楕円対称分布の一般クラスから生成される群と一致することを示す。 この種のグループの探求はアプリケーションで一般的である。 混合モデルとモデルに基づくクラスタリングの確率論との関連について検討した。 二次スコアのブートストラップ再サンプリングに基づいて,多数のクラスタリングソリューションの中から選択可能な選択規則を提案する。 提案手法は,他の最先端手法と比較できない分割を比較できるという特徴的利点を有する。 広範な数値実験と実データの解析は、たとえいくつかの競合手法がいくつかの設定で優れていると判明しても、提案手法により全体的な性能が向上することを示している。

Cluster analysis requires many decisions: the clustering method and the implied reference model, the number of clusters and, often, several hyper-parameters and algorithms' tunings. In practice, one produces several partitions, and a final one is chosen based on validation or selection criteria. There exist an abundance of validation methods that, implicitly or explicitly, assume a certain clustering notion. Moreover, they are often restricted to operate on partitions obtained from a specific method. In this paper, we focus on groups that can be well separated by quadratic or linear boundaries. The reference cluster concept is defined through the quadratic discriminant score function and parameters describing clusters' size, center and scatter. We develop two cluster-quality criteria called quadratic scores. We show that these criteria are consistent with groups generated from a general class of elliptically-symmetr ic distributions. The quest for this type of groups is common in applications. The connection with likelihood theory for mixture models and model-based clustering is investigated. Based on bootstrap resampling of the quadratic scores, we propose a selection rule that allows choosing among many clustering solutions. The proposed method has the distinctive advantage that it can compare partitions that cannot be compared with other state-of-the-art methods. Extensive numerical experiments and the analysis of real data show that, even if some competing methods turn out to be superior in some setups, the proposed methodology achieves a better overall performance.
翻訳日:2021-11-04 13:17:29 公開日:2021-11-03
# 電気自動車のナビゲーションにおけるエネルギー消費のオンライン学習

Online Learning of Energy Consumption for Navigation of Electric Vehicles ( http://arxiv.org/abs/2111.02314v1 )

ライセンス: Link先を確認
Niklas {\AA}kerblom, Yuxin Chen, Morteza Haghir Chehreghani(参考訳) エネルギー効率のよいナビゲーションは、電気自動車にとって重要な課題である。 道路セグメントのエネルギー消費を効率的なナビゲーションのためにモデル化するためにベイズ的手法を用いる。 モデルパラメータを学習するために,オンライン学習フレームワークを開発し,トンプソンサンプリングや上位信頼度境界など,いくつかの探索戦略を検討する。 そして、オンライン学習フレームワークをマルチエージェント設定に拡張し、複数の車両がエネルギーモデルのパラメータを適応的にナビゲートし、学習します。 我々はトンプソンサンプリングを解析し、バッチフィードバックによるアルゴリズムの解析により、単一エージェントと複数エージェントの設定におけるその性能に厳密な後悔の限界を確立する。 最後に,実際の都市道路ネットワークの実験を通じて,提案手法の性能を実証する。

Energy-efficient navigation constitutes an important challenge in electric vehicles, due to their limited battery capacity. We employ a Bayesian approach to model the energy consumption at road segments for efficient navigation. In order to learn the model parameters, we develop an online learning framework and investigate several exploration strategies such as Thompson Sampling and Upper Confidence Bound. We then extend our online learning framework to multi-agent setting, where multiple vehicles adaptively navigate and learn the parameters of the energy model. We analyze Thompson Sampling and establish rigorous regret bounds on its performance in the single-agent and multi-agent settings, through an analysis of the algorithm under batched feedback. Finally, we demonstrate the performance of our methods via experiments on several real-world city road networks.
翻訳日:2021-11-04 13:17:10 公開日:2021-11-03
# なぜ安定した学習がうまくいくのか? 共変量シフト一般化の理論

Why Stable Learning Works? A Theory of Covariate Shift Generalization ( http://arxiv.org/abs/2111.02355v1 )

ライセンス: Link先を確認
Renzhe Xu, Peng Cui, Zheyan Shen, Xingxuan Zhang, Tong Zhang(参考訳) out-of-distribution (ood) 一般化の典型例であるcovariate shift generalizationでは、covariate shiftという形式でアクセス可能なトレーニング分布と異なる、未知のテストディストリビューションでの優れたパフォーマンスが求められている。 近年、安定学習アルゴリズムは、回帰アルゴリズムとディープニューラルネットワークを含むいくつかの学習モデルの共変シフト一般化を扱うための経験的有効性を示している。 しかし、そのような効果の理論的説明はいまだに欠けている。 本稿では,安定学習アルゴリズムの理論的解析を特徴選択プロセスとして説明することによって,さらに一歩進める。 まず、最小の安定変数集合と呼ばれる変数の集合を定義し、これは平均二乗損失や二項交叉エントロピー損失を含む共通損失関数の共変シフト一般化を扱うのに最適である。 そして、理想的な条件下では、安定学習アルゴリズムがこの集合の変数を識別できることを示す。 また、漸近特性および誤り伝播に関するさらなる分析も提供される。 これらの理論は、なぜ安定学習が共変量シフト一般化に働くのかを浮き彫りにした。

Covariate shift generalization, a typical case in out-of-distribution (OOD) generalization, requires a good performance on the unknown testing distribution, which varies from the accessible training distribution in the form of covariate shift. Recently, stable learning algorithms have shown empirical effectiveness to deal with covariate shift generalization on several learning models involving regression algorithms and deep neural networks. However, the theoretical explanations for such effectiveness are still missing. In this paper, we take a step further towards the theoretical analysis of stable learning algorithms by explaining them as feature selection processes. We first specify a set of variables, named minimal stable variable set, that is minimal and optimal to deal with covariate shift generalization for common loss functions, including the mean squared loss and binary cross entropy loss. Then we prove that under ideal conditions, stable learning algorithms could identify the variables in this set. Further analysis on asymptotic properties and error propagation are also provided. These theories shed light on why stable learning works for covariate shift generalization.
翻訳日:2021-11-04 13:16:57 公開日:2021-11-03
# マルチモーダル感情認識のための自己アテンションと残差構造に基づくクロスモーダル融合ネットワーク

A cross-modal fusion network based on self-attention and residual structure for multimodal emotion recognition ( http://arxiv.org/abs/2111.02172v1 )

ライセンス: Link先を確認
Ziwang Fu, Feng Liu, Hanyang Wang, Jiayin Qi, Xiangling Fu, Aimin Zhou, Zhibin Li(参考訳) オーディオビデオに基づくマルチモーダル感情認識は、堅牢なパフォーマンスのために多くの注目を集めている。 既存の手法のほとんどは、異なるモーダル融合戦略の提案に焦点を当てている。 しかし、これらの戦略は、モーダル情報間の相補的性質を完全に考慮することなく、異なるモーダルの特徴の冗長性を導入し、モーダル内およびモーダル間相互作用における元の意味情報の欠如を保証しない。 本稿では,マルチモーダル感情認識のための自己注意・残差構造(CFN-SR)に基づく新たな相互統合ネットワークを提案する。 まず,音声と映像のモダリティに対する表現学習を行い,その2つのモダリティの意味的特徴を,それぞれ効率的な再帰と1次元cnnによって獲得する。 第2に,2つのモダリティの特徴を分離してクロスモーダルブロックに供給し,自己着脱機構と残留構造を通じて情報の効率的な相補性と完全性を確保する。 最後に、得られた融合表現を元の表現とスプライシングすることで感情の出力を得る。 提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。 実験の結果、cfn-srは最新技術を達成し、26.30mのパラメータで75.76%の精度を得た。 私たちのコードはhttps://github.com/s keletonnn/cfn-srで入手できる。

The audio-video based multimodal emotion recognition has attracted a lot of attention due to its robust performance. Most of the existing methods focus on proposing different cross-modal fusion strategies. However, these strategies introduce redundancy in the features of different modalities without fully considering the complementary properties between modal information, and these approaches do not guarantee the non-loss of original semantic information during intra- and inter-modal interactions. In this paper, we propose a novel cross-modal fusion network based on self-attention and residual structure (CFN-SR) for multimodal emotion recognition. Firstly, we perform representation learning for audio and video modalities to obtain the semantic features of the two modalities by efficient ResNeXt and 1D CNN, respectively. Secondly, we feed the features of the two modalities into the cross-modal blocks separately to ensure efficient complementarity and completeness of information through the self-attention mechanism and residual structure. Finally, we obtain the output of emotions by splicing the obtained fused representation with the original representation. To verify the effectiveness of the proposed method, we conduct experiments on the RAVDESS dataset. The experimental results show that the proposed CFN-SR achieves the state-of-the-art and obtains 75.76% accuracy with 26.30M parameters. Our code is available at https://github.com/s keletonNN/CFN-SR.
翻訳日:2021-11-04 13:16:40 公開日:2021-11-03
# FaceQvec:ISO準拠に基づく顔バイオメトリックスのベクトル品質評価

FaceQvec: Vector Quality Assessment for Face Biometrics based on ISO Compliance ( http://arxiv.org/abs/2111.02078v1 )

ライセンス: Link先を確認
Javier Hernandez-Ortega, Julian Fierrez, Luis F. Gomez, Aythami Morales, Jose Luis Gonzalez-de-Suso, Francisco Zamora-Martinez(参考訳) 本稿では,ISO/IEC 19794-5で実証された各点による顔画像の整合性を推定するソフトウェアコンポーネントであるFaceQvecを開発した。 このタイプの品質評価ツールは、顔認識の精度の向上や、特定の顔画像の品質に影響を与える要因の特定に役立ち、例えば、後処理技術や画像の再取得によって、これらの要因を排除または削減するためのアクションを取ることができる。 faceqvecは、前述の標準で検討された異なる点に関連する25の個別テストの自動化と、顔の質に関連すると考えられる画像の他の特徴からなる。 まず,実環境下で収集した開発データセットで評価した品質テストの結果を含める。 これらの結果を用いて各テストの判定閾値を調整した。 そして,その精度を,開発中に見えない新しい顔画像を含む評価データベースで検証した。 評価の結果,ISO/IEC 19794-5の適合性を確認するための個別試験の精度が示された。 FaceQvecはオンラインで入手できる(https://github.com/ uam-biometrics/FaceQ vec)。

In this paper we develop FaceQvec, a software component for estimating the conformity of facial images with each of the points contemplated in the ISO/IEC 19794-5, a quality standard that defines general quality guidelines for face images that would make them acceptable or unacceptable for use in official documents such as passports or ID cards. This type of tool for quality assessment can help to improve the accuracy of face recognition, as well as to identify which factors are affecting the quality of a given face image and to take actions to eliminate or reduce those factors, e.g., with postprocessing techniques or re-acquisition of the image. FaceQvec consists of the automation of 25 individual tests related to different points contemplated in the aforementioned standard, as well as other characteristics of the images that have been considered to be related to facial quality. We first include the results of the quality tests evaluated on a development dataset captured under realistic conditions. We used those results to adjust the decision threshold of each test. Then we checked again their accuracy on a evaluation database that contains new face images not seen during development. The evaluation results demonstrate the accuracy of the individual tests for checking compliance with ISO/IEC 19794-5. FaceQvec is available online (https://github.com/ uam-biometrics/FaceQ vec).
翻訳日:2021-11-04 13:16:16 公開日:2021-11-03
# ゼロショット学習のためのエントロピー誘導強化部分畳み込みネットワーク

An Entropy-guided Reinforced Partial Convolutional Network for Zero-Shot Learning ( http://arxiv.org/abs/2111.02139v1 )

ライセンス: Link先を確認
Yun Li, Zhe Liu, Lina Yao, Xianzhi Wang, Julian McAuley, Xiaojun Chang(参考訳) Zero-Shot Learning (ZSL) は、観察されたクラスから意味的相関を通じて未知のクラスに学習知識を伝達することを目的としている。 有望な戦略は、グローバル情報を余分なローカル(入力の小さな部分/領域)に組み込むグローバルローカル表現を学ぶことである。 しかし,既存の手法では,地域間の特質や関係を掘り下げることなく,明示的な特徴に基づく局所性を見出すことができた。 本研究では,意味的関連性や視覚的相関性に基づいて局所性を段階的に抽出・集約する,エントロピー誘導型部分畳み込みネットワーク(ERPCNet)を提案する。 ERPCNetは、強化された部分的畳み込みとエントロピー誘導を使用する。 我々は、ZSLの最先端手法と4つのベンチマークデータセット上の一般化ゼロショット学習(GZSL)設定を比較して、ERPCNetの性能を示すための広範な実験を行った。 また、可視化分析により、ERPCNetは時間効率が高く、説明が可能であることも示しています。

Zero-Shot Learning (ZSL) aims to transfer learned knowledge from observed classes to unseen classes via semantic correlations. A promising strategy is to learn a global-local representation that incorporates global information with extra localities (i.e., small parts/regions of inputs). However, existing methods discover localities based on explicit features without digging into the inherent properties and relationships among regions. In this work, we propose a novel Entropy-guided Reinforced Partial Convolutional Network (ERPCNet), which extracts and aggregates localities progressively based on semantic relevance and visual correlations without human-annotated regions. ERPCNet uses reinforced partial convolution and entropy guidance; it not only discovers global-cooperative localities dynamically but also converges faster for policy gradient optimization. We conduct extensive experiments to demonstrate ERPCNet's performance through comparisons with state-of-the-art methods under ZSL and Generalized Zero-Shot Learning (GZSL) settings on four benchmark datasets. We also show ERPCNet is time efficient and explainable through visualization analysis.
翻訳日:2021-11-04 13:15:57 公開日:2021-11-03
# LTD:ロバスト対抗訓練のための低温蒸留

LTD: Low Temperature Distillation for Robust Adversarial Training ( http://arxiv.org/abs/2111.02331v1 )

ライセンス: Link先を確認
Erh-Chung Chen, Che-Rung Lee(参考訳) 敵のトレーニングは、敵の攻撃に対するニューラルネットワークモデルの堅牢性を高めるために広く使われている。 しかし、それでも自然の正確さと頑健な正確さの間には顕著なギャップがある。 理由の1つは、画像認識の学習過程を妨げる、よく使われるラベル、ワンホットベクトルである。 本稿では, 所望のソフトラベルを生成するための知識蒸留の枠組みを基礎として, 低温蒸留法(LTD)を提案する。 以前の研究とは異なり、LTDは教師モデルでは比較的低温を使用し、教師モデルと生徒モデルでは温度が異なるが固定されている。 さらに,本研究では,自然データと逆データの利用をLTDで相乗化する方法について検討した。 実験の結果,提案手法と先行研究を組み合わせることで,cifar-10とcifar-100のデータセットにおいて,それぞれ57.72\%と30.36\%のロバストな精度が得られることがわかった。

Adversarial training has been widely used to enhance the robustness of the neural network models against adversarial attacks. However, there still a notable gap between the nature accuracy and the robust accuracy. We found one of the reasons is the commonly used labels, one-hot vectors, hinder the learning process for image recognition. In this paper, we proposed a method, called Low Temperature Distillation (LTD), which is based on the knowledge distillation framework to generate the desired soft labels. Unlike the previous work, LTD uses relatively low temperature in the teacher model, and employs different, but fixed, temperatures for the teacher model and the student model. Moreover, we have investigated the methods to synergize the use of nature data and adversarial ones in LTD. Experimental results show that without extra unlabeled data, the proposed method combined with the previous work can achieve 57.72\% and 30.36\% robust accuracy on CIFAR-10 and CIFAR-100 dataset respectively, which is about 1.21\% improvement of the state-of-the-art methods in average.
翻訳日:2021-11-04 13:15:37 公開日:2021-11-03
# 注意点点滅効果のカテゴリー差と関連脳領域

Categorical Difference and Related Brain Regions of the Attentional Blink Effect ( http://arxiv.org/abs/2111.02044v1 )

ライセンス: Link先を確認
Renzhou Gui, Xiaohong Ji(参考訳) 注意点滅(AB)は生物学的効果であり,視覚的標的に注意を払ってから200~500msでは,次に現れる他の標的に気づくことは困難であり,注意点滅度(ABM)は,この効果の度合いを測定するための指標である。 研究者たちは、画像の異なるカテゴリが人間の心の意識に異なるアクセスが可能であり、異なる範囲のABM値を生成することを示した。 そこで本稿では、畳み込みニューラルネットワーク(CNN)から抽出した画像特徴から直接ABM値を予測し、機能的磁気共鳴画像(fMRI)データから間接的に、動物と物体に分類した2種類の画像を比較する。 まず,cnnの古典的なモデルであるalexnetの層から平均的な特徴を別々に抽出し,その特徴を訓練された線形回帰モデルに入力してabm値を予測する。 次に、被験者が50個のテスト画像を見てABM値を予測する際に収集した異なる脳領域のfMRIデータを用いて、LVC、HVC、VCなどの比較的広い領域をカバーする脳領域は、他のより小さな脳領域よりも優れていると結論づけた。

Attentional blink (AB) is a biological effect, showing that for 200 to 500ms after paying attention to one visual target, it is difficult to notice another target that appears next, and attentional blink magnitude (ABM) is a indicating parameter to measure the degree of this effect. Researchers have shown that different categories of images can access the consciousness of human mind differently, and produce different ranges of ABM values. So in this paper, we compare two different types of images, categorized as animal and object, by predicting ABM values directly from image features extracted from convolutional neural network (CNN), and indirectly from functional magnetic resonance imaging (fMRI) data. First, for two sets of images, we separately extract their average features from layers of Alexnet, a classic model of CNN, then input the features into a trained linear regression model to predict ABM values, and we find higher-level instead of lower-level image features determine the categorical difference in AB effect, and mid-level image features predict ABM values more correctly than low-level and high-level image features. Then we employ fMRI data from different brain regions collected when the subjects viewed 50 test images to predict ABM values, and conclude that brain regions covering relatively broader areas, like LVC, HVC and VC, perform better than other smaller brain regions, which means AB effect is more related to synthetic impact of several visual brain regions than only one particular visual regions.
翻訳日:2021-11-04 13:15:08 公開日:2021-11-03
# このデータセットを使って商用AIソフトウェアを構築できますか? おそらくそうではない

Can I use this publicly available dataset to build commercial AI software? Most likely not ( http://arxiv.org/abs/2111.02374v1 )

ライセンス: Link先を確認
Gopi Krishnan Rajbahadur, Erika Tuck, Li Zi, Zhang Wei, Dayi Lin, Boyuan Chen, Zhen Ming (Jack) Jiang, Daniel Morales German(参考訳) 公開データセットは、商用AIソフトウェアの主要な要因のひとつだ。 公開データセットの使用(特に商業目的)は、データセットライセンスによって管理される。 これらのデータセットライセンスは、与えられたデータセットに権利を付与する権利と、ライセンス違反なしにそのような権利を享受しなければならない義務を概説する。 しかしながら、標準化されたオープンソースソフトウェア(OSS)ライセンスとは異なり、既存のデータセットライセンスはアドホックな方法で定義されており、それらの使用に関する権利と義務を明確に示していない。 これにより、潜在的なライセンスコンプライアンス違反のチェックが困難になる。 さらに、パブリックデータセットを複数の場所にホストして、それぞれ異なるライセンスを持つ複数のデータソースから作成することもできる。 したがって、OSSライセンスのコンプライアンスをチェックする既存のアプローチは使用できない。 本稿では,商用AIソフトウェア構築に利用可能なデータセットを使用する場合,ライセンス違反の可能性を評価するための新しいアプローチを提案する。 我々は、ファーウェイ内の2つの製品グループで、一般に使用される6つのデータセットで、このアプローチを試行している。 その結果,これらの6つの研究データセットのうち5つは,ライセンス違反のリスクがあることが判明した。 その結果、ライセンスコンプライアンス違反に対して、公開データセットをより適切に評価する方法について、AIエンジニアに推奨します。

Publicly available datasets are one of the key drivers for commercial AI software. The use of publicly available datasets (particularly for commercial purposes) is governed by dataset licenses. These dataset licenses outline the rights one is entitled to on a given dataset and the obligations that one must fulfil to enjoy such rights without any license compliance violations. However, unlike standardized Open Source Software (OSS) licenses, existing dataset licenses are defined in an ad-hoc manner and do not clearly outline the rights and obligations associated with their usage. This makes checking for potential license compliance violations difficult. Further, a public dataset may be hosted in multiple locations and created from multiple data sources each of which may have different licenses. Hence, existing approaches on checking OSS license compliance cannot be used. In this paper, we propose a new approach to assess the potential license compliance violations if a given publicly available dataset were to be used for building commercial AI software. We conduct trials of our approach on two product groups within Huawei on 6 commonly used publicly available datasets. Our results show that there are risks of license violations on 5 of these 6 studied datasets if they were used for commercial purposes. Consequently, we provide recommendations for AI engineers on how to better assess publicly available datasets for license compliance violations.
翻訳日:2021-11-04 13:13:45 公開日:2021-11-03
# サイバー物理システムのためのビデオサーベイランスにおけるイベントとアクティビティ認識

Event and Activity Recognition in Video Surveillance for Cyber-Physical Systems ( http://arxiv.org/abs/2111.02064v1 )

ライセンス: Link先を確認
Swarnabja Bhaumik, Prithwish Jana and Partha Pratim Mohanta(参考訳) 本章は,映像サーベイランスの各種応用における事象や活動の自動理解におけるサイバー物理システム(CPS)の開発を支援することを目的としている。 これらのイベントは、主にドローンやcctv、初心者や未熟な個人がローエンドデバイスで捉えている。 制限がないので、これらのビデオは多くの品質要因のために非常に難しい。 この問題を長年にわたって解決してきた様々なアプローチについて概説する。 これは、早期にStructure from Motion (SFM)ベースのアプローチから、ディープニューラルネットワークを含む最近のソリューションフレームワークまで、幅広い。 イベント認識において,長期動作パターンのみが重要な役割を担っていることを示す。 したがって、各ビデオはグラフベースのアプローチで固定数のキーフレームで表現される。 時間的特徴のみが、ハイブリッド畳み込みニューラルネットワーク(cnn)+リカレントニューラルネットワーク(rnn)アーキテクチャを使用して悪用される。 得られた結果は,標準的な時間的CNNよりも優れており,動きの手がかりとともに空間情報を用いた結果と同等である。 さらにマルチストリームモデルを探索し,ネットワークの空間的および時間的翼に対する多層融合戦略を考察する。 ビデオおよびフレームレベルでの個々の予測ベクトルの集約表現は、バイアスド・フレレーション法を用いて得られる。 融合戦略は,最先端の手法に比べて各段階の精度が向上し,分類において強力なコンセンサスが達成される。 結果は、CCV、HMDB、UCF-101、KCVというアクション認識領域で広く使われている4つのベンチマークデータセットに記録される。 ビデオシーケンスのより優れた分類に注目すると、イベント監視とオブジェクトcumアクティビティトラッキング用に設計されたシステムのロバストなアクティベーションに確実につながります。

This chapter aims to aid the development of Cyber-Physical Systems (CPS) in automated understanding of events and activities in various applications of video-surveillance. These events are mostly captured by drones, CCTVs or novice and unskilled individuals on low-end devices. Being unconstrained, these videos are immensely challenging due to a number of quality factors. We present an extensive account of the various approaches taken to solve the problem over the years. This ranges from methods as early as Structure from Motion (SFM) based approaches to recent solution frameworks involving deep neural networks. We show that the long-term motion patterns alone play a pivotal role in the task of recognizing an event. Consequently each video is significantly represented by a fixed number of key-frames using a graph-based approach. Only the temporal features are exploited using a hybrid Convolutional Neural Network (CNN) + Recurrent Neural Network (RNN) architecture. The results we obtain are encouraging as they outperform standard temporal CNNs and are at par with those using spatial information along with motion cues. Further exploring multistream models, we conceive a multi-tier fusion strategy for the spatial and temporal wings of a network. A consolidated representation of the respective individual prediction vectors on video and frame levels is obtained using a biased conflation technique. The fusion strategy endows us with greater rise in precision on each stage as compared to the state-of-the-art methods, and thus a powerful consensus is achieved in classification. Results are recorded on four benchmark datasets widely used in the domain of action recognition, namely CCV, HMDB, UCF-101 and KCV. It is inferable that focusing on better classification of the video sequences certainly leads to robust actuation of a system designed for event surveillance and object cum activity tracking.
翻訳日:2021-11-04 13:13:06 公開日:2021-11-03
# WMT21共有タスクのためのMicrosoftの多言語機械翻訳システム

Multilingual Machine Translation Systems from Microsoft for WMT21 Shared Task ( http://arxiv.org/abs/2111.02086v1 )

ライセンス: Link先を確認
Jian Yang, Shuming Ma, Haoyang Huang, Dongdong Zhang, Li Dong, Shaohan Huang, Alexandre Muzio, Saksham Singhal, Hany Hassan Awadalla, Xia Song, Furu Wei(参考訳) 本報告では、大規模多言語機械翻訳におけるWMT21共有タスクのためのMicrosoftの機械翻訳システムについて述べる。 我々は,前者が拘束されず,後者が完全に拘束されている大型トラックと2つの小型トラックを含む3つの評価トラックすべてに参加した。 共有タスクへのモデルの提出はdeltalm\footnote{\url{https://aka.ms/delta lm}}で初期化され、膨大な収集された並列データとトラック設定に応じたデータソースに対応して微調整され、さらにパフォーマンスを向上させるためにプログレッシブラーニングと反復バックトランスレーションのアプローチを適用した。 最終提出は自動評価基準で3トラックにランクインした。

This report describes Microsoft's machine translation systems for the WMT21 shared task on large-scale multilingual machine translation. We participated in all three evaluation tracks including Large Track and two Small Tracks where the former one is unconstrained and the latter two are fully constrained. Our model submissions to the shared task were initialized with DeltaLM\footnote{\url{https://aka.ms/delta lm}}, a generic pre-trained multilingual encoder-decoder model, and fine-tuned correspondingly with the vast collected parallel data and allowed data sources according to track settings, together with applying progressive learning and iterative back-translation approaches to further improve the performance. Our final submissions ranked first on three tracks in terms of the automatic evaluation metric.
翻訳日:2021-11-04 13:11:34 公開日:2021-11-03
# serc:構文的および意味的シーケンスに基づく事象関係分類

SERC: Syntactic and Semantic Sequence based Event Relation Classification ( http://arxiv.org/abs/2111.02265v1 )

ライセンス: Link先を確認
Kritika Venkatachalam, Raghava Mutharaju, Sumit Bhatia(参考訳) 時間的関係と因果関係は、イベント間の依存関係を決定する上で重要な役割を果たす。 イベント間の時間的および因果関係の分類には、イベントタイムラインの生成、イベント要約、テキストの補足、質問応答など、多くの応用がある。 時間的関係と因果関係は密接に関連しており、相互に影響している。 そこで本稿では,時間的特徴と因果的特徴の両方を組み込んで因果関係の分類を行うジョイントモデルを提案する。 テキストから2つの事象間の時間的・因果関係を同定するために,テキストの構文構造を用いる。 テキストから音声タグシーケンス、依存タグシーケンス、単語シーケンスを抽出する。 本稿では,3つの符号化特徴の相互関係を捉える時間的・因果的関係分類のためのlstmモデルを提案する。 4つの一般的なデータセットに対するモデルの評価は、時間的および因果関係の分類に有望な結果をもたらす。

Temporal and causal relations play an important role in determining the dependencies between events. Classifying the temporal and causal relations between events has many applications, such as generating event timelines, event summarization, textual entailment and question answering. Temporal and causal relations are closely related and influence each other. So we propose a joint model that incorporates both temporal and causal features to perform causal relation classification. We use the syntactic structure of the text for identifying temporal and causal relations between two events from the text. We extract parts-of-speech tag sequence, dependency tag sequence and word sequence from the text. We propose an LSTM based model for temporal and causal relation classification that captures the interrelations between the three encoded features. Evaluation of our model on four popular datasets yields promising results for temporal and causal relation classification.
翻訳日:2021-11-04 13:11:19 公開日:2021-11-03
# HmBlogs: ペルシャの大企業

HmBlogs: A big general Persian corpus ( http://arxiv.org/abs/2111.02362v1 )

ライセンス: Link先を確認
Hamzeh Motahari Khansari, Mehrnoush Shamsfard(参考訳) 本稿では,低資源言語としてのペルシャ語 hmBlogs corpus を紹介する。 このコーパスは、ペルシャのブログの領域から約15年間にわたって2000万近いブログ記事の収集に基づいて作成され、680億以上のトークンが含まれている。 このコーパスは現在、ペルシア語のために独立して準備された最大のペルシア語コーパスであると言える。 このコーパスは、生と前処理の両方の形式で提示され、前処理コーパスに基づいて単語埋め込みモデルを生成する。 得られたモデルにより、hmBlogsはペルシアで利用可能な最も重要なコーパスのいくつかと比較され、結果は他のコーパスよりもhmBlogsコーパスの方が優れていることを示している。 これらの評価は、コーパス、評価データセット、モデル生成方法、異なるハイパーパラメータ、さらには評価方法の重要性と効果を示す。 本研究は,コーパスとその生成言語モデルの評価に加えて,意味的類似データセットも提示する。

This paper introduces the hmBlogs corpus for Persian, as a low resource language. This corpus has been prepared based on a collection of nearly 20 million blog posts over a period of about 15 years from a space of Persian blogs and includes more than 6.8 billion tokens. It can be claimed that this corpus is currently the largest Persian corpus that has been prepared independently for the Persian language. This corpus is presented in both raw and preprocessed forms, and based on the preprocessed corpus some word embedding models are produced. By the provided models, the hmBlogs is compared with some of the most important corpora available in Persian, and the results show the superiority of the hmBlogs corpus over the others. These evaluations also present the importance and effects of corpora, evaluation datasets, model production methods, different hyperparameters and even the evaluation methods. In addition to evaluating the corpus and its produced language models, this research also presents a semantic analogy dataset.
翻訳日:2021-11-04 13:11:06 公開日:2021-11-03
# グラフツリーメモリネットワーク

Graph Tree Memory Networks ( http://arxiv.org/abs/2111.02353v1 )

ライセンス: Link先を確認
Seokjun Kim, Jaeeun Jang, Yeonju Jang, Seongyune Choi, Hyeoncheol Kim(参考訳) 任意のデータを記憶し記憶するグラフツリーメモリネットワークを導入する。 このニューラルネットワークには2つの記憶がある。 1つは、クラス不均衡問題を解決するキュー構造の短期記憶装置と、オブジェクトの分散を格納する長期記憶装置で構成され、様々なデータセットを格納して生成する内容を導入している。

We introduce Graph Tree Memory Networks that memorize and remember any data. This neural network has two memories. One consists of a queue-structured short-term memory to solve the class imbalance problem and long-term memory to store the distribution of objects, introducing the contents of storing and generating various datasets.
翻訳日:2021-11-04 13:10:50 公開日:2021-11-03
# (参考訳) エンドツーエンド視覚言語トランスフォーマの訓練に関する実証的研究 [全文訳有]

An Empirical Study of Training End-to-End Vision-and-Language Transformers ( http://arxiv.org/abs/2111.02387v1 )

ライセンス: CC BY 4.0
Zi-Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang, Shuohang Wang, Lijuan Wang, Chenguang Zhu, Nanyun (Violet) Peng, Zicheng Liu, Michael Zeng(参考訳) ビジョン・アンド・ランゲージ(VL)事前学習は、様々なVL下流タスクにおいて非常に効果的であることが証明されている。 近年の研究では、フルトランスフォーマーベースのVLモデルは従来のリージョン機能ベースの手法よりも効率的であることが示されているが、下流タスクの性能は著しく低下することが多い。 本稿では,METER~(\textbf{M}ultimodal \textbf{E}nd-to-end \textbf{T}ransform\textbf{ER})を提案する。 具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダル融合(例えば、マージアテンション対コアテンション)、アーキテクチャ設計(例えば、エンコーダのみ対エンコーダデコーダ)、事前訓練対象(例えば、マスク付き画像モデリング)など、複数の次元に沿ってモデル設計を識別する。 我々は、広範囲なVLタスクに関する総合的な実験を行い、高速な推論速度を維持しながら、性能の高いVLトランスのトレーニング方法に関する洞察を提供する。 特に、mt~achieveは、事前トレーニングに4m画像のみを使用してvqav2テスト-stdセット上で77.64\%の精度を持ち、最先端の領域機能ベースのvinvlモデルを+1.04\%上回り、以前の最高の完全トランスフォーマーベースのalbefモデルよりも+1.6\%上回る。

Vision-and-language (VL) pre-training has proven to be highly effective on various VL downstream tasks. While recent work has shown that fully transformer-based VL models can be more efficient than previous region-feature-based methods, their performance on downstream tasks are often degraded significantly. In this paper, we present METER~(\textbf{M}ultimodal \textbf{E}nd-to-end \textbf{T}ransform\textbf{ER}), through which we systematically investigate how to design and pre-train a fully transformer-based VL model in an end-to-end manner. Specifically, we dissect the model designs along multiple dimensions: vision encoders (e.g., CLIP-ViT, Swin transformer), text encoders (e.g., RoBERTa, DeBERTa), multimodal fusion (e.g., merged attention vs. co-attention), architecture design (e.g., encoder-only vs. encoder-decoder), and pre-training objectives (e.g., masked image modeling). We conduct comprehensive experiments on a wide range of VL tasks, and provide insights on how to train a performant VL transformer while maintaining fast inference speed. Notably, METER~achieves an accuracy of 77.64\% on the VQAv2 test-std set using only 4M images for pre-training, surpassing the state-of-the-art region-feature-based VinVL model by +1.04\%, and outperforming the previous best fully transformer-based ALBEF model by +1.6\%.
翻訳日:2021-11-04 13:08:46 公開日:2021-11-03
# OpenPrompt: プロンプト学習のためのオープンソースフレームワーク

OpenPrompt: An Open-source Framework for Prompt-learning ( http://arxiv.org/abs/2111.01998v1 )

ライセンス: Link先を確認
Ning Ding, Shengding Hu, Weilin Zhao, Yulin Chen, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun(参考訳) プロンプト学習は現代の自然言語処理において新しいパラダイムとなり、プレトレーニング言語モデル(PLM)を直接$cloze$スタイルの予測、自動回帰モデリング、シーケンスからシーケンス生成に適応し、様々なタスクで有望なパフォーマンスをもたらす。 しかしながら、プロンプトラーニングの標準的な実装フレームワークはまだ提案されておらず、既存のプロンプトラーニングコードベースの多くは、しばしば規制されていないが、特定のシナリオに対する限定的な実装しか提供していない。 即時学習にはテンプレート戦略、初期化戦略、言語化戦略など多くの詳細を考慮する必要があるため、実践者は希望する素早い学習方法を迅速に応用するために障害に直面している。 本稿では, PLM 上で即時学習を行うための統一型使いやすいツールキットである {OpenPrompt} を提案する。 openpromptは、効率性、モジュール性、拡張性を備えた研究フレンドリーなフレームワークであり、その複合性により、さまざまなplm、タスクフォーマット、モジュールを統一パラダイムで推進することができる。 ユーザはプロンプト学習フレームワークを迅速にデプロイし、制約なく異なるnlpタスクの一般化を評価することができる。 OpenPrompt は {\url{ https://github.com/t hunlp/OpenPrompt}} で公開されている。

Prompt-learning has become a new paradigm in modern natural language processing, which directly adapts pre-trained language models (PLMs) to $cloze$-style prediction, autoregressive modeling, or sequence to sequence generation, resulting in promising performances on various tasks. However, no standard implementation framework of prompt-learning is proposed yet, and most existing prompt-learning codebases, often unregulated, only provide limited implementations for specific scenarios. Since there are many details such as templating strategy, initializing strategy, and verbalizing strategy, etc. need to be considered in prompt-learning, practitioners face impediments to quickly adapting the desired prompt learning methods to their applications. In this paper, we present {OpenPrompt}, a unified easy-to-use toolkit to conduct prompt-learning over PLMs. OpenPrompt is a research-friendly framework that is equipped with efficiency, modularity, and extendibility, and its combinability allows the freedom to combine different PLMs, task formats, and prompting modules in a unified paradigm. Users could expediently deploy prompt-learning frameworks and evaluate the generalization of them on different NLP tasks without constraints. OpenPrompt is publicly released at {\url{ https://github.com/t hunlp/OpenPrompt}}.
翻訳日:2021-11-04 12:49:33 公開日:2021-11-03
# VLMo:Mixture-of-Moda lity-Expertsによる統合ビジョンランゲージ事前トレーニング

VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality- Experts ( http://arxiv.org/abs/2111.02358v1 )

ライセンス: Link先を確認
Wenhui Wang, Hangbo Bao, Li Dong, Furu Wei(参考訳) 本稿では、デュアルエンコーダとモジュールトランスフォーマーネットワークを用いた融合エンコーダを共同で学習する統合ビジョンランゲージ事前学習モデル(VLMo)を提案する。 具体的には、各ブロックがモダリティ固有の専門家のプールと共有自己着脱層を含むmixed-of-modality-ex perts (mome) transformerを導入する。 momeのモデリングの柔軟性により、事前訓練されたvlmoは視覚言語分類タスクのための融合エンコーダとして、または効率的な画像テキスト検索のためのデュアルエンコーダとして使用できる。 さらに,画像テキストペアに加えて,大規模画像のみとテキストのみのデータを効果的に活用する段階的事前学習戦略を提案する。 実験結果から,VLMoはVQAやNLVR2など,様々な視覚言語タスクにおいて最先端の結果が得られることがわかった。 コードと事前訓練されたモデルはhttps://aka.ms/vlmo. com/で入手できる。

We present a unified Vision-Language pretrained Model (VLMo) that jointly learns a dual encoder and a fusion encoder with a modular Transformer network. Specifically, we introduce Mixture-of-Modality- Experts (MoME) Transformer, where each block contains a pool of modality-specific experts and a shared self-attention layer. Because of the modeling flexibility of MoME, pretrained VLMo can be fine-tuned as a fusion encoder for vision-language classification tasks, or used as a dual encoder for efficient image-text retrieval. Moreover, we propose a stagewise pre-training strategy, which effectively leverages large-scale image-only and text-only data besides image-text pairs. Experimental results show that VLMo achieves state-of-the-art results on various vision-language tasks, including VQA and NLVR2. The code and pretrained models are available at https://aka.ms/vlmo.
翻訳日:2021-11-04 12:49:12 公開日:2021-11-03
# 暗黙的な深層適応設計:好ましくない政策に基づく実験設計

Implicit Deep Adaptive Design: Policy-Based Experimental Design without Likelihoods ( http://arxiv.org/abs/2111.02329v1 )

ライセンス: Link先を確認
Desi R. Ivanova, Adam Foster, Steven Kleinegesse, Michael U. Gutmann and Tom Rainforth(参考訳) 暗黙的深層適応設計(iDAD)は,暗黙的モデルを用いた適応実験をリアルタイムに行う新しい手法である。 idadは、事前の設計ポリシーネットワークを学習することでベイズ最適実験設計(boed)のコストを償却する。 iDADネットワークは、クローズドフォームの可能性と条件に依存しない実験を必要とする以前の設計方針とは異なり、微分可能なサンプルをシミュレートするあらゆるモデルで訓練することができる。 iDADは、実験中に重い計算を必要とする従来のBOEDアプローチとは対照的に、ミリ秒で設計決定を行うことができる。 いくつかの実験でiDADの適用性を説明し、暗黙のモデルで適応設計を行うための高速かつ効果的なメカニズムを提供することを示す。

We introduce implicit Deep Adaptive Design (iDAD), a new method for performing adaptive experiments in real-time with implicit models. iDAD amortizes the cost of Bayesian optimal experimental design (BOED) by learning a design policy network upfront, which can then be deployed quickly at the time of the experiment. The iDAD network can be trained on any model which simulates differentiable samples, unlike previous design policy work that requires a closed form likelihood and conditionally independent experiments. At deployment, iDAD allows design decisions to be made in milliseconds, in contrast to traditional BOED approaches that require heavy computation during the experiment itself. We illustrate the applicability of iDAD on a number of experiments, and show that it provides a fast and effective mechanism for performing adaptive design with implicit models.
翻訳日:2021-11-04 12:48:54 公開日:2021-11-03
# Klarna Product Page Dataset: Web表現学習のためのリアルなベンチマーク

The Klarna Product Page Dataset: A RealisticBenchmark for Web Representation Learning ( http://arxiv.org/abs/2111.02168v1 )

ライセンス: Link先を確認
Alexandra Hotti, Riccardo Sven Risuleo, Stefan Magureanu, Aref Moradi, Jens Lagergren(参考訳) 本稿ではDOM木要素表現学習の未探索問題に取り組む。 機械学習ベースのWebオートメーションの分野を前進させ、この重要な領域に関するさらなる研究を2つのコントリビューションで促進したいと考えています。 まず、人気のあるグラフベースのニューラルネットワークモデルを適用し、それらをWebサイトDOMツリーに埋め込みます。 次に,大規模かつ現実的なWebページデータセットを提案する。 このオープンアクセスリソースを提供することで、この分野の研究への参入障壁を低くする。 データセットには、実際のEコマースウェブサイトから手動でラベル付けされた製品ページが51,701ドル含まれている。 ページは完全にウェブブラウザでレンダリングでき、コンピュータビジョンアプリケーションに適している。 これにより、web上の要素表現学習、分類、予測のために提案された他のデータセットよりも、実質的にリッチで多様である。 最後に、提案したデータセットを用いて、グラフ畳み込みニューラルネットワークによって生成された埋め込みが、Web要素予測タスクにおいて、他の最先端手法によって生成された表現より優れていることを示す。

This paper tackles the under-explored problem of DOM tree element representation learning. We advance the field of machine learning-based web automation and hope to spur further research regarding this crucial area with two contributions. First, we adapt several popular Graph-based Neural Network models and apply them to embed elements in website DOM trees. Second, we present a large-scale and realistic dataset of webpages. By providing this open-access resource, we lower the entry barrier to this area of research. The dataset contains $51,701$ manually labeled product pages from $8,175$ real e-commerce websites. The pages can be rendered entirely in a web browser and are suitable for computer vision applications. This makes it substantially richer and more diverse than other datasets proposed for element representation learning, classification and prediction on the web. Finally, using our proposed dataset, we show that the embeddings produced by a Graph Convolutional Neural Network outperform representations produced by other state-of-the-art methods in a web element prediction task.
翻訳日:2021-11-04 12:48:40 公開日:2021-11-03
# ランダム化実験のための最適ブロックセットを得る因果性に基づくグラフィカルテスト

A Causality-based Graphical Test to obtain an Optimal Blocking Set for Randomized Experiments ( http://arxiv.org/abs/2111.02306v1 )

ライセンス: Link先を確認
Abhishek K. Umrawal(参考訳) ランダム化実験は、しばしば興味の因果効果を研究するために行われる。 ブロッキングは実験材料が均質でない場合に因果効果を正確に推定する手法である。 ランダム化実験を行いながらブロック生成に使用する共変量集合を統計的に最適に獲得する問題を定式化する。 一般の半マルコフ因果モデルに対するそのような集合を得るためのグラフィカルテストを提供する。 また,ブロッキングの統計的コストと経済的コストの両方を考慮する最適ブロッキング集合を得るという,より一般的な問題を解決するためのアイデアを提案し,提案する。

Randomized experiments are often performed to study the causal effects of interest. Blocking is a technique to precisely estimate the causal effects when the experimental material is not homogeneous. We formalize the problem of obtaining a statistically optimal set of covariates to be used to create blocks while performing a randomized experiment. We provide a graphical test to obtain such a set for a general semi-Markovian causal model. We also propose and provide ideas towards solving a more general problem of obtaining an optimal blocking set that considers both the statistical and economic costs of blocking.
翻訳日:2021-11-04 12:48:26 公開日:2021-11-03
# 深部CNNモデルによる画像特徴バイアスの再考

Rethinking the Image Feature Biases Exhibited by Deep CNN Models ( http://arxiv.org/abs/2111.02058v1 )

ライセンス: Link先を確認
Dawei Dai and Yutang Li and Huanan Bao and Sy Xia and Guoyin Wang and Xiaoli Ma(参考訳) 近年、畳み込みニューラルネットワーク(cnns)が多くの分野でうまく適用されている。 しかし、そのような深い神経モデルはほとんどのタスクにおいてブラックボックスと見なされている。 この問題の根底にある根本的な問題は、どの特徴が画像認識タスクに最も影響するか、CNNによってどのように処理されるのかを理解することである。 CNNモデルは、オブジェクトが容易に分類されるまで、低レベルの特徴を組み合わせて複雑な形状を形成することは広く受け入れられているが、最近の研究ではテクスチャの特徴は他の特徴よりも重要であると主張している。 本稿では,特定のタスクによって特徴の重要性が異なり,特定のタスクが特徴バイアスを示すと仮定する。 予測バイアスを識別するために,人間の直観に基づく2つの分類タスクを設計した。 resnet と densenet モデルのバイアスをテストするために,多くのタスクからなる実験を考案した。 その結果、(1)特定の特徴の組合せ効果は、通常、どの特徴よりもはるかに影響が大きい、(2)異なるタスクにおいて、ニューラルモデルは異なるバイアスを実行できる、すなわち、特定の期待された特徴に対して神経モデルにバイアスを与える特定のタスクを設計できる、という結論が得られた。

In recent years, convolutional neural networks (CNNs) have been applied successfully in many fields. However, such deep neural models are still regarded as black box in most tasks. One of the fundamental issues underlying this problem is understanding which features are most influential in image recognition tasks and how they are processed by CNNs. It is widely accepted that CNN models combine low-level features to form complex shapes until the object can be readily classified, however, several recent studies have argued that texture features are more important than other features. In this paper, we assume that the importance of certain features varies depending on specific tasks, i.e., specific tasks exhibit a feature bias. We designed two classification tasks based on human intuition to train deep neural models to identify anticipated biases. We devised experiments comprising many tasks to test these biases for the ResNet and DenseNet models. From the results, we conclude that (1) the combined effect of certain features is typically far more influential than any single feature; (2) in different tasks, neural models can perform different biases, that is, we can design a specific task to make a neural model biased toward a specific anticipated feature.
翻訳日:2021-11-04 12:48:16 公開日:2021-11-03
# 暗黙ベイズ推論としての文脈内学習の説明

An Explanation of In-context Learning as Implicit Bayesian Inference ( http://arxiv.org/abs/2111.02080v1 )

ライセンス: Link先を確認
Sang Michael Xie, Aditi Raghunathan, Percy Liang, Tengyu Ma(参考訳) GPT-3のような大規模な事前訓練された言語モデルは、入力出力例からなるプロンプトを条件にすることで、ダウンストリームタスクを学習する、コンテキスト内学習を行う驚くべき能力を持っている。 明示的に事前訓練されることなく、言語モデルは前方通過中にこれらの例から"out-of-distribution& quot;プロンプトのパラメータを更新することなく学習する。 したがって、どのようなメカニズムがインコンテキスト学習を可能にするのかは不明だ。 本稿では,事前学習テキストが長距離コヒーレンスを持つ数学的条件下での,文脈内学習の出現における事前学習分布の役割について検討する。 ここで、言語モデルの事前トレーニングには、条件付きテキストから潜在文書レベルの概念を推論し、コヒーレントな次のトークンを生成する必要がある。 テスト時に、このメカニズムは、テスト例間で共有潜在概念を推論し、それを適用してテスト例の予測を行うことで、コンテキスト内学習を可能にする。 具体的には、事前学習分布がHMMの混合である場合に、潜在概念のベイズ的推論を通じて、文脈内学習が暗黙的に起こることを証明する。 これは、プロンプトとプリトレーニングデータの分散ミスマッチにもかかわらず起こり得る。 自然言語におけるインコンテキスト学習のための大規模事前学習データセットとは対照的に、TransformerとLSTM言語モデルの両方がインコンテキスト学習を示すような、小規模合成データセット(GINC)のファミリーを生成する。 事前学習分布の影響に焦点を当てた理論以外にも,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上できることを実証的に確認する。

Large pretrained language models such as GPT-3 have the surprising ability to do in-context learning, where the model learns to do a downstream task simply by conditioning on a prompt consisting of input-output examples. Without being explicitly pretrained to do so, the language model learns from these examples during its forward pass without parameter updates on "out-of-distribution& quot; prompts. Thus, it is unclear what mechanism enables in-context learning. In this paper, we study the role of the pretraining distribution on the emergence of in-context learning under a mathematical setting where the pretraining texts have long-range coherence. Here, language model pretraining requires inferring a latent document-level concept from the conditioning text to generate coherent next tokens. At test time, this mechanism enables in-context learning by inferring the shared latent concept between prompt examples and applying it to make a prediction on the test example. Concretely, we prove that in-context learning occurs implicitly via Bayesian inference of the latent concept when the pretraining distribution is a mixture of HMMs. This can occur despite the distribution mismatch between prompts and pretraining data. In contrast to messy large-scale pretraining datasets for in-context learning in natural language, we generate a family of small-scale synthetic datasets (GINC) where Transformer and LSTM language models both exhibit in-context learning. Beyond the theory which focuses on the effect of the pretraining distribution, we empirically find that scaling model size improves in-context accuracy even when the pretraining loss is the same.
翻訳日:2021-11-04 12:46:35 公開日:2021-11-03
# 二重ランダム林のアンサンブル

Ensembles of Double Random Forest ( http://arxiv.org/abs/2111.02010v1 )

ライセンス: Link先を確認
M.A. Ganaie, M. Tanveer, P.N. Suganthan, V. Snasel(参考訳) 決定木のアンサンブルはランダムフォレストとして知られている。 Breimanが示唆したように、不安定な学習者の強さとそれらの多様性は、アンサンブルモデルのコア強度である。 本稿では,二重ランダム林のアンサンブルを生成する2つの手法を提案する。 最初のアプローチでは、二重ランダム森林の回転に基づくアンサンブルを提案する。 回転に基づく二重ランダムフォレストでは、各ノードで特徴空間の変換または回転が生成される。 各ノードで異なるランダム特徴部分空間が評価のために選択されるため、各ノードでの変換が異なる。 異なる変換により、基礎学習者間の多様性が向上し、したがって一般化性能が向上する。 ダブルランダムフォレストをベース学習機として、各ノードのデータは主成分分析と線形判別分析という2つの異なる変換によって変換される。 第2のアプローチでは、二重ランダム森林の斜めアンサンブルを提案する。 ランダム林と二重ランダム林における決定木は単変量であり、この結果、データの幾何学的構造を捉えるのに失敗する軸平行分割が発生する。 また、標準のランダム林は、最適以下の性能をもたらす十分な大きな決定木を成長させることができない。 地形特性を把握し, 十分な深さの決定木を育成するために, 二重ランダム林の斜めアンサンブルを提案する。 二重ランダム森林モデルの斜めアンサンブルは多変量決定木である。 各非リーフノードにおいて、多面的近位支持ベクトルマシンは、最適化性能を向上させるために最適な平面を生成する。 また、二重ランダム林の斜めアンサンブル決定木において、小さなサンプルサイズ問題に対処するために異なる正則化技術(ティコノフ正則化と軸平行分割正則化)を用いる。

An ensemble of decision trees is known as Random Forest. As suggested by Breiman, the strength of unstable learners and the diversity among them are the ensemble models' core strength. In this paper, we propose two approaches for generating ensembles of double random forest. In the first approach, we propose a rotation based ensemble of double random forest. In rotation based double random forests, transformation or rotation of the feature space is generated at each node. At each node different random feature subspace is chosen for evaluation, hence the transformation at each node is different. Different transformations result in better diversity among the base learners and hence, better generalization performance. With the double random forest as base learner, the data at each node is transformed via two different transformations namely, principal component analysis and linear discriminant analysis. In the second approach, we propose oblique ensembles of double random forest. Decision trees in random forest and double random forest are univariate, and this results in the generation of axis parallel split which fails to capture the geometric structure of the data. Also, the standard random forest may not grow sufficiently large decision trees resulting in suboptimal performance. To capture the geometric properties and to grow the decision trees of sufficient depth, we propose oblique ensembles of double random forest. The oblique ensembles of double random forest models are multivariate decision trees. At each non-leaf node, multisurface proximal support vector machine generates the optimal plane for better generalization performance. Also, different regularization techniques (Tikhonov regularisation and axis-parallel split regularisation) are employed for tackling the small sample size problems in the decision trees of oblique ensembles of double random forest.
翻訳日:2021-11-04 12:45:44 公開日:2021-11-03
# カリキュラムオフライン模倣学習

Curriculum Offline Imitation Learning ( http://arxiv.org/abs/2111.02056v1 )

ライセンス: Link先を確認
Minghuan Liu, Hanye Zhao, Zhengyu Yang, Jian Shen, Weinan Zhang, Li Zhao, Tie-Yan Liu(参考訳) オフライン強化学習(rl)タスクでは、エージェントは事前に収集したデータセットから、環境とのさらなるインタラクションなしに学習する必要がある。 行動方針を超越する可能性にもかかわらず、RLベースの手法は、トレーニングの不安定性と外挿エラーのブートストラップのため、一般的には実用的ではない。 対照的に、オフライン模倣学習(il)はブートストラップによって価値関数を見積もることなくポリシーを直接学習するため、そのような問題はない。 しかし、ilは通常、行動ポリシーの能力に制限があり、ポリシーの混合によって収集されたデータセットから中途半端な振る舞いを学ぶ傾向がある。 本稿では,ILを利用するが,そのような欠点を緩和する。 行動のクローン化は, より少ないデータで近隣の政策を模倣することができることを観察し, 適応的な近隣の政策から高いリターンで模倣する経験的選択戦略を生かし, カリキュラムの段階に沿って現在の政策を改良する「textit{Curriculum Offline Imitation Learning (COIL)」を提案する。 連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。

Offline reinforcement learning (RL) tasks require the agent to learn from a pre-collected dataset with no further interactions with the environment. Despite the potential to surpass the behavioral policies, RL-based methods are generally impractical due to the training instability and bootstrapping the extrapolation errors, which always require careful hyperparameter tuning via online evaluation. In contrast, offline imitation learning (IL) has no such issues since it learns the policy directly without estimating the value function by bootstrapping. However, IL is usually limited in the capability of the behavioral policy and tends to learn a mediocre behavior from the dataset collected by the mixture of policies. In this paper, we aim to take advantage of IL but mitigate such a drawback. Observing that behavior cloning is able to imitate neighboring policies with less data, we propose \textit{Curriculum Offline Imitation Learning (COIL)}, which utilizes an experience picking strategy for imitating from adaptive neighboring policies with a higher return, and improves the current policy along curriculum stages. On continuous control benchmarks, we compare COIL against both imitation-based and RL-based methods, showing that it not only avoids just learning a mediocre behavior on mixed datasets but is also even competitive with state-of-the-art offline RL methods.
翻訳日:2021-11-04 12:45:19 公開日:2021-11-03
# 多段階交通速度予測:時空間分布の時空間依存性を考慮した深層学習に基づくアプローチ

Multistep traffic speed prediction: A deep learning based approach using latent space mapping considering spatio-temporal dependencies ( http://arxiv.org/abs/2111.02115v1 )

ライセンス: Link先を確認
Shatrughan Modi, Jhilik Bhattacharya, Prasenjit Basak(参考訳) 道路上の車両数の増加により、都市における交通管理が大きな問題となっている。 インテリジェントトランスポーテーションシステム(ITS)は、正確な交通予測を提供することで、市の交通管理者がこの問題に取り組むのに役立つ。 このため、ITSは、過去の交通データと現在の交通データに基づいて、複数の時間ステップで正確な交通予測を提供できる信頼性の高い交通予測アルゴリズムを必要とする。 近年,精度の面での有効性が実証された交通予測手法がいくつか提案されている。 しかし,これらの手法の多くは空間情報や時間情報のみを考慮し,その効果を見落としている。 本稿では,この問題に対処するために,空間的および時間的依存関係を用いて深層学習に基づくアプローチを開発した。 時空間依存性を考慮するために、交通の類似度や距離といった属性に基づいて、特定の瞬間に近くの道路センサを選択する。 2つの事前訓練された深部自動エンコーダを潜時空間マッピングの概念を用いて相互接続し、選択した近接センサからのトラフィックデータを入力としてトレーニングした。 提案したディープラーニングベースのアプローチは、ロサンゼルスとベイエリアの異なる高速道路に設置されたループ検出センサーから収集された実世界のトラフィックデータを用いて訓練された。 交通データは、カリフォルニア州交通性能測定システム(PeMS)のWebポータルから無料で入手できる。 提案手法の有効性は,複数の機械学習手法との比較により検証した。 提案手法は,60分前予測においても,他の手法よりも誤差の少ない正確な交通予測結果を提供することがわかった。

Traffic management in a city has become a major problem due to the increasing number of vehicles on roads. Intelligent Transportation System (ITS) can help the city traffic managers to tackle the problem by providing accurate traffic forecasts. For this, ITS requires a reliable traffic prediction algorithm that can provide accurate traffic prediction at multiple time steps based on past and current traffic data. In recent years, a number of different methods for traffic prediction have been proposed which have proved their effectiveness in terms of accuracy. However, most of these methods have either considered spatial information or temporal information only and overlooked the effect of other. In this paper, to address the above problem a deep learning based approach has been developed using both the spatial and temporal dependencies. To consider spatio-temporal dependencies, nearby road sensors at a particular instant are selected based on the attributes like traffic similarity and distance. Two pre-trained deep auto-encoders were cross-connected using the concept of latent space mapping and the resultant model was trained using the traffic data from the selected nearby sensors as input. The proposed deep learning based approach was trained using the real-world traffic data collected from loop detector sensors installed on different highways of Los Angeles and Bay Area. The traffic data is freely available from the web portal of the California Department of Transportation Performance Measurement System (PeMS). The effectiveness of the proposed approach was verified by comparing it with a number of machine/deep learning approaches. It has been found that the proposed approach provides accurate traffic prediction results even for 60-min ahead prediction with least error than other techniques.
翻訳日:2021-11-04 12:44:52 公開日:2021-11-03
# ブラックボックス機械学習モデルテストのためのデータ合成

Data Synthesis for Testing Black-Box Machine Learning Models ( http://arxiv.org/abs/2111.02161v1 )

ライセンス: Link先を確認
Diptikalyan Saha, Aniya Aggarwal, Sandeep Hans(参考訳) 機械学習モデルの利用の増加は、これらのモデルの信頼性に関する疑問を提起する。 限られたデータでテストする現在のプラクティスはしばしば不十分です。 本稿では、ブラックボックスML/DLモデルをテストするための自動テストデータ合成のためのフレームワークを提供する。 モデルに依存しないカバレッジ基準で現実的なユーザコントロール可能なデータを生成するという重要な課題に対処し、さまざまな特性のセットをテストする。 本手法の有効性を実験的に実証する。

The increasing usage of machine learning models raises the question of the reliability of these models. The current practice of testing with limited data is often insufficient. In this paper, we provide a framework for automated test data synthesis to test black-box ML/DL models. We address an important challenge of generating realistic user-controllable data with model agnostic coverage criteria to test a varied set of properties, essentially to increase trust in machine learning models. We experimentally demonstrate the effectiveness of our technique.
翻訳日:2021-11-04 12:43:03 公開日:2021-11-03
# 連続境界行動空間を用いたベータ分布による最適政策最適化

Proximal Policy Optimization with Continuous Bounded Action Space via the Beta Distribution ( http://arxiv.org/abs/2111.02202v1 )

ライセンス: Link先を確認
Irving G. B. Petrazzini and Eric A. Antonelo(参考訳) 近年,連続制御タスクの強化学習手法が発展し,確率的ポリシをモデル化するためのガウス分布に主に依存する政策勾配手法のファミリが生み出されている。 しかし、ガウス分布は無限のサポートを持つが、実世界の応用は通常有界な作用空間を持つ。 この不協和は、ベータ分布が代わりにポリシーに使用される場合、有限な支持を示すので排除できる推定バイアスを引き起こす。 本研究では,このベータポリシが,OpenAIジムの2つの連続制御タスクに対して,PPOアルゴリズムによってトレーニングされた場合の動作について検討する。 両方のタスクにおいて、ベータポリシーはエージェントの最終報酬の観点からはガウスポリシーよりも優れており、トレーニングプロセスの安定性とより高速な収束を示す。 高次元画像入力を有するキャラクシング環境において,エージェントの成功率はガウスの方針より63%向上した。

Reinforcement learning methods for continuous control tasks have evolved in recent years generating a family of policy gradient methods that rely primarily on a Gaussian distribution for modeling a stochastic policy. However, the Gaussian distribution has an infinite support, whereas real world applications usually have a bounded action space. This dissonance causes an estimation bias that can be eliminated if the Beta distribution is used for the policy instead, as it presents a finite support. In this work, we investigate how this Beta policy performs when it is trained by the Proximal Policy Optimization (PPO) algorithm on two continuous control tasks from OpenAI gym. For both tasks, the Beta policy is superior to the Gaussian policy in terms of agent's final expected reward, also showing more stability and faster convergence of the training process. For the CarRacing environment with high-dimensional image input, the agent's success rate was improved by 63% over the Gaussian policy.
翻訳日:2021-11-04 12:42:57 公開日:2021-11-03
# 解釈可能なフィードフォワードニューラルネットワークの有効性について

On the Effectiveness of Interpretable Feedforward Neural Network ( http://arxiv.org/abs/2111.02303v1 )

ライセンス: Link先を確認
Miles Q. Li, Benjamin C. M. Fung, Adel Abusitta(参考訳) ディープラーニングモデルは、多くの分類タスクにおいて最先端のパフォーマンスを達成した。 しかし、そのほとんどは分類結果の解釈を与えることはできない。 解釈可能な機械学習モデルは、通常線形または分割線形であり、性能が劣る。 非線形モデルは分類性能が大幅に向上するが、分類結果の解釈は困難である。 これは、高い分類性能とマルウェア検出の解釈可能性の両方を達成する、解釈可能なフィードフォワードニューラルネットワーク(iffnn)によって提案された。 IFFNNが、意味のある解釈を提供しながら、他の分類タスクに対してより柔軟で一般的な形式でうまく機能できるなら、応用機械学習コミュニティにとって大きな関心事になるかもしれない。 本稿では,解釈可能なフィードフォワードニューラルネットワークを,多クラス分類シナリオやフィードフォワードニューラルネットワークに一般化する方法を提案し,その分類性能と本質的解釈可能なデータセット上での解釈可能性を評価する。 一般化されたIFFNNは、通常のフィードフォワードニューラルネットワークと同等の分類性能を示し、意味のある解釈を提供する。 したがって、この種のニューラルネットワークアーキテクチャは、非常に実用的です。

Deep learning models have achieved state-of-the-art performance in many classification tasks. However, most of them cannot provide an interpretation for their classification results. Machine learning models that are interpretable are usually linear or piecewise linear and yield inferior performance. Non-linear models achieve much better classification performance, but it is hard to interpret their classification results. This may have been changed by an interpretable feedforward neural network (IFFNN) proposed that achieves both high classification performance and interpretability for malware detection. If the IFFNN can perform well in a more flexible and general form for other classification tasks while providing meaningful interpretations, it may be of great interest to the applied machine learning community. In this paper, we propose a way to generalize the interpretable feedforward neural network to multi-class classification scenarios and any type of feedforward neural networks, and evaluate its classification performance and interpretability on intrinsic interpretable datasets. We conclude by finding that the generalized IFFNNs achieve comparable classification performance to their normal feedforward neural network counterparts and provide meaningful interpretations. Thus, this kind of neural network architecture has great practical use.
翻訳日:2021-11-04 12:42:43 公開日:2021-11-03
# 遺伝子発現データの多変量特徴ランキング

Multivariate feature ranking of gene expression data ( http://arxiv.org/abs/2111.02357v1 )

ライセンス: Link先を確認
Fernando Jim\'enez and Gracia S\'anchez Jos\'e Palma and Luis Miralles-Pechu\' ;an and Juan Bot\'ia(参考訳) 遺伝子発現データセットは通常高次元であるため、属性の相対的重要性を特定するための効率的かつ効果的な方法が必要である。 可能な解の検索空間が巨大であるため、属性サブセット評価特徴選択手法は適用できない傾向があるため、これらのシナリオでは特徴ランク付け手法が用いられる。 文献に記載されている特徴ランキング法のほとんどは単変量法であるため,因子間の相互作用は検出されない。 本稿では,3つの遺伝子発現分類問題に適用した,ペアワイズ相関とペアワイズ一貫性に基づく2つの新しい多変量特徴ランキング手法を提案する。 提案手法が,多目的進化的探索戦略との相関と一貫性に基づく属性集合評価の特徴選択手法と同様に,特徴分類手法のクラスタリング変動,chi二乗法,相関法,情報ゲイン法,レリーフ法,重要度を上回っていることを統計的に証明した。

Gene expression datasets are usually of high dimensionality and therefore require efficient and effective methods for identifying the relative importance of their attributes. Due to the huge size of the search space of the possible solutions, the attribute subset evaluation feature selection methods tend to be not applicable, so in these scenarios feature ranking methods are used. Most of the feature ranking methods described in the literature are univariate methods, so they do not detect interactions between factors. In this paper we propose two new multivariate feature ranking methods based on pairwise correlation and pairwise consistency, which we have applied in three gene expression classification problems. We statistically prove that the proposed methods outperform the state of the art feature ranking methods Clustering Variation, Chi Squared, Correlation, Information Gain, ReliefF and Significance, as well as feature selection methods of attribute subset evaluation based on correlation and consistency with multi-objective evolutionary search strategy.
翻訳日:2021-11-04 12:42:26 公開日:2021-11-03
# 確率的バンディットにおけるバッチ学習の影響

The Impact of Batch Learning in Stochastic Bandits ( http://arxiv.org/abs/2111.02071v1 )

ライセンス: Link先を確認
Danil Provodin, Pratik Gajane, Mykola Pechenizkiy, and Maurits Kaptein(参考訳) 我々は,バンディット問題,すなわちバッチバンディットの特殊な場合を考える。 推薦システムやeコマースプラットフォームの自然な制限により、学習エージェントは一定期間にわたってグループでバッチされた応答を観察する。 従来の作業とは異なり、バッチ学習のより効果的なバッチ中心のシナリオを考えます。 我々は、政策非依存の後悔分析を行い、候補者政策の後悔に対する上限を上下に示す。 本研究の主な理論的結果は,バッチ学習の効果をオンライン行動の観点から測定できることである。 最後に,実験を行い,最適なバッチサイズ選択を反映することにより,理論結果の一貫性を示す。

We consider a special case of bandit problems, namely batched bandits. Motivated by natural restrictions of recommender systems and e-commerce platforms, we assume that a learning agent observes responses batched in groups over a certain time period. Unlike previous work, we consider a more practically relevant batch-centric scenario of batch learning. We provide a policy-agnostic regret analysis and demonstrate upper and lower bounds for the regret of a candidate policy. Our main theoretical results show that the impact of batch learning can be measured in terms of online behavior. Finally, we demonstrate the consistency of theoretical results by conducting empirical experiments and reflect on the optimal batch size choice.
翻訳日:2021-11-04 12:41:52 公開日:2021-11-03
# ランダム林における大域的から局所的mdi変数の重要性とシャプリー値の場合

From global to local MDI variable importances for random forests and when they are Shapley values ( http://arxiv.org/abs/2111.02218v1 )

ライセンス: Link先を確認
Antonio Sutera, Gilles Louppe, Van Anh Huynh-Thu, Louis Wehenkel, Pierre Geurts(参考訳) ランダムフォレストは、特定のアウトプットを予測する入力変数の関連性に関するグローバル(データセット毎)レベルの洞察を与える、いわゆる重要度指標を提供する能力として広く使われている。 一方、ツリーベースモデルの局所的(インスタンス単位)レベルへの特徴的関連性の分析を洗練するために、shapley値に基づく手法が導入された。 この文脈では、まず、大域的不純物量減少(MDI)変動重要度スコアが、いくつかの条件下でシェープリー値に対応することを示す。 次に,グローバルなMDI尺度と非常に自然な関係を持ち,局所的特徴関連性の新たな概念に関連付けることのできる,変数関連性の局所的MDI重要度尺度を導出する。 さらに,本論文では,現地のMDI重要度とシェープ価値を関連づけるとともに,文献の関連指標として議論する。 これらの測度は、いくつかの分類および回帰問題に関する実験を通じて説明される。

Random forests have been widely used for their ability to provide so-called importance measures, which give insight at a global (per dataset) level on the relevance of input variables to predict a certain output. On the other hand, methods based on Shapley values have been introduced to refine the analysis of feature relevance in tree-based models to a local (per instance) level. In this context, we first show that the global Mean Decrease of Impurity (MDI) variable importance scores correspond to Shapley values under some conditions. Then, we derive a local MDI importance measure of variable relevance, which has a very natural connection with the global MDI measure and can be related to a new notion of local feature relevance. We further link local MDI importances with Shapley values and discuss them in the light of related measures from the literature. The measures are illustrated through experiments on several classification and regression problems.
翻訳日:2021-11-04 12:41:44 公開日:2021-11-03
# (参考訳) モデル校正の観点からの知識蒸留の再考 [全文訳有]

Rethinking the Knowledge Distillation From the Perspective of Model Calibration ( http://arxiv.org/abs/2111.01684v2 )

ライセンス: CC BY 4.0
Lehan Yang, Jincen Song(参考訳) 近年、知識蒸留の大幅な改善が見られ、教師モデルのモデルの有効性を維持しつつ、より効率的な生徒モデルを生成することができる。 より正確な教師は、能力のミスマッチのためにより良い教師を作る必要はない。 本稿では,モデルキャリブレーションの観点からその現象を分析することを目的とする。 より大規模な教師モデルは自信過剰である可能性があり,学生モデルは効果的に模倣できない。 教師モデルの簡易モデルキャリブレーションを行った結果,教師モデルのサイズは,生徒モデルの性能と正の相関を示した。

Recent years have witnessed dramatically improvements in the knowledge distillation, which can generate a compact student model for better efficiency while retaining the model effectiveness of the teacher model. Previous studies find that: more accurate teachers do not necessary make for better teachers due to the mismatch of abilities. In this paper, we aim to analysis the phenomenon from the perspective of model calibration. We found that the larger teacher model may be too over-confident, thus the student model cannot effectively imitate. While, after the simple model calibration of the teacher model, the size of the teacher model has a positive correlation with the performance of the student model.
翻訳日:2021-11-04 11:31:23 公開日:2021-11-03
# (参考訳) 材料科学・化学のための解釈・説明可能な機械学習 [全文訳有]

Interpretable and Explainable Machine Learning for Materials Science and Chemistry ( http://arxiv.org/abs/2111.01037v2 )

ライセンス: CC BY 4.0
Felipe Oviedo, Juan Lavista Ferres, Tonio Buonassisi, Keith Butler(参考訳) 材料科学と化学のためのデータ駆動アプローチの普及は、機械学習モデルが科学的発見を成功させる真の可能性を実現するための、エキサイティングな初期段階にあるが、それらは純粋に予測力を超えた性質を持つ必要がある。 モデルの予測と内部動作は、人間の専門家によるある程度の説明可能性を提供し、潜在的なモデル問題や制限の特定を可能にし、モデル予測への信頼を築き、科学的洞察につながる予期せぬ相関を明らかにするべきである。 本稿では,材料科学・化学における解釈可能性・説明可能性技術の応用を概説し,これらの技術が科学研究の成果をどう改善するかを論じる。 材料科学における機械学習の解釈に関する様々な課題について論じる。 特に,機械学習モデルを純粋に解釈することによる因果関係の推測や一般化のリスクと,モデル説明に対する不確実性推定の必要性を強調する。 最後に,物質科学や化学の問題に対する解釈可能性に資する,他の分野におけるエキサイティングな発展を数多く紹介する。

While the uptake of data-driven approaches for materials science and chemistry is at an exciting, early stage, to realise the true potential of machine learning models for successful scientific discovery, they must have qualities beyond purely predictive power. The predictions and inner workings of models should provide a certain degree of explainability by human experts, permitting the identification of potential model issues or limitations, building trust on model predictions and unveiling unexpected correlations that may lead to scientific insights. In this work, we summarize applications of interpretability and explainability techniques for materials science and chemistry and discuss how these techniques can improve the outcome of scientific studies. We discuss various challenges for interpretable machine learning in materials science and, more broadly, in scientific settings. In particular, we emphasize the risks of inferring causation or reaching generalization by purely interpreting machine learning models and the need of uncertainty estimates for model explanations. Finally, we showcase a number of exciting developments in other fields that could benefit interpretability in material science and chemistry problems.
翻訳日:2021-11-04 11:18:22 公開日:2021-11-03
# (参考訳) テキストベースフィッシング検出に向けて [全文訳有]

Towards Text-based Phishing Detection ( http://arxiv.org/abs/2111.01676v2 )

ライセンス: CC BY 4.0
Gilchan Park and Julia M. Taylor(参考訳) 本稿では,テキストベースのフィッシング検出を,容易に利用可能なリソースを用いて,セマンティクスを使わずに行う実験について報告する。 開発されたアルゴリズムは、同じツールで動作する以前に公開された作業の修正版である。 フィッシングメールを認識できた結果は、以前報告されたものよりもかなり優れているが、フィッシングと誤認されたテキストの割合はやや悪い。 検出精度を維持しつつ,意味成分を付加することで偽陽性率を低減できることが期待される。

This paper reports on an experiment into text-based phishing detection using readily available resources and without the use of semantics. The developed algorithm is a modified version of previously published work that works with the same tools. The results obtained in recognizing phishing emails are considerably better than the previously reported work; but the rate of text falsely identified as phishing is slightly worse. It is expected that adding semantic component will reduce the false positive rate while preserving the detection accuracy.
翻訳日:2021-11-04 10:57:25 公開日:2021-11-03
# ディープラーニングを用いたツイートの因果関係の同定--2017-2021年の糖尿病関連ツイートを事例として

Identifying causal associations in tweets using deep learning: Use case on diabetes-related tweets from 2017-2021 ( http://arxiv.org/abs/2111.01225v2 )

ライセンス: Link先を確認
Adrian Ahne, Vivek Khetan, Xavier Tannier, Md Imbessat Hassan Rizvi, Thomas Czernichow, Francisco Orchard, Charline Bour, Andrew Fano, Guy Fagherazzi(参考訳) 目的: 糖尿病関連ツイートにおける明示的・暗黙的な因果関係を抽出し, 因果性の観点から, 糖尿病オンラインコミュニティ内で共有されている意見, 感情, 観察をよりよく理解するためのツールを提供する。 資料と方法:2017年4月から2021年1月の間に、3000万以上の英語の糖尿病関連ツイートが収集された。 ディープラーニングと自然言語処理は、個人的および感情的なコンテンツのツイートに焦点を当てるために適用された。 cause-effect-tweetデータセットが手動でラベル付けされ、トレーニングに使用される 1) 因果関係を含む因果関係文を検出するための微調整Bertweetモデル 2) BERTをベースとしたCRFモデルを用いて, 因果関係を抽出した。 原因と影響は半教師付きアプローチでクラスター化され、インタラクティブな因果効果ネットワークで可視化された。 結果: 不均衡データセットでは68%のリコールで因果文が検出された。 BERTをベースとしたCRFモデルは68%のマクロリコールで原因効果検出のための細調整BERTモデルより優れていた。 これにより96,676件の大義関連判決が下された。 ディアベテス」は中央クラスタとして同定され、「死」と「インスリン」が続く。 インスリン価格関連原因は、しばしば「死」と関連づけられた。 結論: 因果文を検出し, 明示的, 暗黙的, 単語的および多語的原因とそれに対応する効果を, BERTベースのアーキテクチャを活用し, 原因効果ネットワークとして可視化した糖尿病関連ツイートで表す新しい手法を開発した。 実生活における因果関係を抽出し,ソーシャルメディアデータから報告した患者報告の結果は,糖尿病研究において有用な補完的情報源となる。

Objective: Leveraging machine learning methods, we aim to extract both explicit and implicit cause-effect associations in patient-reported, diabetes-related tweets and provide a tool to better understand opinion, feelings and observations shared within the diabetes online community from a causality perspective. Materials and Methods: More than 30 million diabetes-related tweets in English were collected between April 2017 and January 2021. Deep learning and natural language processing methods were applied to focus on tweets with personal and emotional content. A cause-effect-tweet dataset was manually labeled and used to train 1) a fine-tuned Bertweet model to detect causal sentences containing a causal association 2) a CRF model with BERT based features to extract possible cause-effect associations. Causes and effects were clustered in a semi-supervised approach and visualised in an interactive cause-effect-network . Results: Causal sentences were detected with a recall of 68% in an imbalanced dataset. A CRF model with BERT based features outperformed a fine-tuned BERT model for cause-effect detection with a macro recall of 68%. This led to 96,676 sentences with cause-effect associations. "Diabetes" was identified as the central cluster followed by "Death" and "Insulin". Insulin pricing related causes were frequently associated with "Death". Conclusions: A novel methodology was developed to detect causal sentences and identify both explicit and implicit, single and multi-word cause and corresponding effect as expressed in diabetes-related tweets leveraging BERT-based architectures and visualised as cause-effect-network . Extracting causal associations on real-life, patient reported outcomes in social media data provides a useful complementary source of information in diabetes research.
翻訳日:2021-11-04 10:48:27 公開日:2021-11-03
# 特徴密度検出のための分類器訓練効率の向上

Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density ( http://arxiv.org/abs/2111.01689v2 )

ライセンス: Link先を確認
Juuso Eronen, Michal Ptaszynski, Fumito Masui, Aleksander Smywi\'nski-Pohl, Gniewosz Leliwa, Michal Wroczynski(参考訳) 学習前の機械学習(ml)分類器の潜在的な性能を比較評価するために,異なる言語的特徴前処理手法を用いた特徴密度(fd)の有効性について検討した。 データセットの複雑さを推定することで、必要な実験回数を減らすことができると仮定する。 これにより、利用可能なデータセットサイズの増加と、Deep Neural Networks(DNN)に基づいたモデルの人気の高まりにより、MLモデルのリソース集約的なトレーニングを最適化できます。 より強力な計算資源の需要が常に増大する問題は、大規模MLモデルのトレーニングによるCO2排出量の増加によって環境にも影響を与えている。 この調査は、一般的な感情分析モデルのトレーニングに使用されるyelp business reviewデータセットや、サイバーいじめの問題に対処しようとする最近のデータセットなど、一般的なデータセットを含む複数のデータセットで実施された。 我々は、複数の言語、すなわち英語、日本語、ポーランド語で収集されたサイバーいじめデータセットを使用する。 データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性についても議論できる。

We study the effectiveness of Feature Density (FD) using different linguistically-backe d feature preprocessing methods in order to estimate dataset complexity, which in turn is used to comparatively estimate the potential performance of machine learning (ML) classifiers prior to any training. We hypothesise that estimating dataset complexity allows for the reduction of the number of required experiments iterations. This way we can optimize the resource-intensive training of ML models which is becoming a serious issue due to the increases in available dataset sizes and the ever rising popularity of models based on Deep Neural Networks (DNN). The problem of constantly increasing needs for more powerful computational resources is also affecting the environment due to alarmingly-growing amount of CO2 emissions caused by training of large-scale ML models. The research was conducted on multiple datasets, including popular datasets, such as Yelp business review dataset used for training typical sentiment analysis models, as well as more recent datasets trying to tackle the problem of cyberbullying, which, being a serious social problem, is also a much more sophisticated problem form the point of view of linguistic representation. We use cyberbullying datasets collected for multiple languages, namely English, Japanese and Polish. The difference in linguistic complexity of datasets allows us to additionally discuss the efficacy of linguistically-backe d word preprocessing.
翻訳日:2021-11-04 10:47:59 公開日:2021-11-03
# ハードウェアを意識したニューラルアーキテクチャ検索のためのプロキシデバイス

One Proxy Device Is Enough for Hardware-Aware Neural Architecture Search ( http://arxiv.org/abs/2111.01203v2 )

ライセンス: Link先を確認
Bingqian Lu and Jianyi Yang and Weiwen Jiang and Yiyu Shi and Shaolei Ren(参考訳) 畳み込みニューラルネットワーク(cnns)は、視覚ベースの自律運転やビデオコンテンツ分析など、多くの現実のアプリケーションで使われている。 様々なターゲットデバイスでcnn推論を実行するには、ハードウェアアウェアニューラルアーキテクチャ検索(nas)が不可欠である。 効率的なハードウェア対応NASの重要な要件は、異なるアーキテクチャをランク付けするための推論レイテンシの高速評価である。 ターゲットデバイス毎の遅延予測器の構築は、技術状況において一般的に使用されているが、非常に多様なデバイスの存在下でスケーラビリティに欠ける、非常に時間を要するプロセスである。 本研究では,レイテンシのモノトニック性(monotonicity)を活用することでスケーラビリティの課題に対処します。 強いレイテンシのモノトニック性が存在する場合、最適性を損なうことなく、新しいターゲットデバイス上で1つのプロキシデバイスを検索したアーキテクチャを再利用できる。 強い遅延単調性がない場合、遅延単調性を大幅に向上させる効率的なプロキシ適応手法を提案する。 最後に、我々は、MobileNet-V2、MobileNet-V3、NAS-Bench-201、ProxylessNAS、FBNetなど、複数の主要な検索空間上で異なるプラットフォームで実験を行い、アプローチを検証する。 我々の結果は、ひとつのプロキシデバイスを使用することで、デバイス毎のNASとほぼ同じPareto-Optimalアーキテクチャを見つけることができ、各デバイス用の遅延予測器を構築することの禁止コストを回避することができることを強調している。 GitHub: https://github.com/R en-Research/OneProxy

Convolutional neural networks (CNNs) are used in numerous real-world applications such as vision-based autonomous driving and video content analysis. To run CNN inference on various target devices, hardware-aware neural architecture search (NAS) is crucial. A key requirement of efficient hardware-aware NAS is the fast evaluation of inference latencies in order to rank different architectures. While building a latency predictor for each target device has been commonly used in state of the art, this is a very time-consuming process, lacking scalability in the presence of extremely diverse devices. In this work, we address the scalability challenge by exploiting latency monotonicity -- the architecture latency rankings on different devices are often correlated. When strong latency monotonicity exists, we can re-use architectures searched for one proxy device on new target devices, without losing optimality. In the absence of strong latency monotonicity, we propose an efficient proxy adaptation technique to significantly boost the latency monotonicity. Finally, we validate our approach and conduct experiments with devices of different platforms on multiple mainstream search spaces, including MobileNet-V2, MobileNet-V3, NAS-Bench-201, ProxylessNAS and FBNet. Our results highlight that, by using just one proxy device, we can find almost the same Pareto-optimal architectures as the existing per-device NAS, while avoiding the prohibitive cost of building a latency predictor for each device. GitHub: https://github.com/R en-Research/OneProxy
翻訳日:2021-11-04 10:47:42 公開日:2021-11-03
# psd保証付き近似ベイズ推定のためのベイズニュートン法

Bayes-Newton Methods for Approximate Bayesian Inference with PSD Guarantees ( http://arxiv.org/abs/2111.01721v2 )

ライセンス: Link先を確認
William J. Wilkinson, Simo S\"arkk\"a and Arno Solin(参考訳) ベイズ後方分布のパラメータを最適化するためのニュートン法の拡張として,自然勾配変動推定(vi),期待伝播(ep),後続線形化(pl)を定式化した。 この視点は、数値最適化の枠組みの下で推論アルゴリズムを明示的に採用する。 我々は、ガウス・ニュートン法と準ニュートン法(例えば、BFGSアルゴリズム)の最適化文献からニュートン法に対する一般的な近似が、この「ベイズ・ニュートン」フレームワークの下でも有効であることを示す。 これは、標準の VI や EP とは異なり、正の半定値の共分散行列をもたらすことが保証される新しいアルゴリズムの組につながる。 我々の統一的な視点は、様々な推論スキーム間の関係に関する新たな洞察を提供する。 提示されたすべての方法がガウス的先行性および非共役性を持つ任意のモデルに適用され、これはガウス的過程と状態空間モデルで示される。

We formulate natural gradient variational inference (VI), expectation propagation (EP), and posterior linearisation (PL) as extensions of Newton's method for optimising the parameters of a Bayesian posterior distribution. This viewpoint explicitly casts inference algorithms under the framework of numerical optimisation. We show that common approximations to Newton's method from the optimisation literature, namely Gauss-Newton and quasi-Newton methods (e.g., the BFGS algorithm), are still valid under this 'Bayes-Newton' framework. This leads to a suite of novel algorithms which are guaranteed to result in positive semi-definite covariance matrices, unlike standard VI and EP. Our unifying viewpoint provides new insights into the connections between various inference schemes. All the presented methods apply to any model with a Gaussian prior and non-conjugate likelihood, which we demonstrate with (sparse) Gaussian processes and state space models.
翻訳日:2021-11-04 10:47:18 公開日:2021-11-03
# ビジョントランスフォーマーは進化できるのか?

Can Vision Transformers Perform Convolution? ( http://arxiv.org/abs/2111.01353v2 )

ライセンス: Link先を確認
Shanda Li, Xiangning Chen, Di He, Cho-Jui Hsieh(参考訳) 近年の研究では、ViT(Vision Transformer)のような注目ベースのネットワークが、畳み込み層を使わずに複数のコンピュータビジョンタスクにおいて畳み込みニューラルネットワーク(CNN)より優れていることが示されている。 ViTの自己保持層は、何らかの畳み込み操作を表現できますか? 本研究では,画像パッチを入力とする単一のViT層が,マルチヘッドアテンション機構と相対位置エンコーディングが重要な役割を果たすようなコンボリューション操作を構成的に実行可能であることを実証する。 さらに、CNNを表現するための視覚変換器のヘッド数を低くする。 実験結果から,提案手法はトランスフォーマーに畳み込みバイアスを注入し,低データ状態下でのViTの性能向上に有効であることが示された。

Several recent studies have demonstrated that attention-based networks, such as Vision Transformer (ViT), can outperform Convolutional Neural Networks (CNNs) on several computer vision tasks without using convolutional layers. This naturally leads to the following questions: Can a self-attention layer of ViT express any convolution operation? In this work, we prove that a single ViT layer with image patches as the input can perform any convolution operation constructively, where the multi-head attention mechanism and the relative positional encoding play essential roles. We further provide a lower bound on the number of heads for Vision Transformers to express CNNs. Corresponding with our analysis, experimental results show that the construction in our proof can help inject convolutional bias into Transformers and significantly improve the performance of ViT in low data regimes.
翻訳日:2021-11-04 10:47:02 公開日:2021-11-03
# タスク非依存トレーニングを用いたCOVID-19 CXR診断用フェデレートスプリットビジョントランス

Federated Split Vision Transformer for COVID-19 CXR Diagnosis using Task-Agnostic Training ( http://arxiv.org/abs/2111.01338v2 )

ライセンス: Link先を確認
Sangjoon Park, Gwanghyun Kim, Jeongsol Kim, Boah Kim, Jong Chul Ye(参考訳) 顧客間でニューラルネットワークの重みを共有するfederated learningは、データプライバシを維持しながら、大規模な分散データコーパスのトレーニングを可能にすることで、医療分野で注目を集めている。 例えば、複数の病院で患者のCXRデータを収集することなく、胸部X線(CXR)画像上の新型コロナウイルス診断のためのニューラルネットワークトレーニングが可能になる。 残念ながら、高度に表現力のあるネットワークアーキテクチャを採用すると、重みの交換はネットワーク帯域を素早く消費する。 いわゆる分割学習は、ニューラルネットワークをクライアントとサーバに分割することで、この問題を部分的に解決する。 しかし、ネットワーク全体の性能を犠牲にすることなく最適な分割を見つける方法は不明である。 そこで本研究では,直感的に分解可能な構成の深層学習アーキテクチャであるVision Transformerが,性能を犠牲にすることなく分割学習に最適であることを示す。 複数のソースからのCXRデータセットを使用して病院間の実際のコラボレーションをエミュレートする非独立で同一の分散データ分布であっても、提案したフレームワークは、データ分散トレーニングに匹敵するパフォーマンスを実現することができた。 さらに,ヘテロジニアスなマルチタスククライアントとともに,covid-19の診断を含む個々のタスクパフォーマンスも向上し,大きな重みを数えられるパラメータで共有する必要がなくなる。 本研究は,医療画像における協調学習におけるトランスフォーマーの適合性を検証し,将来的な実世界実装への道を開く。

Federated learning, which shares the weights of the neural network across clients, is gaining attention in the healthcare sector as it enables training on a large corpus of decentralized data while maintaining data privacy. For example, this enables neural network training for COVID-19 diagnosis on chest X-ray (CXR) images without collecting patient CXR data across multiple hospitals. Unfortunately, the exchange of the weights quickly consumes the network bandwidth if highly expressive network architecture is employed. So-called split learning partially solves this problem by dividing a neural network into a client and a server part, so that the client part of the network takes up less extensive computation resources and bandwidth. However, it is not clear how to find the optimal split without sacrificing the overall network performance. To amalgamate these methods and thereby maximize their distinct strengths, here we show that the Vision Transformer, a recently developed deep learning architecture with straightforward decomposable configuration, is ideally suitable for split learning without sacrificing performance. Even under the non-independent and identically distributed data distribution which emulates a real collaboration between hospitals using CXR datasets from multiple sources, the proposed framework was able to attain performance comparable to data-centralized training. In addition, the proposed framework along with heterogeneous multi-task clients also improves individual task performances including the diagnosis of COVID-19, eliminating the need for sharing large weights with innumerable parameters. Our results affirm the suitability of Transformer for collaborative learning in medical imaging and pave the way forward for future real-world implementations.
翻訳日:2021-11-04 10:46:47 公開日:2021-11-03
# スペクトル距離によるグラフ構造攻撃

Graph Structural Attack by Spectral Distance ( http://arxiv.org/abs/2111.00684v2 )

ライセンス: Link先を確認
Lu Lin, Ethan Blaser and Hongning Wang(参考訳) グラフ畳み込みネットワーク(GCNs)は、グラフ学習タスクにおける優れたパフォーマンスのため、関心が高まりつつあるが、敵攻撃に対する脆弱性も示されている。 本稿では,フーリエ領域におけるグラフスペクトルフィルタの破壊に有効なグラフ構造攻撃について検討する。 スペクトルフィルタの破壊を測定するために、グラフラプラシアンの固有値に基づいてスペクトル距離を定義する。 次に,タスク固有の攻撃目標と提案したスペクトル距離を同時に最大化し,エッジ摂動を生成する。 実験は、トレーニング時間とテスト時間の両方において、ホワイトボックス設定における提案された攻撃の有効性を示す。 筆者らの定性的分析は、攻撃行動とスペクトル分布の強制的な変化の関連性を示し、スペクトル距離の最大化が空間領域におけるグラフの構造特性の変化とフーリエ領域における周波数成分の摂動に有効な方法であることを示す実証的な証拠を提供する。

Graph Convolutional Networks (GCNs) have fueled a surge of interest due to their superior performance on graph learning tasks, but are also shown vulnerability to adversarial attacks. In this paper, an effective graph structural attack is investigated to disrupt graph spectral filters in the Fourier domain. We define the spectral distance based on the eigenvalues of graph Laplacian to measure the disruption of spectral filters. We then generate edge perturbations by simultaneously maximizing a task-specific attack objective and the proposed spectral distance. The experiments demonstrate remarkable effectiveness of the proposed attack in the white-box setting at both training and test time. Our qualitative analysis shows the connection between the attack behavior and the imposed changes on the spectral distribution, which provides empirical evidence that maximizing spectral distance is an effective manner to change the structural property of graphs in the spatial domain and perturb the frequency components in the Fourier domain.
翻訳日:2021-11-04 10:46:20 公開日:2021-11-03
# クロスモーダルビデオ検索のためのマスキングモード

Masking Modalities for Cross-modal Video Retrieval ( http://arxiv.org/abs/2111.01300v2 )

ライセンス: Link先を確認
Valentin Gabeur, Arsha Nagrani, Chen Sun, Karteek Alahari, Cordelia Schmid(参考訳) 大規模アンラベリングデータセットの事前トレーニングでは、コンピュータビジョンと自然言語処理の分野で顕著なパフォーマンス向上が見られた。 大規模ビデオデータセットの出現を考えると、ビデオエンコーダを事前訓練するための一般的な戦略は、付随する音声を弱い監督力として使うことである。 しかし、音声は事前学習を監督するために使用されるため、ビデオエンコーダには見られず、そのモダリティを処理することを学ばない。 音声言語における豊富な手がかりを活用できない現在の事前学習手法の欠点に対処した。 提案手法は,ビデオモダリティの全てを監督,すなわち外見,音,書き起こし音声として利用して,ビデオエンコーダの事前訓練を行うことである。 入力の全体モダリティを隠蔽し、他の2つのモダリティを使って予測する。 これにより、それぞれのモダリティが他の人とコラボレーションすることを奨励し、私たちのビデオエンコーダは、音声と同様に外観や音声を処理することを学びます。 How2R, YouCook2, Condensed Moviesデータセット上で, ビデオ検索のための"モダリティマスキング"事前学習手法の優れた性能を示す。

Pre-training on large scale unlabelled datasets has shown impressive performance improvements in the fields of computer vision and natural language processing. Given the advent of large-scale instructional video datasets, a common strategy for pre-training video encoders is to use the accompanying speech as weak supervision. However, as speech is used to supervise the pre-training, it is never seen by the video encoder, which does not learn to process that modality. We address this drawback of current pre-training methods, which fail to exploit the rich cues in spoken language. Our proposal is to pre-train a video encoder using all the available video modalities as supervision, namely, appearance, sound, and transcribed speech. We mask an entire modality in the input and predict it using the other two modalities. This encourages each modality to collaborate with the others, and our video encoder learns to process appearance and audio as well as speech. We show the superior performance of our "modality masking" pre-training approach for video retrieval on the How2R, YouCook2 and Condensed Movies datasets.
翻訳日:2021-11-04 10:46:04 公開日:2021-11-03
# HHP-Net:不確実性を考慮した頭部電位推定のための光ヘテロセダスティックニューラルネットワーク

HHP-Net: A light Heteroscedastic neural network for Head Pose estimation with uncertainty ( http://arxiv.org/abs/2111.01440v2 )

ライセンス: Link先を確認
Giorgio Cantarini, Federico Figari Tomenotti, Nicoletta Noceti, Francesca Odone(参考訳) 本稿では,頭部キーポイントの小さな集合から単眼画像中の人物の頭部姿勢を推定する新しい手法を提案する。 そこで本研究では,2次元ポーズ推定アルゴリズムで計算されたキーポイントを活用し,ヨー,ピッチ,ロールで表される頭部ポーズを出力する回帰モデルを提案する。 私たちのモデルは、技術の現状に関して、実装が簡単で、より効率的です -- 推論が高速で、メモリ占有率の面ではより小さく、同等の精度で。 また, 3つの角度に関する不確かさを, 適切に設計した損失関数を用いて測定し, 誤差と不確実性値の間に相関性があることを示し, この余分な情報源を計算ステップで用いることができることを示した。 画像中の社会的相互作用分析を例として, 頭部のポーズや相互位置の推論から, 人物間の相互作用のレベルを定量的に推定するアルゴリズムを提案する。 コードはhttps://github.com/c antarinigiorgio/hhp- netで入手できる。

In this paper we introduce a novel method to estimate the head pose of people in single images starting from a small set of head keypoints. To this purpose, we propose a regression model that exploits keypoints computed automatically by 2D pose estimation algorithms and outputs the head pose represented by yaw, pitch, and roll. Our model is simple to implement and more efficient with respect to the state of the art -- faster in inference and smaller in terms of memory occupancy -- with comparable accuracy. Our method also provides a measure of the heteroscedastic uncertainties associated with the three angles, through an appropriately designed loss function; we show there is a correlation between error and uncertainty values, thus this extra source of information may be used in subsequent computational steps. As an example application, we address social interaction analysis in images: we propose an algorithm for a quantitative estimation of the level of interaction between people, starting from their head poses and reasoning on their mutual positions. The code is available at https://github.com/c antarinigiorgio/HHP- Net.
翻訳日:2021-11-04 10:45:26 公開日:2021-11-03
# iCallee: バイナリのコールグラフの復元

iCallee: Recovering Call Graphs for Binaries ( http://arxiv.org/abs/2111.01415v2 )

ライセンス: Link先を確認
Wenyu Zhu, Zhiyao Feng, Zihan Zhang, Zhijian Ou, Min Yang, Chao Zhang(参考訳) プログラムのコールグラフの復元は、手続き間分析タスクやそれに基づくアプリケーションにとって不可欠である。 主な課題は、間接呼び出し(すなわち間接呼び出し)のターゲットを認識することである。 バイナリの情報が失われるため、ターゲットプログラムがバイナリ形式であれば、より困難になる。 既存のバイナリの間接的な呼び出し元認識ソリューションはいずれも高い偽陽性と陰性を持ち、コールグラフは不正確である。 本稿では,シームズニューラルネットワークに基づく新しい解iCalleeを提案する。 重要な洞察は、ニューラルネットワークが、呼び出し先の関数が間接呼び出しの潜在的なターゲットであるかどうかを、そのコンテキスト、すなわち近くの呼び出し側と呼び出し側の指示を解釈することによって学習できるということだ。 この知見に従い、まずターゲットバイナリを前処理し、呼び出し元と呼び出し元のコンテキストを抽出する。 次に、アセンブリ言語に適用可能なカスタマイズされた自然言語処理(nlp)モデルを構築する。 さらに,大量のcalliteとcalleeのペアを収集し,そのコンテキストをnlpモデルに埋め込み,siameseネットワークと分類器を訓練してcallite-calleeの質問に答える。 我々はiCalleeのプロトタイプを実装し、いくつかのターゲットグループで評価した。 評価の結果, 提案手法は, f1測定値93.7%, 93.8%, 精度93.5%, 精度93.5%, 最先端のソリューションよりはるかに優れていた。 その有用性を示すために、iCalleeをバイナリコードの類似性検出とバイナリプログラムのハードニングという2つの特定のアプリケーションに適用し、最先端のソリューションを大幅に改善できることを発見した。

Recovering programs' call graphs is crucial for inter-procedural analysis tasks and applications based on them. The core challenge is recognizing targets of indirect calls (i.e., indirect callees). It becomes more challenging if target programs are in binary forms, due to information loss in binaries. Existing indirect callee recognition solutions for binaries all have high false positives and negatives, making call graphs inaccurate. In this paper, we propose a new solution iCallee based on the Siamese Neural Network, inspired by the advances in question-answering applications. The key insight is that, neural networks can learn to answer whether a callee function is a potential target of an indirect callsite by comprehending their contexts, i.e., instructions nearby callsites and of callees. Following this insight, we first preprocess target binaries to extract contexts of callsites and callees. Then, we build a customized Natural Language Processing (NLP) model applicable to assembly language. Further, we collect abundant pairs of callsites and callees, and embed their contexts with the NLP model, then train a Siamese network and a classifier to answer the callsite-callee question. We have implemented a prototype of iCallee and evaluated it on several groups of targets. Evaluation results showed that, our solution could match callsites to callees with an F1-Measure of 93.7%, recall of 93.8%, and precision of 93.5%, much better than state-of-the-art solutions. To show its usefulness, we apply iCallee to two specific applications - binary code similarity detection and binary program hardening, and found that it could greatly improve state-of-the-art solutions.
翻訳日:2021-11-04 10:45:08 公開日:2021-11-03
# LogiKEyにおけるHOLのフラグメントとしての共通知識を用いた公開発表論理のモデル化と自動化

Modeling and Automating Public Announcement Logic with Relativized Common Knowledge as a Fragment of HOL in LogiKEy ( http://arxiv.org/abs/2111.01654v2 )

ライセンス: Link先を確認
Christoph Benzm\"uller and Sebastian Reiche(参考訳) 関連する共通知識を持つ公開告知論理の浅層意味埋め込みについて述べる。 この埋め込みにより、古典的な高階論理に対するオフ・ザ・シェルフ定理証明を用いて、この論理を初めて自動化することができる。 実証されています (i)このような方法でメタ理論的研究をいかに自動化できるか 二 対象論理(公告論理)における非自明な推論(例えば、賢明なマンパズルのエンコーディングと自動化を得るために必要なもの)を実現することができる。 提示された意味的埋め込みの鍵は、評価領域が明示的にモデル化され、組み込み対象論理の構成要素のエンコーディングにおいて追加のパラメータとして扱われることである;例えば、通常の様相論理の埋め込みにおいて、評価領域はメタ論理と対象論理の間で暗黙的に共有された。 本稿では、論理学とそれらの組み合わせ、一般知識とドメイン知識、そして具体的なユースケースを同時に実験できる、複数派のLogiKEy知識工学方法論の重要な追加となる。

A shallow semantical embedding for public announcement logic with relativized common knowledge is presented. This embedding enables the first-time automation of this logic with off-the-shelf theorem provers for classical higher-order logic. It is demonstrated (i) how meta-theoretical studies can be automated this way, and (ii) how non-trivial reasoning in the target logic (public announcement logic), required e.g. to obtain a convincing encoding and automation of the wise men puzzle, can be realized. Key to the presented semantical embedding is that evaluation domains are modeled explicitly and treated as an additional parameter in the encodings of the constituents of the embedded target logic; in previous related works, e.g. on the embedding of normal modal logics, evaluation domains were implicitly shared between meta-logic and target logic. The work presented in this article constitutes an important addition to the pluralist LogiKEy knowledge engineering methodology, which enables experimentation with logics and their combinations, with general and domain knowledge, and with concrete use cases -- all at the same time.
翻訳日:2021-11-04 10:44:39 公開日:2021-11-03
# DAGに基づく分散フェデレーション学習によるインプシットモデル特殊化

Implicit Model Specialization through DAG-based Decentralized Federated Learning ( http://arxiv.org/abs/2111.01257v2 )

ライセンス: Link先を確認
Jossekin Beilharz, Bjarne Pfitzner, Robert Schmid, Paul Geppert, Bert Arnrich, and Andreas Polze(参考訳) フェデレートされた学習により、分散クライアントのグループは、プライベートデータ上で共通の機械学習モデルをトレーニングできる。 モデル更新の交換は、中央のエンティティまたは分散型の方法で、例えばブロックチェーンによって管理される。 しかし、すべてのクライアント間の強い一般化により、これらのアプローチは非独立かつ同一の分散(非iid)データには適さない。 モデル更新の有向非巡回グラフ(DAG)に基づくフェデレーション学習における分散化とパーソナライズへの統一的なアプローチを提案する。 単一のグローバルモデルをトレーニングする代わりに、クライアントはローカルデータに特化して、各データの類似性に依存する他のクライアントからのモデル更新を使用する。 この特殊化は、DAGベースの通信とモデル更新の選択から暗黙的に現れる。 このように、データのサブセットに焦点を当てた特殊なモデルの進化を可能にすることで、集中型あるいはブロックチェーンベースのセットアップでのフェデレーション学習よりも、非IIDデータをカバーできるのです。 私たちの知る限りでは、提案するソリューションは、完全に分散した連合学習において、パーソナライゼーションと有毒な堅牢性を統合する最初の方法です。 評価の結果,3つのデータセット上でのモデル更新のDAGに基づく通信から,モデルの特殊化が直接現れることがわかった。 さらに,フェデレート平均化と比較してモデル精度が安定し,クライアント間のばらつきも小さくなった。

Federated learning allows a group of distributed clients to train a common machine learning model on private data. The exchange of model updates is managed either by a central entity or in a decentralized way, e.g. by a blockchain. However, the strong generalization across all clients makes these approaches unsuited for non-independent and identically distributed (non-IID) data. We propose a unified approach to decentralization and personalization in federated learning that is based on a directed acyclic graph (DAG) of model updates. Instead of training a single global model, clients specialize on their local data while using the model updates from other clients dependent on the similarity of their respective data. This specialization implicitly emerges from the DAG-based communication and selection of model updates. Thus, we enable the evolution of specialized models, which focus on a subset of the data and therefore cover non-IID data better than federated learning in a centralized or blockchain-based setup. To the best of our knowledge, the proposed solution is the first to unite personalization and poisoning robustness in fully decentralized federated learning. Our evaluation shows that the specialization of models emerges directly from the DAG-based communication of model updates on three different datasets. Furthermore, we show stable model accuracy and less variance across clients when compared to federated averaging.
翻訳日:2021-11-04 10:44:21 公開日:2021-11-03