このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200305となっている論文です。

PDF登録状況(公開日: 20200305)

TitleAuthorsAbstract論文公表日・翻訳日
# 確率的分類による回帰の公正化対策

Fairness Measures for Regression via Probabilistic Classification ( http://arxiv.org/abs/2001.06089v2 )

ライセンス: Link先を確認
Daniel Steinberg, Alistair Reid and Simon O'Callaghan(参考訳) アルゴリズムの公平性は、機械学習アルゴリズムが最適化できる定量化可能な尺度として、エクイティや合理的な扱いといった概念を表現することを含む。 これまでの文献におけるほとんどの研究は、ローン申請の受け入れや拒絶など、予測が分類上の問題に焦点を当てている。 これは、結果率を比較することで分類公平性が容易に計算でき、適格男性のうち同じ割合が適格女性として選ばれることを保証するような行動につながるためである。 しかし、そのような尺度は、価格や支払いの割当といった問題に対する継続的な回帰設定に一般化することが困難である。 この困難は、条件密度(例えば、システムが一定の量で過充電される確率密度)を推定することから生じる。 回帰設定については,保護属性の異なる条件確率の比率として因果化することにより,独立性,分離性,充足性基準の扱いやすい近似を導入する。 データからこれらの確率を推定するメカニズムとして,予測器とは異なる機械学習分類器を導入,訓練する。 これは自然にモデル非依存で扱いやすい基準の近似につながり、それを実験的に検討する。

Algorithmic fairness involves expressing notions such as equity, or reasonable treatment, as quantifiable measures that a machine learning algorithm can optimise. Most work in the literature to date has focused on classification problems where the prediction is categorical, such as accepting or rejecting a loan application. This is in part because classification fairness measures are easily computed by comparing the rates of outcomes, leading to behaviours such as ensuring that the same fraction of eligible men are selected as eligible women. But such measures are computationally difficult to generalise to the continuous regression setting for problems such as pricing, or allocating payments. The difficulty arises from estimating conditional densities (such as the probability density that a system will over-charge by a certain amount). For the regression setting we introduce tractable approximations of the independence, separation and sufficiency criteria by observing that they factorise as ratios of different conditional probabilities of the protected attributes. We introduce and train machine learning classifiers, distinct from the predictor, as a mechanism to estimate these probabilities from the data. This naturally leads to model agnostic, tractable approximations of the criteria, which we explore experimentally.
翻訳日:2023-01-11 00:04:50 公開日:2020-03-05
# マグナス展開と非可換多項式最適化による量子最適制御

Quantum Optimal Control via Magnus Expansion and Non-Commutative Polynomial Optimization ( http://arxiv.org/abs/2001.06464v2 )

ライセンス: Link先を確認
Jakub Marecek and Jiri Vala(参考訳) 量子最適制御は、磁気共鳴のパルス整形から化学反応のレーザー制御、量子コンピューティングまで、多くの重要な応用がある。 我々の目的は、これまで量子最適制御の応用を制限してきた2つの主要な課題、すなわち、量子システムに固有の非可換性と、3つ以上の量子レベルを含む量子最適制御問題の非凸性に対処することである。 方法論的には、マグヌス展開を用いて制御ハミルトニアンの異なる時間における非可換性を扱う。 非凸性に取り組むために、非可換多項式最適化と非可換幾何を用いる。 その結果、量子最適制御のための最初のグローバル収束法が提示された。

Quantum optimal control has numerous important applications ranging from pulse shaping in magnetic-resonance imagining to laser control of chemical reactions and quantum computing. Our objective is to address two major challenges that have limited the success of applications of quantum optimal control so far: non-commutativity inherent in quantum systems and non-convexity of quantum optimal control problems involving more than three quantum levels. Methodologically, we address the non-commutativity of the control Hamiltonian at different times by the use of Magnus expansion. To tackle the non-convexity, we employ non-commutative polynomial optimisation and non-commutative geometry. As a result, we present the first globally convergent methods for quantum optimal control.
翻訳日:2023-01-10 13:12:38 公開日:2020-03-05
# 人間のやり方を問う - テキストコーパスからのスケーラブルな質問応答生成

Asking Questions the Human Way: Scalable Question-Answer Generation from Text Corpus ( http://arxiv.org/abs/2002.00748v2 )

ライセンス: Link先を確認
Bang Liu, Haojie Wei, Di Niu, Haolan Chen, Yancheng He(参考訳) 質問する能力は、人間と機械の知性の両方において重要である。 質問を学ぶことは、知識獲得に役立ち、質問応答と機械による理解タスクを改善し、チャットボットが人間と会話を流すのを助ける。 既存の質問生成モデルは、非構造化テキストから大量の高品質な質問応答対を生成するのに有効ではない。 本稿では,人間が質問する方法を模倣して,ラベルのないテキストコーパスから高品質で多様な質問応答ペアを大規模に自動生成することを目的とした,質問応答型質問生成(ACS-QG)を提案する。 私たちのシステムは 一 質問生成を誘導するために、テキストから複数の種類の支援情報を採取する情報抽出装置 二 多様な制御可能な質問を生成し、抽出した補助情報を活用する神経質問発生装置 三 テキストの含意に基づく低品質な生成データを除去する神経質の制御装置。 質問生成モデルと既存のアプローチを比較し,自発的な人間評価を行い,質問・回答ペアの質を評価する。 評価結果から,本システムは生成品質の点で最先端のニューラル質問生成モデルより劇的に優れ,一方でスケーラビリティも高いことが示唆された。 比較的少ない量のデータで訓練されたモデルでは、Wikipediaにある100万の文から品質保証された質問対を280万個生成できる。

The ability to ask questions is important in both human and machine intelligence. Learning to ask questions helps knowledge acquisition, improves question-answering and machine reading comprehension tasks, and helps a chatbot to keep the conversation flowing with a human. Existing question generation models are ineffective at generating a large amount of high-quality question-answer pairs from unstructured text, since given an answer and an input passage, question generation is inherently a one-to-many mapping. In this paper, we propose Answer-Clue-Style-aware Question Generation (ACS-QG), which aims at automatically generating high-quality and diverse question-answer pairs from unlabeled text corpus at scale by imitating the way a human asks questions. Our system consists of: i) an information extractor, which samples from the text multiple types of assistive information to guide question generation; ii) neural question generators, which generate diverse and controllable questions, leveraging the extracted assistive information; and iii) a neural quality controller, which removes low-quality generated data based on text entailment. We compare our question generation models with existing approaches and resort to voluntary human evaluation to assess the quality of the generated question-answer pairs. The evaluation results suggest that our system dramatically outperforms state-of-the-art neural question generation models in terms of the generation quality, while being scalable in the meantime. With models trained on a relatively smaller amount of data, we can generate 2.8 million quality-assured question-answer pairs from a million sentences found in Wikipedia.
翻訳日:2023-01-06 07:32:42 公開日:2020-03-05
# 離散時間切替線形システムの安定化最小dwell時間のデータベース計算

Data-based computation of stabilizing minimum dwell times for discrete-time switched linear systems ( http://arxiv.org/abs/2002.02087v2 )

ライセンス: Link先を確認
Atreyee Kundu(参考訳) 本稿では,離散時間切替線形システムの最小dwell時間の安定化を,サブシステムの状態空間モデルの明示的な知識を必要とせずに計算するアルゴリズムを提案する。 第1に,複数のリアプノフ関数が与えられたデータから設計され,第2に,関連するスカラーの集合がこれらの関数から計算され,第3に,安定化最小ドウェル時間はこれらのスカラー関数として決定される。 提案するアルゴリズムを示す数値例を示す。

We present an algorithm to compute stabilizing minimum dwell times for discrete-time switched linear systems without the explicit knowledge of state-space models of their subsystems. Given a set of finite traces of state trajectories of the subsystems that satisfies certain properties, our algorithm involves the following tasks: first, multiple Lyapunov functions are designed from the given data; second, a set of relevant scalars is computed from these functions; and third, a stabilizing minimum dwell time is determined as a function of these scalars. A numerical example is presented to demonstrate the proposed algorithm.
翻訳日:2023-01-03 13:23:12 公開日:2020-03-05
# 秘密共有に基づく安全なソーシャルレコメンデーション

Secure Social Recommendation based on Secret Sharing ( http://arxiv.org/abs/2002.02088v2 )

ライセンス: Link先を確認
Chaochao Chen, Liang Li, Bingzhe Wu, Cheng Hong, Li Wang, Jun Zhou(参考訳) 今日では、プライバシー保護機械学習が業界とアカデミーの両方で注目を集めている。 一方、レコメンダシステムは、多くの商用プラットフォーム(例えばAmazon)で広く採用されており、主にユーザとイテムのインタラクションに基づいて構築されている。 さらに、ソーシャルプラットフォーム(例えばFacebook)は、ユーザー社会情報の豊富な資源を持っている。 Facebookのようなソーシャルプラットフォームに富むソーシャル情報が、システムに推奨する上で有用であることはよく知られている。 ソーシャル情報とユーザイテム評価を組み合わせることで,全体のレコメンデーション性能を向上させることが期待されている。 既存のレコメンデーションモデルは、ソーシャル情報が利用できるという仮定に基づいて構築されている。 しかし、異なるプラットフォームは通常、特定の懸念のためにデータを共有することを好まない(あるいはできない)。 本稿では,(1)ソーシャルプラットフォームからの知識を協調的にマイニングし,評価プラットフォームのレコメンデーション性能を向上させるSecure Social Recommendation(SeSoRec)フレームワークを提案し,(2)両プラットフォームの生データを安全に保持する。 次に,Secret Sharing based Matrix Multiplication (SSMM)プロトコルを提案し,SeSoRecを最適化し,その正しさとセキュリティを理論的に証明する。 ミニバッチ勾配勾配を適用することで、SeSoRecは計算と通信の両面で線形時間複雑性を持つ。 3つの実世界データセットの総合実験結果から,提案するssorecとssmmの有効性を実証した。

Nowadays, privacy preserving machine learning has been drawing much attention in both industry and academy. Meanwhile, recommender systems have been extensively adopted by many commercial platforms (e.g. Amazon) and they are mainly built based on user-item interactions. Besides, social platforms (e.g. Facebook) have rich resources of user social information. It is well known that social information, which is rich on social platforms such as Facebook, are useful to recommender systems. It is anticipated to combine the social information with the user-item ratings to improve the overall recommendation performance. Most existing recommendation models are built based on the assumptions that the social information are available. However, different platforms are usually reluctant to (or cannot) share their data due to certain concerns. In this paper, we first propose a SEcure SOcial RECommendation (SeSoRec) framework which can (1) collaboratively mine knowledge from social platform to improve the recommendation performance of the rating platform, and (2) securely keep the raw data of both platforms. We then propose a Secret Sharing based Matrix Multiplication (SSMM) protocol to optimize SeSoRec and prove its correctness and security theoretically. By applying minibatch gradient descent, SeSoRec has linear time complexities in terms of both computation and communication. The comprehensive experimental results on three real-world datasets demonstrate the effectiveness of our proposed SeSoRec and SSMM.
翻訳日:2023-01-03 10:01:07 公開日:2020-03-05
# 高次元画像におけるランダムな平滑化は$\ell_\infty$ロバスト性を証明できない

Random Smoothing Might be Unable to Certify $\ell_\infty$ Robustness for High-Dimensional Images ( http://arxiv.org/abs/2002.03517v3 )

ライセンス: Link先を確認
Avrim Blum, Travis Dick, Naren Manoj, Hongyang Zhang(参考訳) ランダムスムーシングの難易度は,$\ell_p$ 半径 $\epsilon$ の攻撃に対して,$p>2$ のときの正逆ロバスト性を達成できることを示す。 ガウス分布を用いた$\ell_2$ の場合、ランダムな平滑化はよく理解されているが、$p>2$ の場合に適したノイズ分布の存在については不明な点が多い。 これは Cohen ら (2019) によってオープンな問題として提起され、$\ell_\infty$ 脅威モデルのような多くの重要なパラダイムを含んでいる。 この研究で、任意のノイズ分布 $\mathcal{D}$ over $\mathbb{R}^d$ は、$p>2$ を持つ全ての基底分類器に対して $\ell_p$ のロバスト性を提供し、$\mathbb{E}\eta_i^2=\Omega(d^{1-2/p}\epsilon^2(1-\delta)/\delta^2)$ のベクター $\eta\sim\mathcal{D}$ の 99% の特徴(ピクセル)に対して $\epsilon$ はロバストな半径であり、$\delta$ は最高スコア付きクラスとランナーアップの間のスコアギャップであることを示す。 したがって、ピクセル値が$[0,255]$で有界な高次元画像の場合、要求されるノイズが最終的に画像の有用な情報を支配し、自明なスムーズな分類器となる。

We show a hardness result for random smoothing to achieve certified adversarial robustness against attacks in the $\ell_p$ ball of radius $\epsilon$ when $p>2$. Although random smoothing has been well understood for the $\ell_2$ case using the Gaussian distribution, much remains unknown concerning the existence of a noise distribution that works for the case of $p>2$. This has been posed as an open problem by Cohen et al. (2019) and includes many significant paradigms such as the $\ell_\infty$ threat model. In this work, we show that any noise distribution $\mathcal{D}$ over $\mathbb{R}^d$ that provides $\ell_p$ robustness for all base classifiers with $p>2$ must satisfy $\mathbb{E}\eta_i^2=\Omega(d^{1-2/p}\epsilon^2(1-\delta)/\delta^2)$ for 99% of the features (pixels) of vector $\eta\sim\mathcal{D}$, where $\epsilon$ is the robust radius and $\delta$ is the score gap between the highest-scored class and the runner-up. Therefore, for high-dimensional images with pixel values bounded in $[0,255]$, the required noise will eventually dominate the useful information in the images, leading to trivial smoothed classifiers.
翻訳日:2023-01-02 08:19:31 公開日:2020-03-05
# MODMAデータセット:メンタルディオーダー分析のためのマルチモーダルオープンデータセット

MODMA dataset: a Multi-modal Open Dataset for Mental-disorder Analysis ( http://arxiv.org/abs/2002.09283v3 )

ライセンス: Link先を確認
Hanshu Cai, Yiwen Gao, Shuting Sun, Na Li, Fuze Tian, Han Xiao, Jianxiu Li, Zhengwu Yang, Xiaowei Li, Qinglin Zhao, Zhenyu Liu, Zhijun Yao, Minqiang Yang, Hong Peng, Jing Zhu, Xiaowei Zhang, Guoping Gao, Fang Zheng, Rui Li, Zhihua Guo, Rong Ma, Jing Yang, Lan Zhang, Xiping Hu, Yumin Li, Bin Hu(参考訳) 世界保健機関(WHO)によると、精神障害患者(特にうつ病患者)の数は急速に増加し、疾患の世界的な負担に寄与している。 しかし、現在のうつ病診断の一般的な実践は、医師による面接や臨床尺度に基づいており、これは労働だけでなく時間も消費する。 一つの重要な理由は、精神疾患の生理学的指標が欠如していることである。 データマイニングや人工知能といったツールの台頭に伴い、生理的データを用いて精神障害の新たな生理的指標を探索し、精神障害診断の新しい応用を作成することが、新たな研究テーマとなっている。 しかし,精神疾患患者に対する良質な生理的データを得ることは困難である。 本稿では,精神障害分析のためのマルチモーダルオープンデータセットを提案する。 このデータセットには、臨床症状のある患者の脳波と音声データが含まれ、正常なコントロールと一致する。 当院の専門精神科医は,全患者を慎重に診察し,選択した。 EEGデータセットには、従来の128電極搭載弾性キャップを使用して収集されたデータだけでなく、普及したアプリケーションのための新しいウェアラブルな3電極EEGコレクタも含まれている。 53名の被験者の128名の脳波信号は安静時と刺激時の両方で記録され、55名の被験者の3つの電極脳波信号は安静状態で記録され、52名の被験者の音声データはインタビュー、読書、画像記述中に記録された。 この分野の他の研究者は、メンタルディオーダー分析の手法をテストするためにそれを使うように勧めています。

According to the World Health Organization, the number of mental disorder patients, especially depression patients, has grown rapidly and become a leading contributor to the global burden of disease. However, the present common practice of depression diagnosis is based on interviews and clinical scales carried out by doctors, which is not only labor-consuming but also time-consuming. One important reason is due to the lack of physiological indicators for mental disorders. With the rising of tools such as data mining and artificial intelligence, using physiological data to explore new possible physiological indicators of mental disorder and creating new applications for mental disorder diagnosis has become a new research hot topic. However, good quality physiological data for mental disorder patients are hard to acquire. We present a multi-modal open dataset for mental-disorder analysis. The dataset includes EEG and audio data from clinically depressed patients and matching normal controls. All our patients were carefully diagnosed and selected by professional psychiatrists in hospitals. The EEG dataset includes not only data collected using traditional 128-electrodes mounted elastic cap, but also a novel wearable 3-electrode EEG collector for pervasive applications. The 128-electrodes EEG signals of 53 subjects were recorded as both in resting state and under stimulation; the 3-electrode EEG signals of 55 subjects were recorded in resting state; the audio data of 52 subjects were recorded during interviewing, reading, and picture description. We encourage other researchers in the field to use it for testing their methods of mental-disorder analysis.
翻訳日:2022-12-30 08:25:06 公開日:2020-03-05
# 多タスク時空間統計深層学習モデルを用いた感情表現分析

Affective Expression Analysis in-the-wild using Multi-Task Temporal Statistical Deep Learning Model ( http://arxiv.org/abs/2002.09120v3 )

ライセンス: Link先を確認
Nhu-Tai Do, Tram-Tran Nguyen-Quynh and Soo-Hyung Kim(参考訳) 影響行動分析は、人間とコンピュータの相互作用、顧客マーケティング、健康モニタリングにおいて重要な役割を果たす。 ABAW ChallengeとAff-Wild2データセットは、基本的な感情を分類する新たな課題を提起する。 本稿では,上記の課題に対処する感情表現分析モデルを提案する。 我々のアプローチには、再び顔の特徴モデルを微調整するためのSTATとTemporal Moduleが含まれています。 abawチャレンジのための大規模データセットであるff-wild2データセットを,カテゴリー感情とヴァレンス覚醒感情の両方のアノテーションを用いて実験した。 評価セットで式スコア0.543と値覚醒スコア0.534を達成した。

Affective behavior analysis plays an important role in human-computer interaction, customer marketing, health monitoring. ABAW Challenge and Aff-Wild2 dataset raise the new challenge for classifying basic emotions and regression valence-arousal value under in-the-wild environments. In this paper, we present an affective expression analysis model that deals with the above challenges. Our approach includes STAT and Temporal Module for fine-tuning again face feature model. We experimented on Aff-Wild2 dataset, a large-scale dataset for ABAW Challenge with the annotations for both the categorical and valence-arousal emotion. We achieved the expression score 0.543 and valence-arousal score 0.534 on the validation set.
翻訳日:2022-12-30 01:27:56 公開日:2020-03-05
# 学習型パーソナライズド・ヘッドポーズを用いた音声駆動型顔映像生成

Audio-driven Talking Face Video Generation with Learning-based Personalized Head Pose ( http://arxiv.org/abs/2002.10137v2 )

ライセンス: Link先を確認
Ran Yi, Zipeng Ye, Juyong Zhang, Hujun Bao, Yong-Jin Liu(参考訳) 現実世界の会話は、しばしば自然な頭の動きを伴う。 しかし,既存の顔画像生成手法の多くは,頭部を固定した顔のアニメーションのみを考慮している。 本稿では、音源の音声信号Aと対象者の非常に短い映像Vを入力として取り込んだディープニューラルネットワークモデルを提案し、パーソナライズされた頭部ポーズ(Vにおける視覚情報の利用)、表情と唇の同期(AとVの両方を考慮した)による合成された高品質な会話顔映像を出力する。 私たちの研究で最も難しい問題は、自然ポーズが平面内および平面外頭部回転を引き起こすことが多いことです。 この課題に対処するために,3次元顔アニメーションを再構成し,合成フレームに再レンダリングする。 これらのフレームをスムーズな背景遷移を伴う現実的なフレームに微調整するために,メモリ拡張GANモジュールを提案する。 まず、一般公開されたデータセットに基づいて一般マッピングを訓練し、対象者の入力したショートビデオを用いてマッピングを微調整することで、頭部ポーズを含むパーソナライズされた会話行動を学ぶために、少数のフレーム(約300フレーム)しか必要としない効果的な戦略を開発する。 広汎な実験と2つのユーザスタディにより、我々の手法は高品質(パーソナライズされた頭部の動き、表情、良質な唇の同期)な会話映像を生成できることが示されている。

Real-world talking faces often accompany with natural head movement. However, most existing talking face video generation methods only consider facial animation with fixed head pose. In this paper, we address this problem by proposing a deep neural network model that takes an audio signal A of a source person and a very short video V of a target person as input, and outputs a synthesized high-quality talking face video with personalized head pose (making use of the visual information in V), expression and lip synchronization (by considering both A and V). The most challenging issue in our work is that natural poses often cause in-plane and out-of-plane head rotations, which makes synthesized talking face video far from realistic. To address this challenge, we reconstruct 3D face animation and re-render it into synthesized frames. To fine tune these frames into realistic ones with smooth background transition, we propose a novel memory-augmented GAN module. By first training a general mapping based on a publicly available dataset and fine-tuning the mapping using the input short video of target person, we develop an effective strategy that only requires a small number of frames (about 300 frames) to learn personalized talking behavior including head pose. Extensive experiments and two user studies show that our method can generate high-quality (i.e., personalized head movements, expressions and good lip synchronization) talking face videos, which are naturally looking with more distinguishing head movement effects than the state-of-the-art methods.
翻訳日:2022-12-29 04:33:45 公開日:2020-03-05
# 逆行性攻撃に対するロバスト性画像へのテンソル分解の適用

Applying Tensor Decomposition to image for Robustness against Adversarial Attack ( http://arxiv.org/abs/2002.12913v2 )

ライセンス: Link先を確認
Seungju Cho, Tae Joon Jun, Mingu Kang, Daeyoung Kim(参考訳) 現在、ディープラーニング技術は急速に成長し、コンピュータビジョンの分野で劇的なパフォーマンスを示している。 しかし、ディープラーニングベースのモデルは、敵攻撃と呼ばれる小さな摂動に対して非常に脆弱であることが判明した。 小さな摂動を加えることで、ディープラーニングモデルを簡単に騙すことができる。 一方、テンソル分解法は、データ行列や画像などを含むテンソルデータを圧縮するために広く用いられている。 本稿では,逆例に対してモデルを守るためにテンソル分解を組み合わせることを提案する。 我々は、このアイデアが敵攻撃に抵抗するためにシンプルで効果的であることを検証する。 さらに、この手法はクリーンデータの本来の性能を低下させることは滅多にない。 我々は、MNIST、CIFAR10、ImageNetデータについて実験を行い、最先端の攻撃手法でロバストな手法を示す。

Nowadays the deep learning technology is growing faster and shows dramatic performance in computer vision areas. However, it turns out a deep learning based model is highly vulnerable to some small perturbation called an adversarial attack. It can easily fool the deep learning model by adding small perturbations. On the other hand, tensor decomposition method widely uses for compressing the tensor data, including data matrix, image, etc. In this paper, we suggest combining tensor decomposition for defending the model against adversarial example. We verify this idea is simple and effective to resist adversarial attack. In addition, this method rarely degrades the original performance of clean data. We experiment on MNIST, CIFAR10 and ImageNet data and show our method robust on state-of-the-art attack methods.
翻訳日:2022-12-28 01:47:30 公開日:2020-03-05
# 時系列モデリングのための時間畳み込み注意型ネットワーク

Temporal Convolutional Attention-based Network For Sequence Modeling ( http://arxiv.org/abs/2002.12530v2 )

ライセンス: Link先を確認
Hongyan Hao, Yan Wang, Yudi Xia, Jian Zhao, Furao Shen(参考訳) フィードフォワードモデルの開発により、シーケンスモデリングのデフォルトモデルが徐々に進化し、リカレントネットワークを置き換えるようになった。 畳み込みネットワークと注意機構に基づく多くの強力なフィードフォワードモデルが提案され、シーケンスモデリングタスクを扱う可能性を示した。 再帰ネットワークの近似置換を実現できるだけでなく、フィードフォワードモデルの利点を吸収できるアーキテクチャが存在するのかどうか疑問である。 そこで我々は,時間的畳み込みネットワークと注意機構を組み合わせた,時間的畳み込み型ネットワーク(TCAN)と呼ばれる探索的アーキテクチャを提案する。 tcanには、シーケンス内の関連する特徴をキャプチャするtemporal attention(ta)と、浅い層の重要な情報を抽出して深層に転送するextrestent(er)という2つの部分が含まれている。 我々は,bpc/perplexityの最先端結果を,単語レベルでは26.92,文字レベルでは1.043,WikiText-2では6.66に改善した。

With the development of feed-forward models, the default model for sequence modeling has gradually evolved to replace recurrent networks. Many powerful feed-forward models based on convolutional networks and attention mechanism were proposed and show more potential to handle sequence modeling tasks. We wonder that is there an architecture that can not only achieve an approximate substitution of recurrent network, but also absorb the advantages of feed-forward models. So we propose an exploratory architecture referred to Temporal Convolutional Attention-based Network (TCAN) which combines temporal convolutional network and attention mechanism. TCAN includes two parts, one is Temporal Attention (TA) which captures relevant features inside the sequence, the other is Enhanced Residual (ER) which extracts shallow layer's important information and transfers to deep layers. We improve the state-of-the-art results of bpc/perplexity to 26.92 on word-level PTB, 1.043 on character-level PTB, and 6.66 on WikiText-2.
翻訳日:2022-12-28 01:29:38 公開日:2020-03-05
# ビデオフィードによる時間的問い合わせの評価

Evaluating Temporal Queries Over Video Feeds ( http://arxiv.org/abs/2003.00953v3 )

ライセンス: Link先を確認
Yueting Chen and Xiaohui Yu and Nick Koudas(参考訳) 最近のコンピュータビジョンとディープラーニングの進歩により、ストリーミングビデオのフレームからスキーマを効率的に抽出できるようになった。 このように、オブジェクトのストリームとその関連するクラスと、オブジェクト追跡によって派生したユニークなオブジェクト識別子を生成することができ、フレーム間でキャプチャされるユニークなオブジェクトを提供する。 本稿では,ビデオフィードにおけるオブジェクトとその共起に関する時間的クエリの研究を開始する。 例えば、同じ2台の赤い車と同じ2台の人間が5分間共同で現れるビデオセグメントを識別するクエリは、法執行機関からセキュリティ、安全に至るまで、多くのアプリケーションに関心がある。 第一歩を踏み出し、オブジェクトのオクルージョンのようなビデオキャプチャの物理的な側面を組み込む方法で、そのようなクエリを定義します。 本稿では,オブジェクト検出/追跡,中間データ生成,クエリ評価という3つのレイヤからなるアーキテクチャを提案する。 本稿では,中間データ生成層における全ての検出対象を整理するMFSとSSGの2つの手法を提案する。 また,ssgに対して入力フレームを処理し,クエリ評価とは無関係なオブジェクトやフレームを効率的にプルーピングするstate traversal(st)と呼ばれるアルゴリズムを導入し,簡潔なクエリ評価に必要なすべての状態を維持した。 MFSとSSGのトレードオフを確立するために,実データと合成データの両方を用いた詳細な実験結果を示す。 提案手法と提案アルゴリズムを組み合わせることで,ビデオフィード上での時間的クエリを効率的に評価し,性能上のメリットのオーダーを達成できることを示す。

Recent advances in Computer Vision and Deep Learning made possible the efficient extraction of a schema from frames of streaming video. As such, a stream of objects and their associated classes along with unique object identifiers derived via object tracking can be generated, providing unique objects as they are captured across frames. In this paper we initiate a study of temporal queries involving objects and their co-occurrences in video feeds. For example, queries that identify video segments during which the same two red cars and the same two humans appear jointly for five minutes are of interest to many applications ranging from law enforcement to security and safety. We take the first step and define such queries in a way that they incorporate certain physical aspects of video capture such as object occlusion. We present an architecture consisting of three layers, namely object detection/tracking, intermediate data generation and query evaluation. We propose two techniques,MFS and SSG, to organize all detected objects in the intermediate data generation layer, which effectively, given the queries, minimizes the number of objects and frames that have to be considered during query evaluation. We also introduce an algorithm called State Traversal (ST) that processes incoming frames against the SSG and efficiently prunes objects and frames unrelated to query evaluation, while maintaining all states required for succinct query evaluation. We present the results of a thorough experimental evaluation utilizing both real and synthetic data establishing the trade-offs between MFS and SSG. We stress various parameters of interest in our evaluation and demonstrate that the proposed query evaluation methodology coupled with the proposed algorithms is capable to evaluate temporal queries over video feeds efficiently, achieving orders of magnitude performance benefits.
翻訳日:2022-12-27 04:57:07 公開日:2020-03-05
# 確率微分可能確率プログラム

Stochastically Differentiable Probabilistic Programs ( http://arxiv.org/abs/2003.00704v2 )

ライセンス: Link先を確認
David Tolpin, Yuan Zhou, Hongseok Yang(参考訳) 多くの確率的プログラミングシステム(PPS)において、混合サポート(連続変数と離散確率変数の両方)を持つ確率的プログラムが一般的に現れる。 しかし、離散確率変数の存在は、多くの基本的な勾配に基づく推論エンジンを禁止しており、そのようなモデルでの推論手順は特に困難である。 既存のPSは、ユーザが手動で個別変数を疎外するか、個別変数と連続変数を別々に推論することで構成推論を実行する必要がある。 前者はほとんどの場合不可能であるが、後者には根本的な欠点がある。 本稿では,確率勾配マルコフ連鎖モンテカルロ系アルゴリズムを用いたプログラムにおいて,効率的かつロバストな推論手法を提案する。 確率的勾配に基づく推論アルゴリズムを,混合サポートを持つ確率的プログラムのいくつかの重要なケースにおいて従来のベースラインと比較し,既存の構成的推論ベースラインよりも優れており,プログラムの辺縁化バージョンでの推論と同様に動作することを示した。

Probabilistic programs with mixed support (both continuous and discrete latent random variables) commonly appear in many probabilistic programming systems (PPSs). However, the existence of the discrete random variables prohibits many basic gradient-based inference engines, which makes the inference procedure on such models particularly challenging. Existing PPSs either require the user to manually marginalize out the discrete variables or to perform a composing inference by running inference separately on discrete and continuous variables. The former is infeasible in most cases whereas the latter has some fundamental shortcomings. We present a novel approach to run inference efficiently and robustly in such programs using stochastic gradient Markov Chain Monte Carlo family of algorithms. We compare our stochastic gradient-based inference algorithm against conventional baselines in several important cases of probabilistic programs with mixed support, and demonstrate that it outperforms existing composing inference baselines and works almost as well as inference in marginalized versions of the programs, but with less programming effort and at a lower computation cost.
翻訳日:2022-12-27 04:21:29 公開日:2020-03-05
# 会話型感情認識のための補助話者識別によるマルチタスク学習

Multi-Task Learning with Auxiliary Speaker Identification for Conversational Emotion Recognition ( http://arxiv.org/abs/2003.01478v2 )

ライセンス: Link先を確認
Jingye Li, Meishan Zhang, Donghong Ji, Yijiang Liu(参考訳) 会話感情認識(CER)は、自然言語処理(NLP)コミュニティへの関心が高まっている。 バニラ感情認識とは異なり、効果的な話者感性発話表現はcerにとって大きな課題である。 本稿では,会話における発話表現を高めるために,話者識別(SI)を補助課題として活用する。 この方法では、追加のsiコーパスからより優れた話者認識コンテキスト表現を学習できる。 2つのベンチマークデータセットの実験では、提案されたアーキテクチャがCERに極めて有効であることが示され、2つのデータセットで新たな最先端結果が得られる。

Conversational emotion recognition (CER) has attracted increasing interests in the natural language processing (NLP) community. Different from the vanilla emotion recognition, effective speaker-sensitive utterance representation is one major challenge for CER. In this paper, we exploit speaker identification (SI) as an auxiliary task to enhance the utterance representation in conversations. By this method, we can learn better speaker-aware contextual representations from the additional SI corpus. Experiments on two benchmark datasets demonstrate that the proposed architecture is highly effective for CER, obtaining new state-of-the-art results on two datasets.
翻訳日:2022-12-26 23:08:49 公開日:2020-03-05
# cluecorpus2020:事前学習言語モデルのための大規模中国語コーパス

CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model ( http://arxiv.org/abs/2003.01355v2 )

ライセンス: Link先を確認
Liang Xu, Xuanwei Zhang, Qianqian Dong(参考訳) 本稿では,CLUE 組織 CLUECorpus2020 の中国語コーパスについて紹介する。CLUECorpus2020 は大規模コーパスで,言語モデルの事前学習や言語生成などの自己教師型学習に直接使用することができる。 100gの生のコーパスと350億の漢字を持ち、一般的なクロールから取り出される。 このコーパスをよりよく理解するために,小・大規模の言語理解実験を行い,本コーパスで学習したモデルが中国語で優れた性能が得られることを示す。 私たちは8kサイズの新しい中国語語彙をリリースします。これはgoogleがリリースしている中国語bertの3分の1の語彙サイズです。 計算コストとメモリを節約し、元の語彙と同等に機能する。 このコーパスでは、トレーニング済みモデルの大型バージョンと小型バージョンもリリースしています。 前者は最先端の結果を達成し、後者はベルトベースに比べて8倍のトレーニングと予測速度を加速しながら、最も精度が高い。 中国における自己教師型学習の今後の取り組みを促進するため、Githubでデータセット、新しい語彙、コード、事前訓練されたモデルをリリースしています。

In this paper, we introduce the Chinese corpus from CLUE organization, CLUECorpus2020, a large-scale corpus that can be used directly for self-supervised learning such as pre-training of a language model, or language generation. It has 100G raw corpus with 35 billion Chinese characters, which is retrieved from Common Crawl. To better understand this corpus, we conduct language understanding experiments on both small and large scale, and results show that the models trained on this corpus can achieve excellent performance on Chinese. We release a new Chinese vocabulary with a size of 8K, which is only one-third of the vocabulary size used in Chinese Bert released by Google. It saves computational cost and memory while works as good as original vocabulary. We also release both large and tiny versions of the pre-trained model on this corpus. The former achieves the state-of-the-art result, and the latter retains most precision while accelerating training and prediction speed for eight times compared to Bert-base. To facilitate future work on self-supervised learning on Chinese, we release our dataset, new vocabulary, codes, and pre-trained models on Github.
翻訳日:2022-12-26 22:43:35 公開日:2020-03-05
# 接点のない神経核

Neural Kernels Without Tangents ( http://arxiv.org/abs/2003.02237v2 )

ライセンス: Link先を確認
Vaishaal Shankar, Alex Fang, Wenshuo Guo, Sara Fridovich-Keil, Ludwig Schmidt, Jonathan Ragan-Kelley, Benjamin Recht(参考訳) カーネル空間におけるニューラルネットワークと単純なビルディングブロックの接続について検討する。 特に、直接和、平均化、モーメントリフティングといったよく確立された特徴空間ツールを用いて、特徴の袋から「結合」カーネルを作成するための代数を提示する。 これらの操作は「神経タンジェントカーネル(NTK)」の構成要素の多くに対応していることを示す。 実験の結果,ニューラルネットワークアーキテクチャとカーネル間のテストエラーには相関関係があることが判明した。 CIFAR10では3x3畳み込み、2x2平均プーリング、2x2平均プーリング、ReLUのみを使用して単純なニューラルネットワークアーキテクチャを構築し、96%の精度でSGDとMSE損失を最適化し、対応する合成カーネルが90%の精度を達成する。 また, ニューラルネットワーク, NTK, および合成カーネルの相対的性能を, 小さなデータセット構造で調査するためにも利用した。 特に、構成カーネルはNTKよりも優れ、ニューラルネットワークは両方のカーネルメソッドより優れています。

We investigate the connections between neural networks and simple building blocks in kernel space. In particular, using well established feature space tools such as direct sum, averaging, and moment lifting, we present an algebra for creating "compositional" kernels from bags of features. We show that these operations correspond to many of the building blocks of "neural tangent kernels (NTK)". Experimentally, we show that there is a correlation in test error between neural network architectures and the associated kernels. We construct a simple neural network architecture using only 3x3 convolutions, 2x2 average pooling, ReLU, and optimized with SGD and MSE loss that achieves 96% accuracy on CIFAR10, and whose corresponding compositional kernel achieves 90% accuracy. We also use our constructions to investigate the relative performance of neural networks, NTKs, and compositional kernels in the small dataset regime. In particular, we find that compositional kernels outperform NTKs and neural networks outperform both kernel methods.
翻訳日:2022-12-26 12:33:28 公開日:2020-03-05
# 分類ネットワークにおけるJPEG量子化の最適化

Optimizing JPEG Quantization for Classification Networks ( http://arxiv.org/abs/2003.02874v1 )

ライセンス: Link先を確認
Zhijing Li, Christopher De Sa, Adrian Sampson(参考訳) コンピュータビジョンのディープラーニングは、画像圧縮の損失に依存する。トレーニングやテストデータに必要なストレージを削減し、デプロイメントにおける転送コストを低減します。 メインストリームのデータセットとイメージングパイプラインはすべて、標準のJPEG圧縮に依存している。 JPEGでは、周波数係数の量子化の度合いが損失性を制御する:8×8量子化テーブル(Q−table)は符号化画像の品質と圧縮比の両方を決定する。 長い仕事の歴史でより良いqテーブルを求めてきたが、既存の仕事は、画像の歪みを最小化したり、人間の視覚システムのモデルに最適化することを目的としている。 この研究は、JPEG Q-tablesが特定のビジョンネットワークに対して“より優れた”存在であり、人間の知覚や最小限の歪みのために設計されたものよりも優れた品質のトレードオフを提供できるかどうかを問う。 我々は、新しいQテーブルの下でJPEG圧縮の効果を探るため、高解像度の画像Netテストセットを再構成する。 視覚タスクにQテーブルをチューニングするためのいくつかのアプローチを試みる。 単純なソートされたランダムサンプリング手法は、標準JPEG Q-tableの性能を超えることができる。 また,境界付きランダム探索,ベイズ最適化,複合ヒューリスティック最適化といったハイパーパラメータチューニング手法も使用する。 得られた新しいQテーブルは、精度が固定されたときに圧縮率を10%から200%向上させることができる。

Deep learning for computer vision depends on lossy image compression: it reduces the storage required for training and test data and lowers transfer costs in deployment. Mainstream datasets and imaging pipelines all rely on standard JPEG compression. In JPEG, the degree of quantization of frequency coefficients controls the lossiness: an 8 by 8 quantization table (Q-table) decides both the quality of the encoded image and the compression ratio. While a long history of work has sought better Q-tables, existing work either seeks to minimize image distortion or to optimize for models of the human visual system. This work asks whether JPEG Q-tables exist that are "better" for specific vision networks and can offer better quality--size trade-offs than ones designed for human perception or minimal distortion. We reconstruct an ImageNet test set with higher resolution to explore the effect of JPEG compression under novel Q-tables. We attempt several approaches to tune a Q-table for a vision task. We find that a simple sorted random sampling method can exceed the performance of the standard JPEG Q-table. We also use hyper-parameter tuning techniques including bounded random search, Bayesian optimization, and composite heuristic optimization methods. The new Q-tables we obtained can improve the compression rate by 10% to 200% when the accuracy is fixed, or improve accuracy up to $2\%$ at the same compression rate.
翻訳日:2022-12-26 07:50:13 公開日:2020-03-05
# 接続車両環境におけるリアルタイムサイバー攻撃検出のための変更点モデル

Change Point Models for Real-time Cyber Attack Detection in Connected Vehicle Environment ( http://arxiv.org/abs/2003.04185v1 )

ライセンス: Link先を確認
Gurcan Comert, Mizanur Rahman, Mhafuzul Islam, and Mashrur Chowdhury(参考訳) 接続車両(CV)システムは、車両、道路インフラストラクチャ、交通管理センターなど、さまざまなコンポーネント間の接続が増加するため、サイバー攻撃の可能性を認識している。 しかし,このような攻撃の動的挙動,高い計算力要件,検出モデルのトレーニングのための履歴データ要求などにより,リアルタイムにセキュリティ脅威を検出し,CVシステムに対して適切な,あるいは効果的な対策を開発することは困難である。 これらの課題に対処するため、統計モデル、特に変化点モデルには、リアルタイムな異常検出の可能性がある。 本研究の目的は,CV環境下でのV2Iサイバー攻撃検出における2つの変化点モデル,期待最大化(EM)と2種類の累積要約(CUSUM)アルゴリズム(典型的,適応的)の有効性を検討することである。 これらのモデルの有効性を証明するため,CVから生成された基本安全メッセージ(BSM)を用いて,これらのモデルを用いて,3種類のサイバー攻撃,DOS(DoS)の否定,偽情報の評価を行った。 解析の結果、EM、CUSUM、適応CUSUMは、これらのサイバー攻撃、DOS、偽造、偽情報を検出でき、それぞれ99%、100%、100%、98%、10%、100%、100%、100%、100%、100%、100%、100%、100%)。

Connected vehicle (CV) systems are cognizant of potential cyber attacks because of increasing connectivity between its different components such as vehicles, roadside infrastructure, and traffic management centers. However, it is a challenge to detect security threats in real-time and develop appropriate or effective countermeasures for a CV system because of the dynamic behavior of such attacks, high computational power requirement, and a historical data requirement for training detection models. To address these challenges, statistical models, especially change point models, have potentials for real-time anomaly detections. Thus, the objective of this study is to investigate the efficacy of two change point models, Expectation Maximization (EM) and two forms of Cumulative Summation (CUSUM) algorithms (i.e., typical and adaptive), for real-time V2I cyber attack detection in a CV Environment. To prove the efficacy of these models, we evaluated these two models for three different type of cyber attack, denial of service (DOS), impersonation, and false information, using basic safety messages (BSMs) generated from CVs through simulation. Results from numerical analysis revealed that EM, CUSUM, and adaptive CUSUM could detect these cyber attacks, DOS, impersonation, and false information, with an accuracy of (99%, 100%, 100%), (98%, 10%, 100%), and (100%, 98%, 100%) respectively.
翻訳日:2022-12-26 07:49:39 公開日:2020-03-05
# 不均一多コアアーキテクチャによるストリーミング並列処理の最適化:機械学習に基づくアプローチ

Optimizing Streaming Parallelism on Heterogeneous Many-Core Architectures: A Machine Learning Based Approach ( http://arxiv.org/abs/2003.04294v1 )

ライセンス: Link先を確認
Peng Zhang, Jianbin Fang, Canqun Yang, Chun Huang, Tao Tang, Zheng Wang(参考訳) 本稿では、異種多コアアーキテクチャ上のタスクベース並列アプリケーションにおいて、ハードウェアリソース分割とタスク粒度に関する優れたソリューションを迅速に導き出すための自動アプローチを提案する。 提案手法では,与えられたリソース分割とタスクの粒度設定に基づいて,対象アプリケーションの性能を推定するために性能モデルを用いる。 このモデルは実行時に優れた設定を素早く検索するためのユーティリティとして使用される。 低レベルのハードウェアの詳細に関する専門家の洞察を必要とする分析モデルを手作りする代わりに、機械学習技術を使ってそれを自動学習します。 まず、トレーニングプログラムを用いて予測モデルをオフラインで学習する。 学習したモデルは実行時に見えないプログラムのパフォーマンスを予測するために使用できる。 我々は39の並列アプリケーションに適用し、CPU-XeonPhiプラットフォームとCPU-GPUプラットフォームという2つの代表的異種多コアプラットフォーム上で評価する。 シングルストリームバージョンと比較すると,XeonPhiとGPUプラットフォームでは,平均1.6倍,1.1倍のスピードアップを実現しています。 これらの結果は、理論上完璧な予測器による性能の93%以上に相当する。

This article presents an automatic approach to quickly derive a good solution for hardware resource partition and task granularity for task-based parallel applications on heterogeneous many-core architectures. Our approach employs a performance model to estimate the resulting performance of the target application under a given resource partition and task granularity configuration. The model is used as a utility to quickly search for a good configuration at runtime. Instead of hand-crafting an analytical model that requires expert insights into low-level hardware details, we employ machine learning techniques to automatically learn it. We achieve this by first learning a predictive model offline using training programs. The learnt model can then be used to predict the performance of any unseen program at runtime. We apply our approach to 39 representative parallel applications and evaluate it on two representative heterogeneous many-core platforms: a CPU-XeonPhi platform and a CPU-GPU platform. Compared to the single-stream version, our approach achieves, on average, a 1.6x and 1.1x speedup on the XeonPhi and the GPU platform, respectively. These results translate to over 93% of the performance delivered by a theoretically perfect predictor.
翻訳日:2022-12-26 07:49:14 公開日:2020-03-05
# ベイズ混合密度ネットワークを用いた個別クレーム予測

Individual Claims Forecasting with Bayesian Mixture Density Networks ( http://arxiv.org/abs/2003.02453v1 )

ライセンス: Link先を確認
Kevin Kuo(参考訳) 本稿では,ケース保存やトリアージといったクレーム分析タスクに使用できるベイズ混合密度ネットワークを利用した個々のクレーム予測フレームワークを提案する。 提案手法は,構造化データと非構造化データの両方からの請求情報を取り入れ,複数周期キャッシュフロー予測を生成し,将来の支払いパターンの異なるシナリオを生成する。 利用可能なデータを用いてモデリングフレームワークの実装と評価を行う。

We introduce an individual claims forecasting framework utilizing Bayesian mixture density networks that can be used for claims analytics tasks such as case reserving and triaging. The proposed approach enables incorporating claims information from both structured and unstructured data sources, producing multi-period cash flow forecasts, and generating different scenarios of future payment patterns. We implement and evaluate the modeling framework using publicly available data.
翻訳日:2022-12-26 07:46:18 公開日:2020-03-05
# DANTE: ダークネットトラフィックのマイニングと監視のためのフレームワーク

DANTE: A framework for mining and monitoring darknet traffic ( http://arxiv.org/abs/2003.02575v1 )

ライセンス: Link先を確認
Dvir Cohen, Yisroel Mirsky, Yuval Elovici, Rami Puzis, Manuel Kamp, Tobias Martin, Asaf Shabtai(参考訳) 数兆ものネットワークパケットがインターネット経由で、存在しない宛先に送られる。 この 'darknet' トラフィックは、世界中のデバイスを発見し、妥協することを目的としたボットネットやその他の悪意あるキャンペーンの活動を捉えている。 このデータから脅威情報を発掘するには、ログの大規模なストリームを処理し、トラフィックパターンを有意義な方法で表現する必要がある。 しかし、ネットワークポート(サービス)の使い方を観察することで、各送信の意図を捉えることができる。 本稿では,ダークネットトラフィックマイニングのためのフレームワークとアルゴリズムであるdanteを提案する。 DANTEは、観測されたポートシーケンスにWord2Vecを適用することで、ターゲットネットワークポートの意味を学習する。 そして、ホストが新しいシーケンスを送信すると、DANTEはそのシーケンスを発見したポートの平均埋め込みとして送信を表す。 最後に、danteは、観測されたシーケンス上の新しい増分時系列のクラスタ追跡アルゴリズムを使用して、繰り返し発生する振る舞いや新たな脅威を検出する。 このシステムを評価するために、ヨーロッパ最大の通信事業者であるDeutsche Telekomが収集したダークネットトラフィック(3テラバイト以上)を1年間のDANTEで実行し、その結果を分析した。 DANTEは新たに1,177件の脅威を発見し、悪質なキャンペーンを追跡できた。 また、DANTEを現在の最良のアプローチと比較し、DANTEがダークネットトラフィックパターンの検出により実用的で効果的であることを発見した。

Trillions of network packets are sent over the Internet to destinations which do not exist. This 'darknet' traffic captures the activity of botnets and other malicious campaigns aiming to discover and compromise devices around the world. In order to mine threat intelligence from this data, one must be able to handle large streams of logs and represent the traffic patterns in a meaningful way. However, by observing how network ports (services) are used, it is possible to capture the intent of each transmission. In this paper, we present DANTE: a framework and algorithm for mining darknet traffic. DANTE learns the meaning of targeted network ports by applying Word2Vec to observed port sequences. Then, when a host sends a new sequence, DANTE represents the transmission as the average embedding of the ports found that sequence. Finally, DANTE uses a novel and incremental time-series cluster tracking algorithm on observed sequences to detect recurring behaviors and new emerging threats. To evaluate the system, we ran DANTE on a full year of darknet traffic (over three Tera-Bytes) collected by the largest telecommunications provider in Europe, Deutsche Telekom and analyzed the results. DANTE discovered 1,177 new emerging threats and was able to track malicious campaigns over time. We also compared DANTE to the current best approach and found DANTE to be more practical and effective at detecting darknet traffic patterns.
翻訳日:2022-12-26 07:45:31 公開日:2020-03-05
# 順序対象変数のモデル選択における新しいアプローチ

A new approach in model selection for ordinal target variables ( http://arxiv.org/abs/2003.02761v1 )

ライセンス: Link先を確認
Elena Ballante (1), Pierpaolo Uberti (2), Silvia Figini (3) ((1) Department of Mathematics, University of Pavia, (2) Department of Economics, University of Genova, (3) Department of Political and Social Sciences, University of Pavia)(参考訳) 本稿では,このフレームワークにおける適切なツールの欠如を満たすために,順序的対象変数を特徴とする予測モデルのモデル性能を評価する新しい手法を提案する。 本提案手法は,数学的性質を満足し,容易に計算可能なモデル評価のための新しい指標である。 評価指標の動作を示すために,おもちゃの例と模擬データで得られた実証的証拠を提示する。 本研究の結果から,本論文で提案する性能指標に対するモデル選択において,本手法がより優れていることが示唆された。

This paper introduces a novel approach to assess model performance for predictive models characterized by an ordinal target variable in order to satisfy the lack of suitable tools in this framework. Our methodological proposal is a new index for model assessment which satisfies mathematical properties and can be easily computed. In order to show how our performance indicator works, empirical evidence achieved on a toy examples and simulated data are provided. On the basis of results at hand, we underline that our approach discriminates better for model selection with respect to performance indexes proposed in the literature.
翻訳日:2022-12-26 07:44:40 公開日:2020-03-05
# 視覚模倣学習の幾何学的展望

A Geometric Perspective on Visual Imitation Learning ( http://arxiv.org/abs/2003.02768v1 )

ライセンス: Link先を確認
Jun Jin, Laura Petrich, Masood Dehghan and Martin Jagersand(参考訳) 視覚模倣学習の課題は,人間による指導(審美的指導や遠隔操作など)や,対話型強化学習(rl)訓練環境へのアクセスを伴わない。 この問題に対する解を導出するための幾何学的視点を示す。 具体的には、人間のデモビデオフレームから一貫した幾何学的特徴関連ルールを推論するために、エンドツーエンドの幾何学的パラメータ化タスク概念推論手法であるVGS-IL(Visual Geometric Skill Imitation Learning)を提案する。 画像画素からアクションを学習する代わりに、幾何学的パラメータ化タスクの概念を学習することで、様々な環境条件下でデモンストレータ間で説明可能で不変な表現を提供する。 さらに、このようなタスク概念表現は、幾何学的視覚ベースのコントローラ(例えば視覚サーボ)との直接リンクを提供し、高レベルのタスク概念を低レベルのロボットアクションに効率的なマッピングを可能にする。

We consider the problem of visual imitation learning without human supervision (e.g. kinesthetic teaching or teleoperation), nor access to an interactive reinforcement learning (RL) training environment. We present a geometric perspective to derive solutions to this problem. Specifically, we propose VGS-IL (Visual Geometric Skill Imitation Learning), an end-to-end geometry-parameterized task concept inference method, to infer globally consistent geometric feature association rules from human demonstration video frames. We show that, instead of learning actions from image pixels, learning a geometry-parameterized task concept provides an explainable and invariant representation across demonstrator to imitator under various environmental settings. Moreover, such a task concept representation provides a direct link with geometric vision based controllers (e.g. visual servoing), allowing for efficient mapping of high-level task concepts to low-level robot actions.
翻訳日:2022-12-26 07:44:32 公開日:2020-03-05
# フィードフォワードニューラルネットワークを用いたメモリコンパイラの性能予測

Predicting Memory Compiler Performance Outputs using Feed-Forward Neural Networks ( http://arxiv.org/abs/2003.03269v1 )

ライセンス: Link先を確認
Felix Last, Max Haeberlein, Ulf Schlichtmann(参考訳) 典型的な半導体チップには数千の小さな記憶が含まれている。 メモリはチップ全体の電力、性能、面積(PPA)に25%から40%の寄与があるので、システムの要件を満たすように慎重に設計する必要がある。 メモリアレイは非常に均一であり、周辺領域の複雑さに大きく依存する約10のパラメータで記述できる。 したがって、PPA利用を改善するために、メモリコンパイラーによって通常メモリが生成される。 チップの設計フローにおける重要な課題は、一方がシステム要件を満たし、他方がPPAを最適化する最適なメモリコンパイラパラメトリゼーションを見つけることである。 ほとんどのコンパイラベンダーはこのタスクのオプティマイザも提供しているが、これらはしばしば遅いか不正確である。 長いコンパイラ実行時間にもかかわらず、効率的な最適化を実現するため、メモリコンパイラのパラメトリゼーションによりPPA出力を予測するために、完全に接続されたフィードフォワードニューラルネットワークのトレーニングを提案する。 ニューラルネットワーク予測を得るサーチベースオプティマイザフレームワークを使用して、ppa最適化は、チップ設計者が要求を指定してから数秒以内に見つかる。 平均モデル予測誤差は3%未満であり、決定信頼性は99%を超え、大容量チップ設計プロジェクトの成功のために最適化器の生産的利用は、このアプローチの有効性を示している。

Typical semiconductor chips include thousands of mostly small memories. As memories contribute an estimated 25% to 40% to the overall power, performance, and area (PPA) of a chip, memories must be designed carefully to meet the system's requirements. Memory arrays are highly uniform and can be described by approximately 10 parameters depending mostly on the complexity of the periphery. Thus, to improve PPA utilization, memories are typically generated by memory compilers. A key task in the design flow of a chip is to find optimal memory compiler parametrizations which on the one hand fulfill system requirements while on the other hand optimize PPA. Although most compiler vendors also provide optimizers for this task, these are often slow or inaccurate. To enable efficient optimization in spite of long compiler run times, we propose training fully connected feed-forward neural networks to predict PPA outputs given a memory compiler parametrization. Using an exhaustive search-based optimizer framework which obtains neural network predictions, PPA-optimal parametrizations are found within seconds after chip designers have specified their requirements. Average model prediction errors of less than 3%, a decision reliability of over 99% and productive usage of the optimizer for successful, large volume chip design projects illustrate the effectiveness of the approach.
翻訳日:2022-12-26 07:44:16 公開日:2020-03-05
# MCMC加速器の統計的ロバスト性の定量化

Beyond Application End-Point Results: Quantifying Statistical Robustness of MCMC Accelerators ( http://arxiv.org/abs/2003.04223v1 )

ライセンス: Link先を確認
Xiangyu Zhang, Ramin Bashizade, Yicheng Wang, Cheng Lyu, Sayan Mukherjee, Alvin R. Lebeck(参考訳) 統計的機械学習は、マルコフ連鎖モンテカルロ(mcmc)のような確率論的アルゴリズムを使用して、幅広い問題を解決する。 従来のプロセッサでは遅すぎると見なされる確率計算は、並列性を活用し、様々な近似技術を用いて設計を最適化することで、特殊なハードウェアで高速化することができる。 確率的加速器の正しさを評価する現在の手法はしばしば不完全であり、主にエンドポイントの結果品質だけに焦点を当てている("accuracy")。 ハードウェア設計者やドメインの専門家は、エンドポイントの「正確さ」を超えて、ハードウェア最適化が他の統計特性に与える影響を意識することが重要である。 この研究は、計量を定義するための第一歩と、終点結果の品質を超えた確率的加速器の正しさを定量的に評価するための方法論である。 統計的堅牢性の3つの柱を提案する。 1)サンプリング品質 2)コンバージェンス診断、及び 3)適合の良さ。 本フレームワークをMCMCの代表的なアクセラレータに適用し,アプリケーションエンドポイント結果の品質だけでは公開できない表面設計問題について述べる。 設計空間探索を導くためのフレームワークを適用することで、浮動小数点ソフトウェアに匹敵する統計的堅牢性は、浮動小数点ハードウェアの要求なしにビット表現をわずかに増やすことで達成できることを示す。

Statistical machine learning often uses probabilistic algorithms, such as Markov Chain Monte Carlo (MCMC), to solve a wide range of problems. Probabilistic computations, often considered too slow on conventional processors, can be accelerated with specialized hardware by exploiting parallelism and optimizing the design using various approximation techniques. Current methodologies for evaluating correctness of probabilistic accelerators are often incomplete, mostly focusing only on end-point result quality ("accuracy"). It is important for hardware designers and domain experts to look beyond end-point "accuracy" and be aware of the hardware optimizations impact on other statistical properties. This work takes a first step towards defining metrics and a methodology for quantitatively evaluating correctness of probabilistic accelerators beyond end-point result quality. We propose three pillars of statistical robustness: 1) sampling quality, 2) convergence diagnostic, and 3) goodness of fit. We apply our framework to a representative MCMC accelerator and surface design issues that cannot be exposed using only application end-point result quality. Applying the framework to guide design space exploration shows that statistical robustness comparable to floating-point software can be achieved by slightly increasing the bit representation, without floating-point hardware requirements.
翻訳日:2022-12-26 07:43:55 公開日:2020-03-05
# 視差x線撮影から視差ローバスト矯正縫合まで

From Perspective X-ray Imaging to Parallax-Robust Orthographic Stitching ( http://arxiv.org/abs/2003.02959v1 )

ライセンス: Link先を確認
Javad Fotouhi, Xingtong Liu, Mehran Armand, Nassir Navab, Mathias Unberath(参考訳) 視点投影幾何学の下で取得されたステッチ画像は、スマートフォンのパノラマからデジタルマップの構築まで、複数の応用を含むコンピュータビジョンの関連するトピックである。 画像縫合は医療画像において同様に顕著な課題であり、単一の画像によって捉えられる視野の制限は、患者の解剖の全体的分析を禁止している。 2d画像のストレートフォワードモザイクを防止する障壁はパララックスによる深さミスマッチである。 本研究では, フーリエスライス定理を活用し, x線画像形成の基本原理を用いてパララックスフリー領域における複数の伝送画像からの情報を集約する。 縫合画像のセマンティクスは、周波数を中心に設計された類似度と密集した空間画像の内容を利用する新しい深層学習戦略を用いて復元される。 私たちのパイプラインは、画像を縫い合わせるだけでなく、2d画像平面上で臨床的に関連のある量の計測を可能にする正書法再構成も行います。

Stitching images acquired under perspective projective geometry is a relevant topic in computer vision with multiple applications ranging from smartphone panoramas to the construction of digital maps. Image stitching is an equally prominent challenge in medical imaging, where the limited field-of-view captured by single images prohibits holistic analysis of patient anatomy. The barrier that prevents straight-forward mosaicing of 2D images is depth mismatch due to parallax. In this work, we leverage the Fourier slice theorem to aggregate information from multiple transmission images in parallax-free domains using fundamental principles of X-ray image formation. The semantics of the stitched image are restored using a novel deep learning strategy that exploits similarity measures designed around frequency, as well as dense and sparse spatial image content. Our pipeline, not only stitches images, but also provides orthographic reconstruction that enables metric measurements of clinically relevant quantities directly on the 2D image plane.
翻訳日:2022-12-26 07:37:26 公開日:2020-03-05
# 希薄な注釈画像からの質量推定のための一般化半教師付き学習法

Generalizable semi-supervised learning method to estimate mass from sparsely annotated images ( http://arxiv.org/abs/2003.03192v1 )

ライセンス: Link先を確認
Muhammad K.A. Hamdan, Diane T. Rover, Matthew J. Darr, John Just(参考訳) 質量流量推定はいくつかの産業にとって非常に重要であり、費用の制限や一般実現可能性のために正確な見積もりを得ることは非常に困難である。 農業応用の文脈では、収量モニタリングは精密農業の重要な要素であり、質量フローは測定する上で重要な要素である。 質量フローの測定は、フィールド生産性分析、コスト最小化、機械効率の調整を可能にする。 質量流の測定にはボリュームやフォース・インパクトなどの手法が用いられてきたが、用途や精度は限られている。 本研究では,運転中のサトウキビ収穫機上でリアルタイムに動作中のサトウキビの質量を正確に推定するビジョンシステムを開発した。 質量フローを推定するために使用されるディープラーニングアルゴリズムは、最終荷重重量(一定期間の凝集重量)のみを用いて、非常に小さな注釈付き画像(半教師付き画像)を用いて訓練される。 ディープ・ニューラル・ネットワーク(DNN)はサトウキビの質量を正確に捉え、画像に非常に異なる照明色と物質色があるにもかかわらず、古いボリュームベースの手法を超えることに成功した。 深層ニューラルネットワークは、まず実験データ(bamboo)の質量を予測するように訓練され、その後転送学習を使用して同じ方法でサトウキビの質量を推定する。 比較的軽量な深層ニューラルネットワークを用いた視覚システムでは,サトウキビ選択期の平均誤差4.5%,5.9%で竹の質量を推定できる。

Mass flow estimation is of great importance to several industries, and it can be quite challenging to obtain accurate estimates due to limitation in expense or general infeasibility. In the context of agricultural applications, yield monitoring is a key component to precision agriculture and mass flow is the critical factor to measure. Measuring mass flow allows for field productivity analysis, cost minimization, and adjustments to machine efficiency. Methods such as volume or force-impact have been used to measure mass flow; however, these methods are limited in application and accuracy. In this work, we use deep learning to develop and test a vision system that can accurately estimate the mass of sugarcane while running in real-time on a sugarcane harvester during operation. The deep learning algorithm that is used to estimate mass flow is trained using very sparsely annotated images (semi-supervised) using only final load weights (aggregated weights over a certain period of time). The deep neural network (DNN) succeeds in capturing the mass of sugarcane accurately and surpasses older volumetric-based methods, despite highly varying lighting and material colors in the images. The deep neural network is initially trained to predict mass on laboratory data (bamboo) and then transfer learning is utilized to apply the same methods to estimate mass of sugarcane. Using a vision system with a relatively lightweight deep neural network we are able to estimate mass of bamboo with an average error of 4.5% and 5.9% for a select season of sugarcane.
翻訳日:2022-12-26 07:37:11 公開日:2020-03-05
# 画像からの植物病検出

Plant Disease Detection from Images ( http://arxiv.org/abs/2003.05379v1 )

ライセンス: Link先を確認
Anjaneya Teja Sarma Kalvakolanu(参考訳) 植物病の検出は大きな問題であり、しばしば病気を検出するのに専門的な助けを必要とする。 この研究は、植物の葉の画像から植物に影響を及ぼす病気の種類を検出するディープラーニングモデルの構築に焦点を当てている。 深層学習は、伝達学習を実行することで畳み込みニューラルネットワークの助けを借りて行われる。 このモデルは転送学習を用いて作成され、resnet 34とresnet 50の両方で実験され、判別学習がより良い結果をもたらすことを実証する。 この手法は、使用するデータセットのアート結果の状態を達成した。 主な目標は、植物病を検出するための専門的な支援を減らし、できるだけ多くの人にこのモデルを利用できるようにすることだ。

Plant disease detection is a huge problem and often require professional help to detect the disease. This research focuses on creating a deep learning model that detects the type of disease that affected the plant from the images of the leaves of the plants. The deep learning is done with the help of Convolutional Neural Network by performing transfer learning. The model is created using transfer learning and is experimented with both resnet 34 and resnet 50 to demonstrate that discriminative learning gives better results. This method achieved state of art results for the dataset used. The main goal is to lower the professional help to detect the plant diseases and make this model accessible to as many people as possible.
翻訳日:2022-12-26 07:36:45 公開日:2020-03-05
# データを用いた偏微分方程式における未知過程の復元法

Methods to Recover Unknown Processes in Partial Differential Equations Using Data ( http://arxiv.org/abs/2003.02387v1 )

ライセンス: Link先を確認
Zhen Chen, Kailiang Wu, Dongbin Xiu(参考訳) 本研究では, 時間依存偏微分方程式(PDE)に埋め込まれた未知の過程を観測データを用いて同定し, 対流拡散型PDEへの応用について検討する。 まず、問題の解決可能性を確保するために理論的解析と導出条件を導出する。 次に,ガレルキン型アルゴリズムとコロケーション型アルゴリズムを含む数値的な手法を提案する。 アルゴリズムの解析と実装の詳細が提示される。 ガレルキンアルゴリズムは、微分/階調データの使用を避けるため、特にノイズの多いデータを扱う場合により適している。 次に,数値手法の性能と特性を示すため,様々な数値例を示す。

We study the problem of identifying unknown processes embedded in time-dependent partial differential equation (PDE) using observational data, with an application to advection-diffusion type PDE. We first conduct theoretical analysis and derive conditions to ensure the solvability of the problem. We then present a set of numerical approaches, including Galerkin type algorithm and collocation type algorithm. Analysis of the algorithms are presented, along with their implementation detail. The Galerkin algorithm is more suitable for practical situations, particularly those with noisy data, as it avoids using derivative/gradient data. Various numerical examples are then presented to demonstrate the performance and properties of the numerical methods.
翻訳日:2022-12-26 07:35:59 公開日:2020-03-05
# fMRI解析のための機能モードの微粒化

Fine-grain atlases of functional modes for fMRI analysis ( http://arxiv.org/abs/2003.05405v1 )

ライセンス: Link先を確認
Kamalaker Dadi (PARIETAL), Ga\"el Varoquaux (PARIETAL), Antonia Machlouzarides-Shalit (PARIETAL), Krzysztof J. Gorgolewski, Demian Wassermann (PARIETAL), Bertrand Thirion (PARIETAL), Arthur Mensch (DMA, PARIETAL)(参考訳) 人口画像は機能的画像データセットのサイズを大きくし、個体間差の神経基盤に新たな光を放つ。 これらの大規模データを分析するには、新しいスケーラビリティの課題、計算、統計が伴う。 そのため、脳画像は通常、脳のアトラスや機能モードによるボクセルレベルの測定を減少させるなど、いくつかの信号で要約される。 多くのデータ分析は、これらの減少した信号から始まるため、対応する脳ネットワークのよい選択が重要である。 64から1024のネットワークからなる機能的モードのアトラスを,精細に解き明かした。 これらの機能的モードの辞書(DiFuMo)は、合計2.4TBのfMRI機能的脳の数百万の量を訓練しており、27以上の研究と多くの研究グループにまたがっている。 12,334の脳反応からの刺激デコード、セッションや個人間でのfMRIの標準GLM分析、2500人以上の静止状態機能結合バイオマーカーの抽出、データ圧縮およびメタ分析など、多くの古典的な機能的データ分析パイプラインにおいて、微細結晶の信号の除去の利点を実証する。 これらの分析のそれぞれにおいて、機能的アトラスと他の一般的な参照のパフォーマンスを比較し、簡単なボクセルレベル解析と比較する。 その結果、高次元の「ソフト」機能アトラスを用いて脳活動の表現と分析を行い、機能的勾配を捉えることの重要性を強調した。 高次元モードの解析はボクセルレベルでも同様の統計性能を達成するが、計算コストは大幅に削減され、解釈性も向上した。 利用可能なだけでなく、解剖学的位置に基づいて、これらのモードに意味のある名前を提供する。 結果の報告を容易にする。

Population imaging markedly increased the size of functional-imaging datasets, shedding new light on the neural basis of inter-individual differences. Analyzing these large data entails new scalability challenges, computational and statistical. For this reason, brain images are typically summarized in a few signals, for instance reducing voxel-level measures with brain atlases or functional modes. A good choice of the corresponding brain networks is important, as most data analyses start from these reduced signals. We contribute finely-resolved atlases of functional modes, comprising from 64 to 1024 networks. These dictionaries of functional modes (DiFuMo) are trained on millions of fMRI functional brain volumes of total size 2.4TB, spanned over 27 studies and many research groups. We demonstrate the benefits of extracting reduced signals on our fine-grain atlases for many classic functional data analysis pipelines: stimuli decoding from 12,334 brain responses, standard GLM analysis of fMRI across sessions and individuals, extraction of resting-state functional-connectomes biomarkers for 2,500 individuals, data compression and meta-analysis over more than 15,000 statistical maps. In each of these analysis scenarii, we compare the performance of our functional atlases with that of other popular references, and to a simple voxel-level analysis. Results highlight the importance of using high-dimensional "soft" functional atlases, to represent and analyse brain activity while capturing its functional gradients. Analyses on high-dimensional modes achieve similar statistical performance as at the voxel level, but with much reduced computational cost and higher interpretability. In addition to making them available, we provide meaningful names for these modes, based on their anatomical location. It will facilitate reporting of results.
翻訳日:2022-12-26 07:35:24 公開日:2020-03-05
# 正規化最大固有値を用いた話者ダイアリゼーションの自動チューニングスペクトルクラスタリング

Auto-Tuning Spectral Clustering for Speaker Diarization Using Normalized Maximum Eigengap ( http://arxiv.org/abs/2003.02405v1 )

ライセンス: Link先を確認
Tae Jin Park, Kyu J. Han, Manoj Kumar, Shrikanth Narayanan(参考訳) 本研究では,話者ダイアリゼーションの文脈において,クラスタリングアルゴリズムのパラメータを自動的に調整できる新しいスペクトルクラスタリングフレームワークを提案する。 提案フレームワークは, スペクトルクラスタリングにおいて, パラメータチューニングを使わずに, 正規化最大固有ギャップ(NME)値を用いて, スペクトルクラスタリング中の各行の要素の閾値のクラスタ数とパラメータを推定する。 このハンドオフアプローチでさえ、パラメータチューニングと開発データを慎重に適用する従来のクラスタリング手法を用いた結果よりも、さまざまな評価セットに匹敵する、あるいは優れたパフォーマンスを実現しています。 良く知られたコールホーム評価セットにおける話者誤り率の17%の相対的改善は、自動チューニングによるスペクトルクラスタリングの有効性を示す。

In this study, we propose a new spectral clustering framework that can auto-tune the parameters of the clustering algorithm in the context of speaker diarization. The proposed framework uses normalized maximum eigengap (NME) values to estimate the number of clusters and the parameters for the threshold of the elements of each row in an affinity matrix during spectral clustering, without the use of parameter tuning on the development set. Even through this hands-off approach, we achieve a comparable or better performance across various evaluation sets than the results found using traditional clustering methods that apply careful parameter tuning and development data. A relative improvement of 17% in the speaker error rate on the well-known CALLHOME evaluation set shows the effectiveness of our proposed spectral clustering with auto-tuning.
翻訳日:2022-12-26 07:34:51 公開日:2020-03-05
# LAQP:学習に基づく近似クエリ処理

LAQP: Learning-based Approximate Query Processing ( http://arxiv.org/abs/2003.02446v1 )

ライセンス: Link先を確認
Meifan Zhang and Hongzhi Wang(参考訳) ビッグデータに対するクエリは、データ量の急激な増加のため、難しい作業である。 近似クエリ処理(AQP)は、迅速な応答の要求を満たす方法である。 本稿では,LAQPと呼ばれる学習型AQP手法を提案する。 LAQPは、履歴クエリから学習したエラーモデルを構築し、新しいクエリ毎にサンプリングベースの推定誤差を予測する。 サンプリングベースのAQP、事前計算された集約、学習されたエラーモデルを組み合わせて、小さなオフラインサンプルで高精度なクエリ推定を提供する。 実験の結果, LAQPはサンプリングベースAQP, 事前集約型AQP, 最新の学習型AQPよりも優れていた。

Querying on big data is a challenging task due to the rapid growth of data amount. Approximate query processing (AQP) is a way to meet the requirement of fast response. In this paper, we propose a learning-based AQP method called the LAQP. The LAQP builds an error model learned from the historical queries to predict the sampling-based estimation error of each new query. It makes a combination of the sampling-based AQP, the pre-computed aggregations and the learned error model to provide high-accurate query estimations with a small off-line sample. The experimental results indicate that our LAQP outperforms the sampling-based AQP, the pre-aggregation-based AQP and the most recent learning-based AQP method.
翻訳日:2022-12-26 07:34:38 公開日:2020-03-05
# パケットルーティングのための協調型マルチエージェント強化学習における報酬設計

Reward Design in Cooperative Multi-agent Reinforcement Learning for Packet Routing ( http://arxiv.org/abs/2003.03433v1 )

ライセンス: Link先を確認
Hangyu Mao, Zhibo Gong, and Zhen Xiao(参考訳) 協調型マルチエージェント強化学習(marl)では,学習の促進と収束の安定化のために適切な報酬信号の設計が重要な課題である。 グローバル報酬信号は、貢献を区別することなく、すべてのエージェントに同じグローバル報酬を割り当て、一方、ローカル報酬信号は個々の行動のみに基づいて各エージェントに異なるローカル報酬を提供する。 前者は怠け者のエージェントを奨励するかもしれないし、後者は利己的なエージェントを生み出すかもしれない。 本稿では,パケットルーティング環境に基づく協調型MARLにおける報酬設計問題について検討する。 まず、上記の2つの報酬信号が最適以下のポリシーを生成する傾向があることを示す。 そして、いくつかの観察と考察に触発されて、より優れたポリシーを学ぶために、既成の報奨信号の混合を設計する。 最後に,混合報酬信号を適応信号に変換し,実験の最良の結果を得る。 その他の報奨信号についても述べる。 報酬デザインは、RL、特にMARLにおいて非常に基本的な問題であるため、MARLの研究者がシステムで使われる報酬を再考できることを願っている。

In cooperative multi-agent reinforcement learning (MARL), how to design a suitable reward signal to accelerate learning and stabilize convergence is a critical problem. The global reward signal assigns the same global reward to all agents without distinguishing their contributions, while the local reward signal provides different local rewards to each agent based solely on individual behavior. Both of the two reward assignment approaches have some shortcomings: the former might encourage lazy agents, while the latter might produce selfish agents. In this paper, we study reward design problem in cooperative MARL based on packet routing environments. Firstly, we show that the above two reward signals are prone to produce suboptimal policies. Then, inspired by some observations and considerations, we design some mixed reward signals, which are off-the-shelf to learn better policies. Finally, we turn the mixed reward signals into the adaptive counterparts, which achieve best results in our experiments. Other reward signals are also discussed in this paper. As reward design is a very fundamental problem in RL and especially in MARL, we hope that MARL researchers can rethink the rewards used in their systems.
翻訳日:2022-12-26 07:28:53 公開日:2020-03-05
# Team O2AS at the World Robot Summit 2018: 汎用グリップとツールを用いたロボットキットと組み立てタスクへのアプローチ

Team O2AS at the World Robot Summit 2018: An Approach to Robotic Kitting and Assembly Tasks using General Purpose Grippers and Tools ( http://arxiv.org/abs/2003.02427v1 )

ライセンス: Link先を確認
Felix von Drigalski, Chisato Nakashima, Yoshiya Shibata, Yoshinori Konishi, Joshua C. Triyonoputro, Kaidi Nie, Damien Petit, Toshio Ueshiba, Ryuichi Takase, Yukiyasu Domae, Taku Yoshioka, Yoshihisa Ijiri, Ixchel G. Ramirez-Alpizar, Weiwei Wan and Kensuke Harada(参考訳) 本研究では,ジグや商用ツールチェンジャーを使わずに組み立て作業を行う汎用ロボットシステムを提案する。 特殊なエンドエフェクターの代わりに、2本指のグリッパーを使ってツールをつかんで保持し、ネジや吸引などのサブタスクを実行する。 第3のグリッパーは、精密なピッキング・センタリングツールとして使用され、内蔵のパッシブ・コンプライアンスを使用して、小さな位置誤差と不確実性を補償する。 単一深度マップを用いて, キャッティング作業において, ビンピックの新しいグリップポイント検出法について述べる。 提案システムを用いて, world robot summit 2018 における world robot challenge の産業ロボティクス部門アセンブリチャレンジに参加し,4位と sice award for lean design and versatile tool use を受賞した。 コンペティション中に実施した実験を通して,本手法の有効性を示す。

We propose a versatile robotic system for kitting and assembly tasks which uses no jigs or commercial tool changers. Instead of specialized end effectors, it uses its two-finger grippers to grasp and hold tools to perform subtasks such as screwing and suctioning. A third gripper is used as a precision picking and centering tool, and uses in-built passive compliance to compensate for small position errors and uncertainty. A novel grasp point detection for bin picking is described for the kitting task, using a single depth map. Using the proposed system we competed in the Assembly Challenge of the Industrial Robotics Category of the World Robot Challenge at the World Robot Summit 2018, obtaining 4th place and the SICE award for lean design and versatile tool use. We show the effectiveness of our approach through experiments performed during the competition.
翻訳日:2022-12-26 07:28:08 公開日:2020-03-05
# シミュレーションにおけるタッチ感覚の学習 : 視覚触覚センシングのためのsim-to-real戦略

Learning the sense of touch in simulation: a sim-to-real strategy for vision-based tactile sensing ( http://arxiv.org/abs/2003.02640v1 )

ライセンス: Link先を確認
Carmelo Sferrazza, Thomas Bi and Raffaello D'Andrea(参考訳) 触覚センシングへのデータ駆動アプローチは、軟質材料との接触を正確にモデル化する複雑さを克服することを目的としている。 しかし、それらの普及は、データ効率と様々なタスクに適用する際の一般化能力に関する懸念によって損なわれている。 本稿では,その軟面に作用する3次元接触力の分布を再構築することを目的とした,視覚に基づく触覚センサの両面に着目した。 各ドメインにおける最先端技術によって導出されるソフトマテリアルとカメラ投影の正確なモデルを用いて、シミュレーションでデータセットを生成する。 シミュレーションデータから完全にカスタマイズされたディープニューラルネットワークをトレーニングする戦略が提案されている。 その結果得られた学習アーキテクチャは、さらにトレーニングすることなく、複数の触覚センサーを直接移動でき、実際のデータを正確に予測することができる。

Data-driven approaches to tactile sensing aim to overcome the complexity of accurately modeling contact with soft materials. However, their widespread adoption is impaired by concerns about data efficiency and the capability to generalize when applied to various tasks. This paper focuses on both these aspects with regard to a vision-based tactile sensor, which aims to reconstruct the distribution of the three-dimensional contact forces applied on its soft surface. Accurate models for the soft materials and the camera projection, derived via state-of-the-art techniques in the respective domains, are employed to generate a dataset in simulation. A strategy is proposed to train a tailored deep neural network entirely from the simulation data. The resulting learning architecture is directly transferable across multiple tactile sensors without further training and yields accurate predictions on real data, while showing promising generalization capabilities to unseen contact conditions.
翻訳日:2022-12-26 07:27:06 公開日:2020-03-05
# 画像フィルタに対する対向摂動の探索空間

Search Space of Adversarial Perturbations against Image Filters ( http://arxiv.org/abs/2003.02750v1 )

ライセンス: Link先を確認
Dang Duy Thang and Toshihiro Matsui(参考訳) ディープラーニングのパフォーマンスの優位性は、それ自体の安全性の問題によって脅かされている。 近年の研究では、ディープラーニングシステムは敵の例に非常に弱いことが示されており、これは攻撃者がディープラーニングシステムを欺く意図によって変化した攻撃形式である。 深層学習システムを敵の例から守るための防御方法が数多く提案されている。 しかし、これらの防御手法を欺くための主要な戦略がまだ残っていない。 特定の対策が提案されると、その対策を欺くために新たな強力な敵攻撃が考案される。 本研究では,画像フィルタを用いた防御的手法に対して,検索空間で逆パターンを作成する能力について検討する。 画像分類タスクを用いたImageNetデータセット実験の結果, 対向摂動の探索空間とフィルタとの相関が示された。 これらの知見は、深層学習システムに対してより攻撃的な手法を構築するための新しい方向を開く。

The superiority of deep learning performance is threatened by safety issues for itself. Recent findings have shown that deep learning systems are very weak to adversarial examples, an attack form that was altered by the attacker's intent to deceive the deep learning system. There are many proposed defensive methods to protect deep learning systems against adversarial examples. However, there is still a lack of principal strategies to deceive those defensive methods. Any time a particular countermeasure is proposed, a new powerful adversarial attack will be invented to deceive that countermeasure. In this study, we focus on investigating the ability to create adversarial patterns in search space against defensive methods that use image filters. Experimental results conducted on the ImageNet dataset with image classification tasks showed the correlation between the search space of adversarial perturbation and filters. These findings open a new direction for building stronger offensive methods towards deep learning systems.
翻訳日:2022-12-26 07:26:50 公開日:2020-03-05
# U-Netモデルを用いた土地被覆分類のための衛星画像の分割

Segmentation of Satellite Imagery using U-Net Models for Land Cover Classification ( http://arxiv.org/abs/2003.02899v1 )

ライセンス: Link先を確認
Priit Ulmas and Innar Liiv(参考訳) 本稿では,衛星画像に基づく土地被覆分類マッピングを作成するために,u-net構造を改良した畳み込み機械学習モデルを用いた。 本研究の目的は,自動土地被覆マッピングのための畳み込みモデルの訓練とテストを行い,土地被覆マッピング精度の向上と変化検出における有用性を評価することである。 これらの課題を解決するため、サテライト画像からの土地被覆分類とセマンティックセグメンテーションのためのデータセットと訓練された機械学習モデルを構築した。 結果は3つの異なる土地分類レベルで分析された。 bigearthnet衛星画像アーカイブは、2つの主要なデータセットの1つとして研究に選ばれました。 この小説と最近のデータセットは2019年に公開され、2017年と2018年に作られた10のヨーロッパ諸国のSentinel-2衛星写真が含まれている。 第2のデータセットとして、著者らは、エストニアのsentinel-2イメージとcorine land cover mapを含むオリジナルセットを構成した。 開発した分類モデルは、43のイメージラベルを持つ多クラス土地被覆分類において、F\textsubscript{1}スコアが0.749であることを示す。 このモデルは、イメージが誤ったラベルを持っているように見えるbigearthnetデータセットのノイズデータも強調する。 セグメンテーションモデルは、Sentinel-2衛星画像に基づいて自動土地被覆マッピングを生成するソリューションを提供し、森林、内陸、耕作地などの土地被覆クラスに対して高いIoUスコアを示す。 モデルでは,既存の土地分類図の精度と土地被覆変化の検出精度が向上することを示す。

The focus of this paper is using a convolutional machine learning model with a modified U-Net structure for creating land cover classification mapping based on satellite imagery. The aim of the research is to train and test convolutional models for automatic land cover mapping and to assess their usability in increasing land cover mapping accuracy and change detection. To solve these tasks, authors prepared a dataset and trained machine learning models for land cover classification and semantic segmentation from satellite images. The results were analysed on three different land classification levels. BigEarthNet satellite image archive was selected for the research as one of two main datasets. This novel and recent dataset was published in 2019 and includes Sentinel-2 satellite photos from 10 European countries made in 2017 and 2018. As a second dataset the authors composed an original set containing a Sentinel-2 image and a CORINE land cover map of Estonia. The developed classification model shows a high overall F\textsubscript{1} score of 0.749 on multiclass land cover classification with 43 possible image labels. The model also highlights noisy data in the BigEarthNet dataset, where images seem to have incorrect labels. The segmentation models offer a solution for generating automatic land cover mappings based on Sentinel-2 satellite images and show a high IoU score for land cover classes such as forests, inland waters and arable land. The models show a capability of increasing the accuracy of existing land classification maps and in land cover change detection.
翻訳日:2022-12-26 07:26:39 公開日:2020-03-05
# 画像から画像への変換によるエンブロイドパターンの生成

Generating Embroidery Patterns Using Image-to-Image Translation ( http://arxiv.org/abs/2003.02909v1 )

ライセンス: Link先を確認
Mohammad Akif Beg and Jia Yuan Yu(参考訳) コンピュータビジョン、機械学習、コンピュータグラフィックスの多くのシナリオでは、あるドメインの画像から別のドメインの画像へのマッピングを学ぶ必要がある。 例えば、スタイル転送、オブジェクトのトランスフィギュレーション、画像内の天気条件の外観を視覚的に変更し、昼のイメージの外観を夜のイメージに変更するか、あるいはその逆で、写真強調を少数の画像に置き換える。 本稿では,2つの機械学習手法を用いて,画像から画像への変換を行う。 当社の目標は,ユーザがアップロードした画像から,エンブロイドイメージに類似したプレビュー画像を生成することです。 提案手法は,ニューラルスタイル転送とサイクル一貫性生成・逆数ネットワークの2つの既存手法の修正である。 ニューラルスタイルトランスファーは、あるドメインから別のドメイン内の異なるイメージのスタイルでイメージの意味的コンテンツをレンダリングするが、サイクル一貫性のある生成可能逆ネットワークは、ペアのトレーニングデータなしで入力画像から出力画像へのマッピングを学習し、損失関数を学習してこのマッピングをトレーニングする。 さらに,我々が提案する技法は,画像の隆起,光源,起点,縫い目の種類,縫い目の種類,布地の種類など,刺刺特性とは無関係である。 ユーザイメージを考慮に入れれば,インブロダー画像に類似したプレビュー画像を生成することができる。 我々は,単純な2次元画像からなるエンブロイドリーデータセット上で提案手法を訓練し,テストする。 そこで我々は,8000以上のユーザアップロード画像とエンブロイド画像を含む非ペア化エンブロイドデータセットを作成する。 実験結果から,これらの手法がユーザイメージの刺青バージョンを近似したプレビュー生成に成功し,ユーザが意思決定に役立てることが示唆された。

In many scenarios in computer vision, machine learning, and computer graphics, there is a requirement to learn the mapping from an image of one domain to an image of another domain, called Image-to-image translation. For example, style transfer, object transfiguration, visually altering the appearance of weather conditions in an image, changing the appearance of a day image into a night image or vice versa, photo enhancement, to name a few. In this paper, we propose two machine learning techniques to solve the embroidery image-to-image translation. Our goal is to generate a preview image which looks similar to an embroidered image, from a user-uploaded image. Our techniques are modifications of two existing techniques, neural style transfer, and cycle-consistent generative-adversarial network. Neural style transfer renders the semantic content of an image from one domain in the style of a different image in another domain, whereas a cycle-consistent generative adversarial network learns the mapping from an input image to output image without any paired training data, and also learn a loss function to train this mapping. Furthermore, the techniques we propose are independent of any embroidery attributes, such as elevation of the image, light-source, start, and endpoints of a stitch, type of stitch used, fabric type, etc. Given the user image, our techniques can generate a preview image which looks similar to an embroidered image. We train and test our propose techniques on an embroidery dataset which consist of simple 2D images. To do so, we prepare an unpaired embroidery dataset with more than 8000 user-uploaded images along with embroidered images. Empirical results show that these techniques successfully generate an approximate preview of an embroidered version of a user image, which can help users in decision making.
翻訳日:2022-12-26 07:26:16 公開日:2020-03-05
# 非小細胞肺癌における肺病変縮小予測のための深層学習型放射線治療法

A deep learning-facilitated radiomics solution for the prediction of lung lesion shrinkage in non-small cell lung cancer trials ( http://arxiv.org/abs/2003.02943v1 )

ライセンス: Link先を確認
Antong Chen, Jennifer Saouaf, Bo Zhou, Randolph Crawford, Jianda Yuan, Junshui Ma, Richard Baumgartner, Shubing Wang, Gregory Goldmacher(参考訳) 本稿では,非小細胞肺癌症例のct画像から抽出した放射線学的特徴に基づく肺病変反応予測のための深層学習に基づくアプローチを提案する。 アプローチは、様々な解剖学的位置にある原発巣と転移巣のセットから肺病変の分類から始まる。 肺病変を中心に,3Dボリュームを抽出する自動セグメンテーションを行った。 その後、放射線学的特徴を前処置スキャンの病変から抽出し、治療中にどの病変が少なくとも30%の径で縮小するかを予測する最初のフォローアップスキャン(Pembrolizumabまたは化学療法とPembrolizumabの組み合わせ)が、Re Response Evaluation Criteria In Solid tumors (RECIST)ガイドラインによって部分的応答として定義される。 トレーニングセット上の5倍のクロス検証の結果、AUCは0.84 +/- 0.03となり、テストデータセットの予測は30%の直径縮小の結果、AUCは0.73 +/- 0.02に達した。

Herein we propose a deep learning-based approach for the prediction of lung lesion response based on radiomic features extracted from clinical CT scans of patients in non-small cell lung cancer trials. The approach starts with the classification of lung lesions from the set of primary and metastatic lesions at various anatomic locations. Focusing on the lung lesions, we perform automatic segmentation to extract their 3D volumes. Radiomic features are then extracted from the lesion on the pre-treatment scan and the first follow-up scan to predict which lesions will shrink at least 30% in diameter during treatment (either Pembrolizumab or combinations of chemotherapy and Pembrolizumab), which is defined as a partial response by the Response Evaluation Criteria In Solid Tumors (RECIST) guidelines. A 5-fold cross validation on the training set led to an AUC of 0.84 +/- 0.03, and the prediction on the testing dataset reached AUC of 0.73 +/- 0.02 for the outcome of 30% diameter shrinkage.
翻訳日:2022-12-26 07:25:43 公開日:2020-03-05
# マージン蒸留:マージン系ソフトマックスの蒸留

MarginDistillation: distillation for margin-based softmax ( http://arxiv.org/abs/2003.02586v1 )

ライセンス: Link先を確認
David Svitov and Sergey Alyamkin(参考訳) 畳み込みニューラルネットワーク(convolutional neural networks, cnns)をマージンベースソフトマックス法と併用することで,顔認識問題に対する最先端の性能を示す。 近年,エッジデバイスの顔識別タスクにおいて,マージンベースソフトマックスを用いてトレーニングした軽量ニューラルネットワークモデルが導入された。 本稿では,lfw,agesb-30,megafaceデータセットの認識タスクにおいて,他の既知の手法に勝る軽量ニューラルネットワークアーキテクチャのための新しい蒸留法を提案する。 提案手法は,学生ネットワークにおける教師ネットワークからの授業センターの利用を目的としている。 そして、教師ネットワークによって予測される、生徒ネットワークを、クラスセンタと顔埋め込みとの間の同じ角度を得るように訓練する。

The usage of convolutional neural networks (CNNs) in conjunction with a margin-based softmax approach demonstrates a state-of-the-art performance for the face recognition problem. Recently, lightweight neural network models trained with the margin-based softmax have been introduced for the face identification task for edge devices. In this paper, we propose a novel distillation method for lightweight neural network architectures that outperforms other known methods for the face recognition task on LFW, AgeDB-30 and Megaface datasets. The idea of the proposed method is to use class centers from the teacher network for the student network. Then the student network is trained to get the same angles between the class centers and the face embeddings, predicted by the teacher network.
翻訳日:2022-12-26 07:18:24 公開日:2020-03-05
# 3次元ポーズ推定のためのmt-robust heatmaps

Metric-Scale Truncation-Robust Heatmaps for 3D Human Pose Estimation ( http://arxiv.org/abs/2003.02953v1 )

ライセンス: Link先を確認
Istv\'an S\'ar\'andi and Timm Linder and Kai O. Arras and Bastian Leibe(参考訳) 熱マップ表現は、長年にわたって2次元人間のポーズ推定システムの基礎を形成してきたが、それらの3次元ポーズの一般化は、最近まで考慮されてきた。 これには2.5dの体積熱マップが含まれ、x軸とy軸は画像空間に対応し、z軸は被写体周辺の距離深度に対応する。 計量スケール予測を得るためには、これらの手法はスケールの曖昧さを解決するために別途明示的な後処理ステップを含む必要がある。 さらに、画像境界の外側の体の関節位置を符号化できないため、画像切り離し時に不完全なポーズ推定を行う。 対象物近傍の計量3次元空間で次元が定義される計量スケールトランザベーション・ロバスト(metro)体積ヒートマップを画像空間に整列する代わりに提案することにより,これらの制限に対処する。 我々は、モノラルなRGBからその熱マップをエンドツーエンドに推定するために、完全な畳み込みネットワークを訓練する。 このヒートマップ次元の再解釈により、焦点距離や人距離のテスト時間知識がなく、後処理のヒューリスティックスに依存することなく、完全なメトリックスケールのポーズを推定できる。 さらに、画像空間がヒートマップ空間から切り離されるので、ネットワークは画像境界を超えてジョイントを判断することを学ぶことができる。 ResNet-50を学習層を追加せずに使用し、Human3.6MとMPI-INF-3DHPベンチマークで最先端の結果を得る。 提案手法は単純かつ高速であるため,リアルタイムなトップダウンマルチパーソンポーズ推定システムにおいて有用なコンポーネントとなる。 さらなる研究を促進するためにコードを公開している(https://vision.rwth-aachen.de/metro-pose3dを参照)。

Heatmap representations have formed the basis of 2D human pose estimation systems for many years, but their generalizations for 3D pose have only recently been considered. This includes 2.5D volumetric heatmaps, whose X and Y axes correspond to image space and the Z axis to metric depth around the subject. To obtain metric-scale predictions, these methods must include a separate, explicit post-processing step to resolve scale ambiguity. Further, they cannot encode body joint positions outside of the image boundaries, leading to incomplete pose estimates in case of image truncation. We address these limitations by proposing metric-scale truncation-robust (MeTRo) volumetric heatmaps, whose dimensions are defined in metric 3D space near the subject, instead of being aligned with image space. We train a fully-convolutional network to estimate such heatmaps from monocular RGB in an end-to-end manner. This reinterpretation of the heatmap dimensions allows us to estimate complete metric-scale poses without test-time knowledge of the focal length or person distance and without relying on anthropometric heuristics in post-processing. Furthermore, as the image space is decoupled from the heatmap space, the network can learn to reason about joints beyond the image boundary. Using ResNet-50 without any additional learned layers, we obtain state-of-the-art results on the Human3.6M and MPI-INF-3DHP benchmarks. As our method is simple and fast, it can become a useful component for real-time top-down multi-person pose estimation systems. We make our code publicly available to facilitate further research (see https://vision.rwth-aachen.de/metro-pose3d).
翻訳日:2022-12-26 07:17:43 公開日:2020-03-05
# 生成型adversarial networkにおける階層的モード探索

Hierarchical Modes Exploring in Generative Adversarial Networks ( http://arxiv.org/abs/2003.08752v1 )

ライセンス: Link先を確認
Mengxiao Hu, Jinlong Li, Maolin Hu, Tao Hu(参考訳) 条件付き生成逆数ネットワーク(cGAN)では、2つの異なる初期ノイズが同じ条件情報と結合された場合、出力間の距離は比較的小さくなり、小さなモードが大きなモードに崩壊する可能性がある。 そこで本研究では,cGANにおけるモード崩壊を緩和するための階層型モード探索手法を提案する。 また、実際の距離変化とereとの差の和を最小化することにより、生成画像w.r.t特定レベル特徴の多様性を制御できる。 提案手法は,カテゴリ生成,ペア化,ペア化,非ペア化,テキスト対画像生成の4つの条件付き画像合成タスクで検証した。 定性的かつ定量的な結果から,提案手法はcganのモード崩壊問題の軽減に有効であり,出力画像の多様性を制御できることがわかった。

In conditional Generative Adversarial Networks (cGANs), when two different initial noises are concatenated with the same conditional information, the distance between their outputs is relatively smaller, which makes minor modes likely to collapse into large modes. To prevent this happen, we proposed a hierarchical mode exploring method to alleviate mode collapse in cGANs by introducing a diversity measurement into the objective function as the regularization term. We also introduced the Expected Ratios of Expansion (ERE) into the regularization term, by minimizing the sum of differences between the real change of distance and ERE, we can control the diversity of generated images w.r.t specific-level features. We validated the proposed algorithm on four conditional image synthesis tasks including categorical generation, paired and un-paired image translation and text-to-image generation. Both qualitative and quantitative results show that the proposed method is effective in alleviating the mode collapse problem in cGANs, and can control the diversity of output images w.r.t specific-level features.
翻訳日:2022-12-26 07:17:11 公開日:2020-03-05
# GUIを用いた対話型タスク学習エージェントにおける効果的なヒューマンAIコラボレーションに向けて

Towards Effective Human-AI Collaboration in GUI-Based Interactive Task Learning Agents ( http://arxiv.org/abs/2003.02622v1 )

ライセンス: Link先を確認
Toby Jia-Jun Li, Jingya Chen, Tom M. Mitchell, Brad A. Myers(参考訳) 我々は、インテリジェントエージェントに有用な対話型タスク学習を可能にする上で重要な課題は、効果的な人間とAIのコラボレーションを促進することであると論じている。 スギライトシステムの設計、開発、研究に過去5年間の取り組みを振り返り、hciの原則を組み込んだ最近のaiの進歩をミックスインイニシアティブインタラクションとマルチモーダルインタラクションに組み込む問題について議論し、私たちが学んだ教訓をまとめます。 最後に、いくつかの課題と機会を特定し、進行中の作業について説明する。

We argue that a key challenge in enabling usable and useful interactive task learning for intelligent agents is to facilitate effective Human-AI collaboration. We reflect on our past 5 years of efforts on designing, developing and studying the SUGILITE system, discuss the issues on incorporating recent advances in AI with HCI principles in mixed-initiative interactions and multi-modal interactions, and summarize the lessons we learned. Lastly, we identify several challenges and opportunities, and describe our ongoing work
翻訳日:2022-12-26 07:16:53 公開日:2020-03-05
# 動的不確実性を考慮した安全ミッション計画

Safe Mission Planning under Dynamical Uncertainties ( http://arxiv.org/abs/2003.02913v1 )

ライセンス: Link先を確認
Yimeng Lu and Maryam Kamgarpour(参考訳) 本稿では,不確定な動的環境における安全ロボットのミッション計画について考察する。 この問題は、監視、緊急救助、自動運転といった用途で発生する。 これは、動的不確かさを安全な計画フレームワークにモデリングし統合し、計算的に扱いやすい方法で解決策を見つけるため、難しい問題である。 本研究では,まず動的不確実性に対する確率モデルを構築した。 そして、不確実性モデルを導入して、複雑なミッションの安全性を最大化するパスを生成するためのフレームワークを提供する。 また,モンテカルロ法を考案し,安全な経路を効率的に得る。 最後に,本手法の性能評価を行い,いくつかのケーススタディにおいて潜在的選択肢と比較した。

This paper considers safe robot mission planning in uncertain dynamical environments. This problem arises in applications such as surveillance, emergency rescue, and autonomous driving. It is a challenging problem due to modeling and integrating dynamical uncertainties into a safe planning framework, and finding a solution in a computationally tractable way. In this work, we first develop a probabilistic model for dynamical uncertainties. Then, we provide a framework to generate a path that maximizes safety for complex missions by incorporating the uncertainty model. We also devise a Monte Carlo method to obtain a safe path efficiently. Finally, we evaluate the performance of our approach and compare it to potential alternatives in several case studies.
翻訳日:2022-12-26 07:16:43 公開日:2020-03-05
# 行動単位検出のための一意クラス群に基づくマルチラベルバランスオプティマイザ

Unique Class Group Based Multi-Label Balancing Optimizer for Action Unit Detection ( http://arxiv.org/abs/2003.08751v1 )

ライセンス: Link先を確認
Ines Rieger, Jaspar Pahl and Dominik Seuss(参考訳) シングルラベルデータのバランシング手法は、高い頻度でサンプルを再サンプリングするので、マルチラベル問題には適用できない。 マルチラベルデータのバランスをとるために最適化問題としてこの問題を再検討する。 このバランスアルゴリズムをトレーニングデータセットに適用して、孤立した顔の動き、いわゆるアクションユニットを検出する。 いくつかのアクションユニットは、痛みのような複合的な感情や物理的状態を記述することができる。 この領域のデータセットは限定的で、ほとんどバランスがとれないため、バランシングの最適化と拡張がアクションユニットの検出をいかに改善できるかを示します。 IEEE Conference on Face and Gesture Recognition 2020において、我々はABAW(Affective Behavior Analysis in-the-wild)課題の3位にランクインした。

Balancing methods for single-label data cannot be applied to multi-label problems as they would also resample the samples with high occurrences. We propose to reformulate this problem as an optimization problem in order to balance multi-label data. We apply this balancing algorithm to training datasets for detecting isolated facial movements, so-called Action Units. Several Action Units can describe combined emotions or physical states such as pain. As datasets in this area are limited and mostly imbalanced, we show how optimized balancing and then augmentation can improve Action Unit detection. At the IEEE Conference on Face and Gesture Recognition 2020, we ranked third in the Affective Behavior Analysis in-the-wild (ABAW) challenge for the Action Unit detection task.
翻訳日:2022-12-26 07:10:23 公開日:2020-03-05
# 何の[MASK]? 言語特有のBERTモデルの作成

What the [MASK]? Making Sense of Language-Specific BERT Models ( http://arxiv.org/abs/2003.02912v1 )

ライセンス: Link先を確認
Debora Nozza, Federico Bianchi, Dirk Hovy(参考訳) 最近、自然言語処理(NLP)は、新しい事前訓練された文脈表現モデルの出現により、多くの分野で顕著な進歩をみせている。 特にdevlin et al. (2019) はbert(bidirectional encoder representations from transformers)と呼ばれるモデルを提案し、高度に特定のアーキテクチャを開発し訓練することなく、データセットやタスクの表現を微調整することで、研究者が多数のnlpタスクで最先端のパフォーマンスを得ることができるようにした。 著者らは、104言語のコーパスに基づいてトレーニングされたモデルである多言語bert(mbert)もリリースした。 このモデルはゼロショット言語間自然推論タスクで印象的な結果を得た。 BERTモデルの可能性によって、NLPコミュニティは、特定の言語でトレーニングされ、特定のデータドメインとタスクでテストされる多数のBERTモデルを調査し、生成し始めた。 これにより、より具体的なモデルの性能と比較することにより、mBERTの真のポテンシャルを普遍言語モデルとして評価することができる。 本稿では,言語固有のBERTモデルにおける技術の現状を述べるとともに,異なる次元(アーキテクチャ,データドメイン,タスク)に関する全体像を提供する。 本研究の目的は,言語特化 BERT モデルと mBERT の共通点と相違点の即時的かつ直接的な概要を提供することである。 また、定期的に更新されるインタラクティブなwebサイトを提供して、収集した情報をhttps://bertlang.unibocconi.itで探すことができます。

Recently, Natural Language Processing (NLP) has witnessed an impressive progress in many areas, due to the advent of novel, pretrained contextual representation models. In particular, Devlin et al. (2019) proposed a model, called BERT (Bidirectional Encoder Representations from Transformers), which enables researchers to obtain state-of-the art performance on numerous NLP tasks by fine-tuning the representations on their data set and task, without the need for developing and training highly-specific architectures. The authors also released multilingual BERT (mBERT), a model trained on a corpus of 104 languages, which can serve as a universal language model. This model obtained impressive results on a zero-shot cross-lingual natural inference task. Driven by the potential of BERT models, the NLP community has started to investigate and generate an abundant number of BERT models that are trained on a particular language, and tested on a specific data domain and task. This allows us to evaluate the true potential of mBERT as a universal language model, by comparing it to the performance of these more specific models. This paper presents the current state of the art in language-specific BERT models, providing an overall picture with respect to different dimensions (i.e. architectures, data domains, and tasks). Our aim is to provide an immediate and straightforward overview of the commonalities and differences between Language-Specific (language-specific) BERT models and mBERT. We also provide an interactive and constantly updated website that can be used to explore the information we have collected, at https://bertlang.unibocconi.it.
翻訳日:2022-12-26 07:09:40 公開日:2020-03-05
# デンマーク語における名前付きエンティティ認識のための言語間のニューラルトランスファーと限定アノテーションデータ

Neural Cross-Lingual Transfer and Limited Annotated Data for Named Entity Recognition in Danish ( http://arxiv.org/abs/2003.02931v1 )

ライセンス: Link先を確認
Barbara Plank(参考訳) 名前付きエンティティ認識(ner)は、ディープニューラルネットワークアーキテクチャの導入によって大きく進歩した。 しかし、これらの手法の成功は、大量のトレーニングデータに依存する。 公開可能な人ラベルデータセットの不足は、デンマークと同様に既存のNERシステムの限られた評価に繋がった。 本稿では,デンマーク語における言語間移動の有効性について検討し,その限定された金データとの相補性を評価し,デンマーク語NERの性能に光を当てる。

Named Entity Recognition (NER) has greatly advanced by the introduction of deep neural architectures. However, the success of these methods depends on large amounts of training data. The scarcity of publicly-available human-labeled datasets has resulted in limited evaluation of existing NER systems, as is the case for Danish. This paper studies the effectiveness of cross-lingual transfer for Danish, evaluates its complementarity to limited gold data, and sheds light on performance of Danish NER.
翻訳日:2022-12-26 07:09:08 公開日:2020-03-05
# 単語識別とパラフレーズシステムを用いた学術書記・評価のためのリソースの自動コンパイル

Automatic Compilation of Resources for Academic Writing and Evaluating with Informal Word Identification and Paraphrasing System ( http://arxiv.org/abs/2003.02955v1 )

ライセンス: Link先を確認
Seid Muhie Yimam and Gopalakrishnan Venkatesh and John Sie Yuen Lee and Chris Biemann(参考訳) 学術書記のためのリソースを自動構築する最初の手法を提案する。 目的は、テキストを自動的に編集し、学術的な文章のスタイルに忠実な文章作成支援システムを構築することである。 現代アメリカ英語コーパス(coca)の学術用語リスト、新しい学術用語リスト、学術コロケーションリストといった既存の学術資料に加えて、非公式または非学術用語やフレーズを自動的に識別するためのリソースを動的に構築する方法についても検討する。 リソースは異なるドメインや言語に拡張可能な、異なるジェネリックアプローチを使ってコンパイルされる。 本稿では,システム実装による資源評価について述べる。 このシステムは、非公式な単語識別(IWI)、学術的候補パラフレーズ生成、およびパラフレーズランキングコンポーネントから構成される。 候補を生成し、文脈でランク付けするために、PPDBとWordNetのパラフレーズリソースを使用しました。 文脈における概念 (CoInCO) "オールワード (All-Words)" 語彙置換データセットを非公式な単語識別とパラフレーズ生成実験に使用する。 非公式の単語識別コンポーネントは82%のf-1スコアを達成し,階層化分類器ベースラインを著しく上回っている。 この研究の主な貢献は、補助書を書くためのターゲットとなるリソースを構築するためのドメインに依存しない方法論である。

We present the first approach to automatically building resources for academic writing. The aim is to build a writing aid system that automatically edits a text so that it better adheres to the academic style of writing. On top of existing academic resources, such as the Corpus of Contemporary American English (COCA) academic Word List, the New Academic Word List, and the Academic Collocation List, we also explore how to dynamically build such resources that would be used to automatically identify informal or non-academic words or phrases. The resources are compiled using different generic approaches that can be extended for different domains and languages. We describe the evaluation of resources with a system implementation. The system consists of an informal word identification (IWI), academic candidate paraphrase generation, and paraphrase ranking components. To generate candidates and rank them in context, we have used the PPDB and WordNet paraphrase resources. We use the Concepts in Context (CoInCO) "All-Words" lexical substitution dataset both for the informal word identification and paraphrase generation experiments. Our informal word identification component achieves an F-1 score of 82%, significantly outperforming a stratified classifier baseline. The main contribution of this work is a domain-independent methodology to build targeted resources for writing aids.
翻訳日:2022-12-26 07:09:00 公開日:2020-03-05
# 会話スタイルを段階的に反映する学習

Learning to mirror speaking styles incrementally ( http://arxiv.org/abs/2003.04993v1 )

ライセンス: Link先を確認
Siyi Liu (1), Ziang Leng (1), Derry Wijaya (1) ((1) Boston University)(参考訳) ミラーリング(Mirrring)とは、ある人が意識的に他の人のジェスチャー、スピーチパターン、態度を模倣する行動である。 会話において、ミラーリングは、しばしば話者のコミュニケーションの楽しみとエンゲージメントを示す。 チャットボットでは、ペルソナをチャットボットに追加し、会話や対話スタイルをペルソナにシフトするように訓練する方法が提案されている。 しかし、訓練にはターゲットパーソナリティの対話からなる大きなデータセットを必要とすることが多い。 本研究では,人の発話スタイルを段階的に反映する手法について検討する。 本手法は,話し言葉のスタイルを捉えたngramを抽出し,ngramを用いて文を話し声に変換するパターンを作成する。 実験の結果,本手法は,正規文を対象文に変換するために使用可能な発話スタイルのパターンを抽出できることが判明した。

Mirroring is the behavior in which one person subconsciously imitates the gesture, speech pattern, or attitude of another. In conversations, mirroring often signals the speakers enjoyment and engagement in their communication. In chatbots, methods have been proposed to add personas to the chatbots and to train them to speak or to shift their dialogue style to that of the personas. However, they often require a large dataset consisting of dialogues of the target personalities to train. In this work, we explore a method that can learn to mirror the speaking styles of a person incrementally. Our method extracts ngrams that capture a persons speaking styles and uses the ngrams to create patterns for transforming sentences to the persons speaking styles. Our experiments show that our method is able to capture patterns of speaking style that can be used to transform regular sentences into sentences with the target style.
翻訳日:2022-12-26 07:08:35 公開日:2020-03-05
# グローバル情報とローカル情報を統合した終端学習型ワンステージ駐車スロット検出

End-to-End Trainable One-Stage Parking Slot Detection Integrating Global and Local Information ( http://arxiv.org/abs/2003.02445v1 )

ライセンス: Link先を確認
Jae Kyu Suhr and Ho Gi Jung(参考訳) 本稿では,周囲ビューモニタ(AVM)画像に対する終端から終端までトレーニング可能なワンステージ駐車スロット検出手法を提案する。 提案手法は,畳み込みニューラルネットワーク(cnn)を用いてグローバル情報(パーキングスロットのエントランス,タイプ,占有)とローカル情報(ジャンクションの位置と向き)を同時に取得し,それらを統合してパーキングスロットとその特性を検出する。 この方法は、avm画像をグリッドに分割し、cnnベースの特徴抽出を行う。 グリッドの各セルについて、抽出した特徴マップに畳み込みフィルタを適用することにより、駐車スロットのグローバル及びローカル情報を得る。 非最大抑制(nms)により駐車スロットのグローバルおよびローカル情報を統合して最終検出結果を生成する。 提案手法は,地域提案段階のない完全畳み込みネットワークを用いて駐車場の情報の大部分を取得するため,エンドツーエンドのトレーニング可能なワンステージ検出器である。 実験では、公開データセットを用いて定量的に評価し、99.77%のリコールと精度、100%の型分類精度、毎秒60フレームの処理中に99.31%の占有分類精度を示した。

This paper proposes an end-to-end trainable one-stage parking slot detection method for around view monitor (AVM) images. The proposed method simultaneously acquires global information (entrance, type, and occupancy of parking slot) and local information (location and orientation of junction) by using a convolutional neural network (CNN), and integrates them to detect parking slots with their properties. This method divides an AVM image into a grid and performs a CNN-based feature extraction. For each cell of the grid, the global and local information of the parking slot is obtained by applying convolution filters to the extracted feature map. Final detection results are produced by integrating the global and local information of the parking slot through non-maximum suppression (NMS). Since the proposed method obtains most of the information of the parking slot using a fully convolutional network without a region proposal stage, it is an end-to-end trainable one-stage detector. In experiments, this method was quantitatively evaluated using the public dataset and outperforms previous methods by showing both recall and precision of 99.77%, type classification accuracy of 100%, and occupancy classification accuracy of 99.31% while processing 60 frames per second.
翻訳日:2022-12-26 07:08:04 公開日:2020-03-05
# automlを用いたアクセラレータアウェアニューラルネットワーク設計

Accelerator-aware Neural Network Design using AutoML ( http://arxiv.org/abs/2003.02838v1 )

ライセンス: Link先を確認
Suyog Gupta, Berkin Akin(参考訳) ニューラルネットワークハードウェアアクセラレータは、相当量の生の計算スループットを提供するが、それらの上にデプロイされたモデルは、最適なシステム性能を得るために基盤となるハードウェアアーキテクチャのために設計されなければならない。 本稿では,ハードウェア対応のニューラルアーキテクチャ検索を用いて設計し,googleの低消費電力エッジデバイス用ニューラルネットワークハードウェアアクセラレータであるedge tpu上で動作するようにカスタマイズしたコンピュータビジョンモデルを提案する。 CoralデバイスにおけるEdge TPUでは、これらのモデルはリアルタイムな画像分類性能を実現し、データセンターで実行される大規模で計算量の多いモデルでは通常見られる精度を実現している。 Pixel 4のEdge TPUでは、既存のSoTAモバイルモデルよりも精度とレイテンシのトレードオフが改善されている。

While neural network hardware accelerators provide a substantial amount of raw compute throughput, the models deployed on them must be co-designed for the underlying hardware architecture to obtain the optimal system performance. We present a class of computer vision models designed using hardware-aware neural architecture search and customized to run on the Edge TPU, Google's neural network hardware accelerator for low-power, edge devices. For the Edge TPU in Coral devices, these models enable real-time image classification performance while achieving accuracy typically seen only with larger, compute-heavy models running in data centers. On Pixel 4's Edge TPU, these models improve the accuracy-latency tradeoff over existing SoTA mobile models.
翻訳日:2022-12-26 07:02:39 公開日:2020-03-05
# クラスタプルーニング:エッジAIビジョンアプリケーションのための効率的なフィルタプルーニング手法

Cluster Pruning: An Efficient Filter Pruning Method for Edge AI Vision Applications ( http://arxiv.org/abs/2003.02449v1 )

ライセンス: Link先を確認
Chinthaka Gamanayake, Lahiru Jayasinghe, Benny Ng, Chau Yuen(参考訳) 畳み込みニューラルネットワーク(CNN)はコンピュータビジョンの分野で優れた結果を示しているが、特にCNNのメモリ消費と計算の複雑さのために低コストのIoTデバイスを使用する場合、エッジでのコンピュータビジョンアルゴリズムをリアルタイムに実装することは依然として難しい課題である。 上記の問題を克服するために、重みプラニング、フィルタプラニング、量子化などのネットワーク圧縮手法が用いられる。 フィルタプルーニング手法は他の手法と比較して優れた性能を示しているが、cnnの異なる層にまたがるフィルタ数の不規則性は、ニューラルコンピューティングハードウェアアーキテクチャの大部分に従わないかもしれない。 本稿では,cnnにおけるフィルタの重要性と基盤となるハードウェアアーキテクチャを考慮したフィルタ除去手法として,クラスタプルーニング(cluster pruning)という新しいアプローチを提案する。 提案手法は,pascal-vocオープンデータセット上の従来のフィルタプルーニングアルゴリズムと,部屋に入る人を検知・カウントする独自のデータセットであるhead-counting datasetと比較した。 提案手法を3つのハードウェアアーキテクチャ,すなわちcpu,gpu,intel movidius neural computer stick (ncs) にベンチマークし,edge-ai visionアプリケーションで使用されるssd-mobilenetとssd-squeezenetニューラルネットワークアーキテクチャを用いた。 その結果,上述のハードウェアアーキテクチャ上の2つのデータセットを用いて,従来のフィルタプルーニング手法を上回った。 さらに,提案手法を用いてエッジAIアプリケーションをデプロイするために,Intel Movidius-NCSからなる低コストIoTハードウェアセットアップを提案する。

Even though the Convolutional Neural Networks (CNN) has shown superior results in the field of computer vision, it is still a challenging task to implement computer vision algorithms in real-time at the edge, especially using a low-cost IoT device due to high memory consumption and computation complexities in a CNN. Network compression methodologies such as weight pruning, filter pruning, and quantization are used to overcome the above mentioned problem. Even though filter pruning methodology has shown better performances compared to other techniques, irregularity of the number of filters pruned across different layers of a CNN might not comply with majority of the neural computing hardware architectures. In this paper, a novel greedy approach called cluster pruning has been proposed, which provides a structured way of removing filters in a CNN by considering the importance of filters and the underlying hardware architecture. The proposed methodology is compared with the conventional filter pruning algorithm on Pascal-VOC open dataset, and Head-Counting dataset, which is our own dataset developed to detect and count people entering a room. We benchmark our proposed method on three hardware architectures, namely CPU, GPU, and Intel Movidius Neural Computer Stick (NCS) using the popular SSD-MobileNet and SSD-SqueezeNet neural network architectures used for edge-AI vision applications. Results demonstrate that our method outperforms the conventional filter pruning methodology, using both datasets on above mentioned hardware architectures. Furthermore, a low cost IoT hardware setup consisting of an Intel Movidius-NCS is proposed to deploy an edge-AI application using our proposed pruning methodology.
翻訳日:2022-12-26 07:01:21 公開日:2020-03-05
# 有限入力一般出力ノイズチャネルのための教師なしニューラルユニバーサルデノイザー

Unsupervised Neural Universal Denoiser for Finite-Input General-Output Noisy Channel ( http://arxiv.org/abs/2003.02623v1 )

ライセンス: Link先を確認
Tae-Eon Park and Taesup Moon(参考訳) 有限入力一般出力(FIGO)チャネルのためのニューラルネットワークに基づく新しいユニバーサルデノイザを考案する。 多くの現実的なシナリオにおいて現実的な既知のノイズチャネル密度の仮定に基づいて、我々はネットワークをトレーニングし、その基礎となるクリーンソースデータに対して最良のスライディングウインドウデノイザを実現できるようにします。 このアルゴリズムは一般化cude(gen-cude)と呼ばれ、教師なしの手法(ノイズ観測データに基づく)で訓練でき、同じ設定で既に開発されたユニバーサルデノイザーに比べて計算の複雑さがはるかに小さく、理論解析によって得られるデノイジン性能の上限がはるかに狭いため、いくつかの望ましい特性を享受できる。 提案実験では,Gen-CUDEが合成および実際のクリーンシーケンスに対して,他の強いベースラインよりもはるかに優れたデノナイジング結果が得られることを示した。

We devise a novel neural network-based universal denoiser for the finite-input, general-output (FIGO) channel. Based on the assumption of known noisy channel densities, which is realistic in many practical scenarios, we train the network such that it can denoise as well as the best sliding window denoiser for any given underlying clean source data. Our algorithm, dubbed as Generalized CUDE (Gen-CUDE), enjoys several desirable properties; it can be trained in an unsupervised manner (solely based on the noisy observation data), has much smaller computational complexity compared to the previously developed universal denoiser for the same setting, and has much tighter upper bound on the denoising performance, which is obtained by a theoretical analysis. In our experiments, we show such tighter upper bound is also realized in practice by showing that Gen-CUDE achieves much better denoising results compared to other strong baselines for both synthetic and real underlying clean sequences.
翻訳日:2022-12-26 06:52:15 公開日:2020-03-05
# SLEIPNIR: 導出物を用いたガウス過程回帰のための決定論的かつ確実な特徴拡張

SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for Gaussian Process Regression with Derivatives ( http://arxiv.org/abs/2003.02658v1 )

ライセンス: Link先を確認
Emmanouil Angelis, Philippe Wenk, Bernhard Sch\"olkopf, Stefan Bauer and Andreas Krause(参考訳) ガウス過程は、微分観測を直接統合できる優れた解析的性質を持つ重要な回帰ツールである。 しかし、バニラGP法は観測量で3次的にスケールする。 本研究では,二次フーリエ特徴に基づく微分を持つgp回帰をスケールする新しい手法を提案する。 そして、近似されたカーネルと近似された後方の両方に適用される決定論的、非漸近的、指数関数的に減衰する誤差境界を証明した。 さらに,本手法の実用的適用性を示すため,最近開発されたodeパラメータ推論アルゴリズムであるodinに適用した。 広範な実験のセクションでは、すべての結果が経験的に検証され、このアプローチの速度、正確性、実用性を示す。

Gaussian processes are an important regression tool with excellent analytic properties which allow for direct integration of derivative observations. However, vanilla GP methods scale cubically in the amount of observations. In this work, we propose a novel approach for scaling GP regression with derivatives based on quadrature Fourier features. We then prove deterministic, non-asymptotic and exponentially fast decaying error bounds which apply for both the approximated kernel as well as the approximated posterior. To furthermore illustrate the practical applicability of our method, we then apply it to ODIN, a recently developed algorithm for ODE parameter inference. In an extensive experiments section, all results are empirically validated, demonstrating the speed, accuracy, and practical applicability of this approach.
翻訳日:2022-12-26 06:51:59 公開日:2020-03-05
# 異なる文脈をもつ確率線形コンテキスト帯域

Stochastic Linear Contextual Bandits with Diverse Contexts ( http://arxiv.org/abs/2003.02681v1 )

ライセンス: Link先を確認
Weiqiang Wu, Jing Yang, and Cong Shen(参考訳) 本稿では,文脈多様性が確率線形文脈帯域に与える影響について検討する。 文脈がより難しいバンディット学習につながるという以前の見解とは対照的に、文脈が十分に多様である場合には、学習者は、搾取時に得られた情報を利用して探索過程を短縮し、後悔を減らすことができる。 我々はLinUCB-dアルゴリズムを設計し、その後悔する性能を分析する新しい手法を提案する。 主な理論的結果は、多様な文脈の仮定の下で、linucb-d の累積期待後悔は定数によって有界である。 副産物として,LinUCBのこれまでの理解を改善し,性能保証を強化した。

In this paper, we investigate the impact of context diversity on stochastic linear contextual bandits. As opposed to the previous view that contexts lead to more difficult bandit learning, we show that when the contexts are sufficiently diverse, the learner is able to utilize the information obtained during exploitation to shorten the exploration process, thus achieving reduced regret. We design the LinUCB-d algorithm, and propose a novel approach to analyze its regret performance. The main theoretical result is that under the diverse context assumption, the cumulative expected regret of LinUCB-d is bounded by a constant. As a by-product, our results improve the previous understanding of LinUCB and strengthen its performance guarantee.
翻訳日:2022-12-26 06:51:47 公開日:2020-03-05
# 有限集合から選択した最適モデルの厳密な経路に対する線形時間動的計画法

Linear time dynamic programming for the exact path of optimal models selected from a finite set ( http://arxiv.org/abs/2003.02808v1 )

ライセンス: Link先を確認
Toby Hocking, Joseph Vargovich(参考訳) 多くの学習アルゴリズムは、データ適合損失関数と正規化器を最小化するモデルパラメータの発見の観点から定式化されている。 正規化子が l0 擬ノルムを含むとき、結果として得られる正規化経路は有限のモデルの集合からなる。 正規化経路のブレークポイントを計算するための最速の既存のアルゴリズムはモデル数で2倍であり、高次元問題へのスケールが不十分である。 線形時間でブレークポイントを計算するために動的プログラミングアルゴリズムが利用できるという新しい公式な証明を提供する。 変更点検出問題に対する実験結果から,グリッド探索と2次時間アルゴリズムによる精度と速度の向上が示された。

Many learning algorithms are formulated in terms of finding model parameters which minimize a data-fitting loss function plus a regularizer. When the regularizer involves the l0 pseudo-norm, the resulting regularization path consists of a finite set of models. The fastest existing algorithm for computing the breakpoints in the regularization path is quadratic in the number of models, so it scales poorly to high dimensional problems. We provide new formal proofs that a dynamic programming algorithm can be used to compute the breakpoints in linear time. Empirical results on changepoint detection problems demonstrate the improved accuracy and speed relative to grid search and the previous quadratic time algorithm.
翻訳日:2022-12-26 06:51:34 公開日:2020-03-05
# スパースデータからの半教師付き学習のための因子グラフ表現

Factorized Graph Representations for Semi-Supervised Learning from Sparse Data ( http://arxiv.org/abs/2003.02829v1 )

ライセンス: Link先を確認
Krishna Kumar P. and Paul Langton and Wolfgang Gatterbauer(参考訳) ノード分類はグラフデータ管理において重要な問題である。 一般に、いくつかのラベル付きシードノードから繰り返し動作する様々なラベル伝搬法によって解決される。 クラス間の任意の互換性を持つグラフの場合、これらの手法はドメインの専門家またはヒューリスティックスによって提供されなければならない互換性行列を知ることに依存する。 代わりに、厳密なラベル付きグラフから直接、原則付きかつスケーラブルな方法で正しい互換性を推定できますか? この疑問に肯定的に答え、極端に粗いラベル付きグラフ(例えば、10,000ノードに1がラベル付けされている)でも、後に残りのノードにラベルを付けるのに要するわずかな時間で機能する遠隔互換性推定法を提案する。 提案手法はまず複数の因子化グラフ表現(グラフとは独立なサイズ)を作成し,次にこれらの小さなグラフスケッチを推定する。 我々は代数的増幅をアルゴリズムの更新方程式の代数的性質を利用してスパース信号を増幅するより一般的な考え方として定義する。 我々の推定値は, 代替手法よりも桁違いに高速であり, エンドツーエンドの分類精度は金標準適合性に匹敵することを示した。 これにより、既存のラベル伝搬法の安価な前処理ステップとなり、ヒューリスティックスへの現在の依存を取り除くことができる。

Node classification is an important problem in graph data management. It is commonly solved by various label propagation methods that work iteratively starting from a few labeled seed nodes. For graphs with arbitrary compatibilities between classes, these methods crucially depend on knowing the compatibility matrix that must be provided by either domain experts or heuristics. Can we instead directly estimate the correct compatibilities from a sparsely labeled graph in a principled and scalable way? We answer this question affirmatively and suggest a method called distant compatibility estimation that works even on extremely sparsely labeled graphs (e.g., 1 in 10,000 nodes is labeled) in a fraction of the time it later takes to label the remaining nodes. Our approach first creates multiple factorized graph representations (with size independent of the graph) and then performs estimation on these smaller graph sketches. We define algebraic amplification as the more general idea of leveraging algebraic properties of an algorithm's update equations to amplify sparse signals. We show that our estimator is by orders of magnitude faster than an alternative approach and that the end-to-end classification accuracy is comparable to using gold standard compatibilities. This makes it a cheap preprocessing step for any existing label propagation method and removes the current dependence on heuristics.
翻訳日:2022-12-26 06:51:24 公開日:2020-03-05
# ラベル平滑化はラベルノイズを軽減するか?

Does label smoothing mitigate label noise? ( http://arxiv.org/abs/2003.02819v1 )

ライセンス: Link先を確認
Michal Lukasik, Srinadh Bhojanapalli, Aditya Krishna Menon, Sanjiv Kumar(参考訳) ラベル平滑化はディープラーニングモデルのトレーニングで一般的に用いられ、ワンホットトレーニングラベルと一様ラベルベクトルが混在する。 実験的に、平滑化は予測性能とモデル校正の両方を改善することが示されている。 本稿では,ラベルの平滑化がラベルノイズに対処する手段として有効かどうかを検討する。 ラベルの平滑化は、ラベルに対称ノイズを注入するのと同等の、この問題を増幅しているように見えるが、ラベルのノイズ文学からの一般的な損失補正技術とどのように関係しているかを示す。 この接続に基づいて,ラベルの平滑化はラベルノイズ下での損失補正と競合することを示す。 さらに,ノイズの多いデータからモデルを蒸留する場合,教師のラベルの平滑化は有益であり,これは近年のノイズのない問題に対する発見とは対照的であり,ラベルの平滑化が有益な設定にさらに光を当てている。

Label smoothing is commonly used in training deep learning models, wherein one-hot training labels are mixed with uniform label vectors. Empirically, smoothing has been shown to improve both predictive performance and model calibration. In this paper, we study whether label smoothing is also effective as a means of coping with label noise. While label smoothing apparently amplifies this problem --- being equivalent to injecting symmetric noise to the labels --- we show how it relates to a general family of loss-correction techniques from the label noise literature. Building on this connection, we show that label smoothing is competitive with loss-correction under label noise. Further, we show that when distilling models from noisy data, label smoothing of the teacher is beneficial; this is in contrast to recent findings for noise-free problems, and sheds further light on settings where label smoothing is beneficial.
翻訳日:2022-12-26 06:43:37 公開日:2020-03-05
# 一般化政策排除:非パラメトリックな帯域の効率的なアルゴリズム

Generalized Policy Elimination: an efficient algorithm for Nonparametric Contextual Bandits ( http://arxiv.org/abs/2003.02873v1 )

ライセンス: Link先を確認
Aur\'elien F. Bibaut, Antoine Chambaz, Mark J. van der Laan(参考訳) 我々は, oracle の効率的なコンテクスト・バンディット(cb)アルゴリズムであるgpeアルゴリズムを提案し,このアルゴリズムは \cite{dudik2011} のポリシー除去アルゴリズムに着想を得たものである。 無限のVC次元を持つ非パラメトリッククラスと競合するオラクル効率CBアルゴリズムに対する最初の後悔最適性保証定理を証明する。 具体的には、GPEは可積分エントロピーを持つ政策クラスに対して、後悔最適(対数因子まで)であることを示す。 より大きなエントロピーを持つクラスに対して、GPEの分析に使用されるコア技術は、これまでで最高のアルゴリズムと一致することを後悔した$\varepsilon$-greedyアルゴリズムの設計に利用できることを示す。 我々はアルゴリズムと定理の適用可能性について、関連する最適化オラクルを効率的に実装できる大規模な非パラメトリックポリシークラスを例に示す。

We propose the Generalized Policy Elimination (GPE) algorithm, an oracle-efficient contextual bandit (CB) algorithm inspired by the Policy Elimination algorithm of \cite{dudik2011}. We prove the first regret optimality guarantee theorem for an oracle-efficient CB algorithm competing against a nonparametric class with infinite VC-dimension. Specifically, we show that GPE is regret-optimal (up to logarithmic factors) for policy classes with integrable entropy. For classes with larger entropy, we show that the core techniques used to analyze GPE can be used to design an $\varepsilon$-greedy algorithm with regret bound matching that of the best algorithms to date. We illustrate the applicability of our algorithms and theorems with examples of large nonparametric policy classes, for which the relevant optimization oracles can be efficiently implemented.
翻訳日:2022-12-26 06:43:07 公開日:2020-03-05
# モード推定のためのロバスト性保証とバンドイットへの応用

Robustness Guarantees for Mode Estimation with an Application to Bandits ( http://arxiv.org/abs/2003.02932v1 )

ライセンス: Link先を確認
Aldo Pacchiano, Heinrich Jiang, Michael I. Jordan(参考訳) モード推定は、機械学習に幅広い応用がある統計学における古典的な問題である。 それにもかかわらず、その堅牢性については、おそらく敵対的なデータ汚染の下ではほとんど理解されていない。 本稿では、単純なランダム化の下で、厳密な堅牢性保証とプライバシー保証を提供する。 次に,平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。 我々は,トップアーム識別,トップmアーム識別,コンテキストモーダルバンディット,無限連続アームトップアームリカバリの問題に対する後悔の保証を証明した。 シミュレーションでは、我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示し、その結果、報奨が異常値や逆値の腐敗を持つ可能性がある状況において、モーダルバンディットが魅力的な選択となる。

Mode estimation is a classical problem in statistics with a wide range of applications in machine learning. Despite this, there is little understanding in its robustness properties under possibly adversarial data contamination. In this paper, we give precise robustness guarantees as well as privacy guarantees under simple randomization. We then introduce a theory for multi-armed bandits where the values are the modes of the reward distributions instead of the mean. We prove regret guarantees for the problems of top arm identification, top m-arms identification, contextual modal bandits, and infinite continuous arms top arm recovery. We show in simulations that our algorithms are robust to perturbation of the arms by adversarial noise sequences, thus rendering modal bandits an attractive choice in situations where the rewards may have outliers or adversarial corruptions.
翻訳日:2022-12-26 06:42:53 公開日:2020-03-05
# RecipeGPT:生成前訓練に基づく調理レシピ生成と評価システム

RecipeGPT: Generative Pre-training Based Cooking Recipe Generation and Evaluation System ( http://arxiv.org/abs/2003.02498v1 )

ライセンス: Link先を確認
Helena H. Lee, Ke Shu, Palakorn Achananuparp, Philips Kokoh Prasetyo, Yue Liu, Ee-Peng Lim, Lav R. Varshney(参考訳) ここ数年、大量のオンライン料理レシピのおかげで、料理レシピの自動生成への関心が着実に高まっている。 本稿では,新しいレシピ生成・評価システムであるRecipeGPTを紹介する。 本システムでは,(1)レシピのタイトルと材料からの指示生成,(2)レシピのタイトルと調理指導からの要素生成,の2つのテキスト生成モードを提供する。 バックエンドテキスト生成モジュールは、大きな料理レシピデータセット上に微調整された生成型事前学習言語モデルgpt-2を含む。 また、レシピ評価モジュールにより、ユーザが生成したレシピコンテンツの品質を簡便に検査し、結果を保存して将来の参照を行うことができる。 RecipeGPTはhttps://recipegpt.org/.comでアクセスすることができる。

Interests in the automatic generation of cooking recipes have been growing steadily over the past few years thanks to a large amount of online cooking recipes. We present RecipeGPT, a novel online recipe generation and evaluation system. The system provides two modes of text generations: (1) instruction generation from given recipe title and ingredients; and (2) ingredient generation from recipe title and cooking instructions. Its back-end text generation module comprises a generative pre-trained language model GPT-2 fine-tuned on a large cooking recipe dataset. Moreover, the recipe evaluation module allows the users to conveniently inspect the quality of the generated recipe contents and store the results for future reference. RecipeGPT can be accessed online at https://recipegpt.org/.
翻訳日:2022-12-26 06:42:12 公開日:2020-03-05
# 適応verifiability-driven strategyによる算術回路の進化的近似

Adaptive Verifiability-Driven Strategy for Evolutionary Approximation of Arithmetic Circuits ( http://arxiv.org/abs/2003.02491v1 )

ライセンス: Link先を確認
Milan Ceska, Jiri Matyas, Vojtech Mrazek, Lukas Sekanina, Zdenek Vasicek, Tomas Vojnar(参考訳) 本稿では,電力消費の正しさをトレードオフし,多くのエネルギー対応アプリケーションにおいて重要な役割を果たす複素近似算術回路の設計手法を提案する。 提案手法は,近似誤差の形式的保証を提供する独自の形式的手法を進化回路最適化アルゴリズムに統合する。 鍵となるアイデアは、迅速な検証可能な近似回路への進化を促す、新しい適応型探索戦略を採用することである。 いくつかの構造的に異なる算術回路と目標精度を含む広範な実験評価で示されているように、探索戦略は様々な近似シナリオに対して優れたスケーラビリティと汎用性を提供する。 提案手法は既存の手法の能力を大幅に向上させ,回路近似の自動設計プロセスへの道を開く。

We present a novel approach for designing complex approximate arithmetic circuits that trade correctness for power consumption and play important role in many energy-aware applications. Our approach integrates in a unique way formal methods providing formal guarantees on the approximation error into an evolutionary circuit optimisation algorithm. The key idea is to employ a novel adaptive search strategy that drives the evolution towards promptly verifiable approximate circuits. As demonstrated in an extensive experimental evaluation including several structurally different arithmetic circuits and target precisions, the search strategy provides superior scalability and versatility with respect to various approximation scenarios. Our approach significantly improves capabilities of the existing methods and paves a way towards an automated design process of provably-correct circuit approximations.
翻訳日:2022-12-26 06:42:01 公開日:2020-03-05
# マルチラベル分類課題を解くための最小スパイクニューロン

Minimal spiking neuron for solving multi-label classification tasks ( http://arxiv.org/abs/2003.02902v1 )

ライセンス: Link先を確認
Jakub Fil and Dominique Chu(参考訳) マルチスパイクテンポトロン(multi-spike tempotron、mst)は、複雑な教師付き分類タスクを解決できる強力な単一スパイクニューロンモデルである。 強力ではあるが、内部は複雑で、計算コストが高く、神経質なハードウェアには適していない。 本稿では,学習能力と情報処理能力を保ちながら,MSTモデルを簡素化できるかどうかを理解することを目的とする。 この目的のために、スパイク応答モデル(Spike Response Model)の特殊な例である一般化ニューロンモデル(Generalized Neuron Models, GNM)のファミリーを導入する。 我々は、GNMが少なくともMSTと同様に、幅広いパラメータで学習できることを発見した。 膜電位の時間的自己相関をGNMの1つの重要な成分として同定し,複数の時空間パターンを分類する。 また、GNMを化学系として解釈し、分子情報処理によるニューラルネットワークによる計算を概念的にブリッジする。 本稿では,gnmにおけるエラートレース学習とエラーバックプロパゲーションを含む代替訓練手法を提案する。

The Multi-Spike Tempotron (MST) is a powerful single spiking neuron model that can solve complex supervised classification tasks. While powerful, it is also internally complex, computationally expensive to evaluate, and not suitable for neuromorphic hardware. Here we aim to understand whether it is possible to simplify the MST model, while retaining its ability to learn and to process information. To this end, we introduce a family of Generalised Neuron Models (GNM) which are a special case of the Spike Response Model and much simpler and cheaper to simulate than the MST. We find that over a wide range of parameters the GNM can learn at least as well as the MST. We identify the temporal autocorrelation of the membrane potential as the single most important ingredient of the GNM which enables it to classify multiple spatio-temporal patterns. We also interpret the GNM as a chemical system, thus conceptually bridging computation by neural networks with molecular information processing. We conclude the paper by proposing alternative training approaches for the GNM including error trace learning and error backpropagation.
翻訳日:2022-12-26 06:41:50 公開日:2020-03-05
# ViCE: 機械学習モデルのための視覚的対実的説明

ViCE: Visual Counterfactual Explanations for Machine Learning Models ( http://arxiv.org/abs/2003.02428v1 )

ライセンス: Link先を確認
Oscar Gomez, Steffen Holter, Jun Yuan, Enrico Bertini(参考訳) 機械学習モデルの予測精度の継続的な改善は、その広範な実践的応用を可能にした。 しかし、一見正確なモデルでなされる多くの決定は、まだドメインの専門家による検証を必要とする。 さらに、モデルのエンドユーザは、特定の意思決定の背後にある理由を理解したいと考えている。 したがって、解釈可能性の必要性はますます高まっている。 本稿では,モデル決定を文脈化・評価するために,反事実的説明を生成するインタラクティブなビジュアル分析ツールであるviceを提案する。 各サンプルは、モデルの出力をひっくり返すのに必要な最小限の変更セットを特定するために評価される。 これらの説明は、エンドユーザーに対して、自動決定を理解し、競合し、改善するためのパーソナライズ可能な洞察を提供することを目的としている。 結果が視覚インターフェースに効果的に表示され, 反実的説明が強調され, ユーザがデータやモデルを探索するための対話的手法が提供される。 このツールの機能は、ホームエクイティの信用データセットへの応用によって実証される。

The continued improvements in the predictive accuracy of machine learning models have allowed for their widespread practical application. Yet, many decisions made with seemingly accurate models still require verification by domain experts. In addition, end-users of a model also want to understand the reasons behind specific decisions. Thus, the need for interpretability is increasingly paramount. In this paper we present an interactive visual analytics tool, ViCE, that generates counterfactual explanations to contextualize and evaluate model decisions. Each sample is assessed to identify the minimal set of changes needed to flip the model's output. These explanations aim to provide end-users with personalized actionable insights with which to understand, and possibly contest or improve, automated decisions. The results are effectively displayed in a visual interface where counterfactual explanations are highlighted and interactive methods are provided for users to explore the data and model. The functionality of the tool is demonstrated by its application to a home equity line of credit dataset.
翻訳日:2022-12-26 06:41:30 公開日:2020-03-05
# 電子カルテの適応予測タイミング

Adaptive Prediction Timing for Electronic Health Records ( http://arxiv.org/abs/2003.02554v1 )

ライセンス: Link先を確認
Jacob Deasy, Ari Ercole and Pietro Li\`o(参考訳) 現実的なシナリオでは、ケースバイケースのタイムスケールで多変量タイムリーが進化する。 これは医学において特に明らかであり、臨床イベントの頻度は病棟、患者、応用によって異なる。 より複雑なモデルにより、患者の結果を効果的に予測することが示されているが、これら固有の時間分解能に粒度を適応させることはできなかった。 そこで我々は,ベイジアン反復モデルにおける不確実性蓄積に基づく適応率で患者結果を予測するための,より現実的な新しいアプローチを提案する。 適応的予測タイミングを示すために,再帰的ニューラルネットワーク(recurrent neural network, rnn)と,新しいアグリゲーション手法を用いたベイズ埋め込み層を用いる。 我々のモデルは、イベントが密度が高い場合や、イベント潜伏表現が確実である場合や、読み出しが疎い場合や、モデルが不確実である場合の頻度をより頻繁に予測する。 入院48時間後, 当モデルでは, スタティックウインドウと同等の性能を示した上で, 患者別, イベント別予測タイミングを生成し, 患者留置後12時間で予測性能が向上した。

In realistic scenarios, multivariate timeseries evolve over case-by-case time-scales. This is particularly clear in medicine, where the rate of clinical events varies by ward, patient, and application. Increasingly complex models have been shown to effectively predict patient outcomes, but have failed to adapt granularity to these inherent temporal resolutions. As such, we introduce a novel, more realistic, approach to generating patient outcome predictions at an adaptive rate based on uncertainty accumulation in Bayesian recurrent models. We use a Recurrent Neural Network (RNN) and a Bayesian embedding layer with a new aggregation method to demonstrate adaptive prediction timing. Our model predicts more frequently when events are dense or the model is certain of event latent representations, and less frequently when readings are sparse or the model is uncertain. At 48 hours after patient admission, our model achieves equal performance compared to its static-windowed counterparts, while generating patient- and event-specific prediction timings that lead to improved predictive performance over the crucial first 12 hours of the patient stay.
翻訳日:2022-12-26 06:34:33 公開日:2020-03-05
# Cross-GCN:$k$-order機能インタラクションによるグラフ畳み込みネットワークの強化

Cross-GCN: Enhancing Graph Convolutional Network with $k$-Order Feature Interactions ( http://arxiv.org/abs/2003.02587v1 )

ライセンス: Link先を確認
Fuli Feng, Xiangnan He, Hanwang Zhang, and Tat-Seng Chua(参考訳) Graph Convolutional Network(GCN)は,グラフデータの学習と推論を行う新興技術である。 グラフ構造上の特徴学習は、各ターゲットノードの埋め込みを得るために、隣ノードの機能を集約することで行う。 強力な表現力のため、最近の研究はGCNが推薦や文書分類などのタスクにおいて最先端のパフォーマンスを達成することを示している。 その効果にもかかわらず、我々は、GCNの既存の設計がクロスフィーチャをモデル化し、クロスフィーチャが重要であるタスクやデータに対してGCNの効率を低下させると主張している。 ニューラルネットワークは、特徴クロスをモデル化する乗算演算子を含む任意の連続関数を近似することができるが、明示的な設計がなければ、それを行うのはかなり非効率である(すなわち、過適合のリスクで多くのパラメータを浪費する)。 この目的のために、我々は、特徴次元と順序サイズに線形な複雑性を持つ任意の次交叉特徴を明示的にモデル化する、クロスフィーチャグラフ畳み込みと呼ばれる新しい演算子を設計する。 提案したアーキテクチャをCross-GCNと呼び,その有効性を検証するために3つのグラフの実験を行う。 広範分析はGCNのクロス機能を明示的にモデル化し、特に下位層における機能学習に有効であることを示す。

Graph Convolutional Network (GCN) is an emerging technique that performs learning and reasoning on graph data. It operates feature learning on the graph structure, through aggregating the features of the neighbor nodes to obtain the embedding of each target node. Owing to the strong representation power, recent research shows that GCN achieves state-of-the-art performance on several tasks such as recommendation and linked document classification. Despite its effectiveness, we argue that existing designs of GCN forgo modeling cross features, making GCN less effective for tasks or data where cross features are important. Although neural network can approximate any continuous function, including the multiplication operator for modeling feature crosses, it can be rather inefficient to do so (i.e., wasting many parameters at the risk of overfitting) if there is no explicit design. To this end, we design a new operator named Cross-feature Graph Convolution, which explicitly models the arbitrary-order cross features with complexity linear to feature dimension and order size. We term our proposed architecture as Cross-GCN, and conduct experiments on three graphs to validate its effectiveness. Extensive analysis validates the utility of explicitly modeling cross features in GCN, especially for feature learning at lower layers.
翻訳日:2022-12-26 06:33:40 公開日:2020-03-05
# 単調性制約のあるファジィk-Nearest近傍:単調騒音の頑健性へ向けて

Fuzzy k-Nearest Neighbors with monotonicity constraints: Moving towards the robustness of monotonic noise ( http://arxiv.org/abs/2003.02601v1 )

ライセンス: Link先を確認
Sergio Gonz\'alez, Salvador Garc\'ia, Sheng-Tun Li, Robert John, Francisco Herrera(参考訳) 本稿では,モノトニック制約付き分類のためのファジィk-Nearest Neighborsに基づく新しいモデル,MonFkNNを提案する。 実世界のデータセットは、クラスノイズによる単調な制約に従わないことが多い。 MonFkNNはファジィメンバシップの新たな計算を取り入れており、レバーベリングを必要とせずにモノトニックノイズに対する堅牢性を高める。 私たちの提案は、取り組まれている問題の異なるニーズに適応するように設計されています。 いくつかの実験的研究において、比較法により得られた最良の単調性に適合しながら精度を著しく改善した。 また,MonFkNNはモノトニックk-NNと比較して,大量のクラスノイズの存在下で性能を実証的に向上することを示す。

This paper proposes a new model based on Fuzzy k-Nearest Neighbors for classification with monotonic constraints, Monotonic Fuzzy k-NN (MonFkNN). Real-life data-sets often do not comply with monotonic constraints due to class noise. MonFkNN incorporates a new calculation of fuzzy memberships, which increases robustness against monotonic noise without the need for relabeling. Our proposal has been designed to be adaptable to the different needs of the problem being tackled. In several experimental studies, we show significant improvements in accuracy while matching the best degree of monotonicity obtained by comparable methods. We also show that MonFkNN empirically achieves improved performance compared with Monotonic k-NN in the presence of large amounts of class noise.
翻訳日:2022-12-26 06:33:20 公開日:2020-03-05
# スマートウォッチ技術を用いた喫煙ジェスチャーの認識

Recognition of Smoking Gesture Using Smart Watch Technology ( http://arxiv.org/abs/2003.02735v1 )

ライセンス: Link先を確認
Casey A. Cole, Bethany Janos, Dien Anshari, James F. Thrasher, Scott Strayer, and Homayoun Valafar(参考訳) 長い喫煙によって引き起こされる病気は、今日では最も予防可能な死因である。 本報告では,スマートウォッチに加速度センサを応用して喫煙動作を識別することに成功した。 喫煙動作の早期同定は、適切な介入方法を開始し、喫煙の再発を防ぐのに役立つ。 実験の結果,ANN(Artificial Neural Networks)を用いた喫煙行動の同定において,85%~95%の成功率を示した。 以上の結果から, 加速度計のX次元から得られる情報は喫煙行動を特定する最善の方法であり, y, z次元は, 食事, 飲酒, 鼻のひっかきなどの他のジェスチャーを除去するのに有効であると考えられた。 我々は、アンの訓練中にapple watchのセンサーデータを利用した。 Pebble Steelで収集した別のセンサデータを用いて,Apple Watchから収集したデータに基づいてトレーニングしたANNを用いて喫煙識別精度を90%以上とした。 最後に,スマートウォッチを用いて日常活動の継続的なモニタリングを行う可能性を実証した。

Diseases resulting from prolonged smoking are the most common preventable causes of death in the world today. In this report we investigate the success of utilizing accelerometer sensors in smart watches to identify smoking gestures. Early identification of smoking gestures can help to initiate the appropriate intervention method and prevent relapses in smoking. Our experiments indicate 85%-95% success rates in identification of smoking gesture among other similar gestures using Artificial Neural Networks (ANNs). Our investigations concluded that information obtained from the x-dimension of accelerometers is the best means of identifying the smoking gesture, while y and z dimensions are helpful in eliminating other gestures such as: eating, drinking, and scratch of nose. We utilized sensor data from the Apple Watch during the training of the ANN. Using sensor data from another participant collected on Pebble Steel, we obtained a smoking identification accuracy of greater than 90% when using an ANN trained on data previously collected from the Apple Watch. Finally, we have demonstrated the possibility of using smart watches to perform continuous monitoring of daily activities.
翻訳日:2022-12-26 06:32:52 公開日:2020-03-05
# 効率的な学習と効果的な学習のバランス - dense2sparse reward shapingによる環境不確かさを伴うロボット操作

Balance Between Efficient and Effective Learning: Dense2Sparse Reward Shaping for Robot Manipulation with Environment Uncertainty ( http://arxiv.org/abs/2003.02740v1 )

ライセンス: Link先を確認
Yongle Luo, Kun Dong, Lili Zhao, Zhiyong Sun, Chao Zhou, Bo Song(参考訳) 効率的かつ効果的な学習は、深層強化学習(drl)の究極の目標の1つであるが、特にロボット操作の応用において、ほとんどの時間において妥協がなされている。 学習は常にロボット操作作業に費用がかかり、学習の有効性はシステムの不確実性に影響される可能性がある。 以上の課題を解決するため,本稿では,Dense2Sparseという,シンプルだが強力な報酬形成手法を提案する。 これは、密集報酬の高速収束とスパース報酬のノイズ分離の利点を組み合わせることで、学習効率と効率性のバランスを達成し、ロボット操作タスクに適している。 システム不確かさを伴う状態表現モデルを用いて, 一連のアブレーション実験を行い, dense2sparse法を評価した。 実験の結果,drk2sparse法では,単独のdrk法やsparse法に比べて高い期待値が得られ,システム不確かさに対する耐性も高かった。

Efficient and effective learning is one of the ultimate goals of the deep reinforcement learning (DRL), although the compromise has been made in most of the time, especially for the application of robot manipulations. Learning is always expensive for robot manipulation tasks and the learning effectiveness could be affected by the system uncertainty. In order to solve above challenges, in this study, we proposed a simple but powerful reward shaping method, namely Dense2Sparse. It combines the advantage of fast convergence of dense reward and the noise isolation of the sparse reward, to achieve a balance between learning efficiency and effectiveness, which makes it suitable for robot manipulation tasks. We evaluated our Dense2Sparse method with a series of ablation experiments using the state representation model with system uncertainty. The experiment results show that the Dense2Sparse method obtained higher expected reward compared with the ones using standalone dense reward or sparse reward, and it also has a superior tolerance of system uncertainty.
翻訳日:2022-12-26 06:32:36 公開日:2020-03-05
# ディープラーニングネットワークの効率的な最適化のための学習中のプルーニングフィルタ

Pruning Filters while Training for Efficiently Optimizing Deep Learning Networks ( http://arxiv.org/abs/2003.02800v1 )

ライセンス: Link先を確認
Sourjya Roy, Priyadarshini Panda, Gopalakrishnan Srinivasan, and Anand Raghunathan(参考訳) 現代のディープネットワークには数百万から数十億のパラメータがあり、トレーニングやリソース制約のあるエッジデバイスでの推論において、高いメモリとエネルギー要件をもたらす。 その結果、ディープネットワークの重みを少なくし、メモリと計算の要求を減少させるプルーニング手法が提案されている。 プルーニングは通常、元のネットワークをトレーニングした後で行われ、プルーニング中に発生する精度損失を補うためにさらにトレーニングが行われる。 精度と効率の最適なトレードオフに到達するまで、プルーネ・アンド・リトラクション手順を反復的に繰り返す。 しかし、このような反復的再トレーニングは、ネットワーク全体のトレーニングの複雑さを増す。 そこで本研究では,深層ネットワークの畳み込み層のフィルタを学習中にプルーニングし,分離した再トレーニングの必要性を未然に防ぐ動的プルーニング・イズ・トレーニング手法を提案する。 我々は,既存の3種類のプルーニング戦略 (viz. mean activation-based pruning, random pruning, l1 normalization-based pruning) を用いて動的プルーニング・イズ・トレーニング手法を評価する。 CIFAR10でトレーニングしたVGG-16の結果,L1の正規化は,元のネットワークと比較してフィルタの80%を切断した後,1%未満の精度で,本研究で検討したすべての手法の中で最高の性能を提供することが示された。 さらに, CIFAR100上でのL1正規化に基づくプルーニング機構について検討した。 その結果, プレニング中のプレニングは, 従来のネットワークに比べて50%のフィルタをプルーニングし, 高プルーニング率 (>80%) で約5%の精度で圧縮されたネットワークが得られることがわかった。 提案手法は, CIFAR10, CIFAR100, ImageNetのトレーニング中の計算量とメモリアクセス数を, 10時間後のトレーニングと比較して41%削減する。

Modern deep networks have millions to billions of parameters, which leads to high memory and energy requirements during training as well as during inference on resource-constrained edge devices. Consequently, pruning techniques have been proposed that remove less significant weights in deep networks, thereby reducing their memory and computational requirements. Pruning is usually performed after training the original network, and is followed by further retraining to compensate for the accuracy loss incurred during pruning. The prune-and-retrain procedure is repeated iteratively until an optimum tradeoff between accuracy and efficiency is reached. However, such iterative retraining adds to the overall training complexity of the network. In this work, we propose a dynamic pruning-while-training procedure, wherein we prune filters of the convolutional layers of a deep network during training itself, thereby precluding the need for separate retraining. We evaluate our dynamic pruning-while-training approach with three different pre-existing pruning strategies, viz. mean activation-based pruning, random pruning, and L1 normalization-based pruning. Our results for VGG-16 trained on CIFAR10 shows that L1 normalization provides the best performance among all the techniques explored in this work with less than 1% drop in accuracy after pruning 80% of the filters compared to the original network. We further evaluated the L1 normalization based pruning mechanism on CIFAR100. Results indicate that pruning while training yields a compressed network with almost no accuracy loss after pruning 50% of the filters compared to the original network and ~5% loss for high pruning rates (>80%). The proposed pruning methodology yields 41% reduction in the number of computations and memory accesses during training for CIFAR10, CIFAR100 and ImageNet compared to training with retraining for 10 epochs .
翻訳日:2022-12-26 06:32:18 公開日:2020-03-05
# スパイクネットワークを用いたイベントベース角速度回帰

Event-Based Angular Velocity Regression with Spiking Networks ( http://arxiv.org/abs/2003.02790v1 )

ライセンス: Link先を確認
Mathias Gehrig, Sumit Bam Shrestha, Daniel Mouritzen and Davide Scaramuzza(参考訳) Spiking Neural Networks (SNN) は、数値ではなく時間的スパイクとして伝達される情報を処理するバイオインスパイアネットワークである。 SNNのスパイクニューロンは、短時間でかなりの数のスパイクが発生した場合にのみスパイクを発生させる。 スパイクベースの計算モデルにより、SNNは、標準の人工ニューラルネットワークとは異なり、プリプロセスなしでイベントベースの非同期センサーから出力を処理できる。 これは、シリコン中のSNNの高度に並列化可能な概念を実装した特殊なニューロモルフィックハードウェアによって可能となる。 しかし、SNNは人工ニューラルネットワークと同じ人気を享受していない。 これは、入力形式がむしろ非慣習的であるだけでなく、スパイクネットワークのトレーニングの難しさにも起因している。 時間的性質と最近のアルゴリズムの進歩にもかかわらず、それらは主に分類問題で評価されてきた。 本稿では,イベントカメラから与えられた事象の時間回帰問題を初めて提案する。 具体的には,SNNを用いた回転イベントカメラの3自由度角速度の予測について検討する。 この問題の難しさは、不規則で非同期なイベントベースの入力から直接時間的に角速度を連続的に予測することから生じる。 イベントカメラの出力を事前処理なしで直接利用することで、従来のカメラから得られるすべてのメリットを継承できるのです。 これは高時間解像度、高ダイナミックレンジ、動きのぼやけがない。 本研究では,実世界のパノラマ画像から生成された合成イベントカメラデータセットを導入し,SNNを訓練して角速度回帰を実現できることを示す。

Spiking Neural Networks (SNNs) are bio-inspired networks that process information conveyed as temporal spikes rather than numeric values. A spiking neuron of an SNN only produces a spike whenever a significant number of spikes occur within a short period of time. Due to their spike-based computational model, SNNs can process output from event-based, asynchronous sensors without any pre-processing at extremely lower power unlike standard artificial neural networks. This is possible due to specialized neuromorphic hardware that implements the highly-parallelizable concept of SNNs in silicon. Yet, SNNs have not enjoyed the same rise of popularity as artificial neural networks. This not only stems from the fact that their input format is rather unconventional but also due to the challenges in training spiking networks. Despite their temporal nature and recent algorithmic advances, they have been mostly evaluated on classification problems. We propose, for the first time, a temporal regression problem of numerical values given events from an event camera. We specifically investigate the prediction of the 3-DOF angular velocity of a rotating event camera with an SNN. The difficulty of this problem arises from the prediction of angular velocities continuously in time directly from irregular, asynchronous event-based input. Directly utilising the output of event cameras without any pre-processing ensures that we inherit all the benefits that they provide over conventional cameras. That is high-temporal resolution, high-dynamic range and no motion blur. To assess the performance of SNNs on this task, we introduce a synthetic event camera dataset generated from real-world panoramic images and show that we can successfully train an SNN to perform angular velocity regression.
翻訳日:2022-12-26 06:25:45 公開日:2020-03-05
# EmpTransfo:共感型対話システム構築のためのマルチヘッドトランスフォーマーアーキテクチャ

EmpTransfo: A Multi-head Transformer Architecture for Creating Empathetic Dialog Systems ( http://arxiv.org/abs/2003.02958v1 )

ライセンス: Link先を確認
Rohola Zandie and Mohammad H. Mahoor(参考訳) 感情の理解と対応は、対話システムにおける最大の課題の1つです。 本稿では,共感対話システムを構築するためのマルチヘッドトランスフォーマティブアーキテクチャであるemptransfoを提案する。 EmpTransfoは言語生成に最先端の事前訓練モデル(OpenAI-GPTなど)を使用しているが、サイズは異なる。 感情やメタデータの履歴を活用することで,対話システムによる会話の質を向上させることができることを示す。 挑戦的な言語コーパスを用いた実験結果から,提案手法はHit@1とPPL(Perplexity)で他のモデルよりも優れていることが示された。

Understanding emotions and responding accordingly is one of the biggest challenges of dialog systems. This paper presents EmpTransfo, a multi-head Transformer architecture for creating an empathetic dialog system. EmpTransfo utilizes state-of-the-art pre-trained models (e.g., OpenAI-GPT) for language generation, though models with different sizes can be used. We show that utilizing the history of emotions and other metadata can improve the quality of generated conversations by the dialog system. Our experimental results using a challenging language corpus show that the proposed approach outperforms other models in terms of Hit@1 and PPL (Perplexity).
翻訳日:2022-12-26 06:25:01 公開日:2020-03-05
# ニューラルネットワークプルーニングにおける巻き戻しと微調整の比較

Comparing Rewinding and Fine-tuning in Neural Network Pruning ( http://arxiv.org/abs/2003.02389v1 )

ライセンス: Link先を確認
Alex Renda, Jonathan Frankle, Michael Carbin(参考訳) 多くのニューラルネットワークプルーニングアルゴリズムは、ネットワークを完了に訓練し、不要な構造を除去してネットワークを圧縮し、残りの構造をリトレーニングして精度を回復する。 標準的なリトレーニング技術である微調整は、小さな固定学習率を用いて最終的なトレーニング値から未成熟重量をトレーニングする。 本稿では,微調整を代替リトレーニング手法と比較する。 重みの巻き戻し(frankle et al., (2019) が提案したように)は、初期の訓練からその値に未熟な重みを戻し、元の訓練スケジュールで再訓練する。 学習率の巻き戻し(提案)は、重みの巻き戻しと同じ学習率のスケジュールを用いて最終値から未熟の重み付けを訓練する。 両方の巻き戻し技術は微調整よりも優れており、ネットワーク固有のいくつかの最先端技術における精度と圧縮比にマッチするネットワーク非依存な刈り取りアルゴリズムの基礎を形成している。

Many neural network pruning algorithms proceed in three steps: train the network to completion, remove unwanted structure to compress the network, and retrain the remaining structure to recover lost accuracy. The standard retraining technique, fine-tuning, trains the unpruned weights from their final trained values using a small fixed learning rate. In this paper, we compare fine-tuning to alternative retraining techniques. Weight rewinding (as proposed by Frankle et al., (2019)), rewinds unpruned weights to their values from earlier in training and retrains them from there using the original training schedule. Learning rate rewinding (which we propose) trains the unpruned weights from their final values using the same learning rate schedule as weight rewinding. Both rewinding techniques outperform fine-tuning, forming the basis of a network-agnostic pruning algorithm that matches the accuracy and compression ratios of several more network-specific state-of-the-art techniques.
翻訳日:2022-12-26 06:24:51 公開日:2020-03-05
# 半教師付き学習が因子化を満たす - チェーングラフモデルによる推奨学習

Semi-supervised Learning Meets Factorization: Learning to Recommend with Chain Graph Model ( http://arxiv.org/abs/2003.02452v1 )

ライセンス: Link先を確認
Chaochao Chen, Kevin C. Chang, Qibing Li, Xiaolin Zheng(参考訳) 近年,遅延因子モデル(lfm)は性能と拡張性が向上し,レコメンダシステムにおいて注目を集めている。 しかし、既存の LFM では、既知値のみに基づいて評価行列の欠落を予測しているため、評価行列の間隔は常に性能を制限している。 一方、半教師付き学習(SSL)は、アフィニティグラフの滑らかさの洞察に基づいてラベル伝搬を行うことにより、ラベル(評価)の空間問題を緩和する効果的な方法を提供する。 しかし、グラフベースのSSLは、レコメンデーションを直接適用する場合、深刻なスケーラビリティとグラフの信頼性に悩まされる。 本稿では,SSL と LFM を結合する新しい確率的連鎖グラフモデル (CGM) を提案する。 提案したCGMはベイジアンネットワークとマルコフ確率場を組み合わせたものである。 ベイズネットワークはレーティングの生成と回帰の手順をモデル化し、マルコフランダム場は生成したレーティング間の信頼と認識の滑らかさの制約をモデル化する。 実験の結果,提案したCGMは4つの評価指標で最先端の手法よりも優れており,データ空間が大きくなると性能差が大きくなることがわかった。

Recently latent factor model (LFM) has been drawing much attention in recommender systems due to its good performance and scalability. However, existing LFMs predict missing values in a user-item rating matrix only based on the known ones, and thus the sparsity of the rating matrix always limits their performance. Meanwhile, semi-supervised learning (SSL) provides an effective way to alleviate the label (i.e., rating) sparsity problem by performing label propagation, which is mainly based on the smoothness insight on affinity graphs. However, graph-based SSL suffers serious scalability and graph unreliable problems when directly being applied to do recommendation. In this paper, we propose a novel probabilistic chain graph model (CGM) to marry SSL with LFM. The proposed CGM is a combination of Bayesian network and Markov random field. The Bayesian network is used to model the rating generation and regression procedures, and the Markov random field is used to model the confidence-aware smoothness constraint between the generated ratings. Experimental results show that our proposed CGM significantly outperforms the state-of-the-art approaches in terms of four evaluation metrics, and with a larger performance margin when data sparsity increases.
翻訳日:2022-12-26 06:23:56 公開日:2020-03-05
# デジタルニューロモルフィック加速器におけるエネルギー効率の高い学習と推論のための記憶機構

Memory Organization for Energy-Efficient Learning and Inference in Digital Neuromorphic Accelerators ( http://arxiv.org/abs/2003.11639v1 )

ライセンス: Link先を確認
Clemens JS Schaefer, Patrick Faley, Emre O Neftci, Siddharth Joshi(参考訳) ニューロモルフィックハードウェアのエネルギー効率は、記憶、アクセス、およびシナプスパラメータの更新のエネルギーに大きく影響を受ける。 エネルギー効率の高いデジタル加速器を対象とする様々なメモリ組織を過去に研究してきたが、システムレベルでのエネルギーコストを完全にカプセル化していない。 この欠点に対処し、様々なオーバーヘッドを考慮し、異なる符号化方式のためのコントローラとメモリを合成し、これらの合成ブロックからエネルギーコストを抽出する。 さらに,畳み込み層への接続など,構造化接続のための関数エンコーディングを導入する。 関数エンコーディングは、既存のインデックスベースのソリューションと比較して、後方パスと重み更新を実装するためのエネルギーを58%削減する。 時空間パターンを保持するように訓練された2層スパイキングニューラルネットワークでは、ビットマップ(pb-bmp)ベースの組織により、スパルサーネットワークをより効率的にエンコードできることを示す。 この方式の符号化は、ファン・ロッシャム距離によって測定されたネットワーク保持精度の4%低下によるエネルギー効率の1.37倍の改善をもたらす。

The energy efficiency of neuromorphic hardware is greatly affected by the energy of storing, accessing, and updating synaptic parameters. Various methods of memory organisation targeting energy-efficient digital accelerators have been investigated in the past, however, they do not completely encapsulate the energy costs at a system level. To address this shortcoming and to account for various overheads, we synthesize the controller and memory for different encoding schemes and extract the energy costs from these synthesized blocks. Additionally, we introduce functional encoding for structured connectivity such as the connectivity in convolutional layers. Functional encoding offers a 58% reduction in the energy to implement a backward pass and weight update in such layers compared to existing index-based solutions. We show that for a 2 layer spiking neural network trained to retain a spatio-temporal pattern, bitmap (PB-BMP) based organization can encode the sparser networks more efficiently. This form of encoding delivers a 1.37x improvement in energy efficiency coming at the cost of a 4% degradation in network retention accuracy as measured by the van Rossum distance.
翻訳日:2022-12-26 06:16:29 公開日:2020-03-05
# 講演の注意

Talking-Heads Attention ( http://arxiv.org/abs/2003.02436v1 )

ライセンス: Link先を確認
Noam Shazeer, Zhenzhong Lan, Youlong Cheng, Nan Ding, Le Hou(参考訳) 我々は,「トーキング・ヘッドズ・アテンション (talking-heads attention) - ソフトマックス操作前後の注意領域の線形射影を含む多面的アテンション(多面的アテンション) - 少数の追加パラメータと適度な追加計算を挿入すると, 会話・ヘッドのアテンションは, マスク付き言語モデリングタスクにおいて, より複雑なものとなり, 言語理解や質問応答タスクへの伝達学習の質が向上する。

We introduce "talking-heads attention" - a variation on multi-head attention which includes linearprojections across the attention-heads dimension, immediately before and after the softmax operation.While inserting only a small number of additional parameters and a moderate amount of additionalcomputation, talking-heads attention leads to better perplexities on masked language modeling tasks, aswell as better quality when transfer-learning to language comprehension and question answering tasks.
翻訳日:2022-12-26 06:16:01 公開日:2020-03-05
# 教師としてのbert: シーケンスレベルの報酬のためのコンテキスト埋め込み

BERT as a Teacher: Contextual Embeddings for Sequence-Level Reward ( http://arxiv.org/abs/2003.02738v1 )

ライセンス: Link先を確認
Florian Schmidt and Thomas Hofmann(参考訳) 一連の参照に対して生成されたシーケンスの品質を測定することは、スコアの計算や報酬の割り当て、差別の実行など、多くの学習フレームワークにおいて中心的な問題である。 モデルアーキテクチャの大幅な進歩にもかかわらず、参照数とは独立にスケールするメトリクスは依然としてn-gram推定に基づいている。 単語を数えたり、比較したりした操作は、単語を埋め込んだり、埋め込みを比較したりすることができる。 BERT埋め込みの詳細な分析は、適切なプルーニングと平滑化技術によって必要なスケーラビリティを維持しながら、必要な依存関係をキャプチャするためにコンテキスト埋め込みを使用できることを実証的に示している。 非条件生成を強化学習問題として投げ込み,この課題設定において,我々の報酬関数がn-gram報酬よりも効果的な学習信号を提供することを示した。

Measuring the quality of a generated sequence against a set of references is a central problem in many learning frameworks, be it to compute a score, to assign a reward, or to perform discrimination. Despite great advances in model architectures, metrics that scale independently of the number of references are still based on n-gram estimates. We show that the underlying operations, counting words and comparing counts, can be lifted to embedding words and comparing embeddings. An in-depth analysis of BERT embeddings shows empirically that contextual embeddings can be employed to capture the required dependencies while maintaining the necessary scalability through appropriate pruning and smoothing techniques. We cast unconditional generation as a reinforcement learning problem and show that our reward function indeed provides a more effective learning signal than n-gram reward in this challenging setting.
翻訳日:2022-12-26 06:15:20 公開日:2020-03-05
# 確率テンソル流れを用いた経路計画

Path Planning Using Probability Tensor Flows ( http://arxiv.org/abs/2003.02774v1 )

ライセンス: Link先を確認
Francesco A. N. Palmieri and Krishna R. Pattipati and Giovanni Fioretti and Giovanni Di Gennaro and Amedeo Buonanno(参考訳) 確率モデルは、多くの文脈で「知的」な振る舞いを考慮に入れるために文献で提案されている。 本稿では,目標や障害物を含む潜在的に複雑なシナリオにおいて,確率伝搬をモデルエージェントの動きに適用する。 逆流はエージェントの行動、すなわち将来から来る推論に対して貴重な背景情報を提供し、エージェントの行動を決定する。 確率テンソルは畳み込みニューラルネットワークに似た方法で両方向に時間的に階層化される。 この議論は、明らかにタスクの複雑さにもかかわらず、解決可能であれば常に見つかるようなシミュレーショングリッドの集合を参照して行われる。 Attiasによって提案された最初のモデルは、非吸収障害、複数の目標、複数のエージェントを含むように拡張されている。 出現する行動は非常に現実的であり、このフレームワークを実環境に適用する大きな可能性を示している。

Probability models have been proposed in the literature to account for "intelligent" behavior in many contexts. In this paper, probability propagation is applied to model agent's motion in potentially complex scenarios that include goals and obstacles. The backward flow provides precious background information to the agent's behavior, viz., inferences coming from the future determine the agent's actions. Probability tensors are layered in time in both directions in a manner similar to convolutional neural networks. The discussion is carried out with reference to a set of simulated grids where, despite the apparent task complexity, a solution, if feasible, is always found. The original model proposed by Attias has been extended to include non-absorbing obstacles, multiple goals and multiple agents. The emerging behaviors are very realistic and demonstrate great potentials of the application of this framework to real environments.
翻訳日:2022-12-26 06:14:59 公開日:2020-03-05
# 衛星画像で識別された長寿関連形状:歩道、ドライブウェイ、ハイキングトレイル

Longevity Associated Geometry Identified in Satellite Images: Sidewalks, Driveways and Hiking Trails ( http://arxiv.org/abs/2003.08750v1 )

ライセンス: Link先を確認
Joshua J. Levy, Rebecca M. Lebeaux, Anne G. Hoen, Brock C. Christensen, Louis J. Vaickus, Todd A. MacKenzie(参考訳) 重要性: 1世紀にわたる増加の後、米国の寿命は停滞し、ここ数十年で減少し始めている。 衛星画像とストリートビュー画像を用いた先行作業により、建設環境と収入、教育、ケアへのアクセス、肥満などの健康要因との関連が示された。 しかし、米国全体の原油死亡率の変動に伴う学習画像の特徴的関係の評価は不十分である。 目的: 衛星画像を用いたアメリカ合衆国における郡レベルの死亡率の予測。 設計: アメリカ合衆国人口の68.9%を占める430郡のgoogle static mapsアプリケーションプログラミングインタフェースで衛星画像が抽出された。 畳み込みニューラルネットワークは2015年、死亡率を予測するために各郡で粗死亡率を使って訓練された。 学習した画像特徴はShapley Additive Feature Explanationsを用いて解釈され、クラスタ化され、死亡率と関連する共変量予測器と比較された。 主な成果と対策: 郡死は衛星画像を用いて予測された。 結果: 衛星画像から推定された死亡率は, 真の粗死亡率 (pearson r=0.72) と強く相関した。 学習画像の特徴をクラスタ化し,教育,収入,地理的地域,人種,年齢に関連する10のクラスタを同定した。 結論と関連性: 構築された環境のリモートセンシング機能に対するディープラーニング技術の応用は、米国での死亡率の予測に有用である。 健康関連の結果に関連する画像特徴を識別できるツールは、ターゲットの公衆衛生介入を知らせることができる。

Importance: Following a century of increase, life expectancy in the United States has stagnated and begun to decline in recent decades. Using satellite images and street view images prior work has demonstrated associations of the built environment with income, education, access to care and health factors such as obesity. However, assessment of learned image feature relationships with variation in crude mortality rate across the United States has been lacking. Objective: Investigate prediction of county-level mortality rates in the U.S. using satellite images. Design: Satellite images were extracted with the Google Static Maps application programming interface for 430 counties representing approximately 68.9% of the US population. A convolutional neural network was trained using crude mortality rates for each county in 2015 to predict mortality. Learned image features were interpreted using Shapley Additive Feature Explanations, clustered, and compared to mortality and its associated covariate predictors. Main Outcomes and Measures: County mortality was predicted using satellite images. Results: Predicted mortality from satellite images in a held-out test set of counties was strongly correlated to the true crude mortality rate (Pearson r=0.72). Learned image features were clustered, and we identified 10 clusters that were associated with education, income, geographical region, race and age. Conclusion and Relevance: The application of deep learning techniques to remotely-sensed features of the built environment can serve as a useful predictor of mortality in the United States. Tools that are able to identify image features associated with health-related outcomes can inform targeted public health interventions.
翻訳日:2022-12-26 06:14:48 公開日:2020-03-05