このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210404となっている論文です。

PDF登録状況(公開日: 20210404)

TitleAuthorsAbstract論文公表日・翻訳日
# 半教師付き映像オブジェクトセグメンテーションにおける再利用ゲート関数を用いた学習動的ネットワーク

Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised Video Object Segmentation ( http://arxiv.org/abs/2012.11655v2 )

ライセンス: Link先を確認
Hyojin Park, Jayeon Yoo, Seohyeong Jeong, Ganesh Venkatesh, Nojun Kwak(参考訳) 半教師付きビデオオブジェクトセグメンテーション(Semi-VOS)の最先端のアプローチでは、以前のフレームからの情報を伝播して現在のフレームのセグメンテーションマスクを生成する。 その結果、外観の変化や閉塞といった困難なシナリオにまたがる高品質なセグメンテーションが実現します。 しかし、フレーム間の変更が最小限である静止または遅い移動オブジェクトの不要な計算にもつながります。 本研究では、時間情報を用いて、最小限の変化でフレームを素早く識別し、重厚マスク生成ステップをスキップすることで、この観測を利用する。 この効率を実現するために、フレーム間の変化を推定し、どのパス -- フルネットワークを演算するか、前のフレームの機能を再利用するか -- を予測し、期待される類似性に応じて選択する新しい動的ネットワークを提案する。 DAVIS 16, DAVIS 17, YouTube-VOS といった課題に対して,提案手法は精度の低下を伴わずに推論速度を大幅に改善することを示した。 さらに、本手法は、その一般化を示す複数のSemi-VOS法に適用できる。 コードはhttps://github.com/H YOJINPARK/Reuse_VOSで公開されている。

Current state-of-the-art approaches for Semi-supervised Video Object Segmentation (Semi-VOS) propagates information from previous frames to generate segmentation mask for the current frame. This results in high-quality segmentation across challenging scenarios such as changes in appearance and occlusion. But it also leads to unnecessary computations for stationary or slow-moving objects where the change across frames is minimal. In this work, we exploit this observation by using temporal information to quickly identify frames with minimal change and skip the heavyweight mask generation step. To realize this efficiency, we propose a novel dynamic network that estimates change across frames and decides which path -- computing a full network or reusing previous frame's feature -- to choose depending on the expected similarity. Experimental results show that our approach significantly improves inference speed without much accuracy degradation on challenging Semi-VOS datasets -- DAVIS 16, DAVIS 17, and YouTube-VOS. Furthermore, our approach can be applied to multiple Semi-VOS methods demonstrating its generality. The code is available in https://github.com/H YOJINPARK/Reuse_VOS.
翻訳日:2021-04-27 06:29:20 公開日:2021-04-04
# 異種臨床およびアウトカムデータを用いた外傷性脳損傷予後の混合モデル構築法

Mixture Model Framework for Traumatic Brain Injury Prognosis Using Heterogeneous Clinical and Outcome Data ( http://arxiv.org/abs/2012.12310v2 )

ライセンス: Link先を確認
Alan D. Kaplan, Qi Cheng, K. Aditya Mohan, Lindsay D. Nelson, Sonia Jain, Harvey Levin, Abel Torres-Espin, Austin Chou, J. Russell Huie, Adam R. Ferguson, Michael McCrea, Joseph Giacino, Shivshankar Sundaram, Amy J. Markowitz, Geoffrey T. Manley(参考訳) 外傷性脳損傷(TBI)の予後は臨床的指標から容易にも正確にも決定されない。 これは、脳に与えた損傷の多様性が原因の一部であり、最終的には多様で複雑な結果をもたらす。 データ駆動型アプローチを多くの異なるデータ要素に適用することにより、この大規模な結果セットを記述し、TBI患者の回復過程の微妙な違いをしっかりと表現する必要がある。 本研究では,tbiに関連する大規模異種データ型をモデル化する手法を開発した。 本手法は,欠落値を持つ混合連続変数と離散変数の確率的表現を念頭に置いている。 このモデルは、人口統計、血液ベースのバイオマーカー、画像所見など、さまざまなデータタイプをカバーするデータセットでトレーニングされる。 さらに、3,6,12ヶ月の臨床成績評価のセットも含まれている。 このモデルは、教師なしの学習環境で患者を別々のグループに分類するために使用される。 このモデルを用いて、入力データを用いて結果の推測を行い、入力データの収集がベースラインアプローチによる結果の不確実性を減少させることを示す。 また, 未発見患者の予後推定リスクを自己評価するために使用できる確率スコアリング手法の性能を定量化する。

Prognoses of Traumatic Brain Injury (TBI) outcomes are neither easily nor accurately determined from clinical indicators. This is due in part to the heterogeneity of damage inflicted to the brain, ultimately resulting in diverse and complex outcomes. Using a data-driven approach on many distinct data elements may be necessary to describe this large set of outcomes and thereby robustly depict the nuanced differences among TBI patients' recovery. In this work, we develop a method for modeling large heterogeneous data types relevant to TBI. Our approach is geared toward the probabilistic representation of mixed continuous and discrete variables with missing values. The model is trained on a dataset encompassing a variety of data types, including demographics, blood-based biomarkers, and imaging findings. In addition, it includes a set of clinical outcome assessments at 3, 6, and 12 months post-injury. The model is used to stratify patients into distinct groups in an unsupervised learning setting. We use the model to infer outcomes using input data, and show that the collection of input data reduces uncertainty of outcomes over a baseline approach. In addition, we quantify the performance of a likelihood scoring technique that can be used to self-evaluate the extrapolation risk of prognosis on unseen patients.
翻訳日:2021-04-26 07:18:13 公開日:2021-04-04
# 画像再構成と合成のための焦点周波数損失

Focal Frequency Loss for Image Reconstruction and Synthesis ( http://arxiv.org/abs/2012.12821v2 )

ライセンス: Link先を確認
Liming Jiang, Bo Dai, Wayne Wu, Chen Change Loy(参考訳) 画像再構成と合成は、生成モデルの開発によって著しく進歩した。 それでも、特に周波数領域において、実画像と生成された画像の間にはギャップが存在する可能性がある。 本研究では,周波数領域の狭さが画像再構成と合成品質をさらに改善できることを示す。 本研究では,簡単な周波数重み付けで合成しにくい周波数成分に適応的に焦点を合わせることができる新しい焦点周波数損失を提案する。 この目的関数は、既存の空間的損失を補完するものであり、ニューラルネットワーク固有のバイアスによる重要な周波数情報の損失に対する大きなインピーダンスを提供する。 VAE, pix2pix, SPADEなどの人気モデルの知覚的品質と定量的性能を両立させるために, 焦点周波数損失の汎用性と有効性を示す。 StyleGAN2にその可能性を示す。

Image reconstruction and synthesis have witnessed remarkable progress thanks to the development of generative models. Nonetheless, gaps could still exist between the real and generated images, especially in the frequency domain. In this study, we show that narrowing gaps in the frequency domain can ameliorate image reconstruction and synthesis quality further. We propose a novel focal frequency loss, which allows a model to adaptively focus on frequency components that are hard to synthesize by down-weighting the easy ones. This objective function is complementary to existing spatial losses, offering great impedance against the loss of important frequency information due to the inherent bias of neural networks. We demonstrate the versatility and effectiveness of focal frequency loss to improve popular models, such as VAE, pix2pix, and SPADE, in both perceptual quality and quantitative performance. We further show its potential on StyleGAN2.
翻訳日:2021-04-25 18:14:33 公開日:2021-04-04
# MGN-Net:異種生物ネットワーク群を統合する多視点グラフ正規化器

MGN-Net: a multi-view graph normalizer for integrating heterogeneous biological network populations ( http://arxiv.org/abs/2104.03895v1 )

ライセンス: Link先を確認
Islem Rekik and Mustafa Burak Gurbuz(参考訳) 近年の技術進歩により、相互作用する実体のネットワーク(グラフ)で表される生物学的データセットは、前例のない複雑さと多様性で増殖する。 現代のネットワーク科学は、このようなデータセットにおける接続パターンの分析の新たなフロンティアを開くが、多視点グラフ人口の積分接続指紋を抽出するためのデータ駆動型手法はいまだに欠如している。 本稿では,多視点生物ネットワークの集合を,中心的,代表的,トポロジカルな,単一の接続テンプレートに正規化し統合する,グラフニューラルネットワークに基づく手法であるマルチビューグラフ正規化ネットワーク(mgn-net; https://github.com/b asiralab/mgn-net)を提案する。 我々は、アルツハイマー病や自閉症スペクトラム障害を含む健康・神経疾患の脳ネットワーク集団の結合指紋を発見し、MGN-Netの使用を実証した。 さらに,mgn-netは,健康な個体群と無秩序な個体群の学習されたテンプレートを比較した結果,最も中心的なテンプレートの作成,個体群の特異な特徴の再認識,生物学的ネットワークの複雑なトポロジーの保存といった幅広い実験において,従来のネットワーク統合手法を著しく上回っていることが示された。 MGN-Netは, 関係関係の同定, 正規化, 統合など, 異なるグラフベースの問題に対して, 設計において非常に汎用的で容易に適応可能であることを示した。

With the recent technological advances, biological datasets, often represented by networks (i.e., graphs) of interacting entities, proliferate with unprecedented complexity and heterogeneity. Although modern network science opens new frontiers of analyzing connectivity patterns in such datasets, we still lack data-driven methods for extracting an integral connectional fingerprint of a multi-view graph population, let alone disentangling the typical from the atypical variations across the population samples. We present the multi-view graph normalizer network (MGN-Net; https://github.com/b asiralab/MGN-Net), a graph neural network based method to normalize and integrate a set of multi-view biological networks into a single connectional template that is centered, representative, and topologically sound. We demonstrate the use of MGN-Net by discovering the connectional fingerprints of healthy and neurologically disordered brain network populations including Alzheimer's disease and Autism spectrum disorder patients. Additionally, by comparing the learned templates of healthy and disordered populations, we show that MGN-Net significantly outperforms conventional network integration methods across extensive experiments in terms of producing the most centered templates, recapitulating unique traits of populations, and preserving the complex topology of biological networks. Our evaluations showed that MGN-Net is powerfully generic and easily adaptable in design to different graph-based problems such as identification of relevant connections, normalization and integration.
翻訳日:2021-04-09 12:48:17 公開日:2021-04-04
# (参考訳) メタマテリアルのバンドギャップ最適化問題における勾配場への主成分分析 [全文訳有]

Principal Component Analysis Applied to Gradient Fields in Band Gap Optimization Problems for Metamaterials ( http://arxiv.org/abs/2104.02588v1 )

ライセンス: CC BY 4.0
Giorgio Gnecco, Andrea Bacigalupo, Francesca Fantoni, and Daniela Selvi(参考訳) 音響メタマテリアルのスペクトル設計のための有望な手法は、適切な制約付き非線形最適化問題の定式化に基づいている。 残念なことに、そのような問題の数値解に対する古典的勾配に基づく反復最適化アルゴリズムの直接的な適用は、基礎となる物理モデルの複雑さのため、典型的には非常に要求が高い。 それでも、教師付き機械学習技術は、例えば、そのような最適化問題の本来の目的関数をより容易に計算可能な近似に置き換えることで、そのような計算労力を減らすことができる。 本稿では,音響メタマテリアルにおける帯域ギャップ最適化問題の目的関数の勾配を近似し,勾配に基づく反復最適化アルゴリズムの逐次適用を高速化することを目的とした,関連する非教師なし機械学習手法,すなわち主成分分析の適用について述べる。 その結果,提案手法の有効性が示された。

A promising technique for the spectral design of acoustic metamaterials is based on the formulation of suitable constrained nonlinear optimization problems. Unfortunately, the straightforward application of classical gradient-based iterative optimization algorithms to the numerical solution of such problems is typically highly demanding, due to the complexity of the underlying physical models. Nevertheless, supervised machine learning techniques can reduce such a computational effort, e.g., by replacing the original objective functions of such optimization problems with more-easily computable approximations. In this framework, the present article describes the application of a related unsupervised machine learning technique, namely, principal component analysis, to approximate the gradient of the objective function of a band gap optimization problem for an acoustic metamaterial, with the aim of making the successive application of a gradient-based iterative optimization algorithm faster. Numerical results show the effectiveness of the proposed method.
翻訳日:2021-04-08 01:09:54 公開日:2021-04-04
# 胸部疾患の意味的解釈とcovid-19診断モデル

Towards Semantic Interpretation of Thoracic Disease and COVID-19 Diagnosis Models ( http://arxiv.org/abs/2104.02481v1 )

ライセンス: Link先を確認
Ashkan Khakzar, Sabrina Musatian, Jonas Buchberger, Icxel Valeriano Quiroz, Nikolaus Pinger, Soroosh Baselizadeh, Seong Tae Kim, Nassir Navab(参考訳) 畳み込みニューラルネットワークは胸部X線による胸部病変の自動診断において有望である。 そのブラックボックスの性質は、入力特徴帰属法(saliency method)による予測を説明するために、最近の多くの研究のきっかけとなった。 しかし、入力特徴属性法は単に入力領域の重要性を識別するだけで、モデル行動の意味論的解釈が欠如している。 本研究では,まずネットワークの内部単位(特徴マップ)に関連付けられた意味を同定する。 新型コロナウイルス(covid-19)の重症度でのみ訓練された回帰モデルは、胸部病理に関連する視覚パターンを暗黙的に学習するのだろうか? 弱いラベル付きデータで訓練されたネットワーク(例) 健康で不健康な) 暗黙に病理を学ぶ? さらに,事前学習とデータ不均衡が学習特徴の解釈性に及ぼす影響について検討した。 分析に加えて,各予測を意味的に説明するための意味属性を提案する。 本研究は,CheXpert,NIH ChestX-ray8,BrixIA,C OVID-19 chest X-ray segmentation datasetを用いて得られた。 コードは公開されている。

Convolutional neural networks are showing promise in the automatic diagnosis of thoracic pathologies on chest x-rays. Their black-box nature has sparked many recent works to explain the prediction via input feature attribution methods (aka saliency methods). However, input feature attribution methods merely identify the importance of input regions for the prediction and lack semantic interpretation of model behavior. In this work, we first identify the semantics associated with internal units (feature maps) of the network. We proceed to investigate the following questions; Does a regression model that is only trained with COVID-19 severity scores implicitly learn visual patterns associated with thoracic pathologies? Does a network that is trained on weakly labeled data (e.g. healthy, unhealthy) implicitly learn pathologies? Moreover, we investigate the effect of pretraining and data imbalance on the interpretability of learned features. In addition to the analysis, we propose semantic attribution to semantically explain each prediction. We present our findings using publicly available chest pathologies (CheXpert, NIH ChestX-ray8) and COVID-19 datasets (BrixIA, and COVID-19 chest X-ray segmentation dataset). The Code is publicly available.
翻訳日:2021-04-07 14:14:52 公開日:2021-04-04
# パターン理論成長関数に基づく自動エンコーディングのための修正畳み込みネットワーク

A Modified Convolutional Network for Auto-encoding based on Pattern Theory Growth Function ( http://arxiv.org/abs/2104.02651v1 )

ライセンス: Link先を確認
Erico Tjoa(参考訳) 本稿では,パターン理論の枠組みに基づいて構成部品を開発する畳み込み型ニューラルネットワークの欠点を報告する。

This brief paper reports the shortcoming of a variant of convolutional neural network whose components are developed based on the pattern theory framework.
翻訳日:2021-04-07 14:14:33 公開日:2021-04-04
# 企業信用格付けのための半教師付き学習

Adversarial Semi-supervised Learning for Corporate Credit Ratings ( http://arxiv.org/abs/2104.02479v1 )

ライセンス: Link先を確認
Bojing Feng, Wenfang Xue(参考訳) 企業信用格付けは、金融リスクの管理において重要な役割を果たす企業内の信用リスクの分析である。 伝統的に、企業の歴史的プロファイルに基づく評価プロセスは、通常高価で複雑であり、数ヶ月かかることが多い。 そのため、資金や時間に乏しい企業のほとんどは、自らの信用レベルを得ることができない。 しかし、これらの企業は信用格付けレベル(ラベルなしデータ)を持っていませんが、このビッグデータには信用システムを改善するための有用な知識が含まれています。 この研究における大きな課題は、ラベルのないデータから知識を効果的に学習し、信用格付けシステムのパフォーマンスを向上させる方法である。 具体的には,これまでほとんど研究されていない企業信用格付けの対向的半教師付き学習(assl)の問題を考える。 コーポレート・クレジット・レーティング(ASSL4CCR)のための新たなフレームワークとして,2段階を含む半教師付き学習を提案する。 第1フェーズでは、通常の機械学習アルゴリズムを用いて通常のレーティングシステムを訓練し、ラベルのないデータ擬似レーティングレベルを与える。 そして、第2フェーズでは、ラベル付きデータと擬ラベル付きデータとを結合した逆半教師付き学習を適用する。 提案するASSL4CCRの有効性を実証するため,中国公募の企業評価データセットに対して広範な実験を行い,ASSL4CCRが最先端の手法を一貫して上回ることを示す。

Corporate credit rating is an analysis of credit risks within a corporation, which plays a vital role during the management of financial risk. Traditionally, the rating assessment process based on the historical profile of corporation is usually expensive and complicated, which often takes months. Therefore, most of the corporations, which are lacking in money and time, can't get their own credit level. However, we believe that although these corporations haven't their credit rating levels (unlabeled data), this big data contains useful knowledge to improve credit system. In this work, its major challenge lies in how to effectively learn the knowledge from unlabeled data and help improve the performance of the credit rating system. Specifically, we consider the problem of adversarial semi-supervised learning (ASSL) for corporate credit rating which has been rarely researched before. A novel framework adversarial semi-supervised learning for corporate credit rating (ASSL4CCR) which includes two phases is proposed to address these problems. In the first phase, we train a normal rating system via a normal machine-learning algorithm to give unlabeled data pseudo rating level. Then in the second phase, adversarial semi-supervised learning is applied uniting labeled data and pseudo-labeled data. To demonstrate the effectiveness of the proposed ASSL4CCR, we conduct extensive experiments on the Chinese public-listed corporate rating dataset, which proves that ASSL4CCR outperforms the state-of-the-art methods consistently.
翻訳日:2021-04-07 13:58:58 公開日:2021-04-04
# (参考訳) 拡張型相関平衡のための単純非結合非回帰学習ダイナミクス [全文訳有]

Simple Uncoupled No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium ( http://arxiv.org/abs/2104.01520v1 )

ライセンス: CC BY 4.0
Gabriele Farina, Andrea Celli, Alberto Marchesi, Nicola Gatti(参考訳) 正規形ゲームにおける相関平衡に収束する単純で非結合な非回帰力学の存在は、マルチエージェント系の理論における有名な結果である。 特に20年以上にわたって、全てのプレイヤーが通常のゲームで内的後悔を最小化しようとすると、経験的なプレイ頻度が正規形相関均衡に収束することが知られている。 拡張形式のゲーム(すなわち木型ゲーム)は、シーケンシャルと同時の動作とプライベート情報の両方をモデル化することで、正規形式のゲームを一般化する。 ゲームのシーケンシャルな性質と部分的な情報の存在により、広範囲な形式的相関は通常の形式と大きく異なる性質を持ち、その多くは依然として研究の方向性である。 拡張型相関平衡(EFCE)は、通常型相関平衡に対抗して自然な拡張型として提案されているが、未結合のエージェントダイナミクスの結果、EFCEが出現するかどうかは現在不明である。 本稿では, n-player general-sum extensive-form game with perfect recall において, EFCE の集合に高い確率で収束する最初の非共役な非共役ダイナミクスについて述べる。 まず、広義のゲームにおいてトリガー後悔の概念を導入し、通常のゲームにおける内部後悔の概念を拡張した。 各プレイヤーのトリガー残差が低い場合、経験的なプレイ頻度はEFCEに近い。 次に,反復数において後悔をトリガーする確率が高い確率で保証する効率的なno-regretアルゴリズムを提案する。

The existence of simple, uncoupled no-regret dynamics that converge to correlated equilibria in normal-form games is a celebrated result in the theory of multi-agent systems. Specifically, it has been known for more than 20 years that when all players seek to minimize their internal regret in a repeated normal-form game, the empirical frequency of play converges to a normal-form correlated equilibrium. Extensive-form (that is, tree-form) games generalize normal-form games by modeling both sequential and simultaneous moves, as well as private information. Because of the sequential nature and presence of partial information in the game, extensive-form correlation possesses significantly different properties than the normal-form counterpart, many of which are still open research directions. Extensive-form correlated equilibrium (EFCE) has been proposed as the natural extensive-form counterpart to normal-form correlated equilibrium, though it was currently unknown whether EFCE emerges as the result of uncoupled agent dynamics. In this article, we give the first uncoupled no-regret dynamics that converge with high probability to the set of EFCEs in n-player general-sum extensive-form games with perfect recall. First, we introduce a notion of trigger regret in extensive-form games, which extends that of internal regret in normal-form games. When each player has low trigger regret, the empirical frequency of play is close to an EFCE. Then, we give an efficient no-regret algorithm which guarantees with high probability that trigger regrets grow sublinearly in the number of iterations.
翻訳日:2021-04-07 10:08:00 公開日:2021-04-04
# (参考訳) ゴールデン・トルトーゼ・ビートル・オプティマイザ:工学的問題に対する自然に着想を得たメタヒューリスティックアルゴリズム [全文訳有]

Golden Tortoise Beetle Optimizer: A Novel Nature-Inspired Meta-heuristic Algorithm for Engineering Problems ( http://arxiv.org/abs/2104.01521v1 )

ライセンス: CC BY 4.0
Omid Tarkhaneh, Neda Alipour, Amirahmad Chapnevis, Haifeng Shen(参考訳) 本稿では,GTBO(Golden Tortoise Beetle Optimizer)と呼ばれる,自然に着想を得たメタヒューリスティックアルゴリズムを提案する。 交尾のために交尾するために色を変えるという金色のカメの行動や、捕食者を抑止するために一種のアナルフォークを使用する保護戦略を模倣している。 アルゴリズムは、最適化問題に対する新しい解を生成するために、甲虫の双対魅力と生存戦略に基づいてモデル化される。 提案したGTBOは、探索と利用のトレードオフ、局所最適回避、グローバル最適への収束を統計的に検討する24のよく知られたベンチマーク関数に対して、他の5つの自然に着想を得た進化アルゴリズムと比較した。 溶接梁設計問題や歯車設計問題など,GTBOをよく知られた2つの工学的問題に適用した。 その結果,新しいアルゴリズムは,両問題に対する5つのベースラインアルゴリズムよりも効率的であることが判明した。 また,gtboの性能に対するアルゴリズムの鍵制御パラメータと演算子の異なる影響を明らかにするために感度解析を行った。

This paper proposes a novel nature-inspired meta-heuristic algorithm called the Golden Tortoise Beetle Optimizer (GTBO) to solve optimization problems. It mimics golden tortoise beetle's behavior of changing colors to attract opposite sex for mating and its protective strategy that uses a kind of anal fork to deter predators. The algorithm is modeled based on the beetle's dual attractiveness and survival strategy to generate new solutions for optimization problems. To measure its performance, the proposed GTBO is compared with five other nature-inspired evolutionary algorithms on 24 well-known benchmark functions investigating the trade-off between exploration and exploitation, local optima avoidance, and convergence towards the global optima is statistically significant. We particularly applied GTBO to two well-known engineering problems including the welded beam design problem and the gear train design problem. The results demonstrate that the new algorithm is more efficient than the five baseline algorithms for both problems. A sensitivity analysis is also performed to reveal different impacts of the algorithm's key control parameters and operators on GTBO's performance.
翻訳日:2021-04-07 08:38:52 公開日:2021-04-04
# (参考訳) tsnat:音声認識のための2段階非自己回帰トランスフォーマーモデル [全文訳有]

TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech Recognition ( http://arxiv.org/abs/2104.01522v1 )

ライセンス: CC BY 4.0
Zhengkun Tian, Jiangyan Yi, Jianhua Tao, Ye Bai, Shuai Zhang, Zhengqi Wen, Xuefei Liu(参考訳) 注意に基づくエンコーダデコーダモデルやRNN-Transducerのような自己回帰型(AR)モデルは音声認識において大きな成功を収めている。 彼らは、前のトークンで条件付けられた出力シーケンスと、gpuでは非効率な音響エンコード状態を予測する。 非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。 しかし、NARモデルは依然として2つの大きな問題に直面している。 一方、NARモデルと高度なARモデルの間には、依然として大きなギャップがある。 一方、ほとんどのNARモデルでは、トレーニングと収束が難しいです。 これら2つの問題に対処するために,パラメータ共有ARモデルから事前知識を学習することにより,NARモデルの性能向上と収束を促進させる2段階非自己回帰変換器(TSNAT)という新しいモデルを提案する。 さらに,2段階の手法を推論プロセスに導入し,モデル性能を大幅に改善する。 実験はすべて、中国の公開マンダリンデータセットASIEHLL-1上で行われた。 その結果,TSNATはARモデルと競合する性能を達成でき,複雑なNARモデルよりも優れていた。

The autoregressive (AR) models, such as attention-based encoder-decoder models and RNN-Transducer, have achieved great success in speech recognition. They predict the output sequence conditioned on the previous tokens and acoustic encoded states, which is inefficient on GPUs. The non-autoregressive (NAR) models can get rid of the temporal dependency between the output tokens and predict the entire output tokens in at least one step. However, the NAR model still faces two major problems. On the one hand, there is still a great gap in performance between the NAR models and the advanced AR models. On the other hand, it's difficult for most of the NAR models to train and converge. To address these two problems, we propose a new model named the two-step non-autoregressive transformer(TSNAT), which improves the performance and accelerating the convergence of the NAR model by learning prior knowledge from a parameters-sharing AR model. Furthermore, we introduce the two-stage method into the inference process, which improves the model performance greatly. All the experiments are conducted on a public Chinese mandarin dataset ASIEHLL-1. The results show that the TSNAT can achieve a competitive performance with the AR model and outperform many complicated NAR models.
翻訳日:2021-04-07 08:11:46 公開日:2021-04-04
# (参考訳) 正規画像を用いたクラス非依存学習による弱教師付きインスタンスセグメンテーション [全文訳有]

Weakly-supervised Instance Segmentation via Class-agnostic Learning with Salient Images ( http://arxiv.org/abs/2104.01526v1 )

ライセンス: CC BY 4.0
Xinggang Wang and Jiapei Feng and Bin Hu and Qi Ding and Longjin Ran and Xiaoxin Chen and Wenyu Liu(参考訳) 人間は強力なクラス非依存のオブジェクトセグメンテーション能力を持ち、未知のオブジェクトの境界を正確に概説できるため、弱い教師付きインスタンスセグメンテーションのためのボックス教師付きクラス非依存のオブジェクトセグメンテーション(BoxCaseg)ベースのソリューションを提案する動機となる。 boxcasegモデルは、複数タスクの学習方法で、box-supervised imageとsaient imagesを使って共同でトレーニングされる。 詳細な注釈付きサルエント画像は、ボックス教師付き画像に対して、クラス非依存で正確なオブジェクトローカライゼーションガイダンスを提供する。 事前訓練されたBoxCasegモデルによって予測されるオブジェクトマスクは、弱教師付きインスタンスセグメンテーションのためにMask R-CNNをトレーニングするためのプロキシ基底真理として、新しいマージおよびドロップ戦略によって洗練される。 7991ドル(約7万9800円)の高解像度画像のみを使用して、弱教師付きMask R-CNNはPASCAL VOC上の完全に教師付きMask R-CNNと同等であり、COCO上の最先端のボックス管理インスタンスセグメンテーション手法よりも大幅に優れています。 ソースコード、事前トレーニングされたモデル、データセットは \url{https://github.com/h ustvl/boxcaseg} で入手できる。

Humans have a strong class-agnostic object segmentation ability and can outline boundaries of unknown objects precisely, which motivates us to propose a box-supervised class-agnostic object segmentation (BoxCaseg) based solution for weakly-supervised instance segmentation. The BoxCaseg model is jointly trained using box-supervised images and salient images in a multi-task learning manner. The fine-annotated salient images provide class-agnostic and precise object localization guidance for box-supervised images. The object masks predicted by a pretrained BoxCaseg model are refined via a novel merged and dropped strategy as proxy ground truth to train a Mask R-CNN for weakly-supervised instance segmentation. Only using $7991$ salient images, the weakly-supervised Mask R-CNN is on par with fully-supervised Mask R-CNN on PASCAL VOC and significantly outperforms previous state-of-the-art box-supervised instance segmentation methods on COCO. The source code, pretrained models and datasets are available at \url{https://github.com/h ustvl/BoxCaseg}.
翻訳日:2021-04-07 08:00:22 公開日:2021-04-04
# (参考訳) 食事サプリメント使用のための会話エージェントシステム [全文訳有]

A Conversational Agent System for Dietary Supplements Use ( http://arxiv.org/abs/2104.01543v1 )

ライセンス: CC0 1.0
Esha Singh, Anu Bompelli, Ruyuan Wan, Jiang Bian, Serguei Pakhomov, and Rui Zhang(参考訳) 食品サプリメント (DS) は, 消費者が広く利用してきたが, DSの有効性や安全性に関する情報は異なっており, 消費者が効果的に情報を見つけるための障壁となっている。 医療分野では、会話エージェントシステムが採用されているが、食事サプリメントの普及にもかかわらず、DSの使用に関して消費者に回答するシステムはない。 本研究では,ds使用のための対話型エージェントシステムを開発した。

Dietary supplements (DS) have been widely used by consumers, but the information around the effectiveness and safety of DS is disparate or incomplete, making barriers to consumers to find information effectively. Conversational agent systems have been applied to the healthcare domain but there is no such a system to answer consumers regarding DS use, although widespread use of the dietary supplement. In this study, we develop the first conversational agent system for DS use.
翻訳日:2021-04-07 07:45:02 公開日:2021-04-04
# (参考訳) 反復深度及び/ORグラフネットワークを用いたタスク移動計画フレームワーク [全文訳有]

A Task-Motion Planning Framework Using Iteratively Deepened AND/OR Graph Networks ( http://arxiv.org/abs/2104.01549v1 )

ライセンス: CC BY 4.0
Hossein Karami and Antony Thomas and Fulvio Mastrogiovanni(参考訳) 本稿では,タスクレベルの状態と動作をコンパクトに表現するために,AND/ORグラフネットワークに基づく新しい抽象化を用いた反復深化型および/ORグラフネットワーク(TMP-IDAN)を用いたタスク移動計画(TMP)を提案する。 ターゲットオブジェクトをクラッタから取り出す一方で、ターゲットをつかむのに必要なオブジェクトの再配列の数は事前には分かっていない。 この課題に対処するため、従来のAND/ORグラフベースのプランナとは対照的に、ターゲットの把握が可能になるまでAND/ORグラフをオンラインで成長させ、AND/ORグラフのネットワークを得る。 AND/ORグラフネットワークは従来のタスクプランナよりも高速な計算を可能にする。 本研究では,Baxterロボットと最先端のロボットシミュレータを用いて,非自明なテーブルトップシナリオにおけるアプローチの有効性を検証する。 実験によると、我々のアプローチは、オブジェクトの数が増えて、バラバラになりやすい。

We present an approach for Task-Motion Planning (TMP) using Iterative Deepened AND/OR Graph Networks (TMP-IDAN) that uses an AND/OR graph network based novel abstraction for compactly representing the task-level states and actions. While retrieving a target object from clutter, the number of object re-arrangements required to grasp the target is not known ahead of time. To address this challenge, in contrast to traditional AND/OR graph-based planners, we grow the AND/OR graph online until the target grasp is feasible and thereby obtain a network of AND/OR graphs. The AND/OR graph network allows faster computations than traditional task planners. We validate our approach and evaluate its capabilities using a Baxter robot and a state-of-the-art robotics simulator in several challenging non-trivial cluttered table-top scenarios. The experiments show that our approach is readily scalable to increasing number of objects and different degrees of clutter.
翻訳日:2021-04-07 07:37:37 公開日:2021-04-04
# (参考訳) マルチソース領域適応のための情報理論正規化 [全文訳有]

Information-theoreti c regularization for Multi-source Domain Adaptation ( http://arxiv.org/abs/2104.01568v1 )

ライセンス: CC BY 4.0
Geon Yeong Park, Sang Wan Lee(参考訳) 逆学習戦略は単一ソースドメイン適応(DA)問題に対処する上で顕著な性能を示しており、近年マルチソースDA(MDA)問題にも適用されている。 既存のMDA戦略の多くは複数のドメイン識別器の設定に依存しているが、その潜在空間表現への影響は理解されていない。 ここでは、MDAに対する複数のドメイン識別器の潜在的な悪影響を識別し、解決するための情報理論的アプローチ、すなわち、ドメイン識別情報の分解、限られた計算スケーラビリティ、訓練中の損失の勾配の大きなばらつきを採用する。 本稿では,情報正規化の文脈において,敵対的DAを配置することで,上記の課題を考察する。 これはまた、単一かつ統一されたドメイン識別器を使用する理論的正当化を提供する。 この考え方に基づき,多元情報正規化適応ネットワーク (mian) と呼ばれる新しいニューラルアーキテクチャを実装した。 大規模な実験では、MIANは構造的単純さにもかかわらず、他の最先端の手法よりも確実かつ著しく優れていることが示された。

Adversarial learning strategy has demonstrated remarkable performance in dealing with single-source Domain Adaptation (DA) problems, and it has recently been applied to Multi-source DA (MDA) problems. Although most existing MDA strategies rely on a multiple domain discriminator setting, its effect on the latent space representations has been poorly understood. Here we adopt an information-theoreti c approach to identify and resolve the potential adverse effect of the multiple domain discriminators on MDA: disintegration of domain-discriminativ e information, limited computational scalability, and a large variance in the gradient of the loss during training. We examine the above issues by situating adversarial DA in the context of information regularization. This also provides a theoretical justification for using a single and unified domain discriminator. Based on this idea, we implement a novel neural architecture called a Multi-source Information-regulari zed Adaptation Networks (MIAN). Large-scale experiments demonstrate that MIAN, despite its structural simplicity, reliably and significantly outperforms other state-of-the-art methods.
翻訳日:2021-04-07 07:26:16 公開日:2021-04-04
# (参考訳) 変圧器とグラフ注意ネットワークを用いた知識グラフに関する会話質問 [全文訳有]

Conversational Question Answering over Knowledge Graphs with Transformer and Graph Attention Networks ( http://arxiv.org/abs/2104.01569v1 )

ライセンス: CC BY 4.0
Endri Kacupaj, Joan Plepi, Kuldeep Singh, Harsh Thakkar, Jens Lehmann, Maria Maleshkova(参考訳) 本稿では,知識グラフ上での(複雑な)会話型質問応答のタスクについて述べる。 本研究では,LASAGNE (muLti-task semAntic parSing with trAnsformer and Graph atteNtion nEtworks)を提案する。 これは、マルチタスクのニューラルセマンティックパーシングのためにグラフ注意ネットワークで拡張されたトランスフォーマーアーキテクチャを使用した最初のアプローチである。 LASAGNEは基本論理形式を生成するためにトランスフォーマーモデルを使用し、グラフアテンションモデルは(中心)型と述語の間の相関を利用してノード表現を生成する。 LASAGNEはまた、質問コンテキスト内のすべての関連エンティティを検出し、リンクし、ランク付けする新しいエンティティ認識モジュールを含んでいる。 複雑な質問応答のための標準データセットでlasagneを評価し,すべての質問タイプにおいて,既存のベースライン平均を上回っている。 具体的には,10の質問タイプのうち8つのF1スコアに対してLASAGNEがF1スコアを改善することを示す。

This paper addresses the task of (complex) conversational question answering over a knowledge graph. For this task, we propose LASAGNE (muLti-task semAntic parSing with trAnsformer and Graph atteNtion nEtworks). It is the first approach, which employs a transformer architecture extended with Graph Attention Networks for multi-task neural semantic parsing. LASAGNE uses a transformer model for generating the base logical forms, while the Graph Attention model is used to exploit correlations between (entity) types and predicates to produce node representations. LASAGNE also includes a novel entity recognition module which detects, links, and ranks all relevant entities in the question context. We evaluate LASAGNE on a standard dataset for complex sequential question answering, on which it outperforms existing baseline averages on all question types. Specifically, we show that LASAGNE improves the F1-score on eight out of ten question types; in some cases, the increase in F1-score is more than 20% compared to the state of the art.
翻訳日:2021-04-07 06:39:53 公開日:2021-04-04
# (参考訳) TransfoRNN:言語モデリングのための自己注意表現におけるシーケンス情報のキャプチャ [全文訳有]

TransfoRNN: Capturing the Sequential Information in Self-Attention Representations for Language Modeling ( http://arxiv.org/abs/2104.01572v1 )

ライセンス: CC BY 4.0
Tze Yuang Chong, Xuyang Wang, Lin Yang, Junjie Wang(参考訳) 本稿では,自己照準表現からシーケンシャル情報を取り込んでトランスフォーマーを改善するために,再帰的ニューラルネットワークを用いることについて述べる。 自己認識メカニズムは、長いコンテキスト、すなわちシーケンシャルな情報を利用する手段を提供する。 トークンの配列は 明示的に捕捉されていません 本稿では,TransfoRNNモデルと呼ばれるトランスフォーマーに繰り返し発生するニューラルネットワークをカスケードして,シーケンシャルな情報を取得することを提案する。 浅いトランスフォーマースタックのみからなるトランスフォーンモデルは、より深いトランスフォーマーモデルと同等の性能を与えるには十分であることがわかった。 Penn Treebank と WikiText-2 コーパスで評価した結果,提案した TransfoRNN モデルでは,モデルパラメータの数が少なく,モデルの難易度が低いことがわかった。 ペン・ツリーバンク・コーパスでは、モデルのパープレキシティは5.5%まで減少し、モデルサイズは10.5%まで減少した。 WikiText-2コーパスでは、モデルパープレクシリティが2.2%まで減少し、27.7%の小型モデルとなった。 また、TransfoRNNモデルをLibriSpeech音声認識タスクに適用し、Transformerモデルと同等の結果を示した。

In this paper, we describe the use of recurrent neural networks to capture sequential information from the self-attention representations to improve the Transformers. Although self-attention mechanism provides a means to exploit long context, the sequential information, i.e. the arrangement of tokens, is not explicitly captured. We propose to cascade the recurrent neural networks to the Transformers, which referred to as the TransfoRNN model, to capture the sequential information. We found that the TransfoRNN models which consists of only shallow Transformers stack is suffice to give comparable, if not better, performance than a deeper Transformer model. Evaluated on the Penn Treebank and WikiText-2 corpora, the proposed TransfoRNN model has shown lower model perplexities with fewer number of model parameters. On the Penn Treebank corpus, the model perplexities were reduced up to 5.5% with the model size reduced up to 10.5%. On the WikiText-2 corpus, the model perplexity was reduced up to 2.2% with a 27.7% smaller model. Also, the TransfoRNN model was applied on the LibriSpeech speech recognition task and has shown comparable results with the Transformer models.
翻訳日:2021-04-07 06:23:30 公開日:2021-04-04
# (参考訳) 遅発性対向性摂動による高速対向訓練 [全文訳有]

Reliably fast adversarial training via latent adversarial perturbation ( http://arxiv.org/abs/2104.01575v1 )

ライセンス: CC BY 4.0
Geon Yeong Park, Sang Wan Lee(参考訳) 多段階の対向訓練は強力な対向攻撃に対する効果的な防御手段として広く普及しているが、計算コストは標準的な訓練に比べて高く評価されている。 上記のオーバヘッドコストを軽減するために, 複数ステップの対向訓練手法が提案されているが, 最適化設定によっては信頼性が十分でない。 このような制約を克服するため,我々は,既存の入力空間に基づく攻撃訓練方式から逸脱し,潜在表現の勾配を潜在攻撃的摂動として活用する単段潜在攻撃訓練法(slat)を提案する。 特徴勾配のL1ノルムは,適応された潜在摂動によって暗黙的に規則化され,従って局所線形性を回復し,既存の単段階対角訓練法と比較して信頼性の高い性能を確保できることを示す。 潜在摂動は入力勾配計算の過程で自由に得られる潜在表現の勾配に基づいているため,提案手法は高速勾配符号法とほぼ同程度の費用がかかる。 実験結果から,提案手法は構造的単純性に拘わらず,最先端の高速対向訓練法よりも優れた性能を示した。

While multi-step adversarial training is widely popular as an effective defense method against strong adversarial attacks, its computational cost is notoriously expensive, compared to standard training. Several single-step adversarial training methods have been proposed to mitigate the above-mentioned overhead cost; however, their performance is not sufficiently reliable depending on the optimization setting. To overcome such limitations, we deviate from the existing input-space-based adversarial training regime and propose a single-step latent adversarial training method (SLAT), which leverages the gradients of latent representation as the latent adversarial perturbation. We demonstrate that the L1 norm of feature gradients is implicitly regularized through the adopted latent perturbation, thereby recovering local linearity and ensuring reliable performance, compared to the existing single-step adversarial training methods. Because latent perturbation is based on the gradients of the latent representations which can be obtained for free in the process of input gradients computation, the proposed method costs roughly the same time as the fast gradient sign method. Experiment results demonstrate that the proposed method, despite its structural simplicity, outperforms state-of-the-art accelerated adversarial training methods.
翻訳日:2021-04-07 06:12:50 公開日:2021-04-04
# (参考訳) 部分帰納正規化分類器の系列を用いたクラス増分学習 [全文訳有]

Class-incremental Learning using a Sequence of Partial Implicitly Regularized Classifiers ( http://arxiv.org/abs/2104.01577v1 )

ライセンス: CC BY 4.0
Sobirdzhon Bobiev, Adil Khan, Syed Muhammad Ahsan Raza Kazmi(参考訳) クラス増分学習では、トレーニングデータ全体にアクセスすることなく、複数のクラスを逐次学習することが目的である。 しかし、破滅的な忘れ事として知られる問題のため、ニューラルネットワークはそのような設定でかなりの性能低下を被る。 この問題は、学習したクラスを忘れることを減らすために、将来のステップでリプレイされる限られた数のサンプルを格納するexperience replayによってしばしば解決される。 事前訓練されたネットワークを特徴抽出器として使用する場合,1つの分類器を段階的に訓練するのではなく,複数の特殊分類器を訓練し,協調的に1つのクラスを予測できることを示す。 CIFAR100データセットを用いた実験により,提案手法はSOTAの性能を高いマージンで向上することを示した。

In class-incremental learning, the objective is to learn a number of classes sequentially without having access to the whole training data. However, due to a problem known as catastrophic forgetting, neural networks suffer substantial performance drop in such settings. The problem is often approached by experience replay, a method which stores a limited number of samples to be replayed in future steps to reduce forgetting of the learned classes. When using a pretrained network as a feature extractor, we show that instead of training a single classifier incrementally, it is better to train a number of specialized classifiers which do not interfere with each other yet can cooperatively predict a single class. Our experiments on CIFAR100 dataset show that the proposed method improves the performance over SOTA by a large margin.
翻訳日:2021-04-07 05:57:21 公開日:2021-04-04
# (参考訳) 3次元高分解能ConvNetを用いた造影MRI合成 [全文訳有]

Contrast-enhanced MRI Synthesis Using 3D High-Resolution ConvNets ( http://arxiv.org/abs/2104.01592v1 )

ライセンス: CC BY 4.0
Chao Chen, Catalina Raymond, Bill Speier, Xinyu Jin, Timothy F. Cloughesy, Dieter Enzmann, Benjamin M. Ellingson, Corey W. Arnold(参考訳) ガドリニウム系造影剤(GBCA)は脳磁気共鳴画像(MRI)における疾患の可視化に広く用いられている。 しかし、ガドリニウムの脳と体内への沈着はGBCAの使用に対する安全性を懸念している。 したがって、類似したコントラスト情報を提供しながらGBCA曝露を減少または排除できる新しいアプローチの開発は、臨床的に重要な用途である。 脳腫瘍患者に対しては、ガドリニウムをベースとしたコントラストによるMRIを繰り返し、ガドリニウム沈着のリスクを高める。 本稿では,脳腫瘍患者に対するコントラスト強調t1合成のための深層学習に基づくアプローチを提案する。 3次元高分解能完全畳み込みネットワーク(fcn)は、マルチスケール情報を並列に処理して高分解能情報を保持し、コントラストmriシーケンスをコントラスト強調mriシーケンスにマッピングするように設計されている。 具体的には、3つの先行コントラストMRIシーケンス、T1,T2および見かけ拡散係数マップ(ADC)を入力として、その後コントラストT1シーケンスを目標出力として利用する。 正常組織と腫瘍領域との間のデータ不均衡問題を解決するため,腫瘍領域の寄与を改善するために局所的損失を導入することにより,腫瘍の増進効果が向上する。 提案モデルでは,脳内28.24db,腫瘍領域21.2dbのpsnrが得られた。 以上の結果から,深層学習による合成コントラスト画像によるGBCA置換の可能性が示唆された。

Gadolinium-based contrast agents (GBCAs) have been widely used to better visualize disease in brain magnetic resonance imaging (MRI). However, gadolinium deposition within the brain and body has raised safety concerns about the use of GBCAs. Therefore, the development of novel approaches that can decrease or even eliminate GBCA exposure while providing similar contrast information would be of significant use clinically. For brain tumor patients, standard-of-care includes repeated MRI with gadolinium-based contrast for disease monitoring, increasing the risk of gadolinium deposition. In this work, we present a deep learning based approach for contrast-enhanced T1 synthesis on brain tumor patients. A 3D high-resolution fully convolutional network (FCN), which maintains high resolution information through processing and aggregates multi-scale information in parallel, is designed to map pre-contrast MRI sequences to contrast-enhanced MRI sequences. Specifically, three pre-contrast MRI sequences, T1, T2 and apparent diffusion coefficient map (ADC), are utilized as inputs and the post-contrast T1 sequences are utilized as target output. To alleviate the data imbalance problem between normal tissues and the tumor regions, we introduce a local loss to improve the contribution of the tumor regions, which leads to better enhancement results on tumors. Extensive quantitative and visual assessments are performed, with our proposed model achieving a PSNR of 28.24dB in the brain and 21.2dB in tumor regions. Our results suggests the potential of substituting GBCAs with synthetic contrast images generated via deep learning.
翻訳日:2021-04-07 05:45:57 公開日:2021-04-04
# (参考訳) STOPPAGE: パンデミックモニタリングと管理のための時空間データ駆動型クラウドフォグエッジコンピューティングフレームワーク [全文訳有]

STOPPAGE: Spatio-temporal Data Driven Cloud-Fog-Edge Computing Framework for Pandemic Monitoring and Management ( http://arxiv.org/abs/2104.01600v1 )

ライセンス: CC BY 4.0
Shreya Ghosh, Anwesha Mukherjee, Soumya K Ghosh, Rajkumar Buyya(参考訳) いくつかの研究と証拠は、急速な死亡率から経済および社会の混乱に至るまで、人類のあらゆる側面において後継となるパンデミック(大規模な伝染病のアウトブレイク)の可能性が高まっていることを示している。 新型コロナウイルス(COVID-19)のパンデミックは、一般人の生活を混乱させ、新型コロナウイルスと戦うことの急激な必要性に動機付けられ、効果的な予防策(ワクチンなど医薬ソリューションの開発など)のために、病気の拡散パターンをモデル化し分析することに多大な努力を払っている。 この点に関して、異種データソースの知識を抽出・統合し、行政方針改善の洞察を提供し、パンデミック対策の備えを高める分析フレームワークを開発することは、絶対的に必要である。 特に、人間の移動性、旅行履歴、その他の輸送統計は、感染症の拡散に大きな影響を及ぼす。 そこで,本稿では,時間的スケールの異なる広い地理的領域における人間の移動やその他の文脈情報の影響をモデル化する,時空間的知識マイニングの枠組みであるstoppageを提案する。 i)fog/edgeベースのアーキテクチャを使用した時空間データとコンピューティングインフラストラクチャ、(ii)時空間データ分析モジュールの2つがあり、異種データソースから知識を効率的に抽出する。 通常、パンデミック知識グラフを開発し、モビリティ情報と病気のスプレッドの相関関係を発見し、次のホットスポットゾーンを予測するディープラーニングアーキテクチャ、フェムトレットとフォグ/エッジベースのソリューションを利用した在宅健康モニタリングに必要なサポートを提供する。 インドにおけるcovid-19関連実生活データセットに関する実験的評価は,提案手法の有効性を示している。

Several researches and evidence show the increasing likelihood of pandemics (large-scale outbreaks of infectious disease) which has far reaching sequels in all aspects of human lives ranging from rapid mortality rates to economic and social disruption across the world. In the recent time, COVID-19 (Coronavirus Disease 2019) pandemic disrupted normal human lives, and motivated by the urgent need of combating COVID-19, researchers have put significant efforts in modelling and analysing the disease spread patterns for effective preventive measures (in addition to developing pharmaceutical solutions, like vaccine). In this regards, it is absolutely necessary to develop an analytics framework by extracting and incorporating the knowledge of heterogeneous datasources to deliver insights in improving administrative policy and enhance the preparedness to combat the pandemic. Specifically, human mobility, travel history and other transport statistics have significant impacts on the spread of any infectious disease. In this direction, this paper proposes a spatio-temporal knowledge mining framework, named STOPPAGE to model the impact of human mobility and other contextual information over large geographic area in different temporal scales. The framework has two major modules: (i) Spatio-temporal data and computing infrastructure using fog/edge based architecture; and (ii) Spatio-temporal data analytics module to efficiently extract knowledge from heterogeneous data sources. Typically, we develop a Pandemic-knowledge graph to discover correlations among mobility information and disease spread, a deep learning architecture to predict the next hot-spot zones; and provide necessary support in home-health monitoring utilizing Femtolet and fog/edge based solutions. The experimental evaluations on real-life datasets related to COVID-19 in India illustrate the efficacy of the proposed methods.
翻訳日:2021-04-07 05:25:45 公開日:2021-04-04
# (参考訳) Timers and such: 数値による音声言語理解のための実践的ベンチマーク [全文訳有]

Timers and Such: A Practical Benchmark for Spoken Language Understanding with Numbers ( http://arxiv.org/abs/2104.01604v1 )

ライセンス: CC0 1.0
Loren Lugosch, Piyush Papreja, Mirco Ravanelli, Abdelwahab Heba, Titouan Parcollet(参考訳) 本稿ではTimers and Suchについて紹介する。Timers and Suchは、数字を含む一般的な音声制御用音声コマンドのオープンソースデータセットである。 The gap of existing Speech Language Understanding datasets that Timers and Such fills, the design and creation of the dataset, and experiment with a many ASR-based and end-to-end baseline model, which are made to be available as the SpeechBrain Toolkit。

This paper introduces Timers and Such, a new open source dataset of spoken English commands for common voice control use cases involving numbers. We describe the gap in existing spoken language understanding datasets that Timers and Such fills, the design and creation of the dataset, and experiments with a number of ASR-based and end-to-end baseline models, the code for which has been made available as part of the SpeechBrain toolkit.
翻訳日:2021-04-07 05:02:24 公開日:2021-04-04
# (参考訳) OnTarget:電子アーチの装飾 [全文訳有]

OnTarget: An Electronic Archery Scoring ( http://arxiv.org/abs/2104.01622v1 )

ライセンス: CC BY 4.0
Andreea Danielescu(参考訳) コンピュータビジョン技術を用いた電子アーチェリースコアリングシステムの作成にはいくつかの課題がある。 光量の変動、複数の画像からの目標の再構成、目標設定の変動、フィルタリングノイズは、このスコアリングシステムの作成において大きな課題であった。 本稿では,矢印が標的に当たる場所を決定するためのアプローチについて論じ,必要な精度を維持しながら矢印検出の難しさのバランスをとるアルゴリズムを提案する。

There are several challenges in creating an electronic archery scoring system using computer vision techniques. Variability of light, reconstruction of the target from several images, variability of target configuration, and filtering noise were significant challenges during the creation of this scoring system. This paper discusses the approach used to determine where an arrow hits a target, for any possible single or set of targets and provides an algorithm that balances the difficulty of robust arrow detection while retaining the required accuracy.
翻訳日:2021-04-07 04:51:43 公開日:2021-04-04
# (参考訳) 音韻表現の微調整による音素認識--ルヒヤ諸語を事例として [全文訳有]

Phoneme Recognition through Fine Tuning of Phonetic Representations: a Case Study on Luhya Language Varieties ( http://arxiv.org/abs/2104.01624v1 )

ライセンス: CC BY 4.0
Kathleen Siminyu, Xinjian Li, Antonios Anastasopoulos, David Mortensen, Michael R. Marlo, Graham Neubig(参考訳) 複数の言語で事前訓練されたモデルは、音声認識、特に低リソース言語の改善に大いに期待されている。 本研究では,音韻アノテーションに基づく多言語認識手法であるAllosaurusを用いた音素認識に着目し,各言語に現れる音素と普遍的狭義の音素を関連付ける言語依存のアロフォン層を通して音韻知識を取り入れた。 挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。 私たちの知る限り、これらのデータセットは彼らの最初のものだ。 インドで主に話されているチベット・ビルマ語族の言語であるEast Tusomのデータセットについて同様の実験を行った。 様々なサイズ(10~1000発)のデータセットを用いて微調整によるゼロショット認識と少数ショット認識の両方を探索する。 私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。

Models pre-trained on multiple languages have shown significant promise for improving speech recognition, particularly for low-resource languages. In this work, we focus on phoneme recognition using Allosaurus, a method for multilingual recognition based on phonetic annotation, which incorporates phonological knowledge through a language-dependent allophone layer that associates a universal narrow phone-set with the phonemes that appear in each language. To evaluate in a challenging real-world scenario, we curate phone recognition datasets for Bukusu and Saamia, two varieties of the Luhya language cluster of western Kenya and eastern Uganda. To our knowledge, these datasets are the first of their kind. We carry out similar experiments on the dataset of an endangered Tangkhulic language, East Tusom, a Tibeto-Burman language variety spoken mostly in India. We explore both zero-shot and few-shot recognition by fine-tuning using datasets of varying sizes (10 to 1000 utterances). We find that fine-tuning of Allosaurus, even with just 100 utterances, leads to significant improvements in phone error rates.
翻訳日:2021-04-07 04:47:10 公開日:2021-04-04
# (参考訳) 間接オントロジーアライメントの再考 : 言語間文脈における新しい課題 [全文訳有]

Revisiting Indirect Ontology Alignment : New Challenging Issues in Cross-Lingual Context ( http://arxiv.org/abs/2104.01628v1 )

ライセンス: CC BY 4.0
Marouen Kachroudi(参考訳) オントロジーアライメントプロセスは知識工学において、不均一性を回避し、様々なデータソースを調整するための重要なメカニズムとして圧倒的に引用されている。 このようなインフラストラクチャや環境においては、特定の知識領域をカバーするすべてのオントロジーがペアで整列していると仮定することは不可能である。 さらに、アライメントアプローチの高性能は、時間消費と機械資源の制限という2つの要因と密接に関連している。 したがって、優れた品質アライメントは価値があり、それらを活用するのは適切でしょう。 本稿では,言語横断的文脈におけるオントロジーの間接的アライメント手法を提案する。 実際、提案手法は多言語オントロジーのアライメントを扱い、効率的な直接アライメントの構成と再利用に基づく間接オントロジーアライメント戦略を実装している。 提案手法のトリガは,関係と信頼値のセマンティクス構成を規定するアライメント代数に基づいている。 その結果, 徹底的かつ詳細な実験を行った結果, 提案手法について多くの肯定的な側面が浮き彫りにされた。

Ontology alignment process is overwhelmingly cited in Knowledge Engineering as a key mechanism aimed at bypassing heterogeneity and reconciling various data sources, represented by ontologies, i.e., the the Semantic Web cornerstone. In such infrastructures and environments, it is inconceivable to assume that all ontologies covering a particular domain of knowledge are aligned in pairs. Moreover, the high performance of alignment approaches is closely related to two factors, i.e., time consumption and machine resource limitations. Thus, good quality alignments are valuable and it would be appropriate to exploit them. Based on this observation, this article introduces a new method of indirect alignment of ontologies in a cross-lingual context. Indeed, the proposed method deals with alignments of multilingual ontologies and implements an indirect ontology alignment strategy based on a composition and reuse of effective direct alignments. The trigger of the proposed method process is based on alignment algebra which governs the semantics composition of relationships and confidence values. The obtained results, after a thorough and detailed experiment are very encouraging and highlight many positive aspects about the new proposed method.
翻訳日:2021-04-07 04:36:49 公開日:2021-04-04
# (参考訳) Isconna: 周波数とパターンによるストリーム異常検出 [全文訳有]

Isconna: Streaming Anomaly Detection with Frequency and Patterns ( http://arxiv.org/abs/2104.01632v1 )

ライセンス: CC BY 4.0
Rui Liu, Siddharth Bhatia, Bryan Hooi(参考訳) エッジストリームは動的ネットワークの一般的な形式のプレゼンテーションである。 時間とともに進化し、新しいタイプのノードやエッジが継続的に追加される。 既存の異常検出方法は、過去の記録に見られるエッジ発生数やパターンスニペットの比較に依存する。 本研究では,エッジレコードの周波数とパターンに着目したIsconnaを提案する。 バースト検出コンポーネントは個々のタイムスタンプ間の異常をターゲットとし、パターン検出コンポーネントはタイムスタンプのセグメント間で異常をハイライトする。 これら2つのコンポーネントは3つの中間スコアを生成し、最終異常スコアに集約される。 Isconnaはパターンスニペットを積極的に探索したり維持したりせず、エッジレコードの連続的な存在と欠如を計測する。 isconnaはオンラインアルゴリズムであり、エッジレコードのオリジナル情報を保持せず、数回のカウントミンスケッチ(cms)で統計値のみが保持される。 Isconnaの空間複雑性$O(rc)$は、CMSのサイズである2つのユーザ固有のパラメータによって決定される。 最悪の場合、Isconnaの時間複雑性は最大$O(rc)$になるが、実際は償却できる。 実験によると、Isconnaは最大2000万のエッジレコードを持つ6つの実世界のデータセットに対して、最先端の周波数および/またはパターンベースのベースラインを5つ上回っている。

An edge stream is a common form of presentation of dynamic networks. It can evolve with time, with new types of nodes or edges being continuously added. Existing methods for anomaly detection rely on edge occurrence counts or compare pattern snippets found in historical records. In this work, we propose Isconna, which focuses on both the frequency and the pattern of edge records. The burst detection component targets anomalies between individual timestamps, while the pattern detection component highlights anomalies across segments of timestamps. These two components together produce three intermediate scores, which are aggregated into the final anomaly score. Isconna does not actively explore or maintain pattern snippets; it instead measures the consecutive presence and absence of edge records. Isconna is an online algorithm, it does not keep the original information of edge records; only statistical values are maintained in a few count-min sketches (CMS). Isconna's space complexity $O(rc)$ is determined by two user-specific parameters, the size of CMSs. In worst case, Isconna's time complexity can be up to $O(rc)$, but it can be amortized in practice. Experiments show that Isconna outperforms five state-of-the-art frequency- and/or pattern-based baselines on six real-world datasets with up to 20 million edge records.
翻訳日:2021-04-07 04:25:19 公開日:2021-04-04
# (参考訳) mist: ビデオ異常検出のためのマルチインスタンス自己学習フレームワーク [全文訳有]

MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection ( http://arxiv.org/abs/2104.01633v1 )

ライセンス: CC BY 4.0
Jia-Chang Feng, Fa-Ting Hong, Wei-Shi Zheng(参考訳) 弱教師付きビデオ異常検出(WS-VAD)は、識別表現に基づく正常事象と異常を区別することである。 既存の作品の多くはビデオ表現に乏しい。 本研究では,ビデオレベルのアノテーションだけでタスク固有の識別表現を効率的に洗練するマルチインスタンス自己学習フレームワーク(MIST)を開発した。 特に、MISTは、(1)より信頼性の高いクリップレベルの擬似ラベルを生成するためにスパース連続サンプリング戦略を適用するマルチインスタンス擬似ラベルジェネレータと、(2)タスク固有の表現を抽出しながらフレーム内の異常領域に自動的にフォーカスすることを目的とした自己誘導注意促進機能エンコーダとからなる。 さらに,両コンポーネントを最適化し,最終的にタスク固有の特徴エンコーダを得るための自己学習方式を採用する。 2つの公開データセットに対する大規模な実験により,本手法の有効性が実証され,上海技術におけるフレームレベルのAUC 94.83%の取得が可能となった。

Weakly supervised video anomaly detection (WS-VAD) is to distinguish anomalies from normal events based on discriminative representations. Most existing works are limited in insufficient video representations. In this work, we develop a multiple instance self-training framework (MIST)to efficiently refine task-specific discriminative representations with only video-level annotations. In particular, MIST is composed of 1) a multiple instance pseudo label generator, which adapts a sparse continuous sampling strategy to produce more reliable clip-level pseudo labels, and 2) a self-guided attention boosted feature encoder that aims to automatically focus on anomalous regions in frames while extracting task-specific representations. Moreover, we adopt a self-training scheme to optimize both components and finally obtain a task-specific feature encoder. Extensive experiments on two public datasets demonstrate the efficacy of our method, and our method performs comparably to or even better than existing supervised and weakly supervised methods, specifically obtaining a frame-level AUC 94.83% on ShanghaiTech.
翻訳日:2021-04-07 04:09:07 公開日:2021-04-04
# (参考訳) pareto efficient fairness in supervised learning: from extraction to tracing

Pareto Efficient Fairness in Supervised Learning: From Extraction to Tracing ( http://arxiv.org/abs/2104.01634v1 )

ライセンス: CC BY 4.0
Mohammad Mahdi Kamani, Rana Forsati, James Z. Wang, Mehrdad Mahdavi(参考訳) アルゴリズムによる意思決定システムがより普及しつつあるため、性別、人種、民族、宗教などに基づいて不公平な差別のメカニズムにならないようにすることが不可欠である。 また, 公平度測定と精度のトレードオフにより, 精度を著しく損なうことなく, 公正度向上モデルを学ぶことが望ましい。 本稿では,教師付き学習において,全体損失と他のフェアネス基準との最適なトレードオフを確保するために,Pareto efficient Fairness(PEF)を提案する。 提案された PEF の概念は定義に依存しないので、公正性の概念は PEF の概念に還元することができる。 PEF分類器を効率よく見つけるために,両レベル最適化問題としてフェアネス強化分類をキャストし,凸および非凸目的に対する証明可能な保証とともに,ソリューションがパレートフロンティアに属することを保証できる勾配に基づく手法を提案する。 また,提案手法によりパレートフロンティアから任意の解を抽出・追跡し,精度と公正度を優先するアルゴリズムを一般化する。 このアプローチはジェネリックであり、パレートフロンティア曲線上のトレース点に対して、任意の多重基準最適化問題に一般化することができる。 PEFソリューションと抽出したParetoフロンティアが実世界のデータセットに与える影響を,最先端の手法と比較して実証的に実証した。

As algorithmic decision-making systems are becoming more pervasive, it is crucial to ensure such systems do not become mechanisms of unfair discrimination on the basis of gender, race, ethnicity, religion, etc. Moreover, due to the inherent trade-off between fairness measures and accuracy, it is desirable to learn fairness-enhanced models without significantly compromising the accuracy. In this paper, we propose Pareto efficient Fairness (PEF) as a suitable fairness notion for supervised learning, that can ensure the optimal trade-off between overall loss and other fairness criteria. The proposed PEF notion is definition-agnostic, meaning that any well-defined notion of fairness can be reduced to the PEF notion. To efficiently find a PEF classifier, we cast the fairness-enhanced classification as a bilevel optimization problem and propose a gradient-based method that can guarantee the solution belongs to the Pareto frontier with provable guarantees for convex and non-convex objectives. We also generalize the proposed algorithmic solution to extract and trace arbitrary solutions from the Pareto frontier for a given preference over accuracy and fairness measures. This approach is generic and can be generalized to any multicriteria optimization problem to trace points on the Pareto frontier curve, which is interesting by its own right. We empirically demonstrate the effectiveness of the PEF solution and the extracted Pareto frontier on real-world datasets compared to state-of-the-art methods.
翻訳日:2021-04-07 03:50:14 公開日:2021-04-04
# (参考訳) TATL: 皮膚属性検出のためのタスク非依存的伝達学習 [全文訳有]

TATL: Task Agnostic Transfer Learning for Skin Attributes Detection ( http://arxiv.org/abs/2104.01641v1 )

ライセンス: CC BY 4.0
Duy M. H. Nguyen, Thu T. Nguyen, Huong Vu, Quang Pham, Manh-Duy Nguyen, Binh T. Nguyen, Daniel Sonntag(参考訳) 既存の皮膚属性検出方法は、通常、トレーニング済みのイメージネットネットワークで初期化し、医療目標タスクを微調整する。 しかし、医療データセットはImageNetと大きく異なり、限られたトレーニングサンプルを含むことが多いため、このようなアプローチは準最適であると論じる。 本研究では,皮膚科領域における皮膚科医の行動に動機付けられる新しい枠組みであるタスク・アグノスティック・トランスファー・ラーニング(TATL)を提案する。 TATLは、病変皮膚領域を検出する属性非依存セグメンタを学習し、その知識を属性固有の分類器のセットに転送し、それぞれの領域の属性を検出する。 TATLの属性非依存セグメンタは異常な皮膚領域のみを検出するため、すべての属性から十分なデータを取得し、特徴間の知識の伝達を可能にし、稀な属性からのトレーニングデータの欠如を補う。 我々は,2つの一般的な皮膚属性検出ベンチマーク上でTATLを広範囲に評価し,TATLが最小限のモデルと計算複雑性を享受しながら最先端の手法より優れていることを示す。 tatlが実際に機能する理由に関する理論的洞察や説明も提供しています。

Existing skin attributes detection methods usually initialize with a pre-trained Imagenet network and then fine-tune the medical target task. However, we argue that such approaches are suboptimal because medical datasets are largely different from ImageNet and often contain limited training samples. In this work, we propose Task Agnostic Transfer Learning (TATL), a novel framework motivated by dermatologists' behaviors in the skincare context. TATL learns an attribute-agnostic segmenter that detects lesion skin regions and then transfers this knowledge to a set of attribute-specific classifiers to detect each particular region's attributes. Since TATL's attribute-agnostic segmenter only detects abnormal skin regions, it enjoys ample data from all attributes, allows transferring knowledge among features, and compensates for the lack of training data from rare attributes. We extensively evaluate TATL on two popular skin attributes detection benchmarks and show that TATL outperforms state-of-the-art methods while enjoying minimal model and computational complexity. We also provide theoretical insights and explanations for why TATL works well in practice.
翻訳日:2021-04-07 03:48:49 公開日:2021-04-04
# (参考訳) SOLO: オンライン検索, 組合せ最適化問題のオフライン学習 [全文訳有]

SOLO: Search Online, Learn Offline for Combinatorial Optimization Problems ( http://arxiv.org/abs/2104.01646v1 )

ライセンス: CC BY 4.0
Joel Oren, Chana Ross, Maksym Lefarov, Felix Richter, Zohar Feldman, Christian Daniel, Dotan Di Castro(参考訳) 本研究では,マシンスケジューリング,ルーティング,割り当てといった実世界のアプリケーションにおける組合せ問題について検討する。 強化学習(RL)と計画を組み合わせる手法を提案する。 この方法は、オフラインでもオンラインでも、問題コンポーネント(例えばスケジューリング問題におけるジョブ)が事前に知られておらず、意思決定プロセス中に到着するコンビネータ問題でも同じように適用することができる。 私たちのソリューションは非常に汎用的でスケーラブルで、問題パラメータの分散知識を活用しています。 我々は、解法プロセスをMDPとして構成し、状態がグラフとして表現されるディープQラーニングアプローチを採用し、訓練されたポリシーが原則化された方法で任意の変更に対処できるようにする。 学習されたポリシーは期待通りに機能するが、小さな偏差は組合せ設定においてかなりの負の効果を持つ。 これらの欠点を、互換性のある探索アルゴリズムであるモンテカルロ木探索において、グラフ畳み込みポリシーを非最適ヒューリスティックとして利用することで軽減し、全体的な性能を大幅に向上させる。 提案手法は, マシンスケジューリングとキャパシタ付き車両ルーティングの2つの問題について実証する。 本手法は, 計算時間と性能の両方において, 独自に調整した数学解法, 美術学習に基づくアルゴリズム, および共通ヒューリスティックスよりも優れていることを示す。

We study combinatorial problems with real world applications such as machine scheduling, routing, and assignment. We propose a method that combines Reinforcement Learning (RL) and planning. This method can equally be applied to both the offline, as well as online, variants of the combinatorial problem, in which the problem components (e.g., jobs in scheduling problems) are not known in advance, but rather arrive during the decision-making process. Our solution is quite generic, scalable, and leverages distributional knowledge of the problem parameters. We frame the solution process as an MDP, and take a Deep Q-Learning approach wherein states are represented as graphs, thereby allowing our trained policies to deal with arbitrary changes in a principled manner. Though learned policies work well in expectation, small deviations can have substantial negative effects in combinatorial settings. We mitigate these drawbacks by employing our graph-convolutional policies as non-optimal heuristics in a compatible search algorithm, Monte Carlo Tree Search, to significantly improve overall performance. We demonstrate our method on two problems: Machine Scheduling and Capacitated Vehicle Routing. We show that our method outperforms custom-tailored mathematical solvers, state of the art learning-based algorithms, and common heuristics, both in computation time and performance.
翻訳日:2021-04-07 03:26:43 公開日:2021-04-04
# (参考訳) 強化ラベル階層推論によるゼロショットマルチラベルテキスト分類のための事前学習モデルの改良 [全文訳有]

Improving Pretrained Models for Zero-shot Multi-label Text Classification through Reinforced Label Hierarchy Reasoning ( http://arxiv.org/abs/2104.01666v1 )

ライセンス: CC BY 4.0
Hui Liu, Danqing Zhang, Bing Yin, Xiaodan Zhu(参考訳) ラベル階層の爆発はゼロショットマルチラベルテキスト分類(ZS-MTC)問題に取り組む上で有望なアプローチとなっている。 従来の手法は、グラフエンコーダを用いてラベル階層を組み込んでテキストとラベルのマッチングモデルを学習し、効果的なラベル表現を得る。 最近では、BERT \cite{devlin2018bert} のような事前訓練されたモデルは、分類タスクをテキストエンテーメントタスク \cite{yin-etal-2019-benchm arking} に変換するために使用されている。 このアプローチはZS-MTCタスクに適している。 しかし、事前学習されたモデルは、テキストやラベルの個々のベクトル表現を生成せず、従来のグラフエンコーディング法と組み合わせるのは直感的ではないため、既存の作業では未熟である。 本稿では,ZS-MTCタスクにおけるラベル階層を用いた事前学習モデルの改良について検討する。 学習中に階層内のラベル間の相互依存を促進するために,強化ラベル階層推論(rlhr)手法を提案する。 一方,フラット予測の弱さを克服するために,予測から論理誤差を除去できるロールバックアルゴリズムを設計した。 3つの実時間データセットにおける実験結果から,zs-mtcタスクにおける従来の非事前学習手法よりも優れた性能と性能が得られた。

Exploiting label hierarchies has become a promising approach to tackling the zero-shot multi-label text classification (ZS-MTC) problem. Conventional methods aim to learn a matching model between text and labels, using a graph encoder to incorporate label hierarchies to obtain effective label representations \cite{rios2018few}. More recently, pretrained models like BERT \cite{devlin2018bert} have been used to convert classification tasks into a textual entailment task \cite{yin-etal-2019-benchm arking}. This approach is naturally suitable for the ZS-MTC task. However, pretrained models are underexplored in the existing work because they do not generate individual vector representations for text or labels, making it unintuitive to combine them with conventional graph encoding methods. In this paper, we explore to improve pretrained models with label hierarchies on the ZS-MTC task. We propose a Reinforced Label Hierarchy Reasoning (RLHR) approach to encourage interdependence among labels in the hierarchies during training. Meanwhile, to overcome the weakness of flat predictions, we design a rollback algorithm that can remove logical errors from predictions during inference. Experimental results on three real-life datasets show that our approach achieves better performance and outperforms previous non-pretrained methods on the ZS-MTC task.
翻訳日:2021-04-07 03:08:12 公開日:2021-04-04
# (参考訳) データ分散ドリフト分析による連続学習環境の理解 [全文訳有]

Understanding Continual Learning Settings with Data Distribution Drift Analysis ( http://arxiv.org/abs/2104.01678v1 )

ライセンス: CC BY 4.0
Timoth\'ee Lesort, Massimo Caccia, Irina Rish(参考訳) 古典的な機械学習アルゴリズムは、データが描画されたと仮定することが多い。 定常的な確率分布から 近年、継続学習は、この仮定が緩和される機械学習の急速に成長する領域として現れ、データ分布が非定常的、すなわち時間とともに変化する。 しかし、データの分散ドリフトは学習プロセスに干渉し、以前に学習した知識を消去する可能性があるため、連続的な学習アルゴリズムはそのような分散ドリフトを扱うための特別なメカニズムを含む必要がある。 分布ドリフトは、クラスラベルの分布、入力分布、またはその両方を変更する。 さらに、分布ドリフトは突然あるいは徐々に変化する可能性がある。 本稿では,データ分布のドリフトと潜在的な仮定を識別し,分類し,連続的な学習シナリオをよりよく特徴付けることを目的とする。 さらに, 分散ドリフトフレームワークを用いて, 連続学習分野において一般的に用いられる複数の用語をより正確に定義することを提案する。

Classical machine learning algorithms often assume that the data are drawn i.i.d. from a stationary probability distribution. Recently, continual learning emerged as a rapidly growing area of machine learning where this assumption is relaxed, namely, where the data distribution is non-stationary, i.e., changes over time. However, data distribution drifts may interfere with the learning process and erase previously learned knowledge; thus, continual learning algorithms must include specialized mechanisms to deal with such distribution drifts. A distribution drift may change the class labels distribution, the input distribution, or both. Moreover, distribution drifts might be abrupt or gradual. In this paper, we aim to identify and categorize different types of data distribution drifts and potential assumptions about them, to better characterize various continual-learning scenarios. Moreover, we propose to use the distribution drift framework to provide more precise definitions of several terms commonly used in the continual learning field.
翻訳日:2021-04-07 02:53:19 公開日:2021-04-04
# (参考訳) 計算済みルックアップテーブルによる高速な畳み込み推論 [全文訳有]

Faster Convolution Inference Through Using Pre-Calculated Lookup Tables ( http://arxiv.org/abs/2104.01681v1 )

ライセンス: CC BY 4.0
Grigor Gatchev, Valentin Mollov(参考訳) 低カーディナリティアクティベーションは、事前に計算されたルックアップテーブルから推論値を取得するアルゴリズムを、毎回計算する代わりに許可する。 このアルゴリズムには拡張性があり、それらの一部は現在使われているアルゴリズム以上の能力を提供している。 また、よりシンプルでより効果的なcnn専門のハードウェアも利用できる。

Low-cardinality activations permit an algorithm based on fetching the inference values from pre-calculated lookup tables instead of calculating them every time. This algorithm can have extensions, some of which offer abilities beyond those of the currently used algorithms. It also allows for a simpler and more effective CNN-specialized hardware.
翻訳日:2021-04-07 02:38:06 公開日:2021-04-04
# (参考訳) プログラマブルしきい値論理標準セルのネットワークを用いた構成可能なbnn asic [全文訳有]

A Configurable BNN ASIC using a Network of Programmable Threshold Logic Standard Cells ( http://arxiv.org/abs/2104.01699v1 )

ライセンス: CC BY 4.0
Ankit Wagle and Sunil Khatri and Sarma Vrudhula(参考訳) 本稿では、任意のBNNの動作を実行するために最適なスケジュールを使用するバイナリニューラルネットワーク(BNN)の新しいアーキテクチャであるTULIPを提案する。 分類ごとのエネルギー効率を最大化する目的で建設された。 トップレベルでは、TULIPはSIMD形式で構成された独自の処理要素(TULIP-PE)の集合からなる。 各TULIP-PEは、バイナリニューロンの小さなネットワークと、ニューロン当たりのローカルメモリの少ないネットワークで構成されている。 二元ニューロンのユニークな側面は、人工二元ニューロンの内部積および閾値操作をネイティブに実行する混合信号回路として実装されていることである。 さらに、単一CMOS標準セルとして実装されたバイナリニューロンは再構成可能であり、単一のパラメータを変更することで、BNNに関連するすべての標準操作を実装することができる。 本稿では,BNNの任意のノードをTULIP-PEにマッピングするアルゴリズムを提案する。 TULIPはTSMC 40nm-LP技術においてASICとして実装された。 公正な比較のために、従来のMACベースの算術演算プロセッサを用いた最近報告されたBNNも同じ技術で実装された。 その結果、TULIPは従来の設計より3倍エネルギー効率が高く、性能、面積、精度にペナルティはないことがわかった。

This paper presents TULIP, a new architecture for a binary neural network (BNN) that uses an optimal schedule for executing the operations of an arbitrary BNN. It was constructed with the goal of maximizing energy efficiency per classification. At the top-level, TULIP consists of a collection of unique processing elements (TULIP-PEs) that are organized in a SIMD fashion. Each TULIP-PE consists of a small network of binary neurons, and a small amount of local memory per neuron. The unique aspect of the binary neuron is that it is implemented as a mixed-signal circuit that natively performs the inner-product and thresholding operation of an artificial binary neuron. Moreover, the binary neuron, which is implemented as a single CMOS standard cell, is reconfigurable, and with a change in a single parameter, can implement all standard operations involved in a BNN. We present novel algorithms for mapping arbitrary nodes of a BNN onto the TULIP-PEs. TULIP was implemented as an ASIC in TSMC 40nm-LP technology. To provide a fair comparison, a recently reported BNN that employs a conventional MAC-based arithmetic processor was also implemented in the same technology. The results show that TULIP is consistently 3X more energy-efficient than the conventional design, without any penalty in performance, area, or accuracy.
翻訳日:2021-04-07 02:10:23 公開日:2021-04-04
# (参考訳) 二次非拘束二項最適化問題の1-Flip局所最適解を求める制約プログラミング [全文訳有]

Constraint Programming to Discover One-Flip Local Optima of Quadratic Unconstrained Binary Optimization Problems ( http://arxiv.org/abs/2104.01709v1 )

ライセンス: CC BY 4.0
Amit Verma and Mark Lewis(参考訳) Quadratic Unconstrained Binary Optimization (QUBO)の幅広い適用性は、組合せ最適化問題のための汎用モデリングフレームワークを構成し、ゲートアレイと量子アニールコンピュータに必要なフォーマットである。 qubo annealersや他のソリューションアプローチは、局所的最適性が付加的な利点を持つ多様なソリューションセットから始めることで恩恵を受ける。 本稿では,制約プログラミングを応用した1自由度局所オプティマのセットを生成する新しい手法を提案する。 さらに、実験で実証されたように、解集合の解析により、ソフト制約の生成が最適化プロセスの導出に役立つ。

The broad applicability of Quadratic Unconstrained Binary Optimization (QUBO) constitutes a general-purpose modeling framework for combinatorial optimization problems and are a required format for gate array and quantum annealing computers. QUBO annealers as well as other solution approaches benefit from starting with a diverse set of solutions with local optimality an additional benefit. This paper presents a new method for generating a set of one-flip local optima leveraging constraint programming. Further, as demonstrated in experimental testing, analysis of the solution set allows the generation of soft constraints to help guide the optimization process.
翻訳日:2021-04-07 01:57:38 公開日:2021-04-04
# (参考訳) Type-2ファジィニューラルネットワークを用いた非線形力学系の同定 -新しい学習アルゴリズムと比較研究- [全文訳有]

Identification of Nonlinear Dynamic Systems Using Type-2 Fuzzy Neural Networks -- A Novel Learning Algorithm and a Comparative Study ( http://arxiv.org/abs/2104.01713v1 )

ライセンス: CC BY 4.0
Erkan Kayacan, Erdal Kayacan and Mojtaba Ahmadieh Khanesar(参考訳) 本稿では,より高速で堅牢な収束(特に雑音の多い作業環境下で)を実現するために,2型ファジィニューラルネットワークの前提とそれに伴う部分の調整を行うスライディングモード理論に基づく学習アルゴリズムを提案する。 近年の研究では、ネットワークの連続部分のみにスライディングモード制御理論に基づくルールが提案されているが、このアルゴリズムでは、タイプ2ファジィニューラルネットワークの前提部分と連続部分の両方に完全にスライディングモードパラメータ更新ルールを適用している。 また、type-2ファジィメンバーシップ関数の下部及び上部の貢献を共有する責任のあるパラメータも調整される。 さらに、オンライントレーニング中にネットワークの学習率を更新する。 提案アルゴリズムの安定性は適切なリアプノフ関数を用いて証明されている。 いくつかの比較が実現され,提案アルゴリズムは勾配法や群知能法といった既存手法よりも収束速度が速いことが示されている。 さらに,提案アルゴリズムはクローズドな形式であり,既存の手法よりも実装が容易である。

In order to achieve faster and more robust convergence (especially under noisy working environments), a sliding mode theory-based learning algorithm has been proposed to tune both the premise and consequent parts of type-2 fuzzy neural networks in this paper. Differently from recent studies, where sliding mode control theory-based rules are proposed for only the consequent part of the network, the developed algorithm applies fully sliding mode parameter update rules for both the premise and consequent parts of the type-2 fuzzy neural networks. In addition, the responsible parameter for sharing the contributions of the lower and upper parts of the type-2 fuzzy membership functions is also tuned. Moreover, the learning rate of the network is updated during the online training. The stability of the proposed learning algorithm has been proved by using an appropriate Lyapunov function. Several comparisons have been realized and shown that the proposed algorithm has faster convergence speed than the existing methods such as gradient-based and swarm intelligence-based methods. Moreover, the proposed learning algorithm has a closed form, and it is easier to implement than the other existing methods.
翻訳日:2021-04-07 01:47:19 公開日:2021-04-04
# (参考訳) urysohn forest for aleatoric uncertainty quantification (特集 ユリソーン森林) [全文訳有]

Urysohn Forest for Aleatoric Uncertainty Quantification ( http://arxiv.org/abs/2104.01714v1 )

ライセンス: CC BY 4.0
Andrew Polar, Michael Poluektov(参考訳) 木と森の用語は通常、分類器の集合と関連付けられている。 本稿では、 urysohn tree は、複数の離散 urysohn operator を木として連結した回帰モデルであり、ある作用素の入力は他の作用素の出力である。 この構造はユリソン木と呼ばれ、完全に新しいものではない。 そのような木の例は半世紀以上にわたって知られている。 コルモゴロフ=アルノルド表現である。 最近発表された研究で著者らは、深い機械学習プロセスとしてkolmogorov-arnold表現を構築するための新しい計算技術を提供した。 この記事はこの研究の2つのステップです。 2つの部分がある。 1つは、Kolmogorov-Arnoldモデルの適切な置き換えである軽量二分木Urysohn木であり、もう1つは、これらの木の森林構築のためのブースティングアルゴリズムであり、データの分散低減とアレタリック不確かさのモデル化である。

The terms tree and forest are normally associated with an ensemble of classifiers. In this article Urysohn tree is a regression model representing multiple discrete Urysohn operators connected as a tree, where the inputs of one operator are outputs of the others. This structure, referred as Urysohn tree, is not completely new. One example of such tree is known for more than half a century. It is Kolmogorov-Arnold representation. The authors of this paper in their recently published research offered the new computational technique for constructing of Kolmogorov-Arnold representation as a deep machine learning process. This article is two steps further into this research. It has two parts. First is a lightweight binary Urysohn tree which is adequate replacement of Kolmogorov-Arnold model and second is a boosting algorithm for building of the forest of these trees for variance reduction and modeling of aleatoric uncertainty of the data.
翻訳日:2021-04-07 01:14:39 公開日:2021-04-04
# fixmypose: 修正キャプションと検索を行う

FixMyPose: Pose Correctional Captioning and Retrieval ( http://arxiv.org/abs/2104.01703v1 )

ライセンス: Link先を確認
Hyounghun Kim, Abhay Zala, Graham Burri, Mohit Bansal(参考訳) 身体療法やヨガやダンスなどの個人的運動への興味は、健康的な傾向とともに高まっている。 しかし、このようなエクササイズは専門家の指導なしには追跡できない(各研修生に対して個別のフィードバックをリモートで行うにはスケールできない)。 そのため,これまで以上に自動ポーズ修正システムが必要となり,これに対応するためにfixmyposeという新しいキャプションデータセットを導入する。 現在」のポーズを(英語とヒンディー語の両方で)「ターゲット」のポーズのように見えるように修正する記述を収集する。 収集された記述は、環境オブジェクトに対する自我中心的な関係、類似した参照など、空間的関係や姿勢に関する常識的な知識の理解を必要とする興味深い言語特性を有する。 さらに、MLバイアスを避けるために、様々な内部環境(例えば、家、オフィス)で様々な動きを行う多様な人口層とのキャラクター間のバランスを維持します。 データセットからポーズ補正・キャプチャタスクとその逆ターゲット・ポジ・リトライバルタスクを導入する。 補正作業中、モデルは現在のポーズ画像からターゲット画像への移動方法の説明を生成しなければならないが、検索作業では、初期ポーズと補正記述に基づいて、モデルが正しいターゲットポーズを選択する必要がある。 また,他の画像差分データセットで評価すると,強い相互対応ベースラインモデル(uni/multimodal,RL, multilingual)が示され,そのベースラインが他のモデルと競合することを示す。 また,新しいタスク特定指標(オブジェクトマッチング,ボディパートマッチング,方向マッチング)を提案し,より信頼性の高い評価のためにヒューマン評価を行い,将来的な作業が期待できる大きなヒューマンモデル性能ギャップを実証する。 fixmyposeデータセットのsim-to-real転送を検証するために、実画像の集合を収集し、これらの画像に有望なパフォーマンスを示す。

Interest in physical therapy and individual exercises such as yoga/dance has increased alongside the well-being trend. However, such exercises are hard to follow without expert guidance (which is impossible to scale for personalized feedback to every trainee remotely). Thus, automated pose correction systems are required more than ever, and we introduce a new captioning dataset named FixMyPose to address this need. We collect descriptions of correcting a "current" pose to look like a "target" pose (in both English and Hindi). The collected descriptions have interesting linguistic properties such as egocentric relations to environment objects, analogous references, etc., requiring an understanding of spatial relations and commonsense knowledge about postures. Further, to avoid ML biases, we maintain a balance across characters with diverse demographics, who perform a variety of movements in several interior environments (e.g., homes, offices). From our dataset, we introduce the pose-correctional-ca ptioning task and its reverse target-pose-retrieva l task. During the correctional-caption ing task, models must generate descriptions of how to move from the current to target pose image, whereas in the retrieval task, models should select the correct target pose given the initial pose and correctional description. We present strong cross-attention baseline models (uni/multimodal, RL, multilingual) and also show that our baselines are competitive with other models when evaluated on other image-difference datasets. We also propose new task-specific metrics (object-match, body-part-match, direction-match) and conduct human evaluation for more reliable evaluation, and we demonstrate a large human-model performance gap suggesting room for promising future work. To verify the sim-to-real transfer of our FixMyPose dataset, we collect a set of real images and show promising performance on these images.
翻訳日:2021-04-06 14:56:50 公開日:2021-04-04
# ReCAM@IITK at SemEval-2021 Task 4: BERT and ALBERT based Ensemble for Abstract Word Prediction (英語)

ReCAM@IITK at SemEval-2021 Task 4: BERT and ALBERT based Ensemble for Abstract Word Prediction ( http://arxiv.org/abs/2104.01563v1 )

ライセンス: Link先を確認
Abhishek Mittal, Ashutosh Modi(参考訳) 本稿では,SemEval-2021: Reading Comprehension of Abstract Meaning (ReCAM)のタスク4について述べる。 私たちは、文から欠落した抽象語を予測することを主な目標とした全てのサブタスクに参加しました。 本研究では,既存のマスク付き言語モデルであるBERTとALBERTを微調整し,Subtask 1 (ReCAM-Imperceptibil ity) とSubtask 2 (ReCAM-Nonspecificit y) を用いた。 Subtask 3 (ReCAM-Intersection) では, ALBERT モデルを用いて最適な結果を得た。 複数のアプローチを試したところ、Masked Language Modeling(MLM)ベースのアプローチがベストであることがわかった。

This paper describes our system for Task 4 of SemEval-2021: Reading Comprehension of Abstract Meaning (ReCAM). We participated in all subtasks where the main goal was to predict an abstract word missing from a statement. We fine-tuned the pre-trained masked language models namely BERT and ALBERT and used an Ensemble of these as our submitted system on Subtask 1 (ReCAM-Imperceptibil ity) and Subtask 2 (ReCAM-Nonspecificit y). For Subtask 3 (ReCAM-Intersection) , we submitted the ALBERT model as it gives the best results. We tried multiple approaches and found that Masked Language Modeling(MLM) based approach works the best.
翻訳日:2021-04-06 14:55:57 公開日:2021-04-04
# 生成的局所線形埋め込み

Generative Locally Linear Embedding ( http://arxiv.org/abs/2104.01525v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley(参考訳) 局所線形埋め込み(LLE)は非線形スペクトル次元減少および多様体学習法である。 線形再構成と入力空間への点の線形埋め込みと埋め込み空間という2つの主要なステップがある。 本稿では,線形再構成ステップが決定論的ではなく確率的である2つの新しい生成lle (generative lle, glle) を提案する。 GLLEは、すべてのデータポイントが線形再構成重みによって引き起こされると仮定する。 提案したGLLEアルゴリズムは様々なLLE埋め込みを確率的に生成し,生成したすべての埋め込みは元のLLE埋め込みに関連付ける。 確率的線形再構成のための2つのバージョンを提案し、ひとつは期待最大化を用いて、もう一つは導出分布からの直接サンプリングを最適化して提案する。 提案手法は, 変分推論, 因子分析, 確率主成分分析と密接に関連し, インスパイアされている。 シミュレーションの結果,提案手法はデータの展開や部分多様体の生成に有効であることがわかった。

Locally Linear Embedding (LLE) is a nonlinear spectral dimensionality reduction and manifold learning method. It has two main steps which are linear reconstruction and linear embedding of points in the input space and embedding space, respectively. In this work, we propose two novel generative versions of LLE, named Generative LLE (GLLE), whose linear reconstruction steps are stochastic rather than deterministic. GLLE assumes that every data point is caused by its linear reconstruction weights as latent factors. The proposed GLLE algorithms can generate various LLE embeddings stochastically while all the generated embeddings relate to the original LLE embedding. We propose two versions for stochastic linear reconstruction, one using expectation maximization and another with direct sampling from a derived distribution by optimization. The proposed GLLE methods are closely related to and inspired by variational inference, factor analysis, and probabilistic principal component analysis. Our simulations show that the proposed GLLE methods work effectively in unfolding and generating submanifolds of data.
翻訳日:2021-04-06 14:55:01 公開日:2021-04-04
# 自然言語指導による強化学習への影響

Influencing Reinforcement Learning through Natural Language Guidance ( http://arxiv.org/abs/2104.01506v1 )

ライセンス: Link先を確認
Tasmia Tasrin, Md Sultan AL Nahian, Habarakadage Perera and Brent Harrison(参考訳) 対話型強化学習エージェントは、人間のフィードバックや指示を使って、複雑な環境での学習を支援する。 多くの場合、このフィードバックは正または負の離散信号の形で得られる。 情報的ではあるが、この情報はそれ自体で一般化することは困難である。 本研究では,対話型強化学習手法であるポリシシェーピングを拡張し,強化学習エージェントに対して,より豊かなフィードバック信号を提供するために自然言語アドバイスをどのように利用できるかを検討する。 通常、政策形成は、エージェントが目標を達成する方法についてより深く学ぶのを助けるために、人間のフィードバックポリシーを採用する。 本稿では、このヒューマンフィードバックポリシーを、自然言語のアドバイスに基づくポリシーに置き換える。 生成した自然言語推論が深層強化学習エージェントにサポートを提供し、任意の環境においてその動作を成功させるかどうかを調べることを目的とする。 ひとつはエクスペリエンス駆動型,もうひとつはアドバイス生成型,もうひとつはアドバイス駆動型です。 経験駆動強化学習エージェントは、環境報酬の影響を受ける行動を選択するが、アドバイス駆動ニューラルネットワークは、新たな状態に対するアドバイスジェネレータによるフィードバックを発生させ、強化学習エージェントのポリシー形成を支援する行動を選択する。

Interactive reinforcement learning agents use human feedback or instruction to help them learn in complex environments. Often, this feedback comes in the form of a discrete signal that is either positive or negative. While informative, this information can be difficult to generalize on its own. In this work, we explore how natural language advice can be used to provide a richer feedback signal to a reinforcement learning agent by extending policy shaping, a well-known Interactive reinforcement learning technique. Usually policy shaping employs a human feedback policy to help an agent to learn more about how to achieve its goal. In our case, we replace this human feedback policy with policy generated based on natural language advice. We aim to inspect if the generated natural language reasoning provides support to a deep reinforcement learning agent to decide its actions successfully in any given environment. So, we design our model with three networks: first one is the experience driven, next is the advice generator and third one is the advice driven. While the experience driven reinforcement learning agent chooses its actions being influenced by the environmental reward, the advice driven neural network with generated feedback by the advice generator for any new state selects its actions to assist the reinforcement learning agent to better policy shaping.
翻訳日:2021-04-06 14:52:44 公開日:2021-04-04
# 顔認識の性能分析:ガラス因子による批判的考察

Performance analysis of facial recognition: A critical review through glass factor ( http://arxiv.org/abs/2104.01536v1 )

ライセンス: Link先を確認
Jiashu He(参考訳) 新型コロナウイルス(COVID-19)のパンデミック(パンデミック)とソーシャルディスタンシング(ソーシャルディスタンシング)は、さまざまな異常な状況で、信頼できる人間の顔認識システムを促進する。 しかし,顔認識システムにおけるガラス因子の影響に関する研究は行われていない。 本稿では,ガラス因子の包括的検討を行う。 調査にはデータ収集と精度テストという2つのステップが含まれている。 データ収集には、クリアグラス、水入りガラス、霧入りガラスなど、さまざまな状況で人間の顔画像を集めることが含まれる。 収集したデータに基づいて,MSCNNとインセプションV1ディープネット上に構築された既存の顔検出認識システムを用いて,さらなる解析を行う。 実験データによると,1)リアルタイム画像の比較では分類に頑健であり,2)2つの画像が同一人物であるかどうかを,リアルタイムに乱された画像と正面画像とを比較して判断できない。

COVID-19 pandemic and social distancing urge a reliable human face recognition system in different abnormal situations. However, there is no research which studies the influence of glass factor in facial recognition system. This paper provides a comprehensive review of glass factor. The study contains two steps: data collection and accuracy test. Data collection includes collecting human face images through different situations, such as clear glasses, glass with water and glass with mist. Based on the collected data, an existing state-of-the-art face detection and recognition system built upon MTCNN and Inception V1 deep nets is tested for further analysis. Experimental data supports that 1) the system is robust for classification when comparing real-time images and 2) it fails at determining if two images are of same person by comparing real-time disturbed image with the frontal ones.
翻訳日:2021-04-06 14:50:30 公開日:2021-04-04
# 希薄・微細構造:ブラックボックス音源モデルからの効果的な適応

Distill and Fine-tune: Effective Adaptation from a Black-box Source Model ( http://arxiv.org/abs/2104.01539v1 )

ライセンス: Link先を確認
Jian Liang and Dapeng Hu and Ran He and Jiashi Feng(参考訳) ラベル付けの負担を軽減するため、教師なしドメイン適応(UDA)は、以前のラベル付きデータセット(ソース)の知識を新しいラベル付きデータセット(ターゲット)に転送することを目的としている。 印象的な進歩にもかかわらず、以前の方法は、常にソースデータにアクセスし、ターゲットサンプルをトランスダクティブな学習方法で認識するためのデータ依存のアライメントアプローチを開発する必要がある。 近年のいくつかの研究では、ソースドメインの生データの代わりに、よく訓練されたホワイトボックスモデルを活用することで、代替のソリューションを採用している。 本稿では,対象領域への適応時にブラックボックスソースモデル(ネットワーク予測のみ利用可能)のみを提供する,UDAの実用的で興味深い設定について検討する。 さらに、異なるニューラルネットワークを異なるドメインで使用することも可能である。 本稿では,新しい2段階適応フレームワークであるDistill and Fine-tuneを提案する。 具体的には、dis-tuneはまず、ソースモデルからカスタマイズされたターゲットモデルへの知識を構造的に蒸留し、その後、ターゲットドメインに適合するように蒸留モデルを教師なしに微調整する。 有効性を検証するために,2つの UDA シナリオ (\ie, closed-set, partial-set) を検討した。

To alleviate the burden of labeling, unsupervised domain adaptation (UDA) aims to transfer knowledge in previous related labeled datasets (source) to a new unlabeled dataset (target). Despite impressive progress, prior methods always need to access the raw source data and develop data-dependent alignment approaches to recognize the target samples in a transductive learning manner, which may raise privacy concerns from source individuals. Several recent studies resort to an alternative solution by exploiting the well-trained white-box model instead of the raw data from the source domain, however, it may leak the raw data through generative adversarial training. This paper studies a practical and interesting setting for UDA, where only a black-box source model (i.e., only network predictions are available) is provided during adaptation in the target domain. Besides, different neural networks are even allowed to be employed for different domains. For this new problem, we propose a novel two-step adaptation framework called Distill and Fine-tune (Dis-tune). Specifically, Dis-tune first structurally distills the knowledge from the source model to a customized target model, then unsupervisedly fine-tunes the distilled model to fit the target domain. To verify the effectiveness, we consider two UDA scenarios (\ie, closed-set and partial-set), and discover that Dis-tune achieves highly competitive performance to state-of-the-art approaches.
翻訳日:2021-04-06 14:50:14 公開日:2021-04-04
# アクダクタンスと幾何学の相乗効果:インプシット表現による6-DoFグラフ検出

Synergies Between Affordance and Geometry: 6-DoF Grasp Detection via Implicit Representations ( http://arxiv.org/abs/2104.01542v1 )

ライセンス: Link先を確認
Zhenyu Jiang, Yifeng Zhu, Maxwell Svetlik, Kuan Fang, Yuke Zhu(参考訳) クラッターの把持検出では、ロボットは不完全で騒がしい知覚から3dシーンを判断する必要がある。 本研究では,3次元再構成と把握学習が密接に結びついた2つの課題であり,どちらも局所幾何学的詳細を詳細に理解する必要があるという知見を導き出す。 そこで本稿では,共有表現のマルチタスク学習を通して,把持余裕と3次元再構成の相乗効果を利用する。 我々のモデルは、両方のタスクの異なる訓練を可能にするために、連続的およびメモリ効率の表現である深い暗黙の関数を利用する。 シミュレーションでは,自己教師付き把持実験データを用いてモデルを訓練する。 クラッタ除去タスクにおいて、ロボットが1度に1つ把握してクラッタオブジェクトをクリアする評価を行う。 シミュレーションおよび実ロボット実験の結果、暗黙のニューラル表現の使用と、把握能力と3次元再構成の連成学習が、最先端の把握結果をもたらすことを示した。 本手法は,成功率の把握において,ベースラインを10%以上向上させる。 追加の結果とビデオはhttps://sites.google .com/view/rpl-giga20 21で見ることができる。

Grasp detection in clutter requires the robot to reason about the 3D scene from incomplete and noisy perception. In this work, we draw insight that 3D reconstruction and grasp learning are two intimately connected tasks, both of which require a fine-grained understanding of local geometry details. We thus propose to utilize the synergies between grasp affordance and 3D reconstruction through multi-task learning of a shared representation. Our model takes advantage of deep implicit functions, a continuous and memory-efficient representation, to enable differentiable training of both tasks. We train the model on self-supervised grasp trials data in simulation. Evaluation is conducted on a clutter removal task, where the robot clears cluttered objects by grasping them one at a time. The experimental results in simulation and on the real robot have demonstrated that the use of implicit neural representations and joint learning of grasp affordance and 3D reconstruction have led to state-of-the-art grasping results. Our method outperforms baselines by over 10% in terms of grasp success rate. Additional results and videos can be found at https://sites.google .com/view/rpl-giga20 21
翻訳日:2021-04-06 14:49:33 公開日:2021-04-04
# 情報検索のためのデータベース表現のトポロジカルデータ解析

Topological Data Analysis of Database Representations for Information Retrieval ( http://arxiv.org/abs/2104.01672v1 )

ライセンス: Link先を確認
Athanasios Vlontzos, Yueqi Cao, Luca Schmidtke, Bernhard Kainz, and Anthea Monod(参考訳) クエリが正確にマッチするようにデータベース内の要素を適切に表現することは、情報検索における中心的なタスクである。 これは最近、データベースのグラフィカルな構造を多様体に埋め込んで階層構造を保存することで達成された。 永続ホモロジーは、その階層構造と接続構造の両方の観点から、データベーストポロジーの厳密な特徴づけを提供する。 様々なデータセット上で永続的ホモロジーを計算し、一般的に使用される埋め込みが接続性を維持するのに失敗することを示す。 さらに,データベーストポロジーを保持する埋め込みが持続的ホモロジーに一致することを示す。 この効果を捉えるために拡張不変ボトルネック距離を導入し、多様体上の計量歪みに対処する。 データベースのトポロジ保存埋め込み間の距離が小さいことを示すためにこれを用いる。

Appropriately representing elements in a database so that queries may be accurately matched is a central task in information retrieval. This recently has been achieved by embedding the graphical structure of the database into a manifold so that the hierarchy is preserved. Persistent homology provides a rigorous characterization for the database topology in terms of both its hierarchy and connectivity structure. We compute persistent homology on a variety of datasets and show that some commonly used embeddings fail to preserve the connectivity. Moreover, we show that embeddings which successfully retain the database topology coincide in persistent homology. We introduce the dilation-invariant bottleneck distance to capture this effect, which addresses metric distortion on manifolds. We use it to show that distances between topology-preserving embeddings of databases are small.
翻訳日:2021-04-06 14:48:25 公開日:2021-04-04
# 滑らかなワッサーシュタイン損失をもつ非負行列とテンソル分解

Non-negative matrix and tensor factorisations with a smoothed Wasserstein loss ( http://arxiv.org/abs/2104.01708v1 )

ライセンス: Link先を確認
Stephen Y. Zhang(参考訳) 非負行列とテンソル分解は、高次元データセットの低次元表現を見つけるための機械学習とデータサイエンスの古典的なツールである。 イメージングのようなアプリケーションでは、データセットは計量構造を持つ空間内の分布と見なすことができる。 このような設定において、最適輸送理論に基づくワッサースタイン損失関数は、基礎となる空間の幾何学に関する知識を組み込んだ自然選択である。 最適輸送損失に関して行列とテンソルの非負因子化を計算するための一般的な数学的枠組みを導入し、凸双対公式を用いた効率的な解法を導出する。 本手法の適用性をいくつかの数値例で示す。

Non-negative matrix and tensor factorisations are a classical tool in machine learning and data science for finding low-dimensional representations of high-dimensional datasets. In applications such as imaging, datasets can often be regarded as distributions in a space with metric structure. In such a setting, a Wasserstein loss function based on optimal transportation theory is a natural choice since it incorporates knowledge about the geometry of the underlying space. We introduce a general mathematical framework for computing non-negative factorisations of matrices and tensors with respect to an optimal transport loss, and derive an efficient method for its solution using a convex dual formulation. We demonstrate the applicability of this approach with several numerical examples.
翻訳日:2021-04-06 14:48:14 公開日:2021-04-04
# 傾斜地形におけるロバスト二足歩行に対する線形政策の学習

Learning Linear Policies for Robust Bipedal Locomotion on Terrains with Varying Slopes ( http://arxiv.org/abs/2104.01662v1 )

ライセンス: Link先を確認
Lokesh Krishna, Utkarsh A. Mishra, Guillermo A. Castillo, Ayonga Hereid, Shishir Kolathaya(参考訳) 本稿では,二足歩行ロボットのための軽量制御フレームワークの展開をめざして,単一の線形フィードバックポリシによって形成されるエンドフット軌道を実現する。 我々はこのポリシーを,2つのロボットプラットフォームであるrabbitとdigitで,モデルフリーで勾配フリーな学習アルゴリズムであるars( augmented random search)を通じて学習する。 a) 胴体を用いて、平面方向を入力としてサポートすることにより、シミュレーションで最大20度の斜面を頑健に歩くことができる。 b) 傾斜の異なる地形で二足歩行を行うための頑健かつ高速なフィードバック制御法として, 後方進路, 踏込み位置, 最大120Nの外部からの押し出しからの回復などの追加行動を示す。 最終的に、ハードウェアをDigitに転送する際の予備的な結果も提供する。

In this paper, with a view toward deployment of light-weight control frameworks for bipedal walking robots, we realize end-foot trajectories that are shaped by a single linear feedback policy. We learn this policy via a model-free and a gradient-free learning algorithm, Augmented Random Search (ARS), in the two robot platforms Rabbit and Digit. Our contributions are two-fold: a) By using torso and support plane orientation as inputs, we achieve robust walking on slopes of up to 20 degrees in simulation. b) We demonstrate additional behaviors like walking backwards, stepping-in-place, and recovery from external pushes of up to 120 N. The end result is a robust and a fast feedback control law for bipedal walking on terrains with varying slopes. Towards the end, we also provide preliminary results of hardware transfer to Digit.
翻訳日:2021-04-06 14:46:34 公開日:2021-04-04
# タキー深さとハミルトン・ヤコビ微分方程式

Tukey Depths and Hamilton-Jacobi Differential Equations ( http://arxiv.org/abs/2104.01648v1 )

ライセンス: Link先を確認
Martin Molina-Fructuoso and Ryan Murray(参考訳) 現代の機械学習の広範な応用により、ロバストな統計アルゴリズムの必要性が増した。 この研究は、ツキー深さとして知られる基本的な統計測度を研究する。 我々はその問題を継続性(人口)の限界で研究する。 特に、一階偏微分方程式の形をとる関連する必要条件を導出する。 ハミルトン・ヤコビ方程式の粘性解としてこの必要条件の古典的解釈を論じるが、非古典的ハミルトン方程式は 0 の勾配に不連続な依存を持つ。 我々は、この方程式が一意の粘性解を持ち、この解が常に下からチューキー深さを束縛していることを証明する。 いくつかの場合において、タキー深さが粘度解に等しいことを証明し、偏微分方程式を直接扱う最適制御群から標準数値法の例を示す。 結論として,新しい数値アルゴリズムと理論的課題の両面で有望な研究方向を概説する。

The widespread application of modern machine learning has increased the need for robust statistical algorithms. This work studies one such fundamental statistical measure known as the Tukey depth. We study the problem in the continuum (population) limit. In particular, we derive the associated necessary conditions, which take the form of a first-order partial differential equation. We discuss the classical interpretation of this necessary condition as the viscosity solution of a Hamilton-Jacobi equation, but with a non-classical Hamiltonian with discontinuous dependence on the gradient at zero. We prove that this equation possesses a unique viscosity solution and that this solution always bounds the Tukey depth from below. In certain cases, we prove that the Tukey depth is equal to the viscosity solution, and we give some illustrations of standard numerical methods from the optimal control community which deal directly with the partial differential equation. We conclude by outlining several promising research directions both in terms of new numerical algorithms and theoretical challenges.
翻訳日:2021-04-06 14:46:04 公開日:2021-04-04
# asper:感性文脈における意味関係を示す構文パターン抽出のための注意に基づくアプローチ

ASPER: Attention-based Approach to Extract Syntactic Patterns denoting Semantic Relations in Sentential Context ( http://arxiv.org/abs/2104.01523v1 )

ライセンス: Link先を確認
Md. Ahsanul Kabir, Typer Phillips, Xiao Luo, Mohammad Al Hasan(参考訳) 意味関係(hyponym-hypernym, cause-effect, meronym-holonymなど)。 文中の一対の実体の間には通常、構文パターンによって反映される。 このようなパターンの自動抽出は、エンティティ抽出、オントロジー構築、質問応答など、いくつかの下流タスクに役立つ。 残念ながら、そのようなパターンの自動抽出はまだNLPや情報検索研究者からはあまり注目されていない。 本研究では,ある意味的関係を示すエンティティ間の統語的パターンを意味的文脈で抽出する,注意に基づく教師付きディープラーニングモデルASPERを提案する。 我々は,6つのデータセットにおけるhypnym-hypernym, cause-effect, meronym-holonymの3つの意味関係について,asperの性能を検証する。 実験の結果,これらすべての意味関係に対して,文中の一対の実体間の関係を反映した構文パターンの集合を自動的に識別できることが示唆された。 既存の構文パターン抽出手法と比較して,ASPERの性能は著しく優れている。

Semantic relationships, such as hyponym-hypernym, cause-effect, meronym-holonym etc. between a pair of entities in a sentence are usually reflected through syntactic patterns. Automatic extraction of such patterns benefits several downstream tasks, including, entity extraction, ontology building, and question answering. Unfortunately, automatic extraction of such patterns has not yet received much attention from NLP and information retrieval researchers. In this work, we propose an attention-based supervised deep learning model, ASPER, which extracts syntactic patterns between entities exhibiting a given semantic relation in the sentential context. We validate the performance of ASPER on three distinct semantic relations -- hyponym-hypernym, cause-effect, and meronym-holonym on six datasets. Experimental results show that for all these semantic relations, ASPER can automatically identify a collection of syntactic patterns reflecting the existence of such a relation between a pair of entities in a sentence. In comparison to the existing methodologies of syntactic pattern extraction, ASPER's performance is substantially superior.
翻訳日:2021-04-06 14:44:10 公開日:2021-04-04
# iitk@detox at semeval-2021 task 5: semi-supervised learning and dice loss for toxic spans detection

IITK@Detox at SemEval-2021 Task 5: Semi-Supervised Learning and Dice Loss for Toxic Spans Detection ( http://arxiv.org/abs/2104.01566v1 )

ライセンス: Link先を確認
Archit Bansal, Abhay Kaushik, Ashutosh Modi(参考訳) 本研究では,SemEval-2021 Task 5 Toxic Spans Detectionに対するアプローチと結果を示す。 タスクの主な目的は、特定のテキストの毒性が引き起こされる可能性のあるスパンを特定することであった。 このタスクは主に、小さなトレーニングデータセットと不均衡なクラス分散という2つの制約によって難しい。 本稿では,これらの課題に取り組むために,自己調整型ダイス損失を伴う半教師付き学習と学習の2つの手法について検討する。 提案システム(リーダボードで9位)は,上記のいずれかを用いて訓練した各種事前学習トランスフォーマー言語モデルのアンサンブルで構成された。

In this work, we present our approach and findings for SemEval-2021 Task 5 - Toxic Spans Detection. The task's main aim was to identify spans to which a given text's toxicity could be attributed. The task is challenging mainly due to two constraints: the small training dataset and imbalanced class distribution. Our paper investigates two techniques, semi-supervised learning and learning with Self-Adjusting Dice Loss, for tackling these challenges. Our submitted system (ranked ninth on the leader board) consisted of an ensemble of various pre-trained Transformer Language Models trained using either of the above-proposed techniques.
翻訳日:2021-04-06 14:43:56 公開日:2021-04-04
# MCL@IITK at SemEval-2021 Task 2: Augmented Data, Signals, Transformer を用いた多言語・多言語語間単語の曖昧化

MCL@IITK at SemEval-2021 Task 2: Multilingual and Cross-lingual Word-in-Context Disambiguation using Augmented Data, Signals, and Transformers ( http://arxiv.org/abs/2104.01567v1 )

ライセンス: Link先を確認
Rohan Gupta, Jay Mundra, Deepak Mahajan, Ashutosh Modi(参考訳) 本稿では,SemEval 2021 Task 2: Multilingual and cross-lingual Word-in-Context Disambiguation (MCL-WiC) を解くためのアプローチを提案する。 タスクは、両方の文に共通する単語が同じ意味を持つかどうかを検出することを目的とした文対分類問題である。 複数言語 (ペアの文は同一言語に属する) とクロスリンガル (ペアの文は異なる言語に属する) の2つの設定のためのシステムを提案する。 トレーニングデータは英語でのみ提供される。 その結果,言語間伝達技術が採用される。 本手法では,英語タスクにはELECTRAやALBERT,その他のタスクにはXLM-Rといった,微調整済みのトランスフォーマーベース言語モデルを用いる。 これらのシステムの性能を改善するために,不明瞭な単語に信号を追加すること,文対逆転によるデータの増大を提案する。 WiC、XL-WiC、SemCor 3.0で提供されるデータセットをさらに強化します。 アンサンブルを用いて多言語タスクにおいて,EN-ENとFR-FRのサブタスクで第1位となる高い性能を達成する。 クロスリンガル設定では,多言語モデルを用いて翻訳テスト法とゼロショット法を用い,後者では若干性能が向上した。

In this work, we present our approach for solving the SemEval 2021 Task 2: Multilingual and Cross-lingual Word-in-Context Disambiguation (MCL-WiC). The task is a sentence pair classification problem where the goal is to detect whether a given word common to both the sentences evokes the same meaning. We submit systems for both the settings - Multilingual (the pair's sentences belong to the same language) and Cross-Lingual (the pair's sentences belong to different languages). The training data is provided only in English. Consequently, we employ cross-lingual transfer techniques. Our approach employs fine-tuning pre-trained transformer-based language models, like ELECTRA and ALBERT, for the English task and XLM-R for all other tasks. To improve these systems' performance, we propose adding a signal to the word to be disambiguated and augmenting our data by sentence pair reversal. We further augment the dataset provided to us with WiC, XL-WiC and SemCor 3.0. Using ensembles, we achieve strong performance in the Multilingual task, placing first in the EN-EN and FR-FR sub-tasks. For the Cross-Lingual setting, we employed translate-test methods and a zero-shot method, using our multilingual models, with the latter performing slightly better.
翻訳日:2021-04-06 14:43:45 公開日:2021-04-04
# KnowGraph@IITK at SemEval-2021 Task 11: Building KnowledgeGraph for NLP Research

KnowGraph@IITK at SemEval-2021 Task 11: Building KnowledgeGraph for NLP Research ( http://arxiv.org/abs/2104.01619v1 )

ライセンス: Link先を確認
Shashank Shailabh, Sajal Chaurasia, Ashutosh Modi(参考訳) 自然言語処理の研究は急速に進展しており、多くの研究論文が発行されている。 関連する研究論文の発見とドメインへの貢献は難しい問題である。 本稿では,自然言語処理文献を対象とする研究論文に焦点を絞ったナレッジグラフのシステムを構築し,semeval 2021タスク11: nlpcontributiongraph を通じてこの問題に対処した。 課題は3つのサブタスクに分けられる:研究記事において重要な貢献を示す貢献文を抽出し、貢献文からフレーズを抽出し、そのフレーズから三重項の生成とともに研究記事の情報単位を予測する。 提案システムは対象領域に依存せず,任意の領域の知識グラフ構築に利用することができる。 トランスフォーマーベースの言語モデルは既存の手法を大幅に改善し、SciBERTベースのモデルを利用した。 第1のサブタスクはSciBERTモデルレイヤ上に積み重ねられたBidirectional LSTM(BiLSTM)を使用し、第2のサブタスクはSciBERT上にBiLSTMを組み込んだ条件ランダムフィールド(CRF)を使用する。 第3のサブタスクでは、SciBERTベースのニューラルネットワークとヒューリスティックを組み合わせて、情報単位予測とフレーズからのトリプルト生成を行う。 終末パイプラインテスト,句抽出テスト,三重項抽出テストではF1スコアが0.38,0.63,0.76となった。

Research in Natural Language Processing is making rapid advances, resulting in the publication of a large number of research papers. Finding relevant research papers and their contribution to the domain is a challenging problem. In this paper, we address this challenge via the SemEval 2021 Task 11: NLPContributionGraph , by developing a system for a research paper contributions-focuse d knowledge graph over Natural Language Processing literature. The task is divided into three sub-tasks: extracting contribution sentences that show important contributions in the research article, extracting phrases from the contribution sentences, and predicting the information units in the research article together with triplet formation from the phrases. The proposed system is agnostic to the subject domain and can be applied for building a knowledge graph for any area. We found that transformer-based language models can significantly improve existing techniques and utilized the SciBERT-based model. Our first sub-task uses Bidirectional LSTM (BiLSTM) stacked on top of SciBERT model layers, while the second sub-task uses Conditional Random Field (CRF) on top of SciBERT with BiLSTM. The third sub-task uses a combined SciBERT based neural approach with heuristics for information unit prediction and triplet formation from the phrases. Our system achieved F1 score of 0.38, 0.63 and 0.76 in end-to-end pipeline testing, phrase extraction testing and triplet extraction testing respectively.
翻訳日:2021-04-06 14:43:21 公開日:2021-04-04
# シンボリックセマンティックスをイベント干渉分解に組み込む文脈依存型ゲーテッドモジュール

A Context-Dependent Gated Module for Incorporating Symbolic Semantics into Event Coreference Resolution ( http://arxiv.org/abs/2104.01697v1 )

ライセンス: Link先を確認
Tuan Lai, Heng Ji, Trung Bui, Quan Hung Tran, Franck Dernoncourt, Walter Chang(参考訳) イベントコリファレンス解決は、多くのアプリケーションにおいて重要な研究課題である。 事前学習された言語モデルの最近の顕著な成功にもかかわらず、我々はそのタスクに象徴的特徴を利用するのは依然として非常に有益であると主張する。 しかし、コリファレンス解決のための入力は通常、情報抽出パイプラインの上流コンポーネントから来るため、自動的に抽出されたシンボリックな特徴はノイズとエラーを含む可能性がある。 また、特定のコンテキストによっては、いくつかの機能は他の機能よりも有益である。 そこで本研究では,入力の象徴的特徴から情報の流れを適応的に制御する新しいコンテキスト依存ゲートモジュールを提案する。 単純な雑音学習法と組み合わせて、私たちの最良のモデルは、ACE 2005とKBP 2016の2つのデータセットで最先端の結果を得る。

Event coreference resolution is an important research problem with many applications. Despite the recent remarkable success of pretrained language models, we argue that it is still highly beneficial to utilize symbolic features for the task. However, as the input for coreference resolution typically comes from upstream components in the information extraction pipeline, the automatically extracted symbolic features can be noisy and contain errors. Also, depending on the specific context, some features can be more informative than others. Motivated by these observations, we propose a novel context-dependent gated module to adaptively control the information flows from the input symbolic features. Combined with a simple noisy training method, our best models achieve state-of-the-art results on two datasets: ACE 2005 and KBP 2016.
翻訳日:2021-04-06 14:42:57 公開日:2021-04-04
# ビュー合成によるポーズシフトのマトリックス表現によるカメラポーズの学習ニューラルネットワーク表現

Learning Neural Representation of Camera Pose with Matrix Representation of Pose Shift via View Synthesis ( http://arxiv.org/abs/2104.01508v1 )

ライセンス: Link先を確認
Yaxuan Zhu, Ruiqi Gao, Siyuan Huang, Song-chun Zhu, Yingnian Wu(参考訳) カメラポーズを効果的に表現する方法は、3Dコンピュータビジョン、特にカメラポーズ回帰や新しいビュー合成といったタスクにおいて重要な問題である。 伝統的に、カメラの3次元位置はデカルト座標で表され、向きはオイラー角または四元数で表される。 これらの表現は手動で設計されており、下流タスクの最も効果的な表現ではないかもしれない。 本研究では,カメラポーズと3dシーンのニューラル表現と,局所カメラ動作のニューラル表現を併用して学習する手法を提案する。 具体的には、カメラポーズと3Dシーンをベクトルとして、ローカルカメラの動きをカメラポーズのベクトル上で動作するマトリックスとして表現する。 カメラの動きは、神経空間の回転系を基底とする行列リー代数によってさらにパラメータ化できることを実証する。 ベクトル表現は連結され、デコーダネットワークを介してポーズされた2d画像を生成する。 モデルは、深度や形状にアクセスせずに、2d画像と対応するカメラポーズのみから学習される。 合成および実データに対する広範な実験を行う。 その結果、他のカメラポーズ表現と比較して、学習された表現は、新しいビュー合成においてノイズに対してより堅牢であり、カメラポーズ回帰においてより効果的であることがわかった。

How to effectively represent camera pose is an essential problem in 3D computer vision, especially in tasks such as camera pose regression and novel view synthesis. Traditionally, 3D position of the camera is represented by Cartesian coordinate and the orientation is represented by Euler angle or quaternions. These representations are manually designed, which may not be the most effective representation for downstream tasks. In this work, we propose an approach to learn neural representations of camera poses and 3D scenes, coupled with neural representations of local camera movements. Specifically, the camera pose and 3D scene are represented as vectors and the local camera movement is represented as a matrix operating on the vector of the camera pose. We demonstrate that the camera movement can further be parametrized by a matrix Lie algebra that underlies a rotation system in the neural space. The vector representations are then concatenated and generate the posed 2D image through a decoder network. The model is learned from only posed 2D images and corresponding camera poses, without access to depths or shapes. We conduct extensive experiments on synthetic and real datasets. The results show that compared with other camera pose representations, our learned representation is more robust to noise in novel view synthesis and more effective in camera pose regression.
翻訳日:2021-04-06 14:38:11 公開日:2021-04-04
# PDWN:動画補間用ピラミッド変形型ワープネットワーク

PDWN: Pyramid Deformable Warping Network for Video Interpolation ( http://arxiv.org/abs/2104.01517v1 )

ライセンス: Link先を確認
Zhiqi Chen, Ran Wang, Haojie Liu and Yao Wang(参考訳) ビデオ補間は、過去と将来のフレームが与えられた既存の中間フレームを生成することを目的としている。 多くの最先端手法は、既知のフレーム間の光の流れを推定し、ミドルフレームと既知のフレーム間の後方の流れを生成することによって、有望な結果を達成する。 しかしながら、これらの手法は通常、推定された光フローの不正確さに悩まされ、フロー推定誤差を補うために追加のモデルや情報を必要とする。 近年,映像補間に変形性畳み込み(dconv)を用いた場合,ピラミッド変形性ワーピングネットワーク(pdwn)と呼ばれる軽量だが効果的なモデルが提案されている。 pdwnはピラミッド構造を使用して、未知の中間フレームの既知のフレームに対するdconvオフセットを生成する。 歪んだ特徴間のコストボリュームは、オフセット推論を支援するために、ピラミッドレベルで計算される。 最も細かいスケールでは、2つの歪んだフレームを適応的にブレンドして中間フレームを生成する。 最後に、コンテキスト拡張ネットワークは、最終出力のコンテキスト詳細をさらに強化する。 アブレーション研究は、粗大なオフセット改良、コストボリューム、DConvの有効性を示す。 提案手法は,従来モデルに比べてモデルパラメータ数や推論時間は大幅に少ないが,複数のデータセットにおける最先端モデルと比較して精度が向上する。 さらに,提案手法を拡張して4つの入力フレームを使用する場合,モデルサイズと推論時間をわずかに増加させるだけで,2つの入力フレームを使用するよりも大幅に改善できることを示す。

Video interpolation aims to generate a non-existent intermediate frame given the past and future frames. Many state-of-the-art methods achieve promising results by estimating the optical flow between the known frames and then generating the backward flows between the middle frame and the known frames. However, these methods usually suffer from the inaccuracy of estimated optical flows and require additional models or information to compensate for flow estimation errors. Following the recent development in using deformable convolution (DConv) for video interpolation, we propose a light but effective model, called Pyramid Deformable Warping Network (PDWN). PDWN uses a pyramid structure to generate DConv offsets of the unknown middle frame with respect to the known frames through coarse-to-fine successive refinements. Cost volumes between warped features are calculated at every pyramid level to help the offset inference. At the finest scale, the two warped frames are adaptively blended to generate the middle frame. Lastly, a context enhancement network further enhances the contextual detail of the final output. Ablation studies demonstrate the effectiveness of the coarse-to-fine offset refinement, cost volumes, and DConv. Our method achieves better or on-par accuracy compared to state-of-the-art models on multiple datasets while the number of model parameters and the inference time are substantially less than previous models. Moreover, we present an extension of the proposed framework to use four input frames, which can achieve significant improvement over using only two input frames, with only a slight increase in the model size and inference time.
翻訳日:2021-04-06 14:37:51 公開日:2021-04-04
# 歩行者軌道予測のためのSGCN:Sparse Graph Convolution Network

SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2104.01528v1 )

ライセンス: Link先を確認
Liushuai Shi, Le Wang, Chengjiang Long, Sanping Zhou, Mo Zhou, Zhenxing Niu, Gang Hua(参考訳) 歩行者間の複雑な相互作用のため、歩行者の軌道予測は自動操縦における重要な技術である。 しかし、密集した非直交相互作用に基づく以前の研究は、過剰な相互作用のモデル化と軌道運動傾向の無視に悩まされ、必然的に現実からかなり逸脱する。 これらの問題に対処するために,歩行者追跡予測のための疎グラフ畳み込みネットワーク~(sgcn)を提案する。 具体的には、SGCNはスパース指向の相互作用をスパース指向の空間グラフと明確にモデル化し、適応的な相互作用歩行者を捉える。 一方,動作傾向をモデル化するために,スパース指向の時間グラフを用いて,観測された方向に基づく予測を容易にする。 最後に、上記2つのスパースグラフを用いて、軌道予測のための二ゲージ分布のパラメータを推定する。 提案手法をETHおよびUCYデータセット上で評価し, 実験結果から, 平均変位誤差(ADE)では9%, 最終変位誤差(FDE)では13%の精度で比較結果が得られた。 特に,本手法が歩行者間の適応的相互作用と効果的な移動傾向を捉えることができることを示す。

Pedestrian trajectory prediction is a key technology in autopilot, which remains to be very challenging due to complex interactions between pedestrians. However, previous works based on dense undirected interaction suffer from modeling superfluous interactions and neglect of trajectory motion tendency, and thus inevitably result in a considerable deviance from the reality. To cope with these issues, we present a Sparse Graph Convolution Network~(SGCN) for pedestrian trajectory prediction. Specifically, the SGCN explicitly models the sparse directed interaction with a sparse directed spatial graph to capture adaptive interaction pedestrians. Meanwhile, we use a sparse directed temporal graph to model the motion tendency, thus to facilitate the prediction based on the observed direction. Finally, parameters of a bi-Gaussian distribution for trajectory prediction are estimated by fusing the above two sparse graphs. We evaluate our proposed method on the ETH and UCY datasets, and the experimental results show our method outperforms comparative state-of-the-art methods by 9% in Average Displacement Error(ADE) and 13% in Final Displacement Error(FDE). Notably, visualizations indicate that our method can capture adaptive interactions between pedestrians and their effective motion tendencies.
翻訳日:2021-04-06 14:37:28 公開日:2021-04-04
# 注意に基づく階層型マルチモーダル融合による高分解能深度マップイメージング

High-resolution Depth Maps Imaging via Attention-based Hierarchical Multi-modal Fusion ( http://arxiv.org/abs/2104.01530v1 )

ライセンス: Link先を確認
Zhiwei Zhong, Xianming Liu, Junjun Jiang, Debin Zhao, Zhiwen Chen and Xiangyang Ji(参考訳) 深度マップは、シーン内の視点とオブジェクトの間の距離を記録し、多くの現実世界のアプリケーションにおいて重要な役割を果たす。 しかし、コンシューマグレードのRGB-Dカメラで捉えた深度マップは、空間解像度が低い。 誘導深度マップ超解像(DSR)は、高分解能(HR)深度マップを入力低分解能(LR)深度と結合したHR RGB画像から復元しようとする、この問題に対処するための一般的なアプローチである。 ガイド付きDSRの最も難しい問題は、一貫性のある構造を正しく選択し、それらを伝播し、一貫性のない構造を適切に扱う方法である。 本稿では,誘導DSRのための新しい注目型階層型マルチモーダル融合(AHMF)ネットワークを提案する。 具体的には、LR深度とHRガイダンスから関連情報を効果的に抽出し、組み合わせるために、階層的畳み込み層に対するマルチモーダルアテンションベース融合(MMAF)戦略を提案する。 さらに,マルチスケール特徴量間の低レベル空間情報と高レベル構造情報を完全に活用する双方向階層的特徴協調(BHFC)モジュールを提案する。 実験の結果,提案手法は再現精度,実行速度,メモリ効率において,最先端の手法よりも優れていた。

Depth map records distance between the viewpoint and objects in the scene, which plays a critical role in many real-world applications. However, depth map captured by consumer-grade RGB-D cameras suffers from low spatial resolution. Guided depth map super-resolution (DSR) is a popular approach to address this problem, which attempts to restore a high-resolution (HR) depth map from the input low-resolution (LR) depth and its coupled HR RGB image that serves as the guidance. The most challenging problems for guided DSR are how to correctly select consistent structures and propagate them, and properly handle inconsistent ones. In this paper, we propose a novel attention-based hierarchical multi-modal fusion (AHMF) network for guided DSR. Specifically, to effectively extract and combine relevant information from LR depth and HR guidance, we propose a multi-modal attention based fusion (MMAF) strategy for hierarchical convolutional layers, including a feature enhance block to select valuable features and a feature recalibration block to unify the similarity metrics of modalities with different appearance characteristics. Furthermore, we propose a bi-directional hierarchical feature collaboration (BHFC) module to fully leverage low-level spatial information and high-level structure information among multi-scale features. Experimental results show that our approach outperforms state-of-the-art methods in terms of reconstruction accuracy, running speed and memory efficiency.
翻訳日:2021-04-06 14:36:56 公開日:2021-04-04
# 階層的イメージピーリング:柔軟なスケールスペースフィルタリングフレームワーク

Hierarchical Image Peeling: A Flexible Scale-space Filtering Framework ( http://arxiv.org/abs/2104.01534v1 )

ライセンス: Link先を確認
Fu Yuanbin and Guoxiaojie and Hu Qiming and Lin Di and Ma Jiayi and Ling Haibin(参考訳) 階層的なイメージ組織の重要性は、コンピュータビジョンとグラフィックスにおける幅広い応用によって見られている。 空間的全体を考慮した画像分割とは異なり、この研究は、画像をスケール空間の観点から派生した信号の族に分解する近代的な枠組みを設計する。 具体的には、まず最初に、画像分解の正式な定義を提供する。 そして, 階層の剥がしや構造保存などの望ましい特性を考慮し, 元の複雑な問題を2成分分離部分問題に変換し, 複雑さを著しく低減する。 提案されたフレームワークは、教師なし設定と教師なし設定の両方に柔軟である。 gtx2080tigpu上で1回60fps以上で1080pの画像を処理でき、実用的にも魅力的である。 提案手法の有効性を実証し、他の最先端の選択肢よりも優位性を示し、様々なシナリオに適用可能な可能性を示すため、理論的研究結果と実験結果の両方が提供される。 私たちのコードは \url{https://github.com/F orawardStar/HIPe} で利用可能です。

The importance of hierarchical image organization has been witnessed by a wide spectrum of applications in computer vision and graphics. Different from image segmentation with the spatial whole-part consideration, this work designs a modern framework for disassembling an image into a family of derived signals from a scale-space perspective. Specifically, we first offer a formal definition of image disassembly. Then, by concerning desired properties, such as peeling hierarchy and structure preservation, we convert the original complex problem into a series of two-component separation sub-problems, significantly reducing the complexity. The proposed framework is flexible to both supervised and unsupervised settings. A compact recurrent network, namely hierarchical image peeling net, is customized to efficiently and effectively fulfill the task, which is about 3.5Mb in size, and can handle 1080p images in more than 60 fps per recurrence on a GTX 2080Ti GPU, making it attractive for practical use. Both theoretical findings and experimental results are provided to demonstrate the efficacy of the proposed framework, reveal its superiority over other state-of-the-art alternatives, and show its potential to various applicable scenarios. Our code is available at \url{https://github.com/F orawardStar/HIPe}.
翻訳日:2021-04-06 14:36:32 公開日:2021-04-04
# 少数ショットセグメンテーションのためのハイパー相関スクイーズ

Hypercorrelation Squeeze for Few-Shot Segmentation ( http://arxiv.org/abs/2104.01538v1 )

ライセンス: Link先を確認
Juhong Min, Dahyun Kang, Minsu Cho(参考訳) Few-shot semantic segmentationは、ターゲットクラスの注釈付きサポートイメージのみを使用して、クエリイメージからターゲットオブジェクトをセグメンテーションすることを目的としている。 この課題は、多様な視覚的手がかりを理解し、クエリとサポートイメージの微妙な対応関係を解析することである。 この問題に対処するために,マルチレベル特徴相関と効率的な4次元畳み込みを利用したハイパーコリレーション・スクイーズネットワーク(hsnet)を提案する。 様々なレベルの中間畳み込み層から多様な特徴を抽出し、4次元相関テンソルの集合、すなわち超相関を構成する。 ピラミッド構造における効率のよい中心ピボット4D畳み込みを用いて、ハイパー相関の高レベル意味と低レベル幾何学的手がかりを粗い方法で正確にセグメンテーションマスクに徐々に絞り込む。 PASCAL-5i, COCO-20i, FSS-1000の標準ショットセグメンテーションベンチマークの大幅な性能改善により, 提案手法の有効性が検証された。

Few-shot semantic segmentation aims at learning to segment a target object from a query image using only a few annotated support images of the target class. This challenging task requires to understand diverse levels of visual cues and analyze fine-grained correspondence relations between the query and the support images. To address the problem, we propose Hypercorrelation Squeeze Networks (HSNet) that leverages multi-level feature correlation and efficient 4D convolutions. It extracts diverse features from different levels of intermediate convolutional layers and constructs a collection of 4D correlation tensors, i.e., hypercorrelations. Using efficient center-pivot 4D convolutions in a pyramidal architecture, the method gradually squeezes high-level semantic and low-level geometric cues of the hypercorrelation into precise segmentation masks in coarse-to-fine manner. The significant performance improvements on standard few-shot segmentation benchmarks of PASCAL-5i, COCO-20i, and FSS-1000 verify the efficacy of the proposed method.
翻訳日:2021-04-06 14:36:12 公開日:2021-04-04
# グラフサンプリングに基づく一般化可能な人物再同定のための深度学習

Graph Sampling Based Deep Metric Learning for Generalizable Person Re-Identification ( http://arxiv.org/abs/2104.01546v1 )

ライセンス: Link先を確認
Shengcai Liao and Ling Shao(参考訳) 個人を再識別するために、既存のディープネットワークはしばしば表現学習に焦点を当てる。 しかし、トランスファーラーニングなしでは、学習モデルはそのままに固定され、様々な目に見えないシナリオに適応できない。 本稿では, 表現学習以外にも, 人物像のマッチングを深部特徴写像で直接定式化する方法を検討する。 画像マッチングを特徴マップにおける局所対応の探索として扱い、クエリ適応畳み込みカーネルをオンザフライで構築して局所マッチングを実現する。 このように、マッチングプロセスと結果は解釈可能であり、この明示的なマッチングは、未知のミスアライメントやポーズ、視点の変化のような見知らぬシナリオに対して、表現機能よりも一般化可能である。 このアーキテクチャのエンドツーエンドのトレーニングを容易にするため、各クラスの最新のサンプルの特徴マップをキャッシュするクラスメモリモジュールを構築し、メトリクス学習のための画像マッチング損失を計算する。 直接クロスデータセット評価により、提案手法は一般的な学習手法(約10\%+mAP)よりも大幅に改善され、多くの伝達学習手法に匹敵する結果が得られる。 さらに,TLift と呼ばれるモデルフリー時間的コクレンスに基づくスコア重み付け手法を提案する。 コードは \url{https://github.com/s hengcailiao/qaconv} で入手できる。

For person re-identification, existing deep networks often focus on representation learning. However, without transfer learning, the learned model is fixed as is, which is not adaptable for handling various unseen scenarios. In this paper, beyond representation learning, we consider how to formulate person image matching directly in deep feature maps. We treat image matching as finding local correspondences in feature maps, and construct query-adaptive convolution kernels on the fly to achieve local matching. In this way, the matching process and results are interpretable, and this explicit matching is more generalizable than representation features to unseen scenarios, such as unknown misalignments, pose or viewpoint changes. To facilitate end-to-end training of this architecture, we further build a class memory module to cache feature maps of the most recent samples of each class, so as to compute image matching losses for metric learning. Through direct cross-dataset evaluation, the proposed Query-Adaptive Convolution (QAConv) method gains large improvements over popular learning methods (about 10\%+ mAP), and achieves comparable results to many transfer learning methods. Besides, a model-free temporal cooccurrence based score weighting method called TLift is proposed, which improves the performance to a further extent, achieving state-of-the-art results in cross-dataset person re-identification. Code is available at \url{https://github.com/S hengcaiLiao/QAConv}.
翻訳日:2021-04-06 14:35:55 公開日:2021-04-04
# 統合テキスト検出と類似性学習によるシーンテキスト検索

Scene Text Retrieval via Joint Text Detection and Similarity Learning ( http://arxiv.org/abs/2104.01552v1 )

ライセンス: Link先を確認
Hao Wang, Xiang Bai, Mingkun Yang, Shenggao Zhu, Jing Wang, Wenyu Liu(参考訳) シーンテキスト検索は、画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としている。 このようなタスクは通常、エンドツーエンドのシーンテキストスポッターによって出力される、認識された単語にクエリテキストをマッチングすることで実現される。 本稿では,自然画像からクエリテキストと各テキストインスタンス間の相互類似性を直接学習することにより,この問題に対処する。 具体的には、シーンテキスト検出と相互類似性学習の手順を協調的に最適化し、エンドツーエンドのトレーニング可能なネットワークを構築する。 このようにして、検出されたテキストインスタンスを学習した類似度でランク付けすることにより、シーンテキスト検索を簡単に行うことができる。 3つのベンチマークデータセットの実験は、我々の手法が最先端のシーンテキストスポッティング/検索アプローチよりも一貫して優れていることを示した。 特に,共同検出と類似性学習の枠組みは,分離した手法よりもはるかに優れた性能を実現する。 コードはhttps://github.com/l anfeng4659/str-tdsl。

Scene text retrieval aims to localize and search all text instances from an image gallery, which are the same or similar to a given query text. Such a task is usually realized by matching a query text to the recognized words, outputted by an end-to-end scene text spotter. In this paper, we address this problem by directly learning a cross-modal similarity between a query text and each text instance from natural images. Specifically, we establish an end-to-end trainable network, jointly optimizing the procedures of scene text detection and cross-modal similarity learning. In this way, scene text retrieval can be simply performed by ranking the detected text instances with the learned similarity. Experiments on three benchmark datasets demonstrate our method consistently outperforms the state-of-the-art scene text spotting/retrieval approaches. In particular, the proposed framework of joint detection and similarity learning achieves significantly better performance than separated methods. Code is available at: https://github.com/l anfeng4659/STR-TDSL.
翻訳日:2021-04-06 14:35:23 公開日:2021-04-04
# 動的シーンにおける転がりシャッター補正とデブラリング

Towards Rolling Shutter Correction and Deblurring in Dynamic Scenes ( http://arxiv.org/abs/2104.01601v1 )

ライセンス: Link先を確認
Zhihang Zhong, Yinqiang Zheng and Imari Sato(参考訳) ローリングシャッター補正とデブロアリング(RSCD)技術は、一般的なCMOSカメラにとって重要である。 しかし、現在のアプローチは従来のエネルギー最適化に基づいており、静的なシーンのために開発されている。 実世界のRSCD問題に対処するための学習ベースのアプローチを実現するため,動的シーンにおけるエゴモーションとオブジェクトモーションの両方を含む最初のデータセットであるBS-RSCDをコントリビュートする。 ビームスプリッターベースの取得システムを介して、実際の歪曲およびぼやけた映像を同時に記録する。 既存の個別転がりシャッター補正(RSC)やグローバルシャッターデブロアリング(GSD)法のRSCDへの直接適用は、ネットワークアーキテクチャに固有の欠陥があるため、望ましくない結果をもたらすため、RSCDのための最初の学習ベースモデル(JCD)を提案する。 重要な考え方は、変位補償のために双方向のワーピングストリームを採用すると同時に、詳細復元のために非ウォーリングのデブラリングストリームも保持することです。 実験の結果,JCDはリアルRSCDデータセット (BS-RSCD) と合成RSCデータセット (Fastec-RS) で最先端の性能を達成することが示された。 データセットとコードはhttps://github.com/z zh-tech/rscdで入手できる。

Joint rolling shutter correction and deblurring (RSCD) techniques are critical for the prevalent CMOS cameras. However, current approaches are still based on conventional energy optimization and are developed for static scenes. To enable learning-based approaches to address real-world RSCD problem, we contribute the first dataset, BS-RSCD, which includes both ego-motion and object-motion in dynamic scenes. Real distorted and blurry videos with corresponding ground truth are recorded simultaneously via a beam-splitter-based acquisition system. Since direct application of existing individual rolling shutter correction (RSC) or global shutter deblurring (GSD) methods on RSCD leads to undesirable results due to inherent flaws in the network architecture, we further present the first learning-based model (JCD) for RSCD. The key idea is that we adopt bi-directional warping streams for displacement compensation, while also preserving the non-warped deblurring stream for details restoration. The experimental results demonstrate that JCD achieves state-of-the-art performance on the realistic RSCD dataset (BS-RSCD) and the synthetic RSC dataset (Fastec-RS). The dataset and code are available at https://github.com/z zh-tech/RSCD.
翻訳日:2021-04-06 14:35:07 公開日:2021-04-04
# エンドツーエンドASRの生涯学習に向けて

Towards Lifelong Learning of End-to-end ASR ( http://arxiv.org/abs/2104.01616v1 )

ライセンス: Link先を確認
Heng-Jui Chang, Hung-yi Lee, Lin-shan Lee(参考訳) 現在の自動音声認識(asr)技術は、主に所定のデータセットに最適化されており、アプリケーション環境の変化(例えば音響条件やトピック領域)は、必然的に性能を低下させる可能性がある。 新しい環境を記述した新しいデータを収集し、システムを微調整するが、これは自然に、破滅的な忘れ物と呼ばれる以前のデータセットのエラー率を高める。 機械が学習した知識を忘れずに実世界の変化を記述した新しいデータセットから、連続的に新しいタスクを学習できるようにすることを目的とした生涯学習(LLL)の概念が注目される。 本稿では,過去ドメインのデータ保存における新たな手法を提案するなど,エンド・ツー・エンド(E2E)ASRにおけるLLLの様々なアプローチを広く検討・分析するための最初の取り組みについて報告する。 WERの相対的な28.7%の減少は、3つの非常に異なるベンチマークコーパスで逐次学習する際の微調整ベースラインと比較して達成された。 これは、継続的に変化する現実世界と同期できる非常に望ましいasr技術への第一歩となるかもしれない。

Automatic speech recognition (ASR) technologies today are primarily optimized for given datasets; thus, any changes in the application environment (e.g., acoustic conditions or topic domains) may inevitably degrade the performance. We can collect new data describing the new environment and fine-tune the system, but this naturally leads to higher error rates for the earlier datasets, referred to as catastrophic forgetting. The concept of lifelong learning (LLL) aiming to enable a machine to sequentially learn new tasks from new datasets describing the changing real world without forgetting the previously learned knowledge is thus brought to attention. This paper reports, to our knowledge, the first effort to extensively consider and analyze the use of various approaches of LLL in end-to-end (E2E) ASR, including proposing novel methods in saving data for past domains to mitigate the catastrophic forgetting problem. An overall relative reduction of 28.7% in WER was achieved compared to the fine-tuning baseline when sequentially learning on three very different benchmark corpora. This can be the first step toward the highly desired ASR technologies capable of synchronizing with the continuously changing real world.
翻訳日:2021-04-06 14:30:34 公開日:2021-04-04
# 事前学習した言語モデルを用いたモデリング活動中のメタモデル概念の推薦

Recommending Metamodel Concepts during Modeling Activities with Pre-Trained Language Models ( http://arxiv.org/abs/2104.01642v1 )

ライセンス: Link先を確認
Martin Weyssow, Houari Sahraoui, Eugene Syriani(参考訳) アプリケーションドメインに関する適切な意味を具現化した概念的に健全なメタモデルの設計は、特にモデル駆動工学において退屈です。 メタモデルはドメイン概念間の複雑な関係を定義するので、モデラーはアプリケーションドメインに関して一貫性を持ってこれらの概念を徹底的に定義することが不可欠です。 本稿では,メタモデルの設計におけるモデラーの支援として,複数のモデリングシナリオにおいて関連するドメイン概念を推奨するアプローチを提案する。 私たちのアプローチでは、ドメインから知識を抽出したり、コンプリートルールを手作業で設計する必要はありません。 その代わりに、数千の独立したメタモデルのコーパスで構造的および語彙的メタモデルプロパティの両方から学習することで、ドメイン概念を抽象化できるディープラーニングモデルを使用して、完全なデータ駆動アプローチを設計します。 モデルトレーニング中に見つからない166のメタモデルを含むテストセットに対するアプローチを5000以上のテストサンプルを用いて評価した。 我々の予備的な結果は、トレーニングされたモデルが、コンセプトリネームシナリオに関する推奨事項のトップ5$のリストを正確に提供できることを示しています。 将来性はあるものの、メタモデルが反復的に構築されるシナリオに対して、その結果はより説得力に欠ける。

The design of conceptually sound metamodels that embody proper semantics in relation to the application domain is particularly tedious in Model-Driven Engineering. As metamodels define complex relationships between domain concepts, it is crucial for a modeler to define these concepts thoroughly while being consistent with respect to the application domain. We propose an approach to assist a modeler in the design of a metamodel by recommending relevant domain concepts in several modeling scenarios. Our approach does not require to extract knowledge from the domain or to hand-design completion rules. Instead, we design a fully data-driven approach using a deep learning model that is able to abstract domain concepts by learning from both structural and lexical metamodel properties in a corpus of thousands of independent metamodels. We evaluate our approach on a test set containing 166 metamodels, unseen during the model training, with more than 5000 test samples. Our preliminary results show that the trained model is able to provide accurate top-$5$ lists of relevant recommendations for concept renaming scenarios. Although promising, the results are less compelling for the scenario of the iterative construction of the metamodel, in part because of the conservative strategy we use to evaluate the recommendations.
翻訳日:2021-04-06 14:30:17 公開日:2021-04-04
# アクタ・リアナー蒸留を用いた強化学習における効率的なトランスフォーマー

Efficient Transformers in Reinforcement Learning using Actor-Learner Distillation ( http://arxiv.org/abs/2104.01655v1 )

ライセンス: Link先を確認
Emilio Parisotto, Ruslan Salakhutdinov(参考訳) ロボット工学のような現実世界の多くのアプリケーションは、強化学習(RL)エージェントの実行可能なモデルの複雑さを制限するパワーと計算に厳しい制約を与えている。 同様に、多くの分散RL設定では、CPUのようなアクセラレーションのないハードウェア上でアクションが行われ、同様にモデルサイズを制限して、難解な実験の実行時間を防ぐ。 これらの"アクタレイテンシ"制約設定は、最近教師付き学習で非常に成功したモデル複雑性のスケールアップに対する大きな障害となる。 動作中にシステムによって課される限界内で動作しながら大きなモデル容量を活用できるようにするために,大容量学習者モデルから小容量アクタモデルに学習進捗を伝達する連続型蒸留を利用する「アクタ・リアナー蒸留」(ald)手順を開発した。 そこで本研究では,近年のlstmsよりもトランスフォーマーモデルが大幅に改善され,計算複雑性が大幅に向上した部分観測環境において,この手法を開発した。 トランスフォーマーモデルを学習者として, lstmsをアクタとして使用することにより, アクタ-リアナー蒸留を用いることで, 高速推論を維持しつつトランスフォーマー学習者の明確なサンプル効率を回復し, lstmアクタモデルの総トレーニング時間を短縮できることを示す。

Many real-world applications such as robotics provide hard constraints on power and compute that limit the viable model complexity of Reinforcement Learning (RL) agents. Similarly, in many distributed RL settings, acting is done on un-accelerated hardware such as CPUs, which likewise restricts model size to prevent intractable experiment run times. These "actor-latency" constrained settings present a major obstruction to the scaling up of model complexity that has recently been extremely successful in supervised learning. To be able to utilize large model capacity while still operating within the limits imposed by the system during acting, we develop an "Actor-Learner Distillation" (ALD) procedure that leverages a continual form of distillation that transfers learning progress from a large capacity learner model to a small capacity actor model. As a case study, we develop this procedure in the context of partially-observable environments, where transformer models have had large improvements over LSTMs recently, at the cost of significantly higher computational complexity. With transformer models as the learner and LSTMs as the actor, we demonstrate in several challenging memory environments that using Actor-Learner Distillation recovers the clear sample-efficiency gains of the transformer learner model while maintaining the fast inference and reduced total training time of the LSTM actor model.
翻訳日:2021-04-06 14:29:06 公開日:2021-04-04
# 人間-ロボットインタラクションのための遠近補正空間参照表現生成

Perspective-correcte d Spatial Referring Expression Generation for Human-Robot Interaction ( http://arxiv.org/abs/2104.01558v1 )

ライセンス: Link先を確認
Mingjiang Liu, Chengli Xiao, Chunlin Chen(参考訳) 現実のシナリオで人間と対話するように設計されたインテリジェントロボットは、自然言語によって能動的に実体を参照できる必要がある。 空間的参照表現生成においては、参照フレームの多様性のため曖昧さは避けられないため、人間とロボットの間の理解のギャップが生じる。 本稿では,このギャップを狭めるために,参照フレームの選択を考慮し,人間とロボットのインタラクションのための視点補正型空間参照表現生成(pcsreg)手法を提案する。 表現生成のタスクは、多様な空間関係単位を生成するプロセスに簡略化される。 まず、これらの空間関係単位のすべてのランドマークを好みのエントロピーに従って選択し、スタックモデルによる更新を可能にする。 そして、すべての可能な参照表現は、異なる参照フレーム戦略に従って生成される。 最後に,すべての表現を確率的参照表現解決モデルを用いて評価し,適切性と有効性の両方を満たす最良の表現を見出す。 提案手法をロボットシステムに実装し,実証実験により,本手法によりより効果的な空間参照表現が実現可能であることを示す。

Intelligent robots designed to interact with humans in real scenarios need to be able to refer to entities actively by natural language. In spatial referring expression generation, the ambiguity is unavoidable due to the diversity of reference frames, which will lead to an understanding gap between humans and robots. To narrow this gap, in this paper, we propose a novel perspective-correcte d spatial referring expression generation (PcSREG) approach for human-robot interaction by considering the selection of reference frames. The task of referring expression generation is simplified into the process of generating diverse spatial relation units. First, we pick out all landmarks in these spatial relation units according to the entropy of preference and allow its updating through a stack model. Then all possible referring expressions are generated according to different reference frame strategies. Finally, we evaluate every expression using a probabilistic referring expression resolution model and find the best expression that satisfies both of the appropriateness and effectiveness. We implement the proposed approach on a robot system and empirical experiments show that our approach can generate more effective spatial referring expressions for practical applications.
翻訳日:2021-04-06 14:26:54 公開日:2021-04-04
# SimCD: 単一セル転写データの同時クラスタリングと差分表現解析

SimCD: Simultaneous Clustering and Differential expression analysis for single-cell transcriptomic data ( http://arxiv.org/abs/2104.01512v1 )

ライセンス: Link先を確認
Seyednami Niyakan, Ehsan Hajiramezanali, Shahin Boluki, Siamak Zamani Dadaneh, Xiaoning Qian(参考訳) 単細胞RNAシークエンシング(scRNA-seq)測定は、個々の細胞のゲノムスケールの転写学的プロファイリングを促進し、対応する細胞サブ集団における細胞動態を分解して、異なる発達過程の分子機構をよりよく理解することを期待している。 いくつかのscRNA-seq解析法が提案され、まずクラスタリングにより細胞サブ集団を同定し、その後、遺伝子発現の変化を理解するために差分式解析を行う。 対応する統計モデルと推論アルゴリズムは、しばしば不一致に設計される。 我々は,1つの階層的ガンマ陰性二項構造(hGNB)モデルにおいて,セルの不均一性と動的微分変化を明示的にモデル化し,cRNA-seqデータに対するセルクラスタリングと差分式解析を可能にする新しい手法,SimCDを開発した。 本手法は動的表現変化による細胞不均一性を自然に定義し、2つのタスクでそれぞれ個別に実行する既存の方法と比較して優れた性能を達成することが期待できる。 さらに、SimCDは、セルレベルと遺伝子レベルの両方の要素によるscRNA-seqデータのドロップアウト(ゼロインフレーション)を改善し、より厳密なhGNBモデルによるhGNBモデルによるcRNA-seqカウントデータのモデリングにより、正規化のような洗練された前処理ステップの必要性を排除した。 シミュレーションおよび実世界のscRNA-seqカウントデータを用いた最先端手法との比較により、SimCDが細胞クラスターを発見し、動的表現変化を捉える能力を示している。 さらに、simcdは視床下部神経細胞サブタイプにおける食物不足の影響を受けるいくつかの既知の遺伝子や新しい潜在的なマーカーの同定に役立ち、simcdが生体マーカーの発見に有用であることを示唆している。

Single-Cell RNA sequencing (scRNA-seq) measurements have facilitated genome-scale transcriptomic profiling of individual cells, with the hope of deconvolving cellular dynamic changes in corresponding cell sub-populations to better understand molecular mechanisms of different development processes. Several scRNA-seq analysis methods have been proposed to first identify cell sub-populations by clustering and then separately perform differential expression analysis to understand gene expression changes. Their corresponding statistical models and inference algorithms are often designed disjointly. We develop a new method -- SimCD -- that explicitly models cell heterogeneity and dynamic differential changes in one unified hierarchical gamma-negative binomial (hGNB) model, allowing simultaneous cell clustering and differential expression analysis for scRNA-seq data. Our method naturally defines cell heterogeneity by dynamic expression changes, which is expected to help achieve better performances on the two tasks compared to the existing methods that perform them separately. In addition, SimCD better models dropout (zero inflation) in scRNA-seq data by both cell- and gene-level factors and obviates the need for sophisticated pre-processing steps such as normalization, thanks to the direct modeling of scRNA-seq count data by the rigorous hGNB model with an efficient Gibbs sampling inference algorithm. Extensive comparisons with the state-of-the-art methods on both simulated and real-world scRNA-seq count data demonstrate the capability of SimCD to discover cell clusters and capture dynamic expression changes. Furthermore, SimCD helps identify several known genes affected by food deprivation in hypothalamic neuron cell subtypes as well as some new potential markers, suggesting the capability of SimCD for bio-marker discovery.
翻訳日:2021-04-06 14:26:26 公開日:2021-04-04
# 超音波イメージングを用いたディープニューラルネットワークによるCOVID-19感染症の検出

Detection of COVID-19 Disease using Deep Neural Networks with Ultrasound Imaging ( http://arxiv.org/abs/2104.01509v1 )

ライセンス: Link先を確認
Carlos Rojas-Azabache, Karen Vilca-Janampa, Renzo Guerrero-Huayta, Dennis N\'u\~nez-Fern\'andez(参考訳) 2019年の新型コロナウイルス(covid-2019)は急速にパンデミックとなり、日常生活、公衆衛生、世界経済に壊滅的な影響を及ぼしている。 この流行のさらなる拡大を予防し、患者を迅速に治療するには、できるだけ早期に陽性症例を検出することが不可欠である。 自動化ツールキットが利用できないため、補助的な診断ツールの必要性が高まっている。 本稿では,畳み込みニューラルネットワークを用いて肺超音波スキャンの画像解析を行う手法を提案する。 訓練されたモデルはraspberry piで新しい画像を予測するために使用される。

The new coronavirus 2019 (COVID-2019) has rapidly become a pandemic and has had a devastating effect on both everyday life, public health and the global economy. It is critical to detect positive cases as early as possible to prevent the further spread of this epidemic and to treat affected patients quickly. The need for auxiliary diagnostic tools has increased as accurate automated tool kits are not available. This paper presents a work in progress that proposes the analysis of images of lung ultrasound scans using a convolutional neural network. The trained model will be used on a Raspberry Pi to predict on new images.
翻訳日:2021-04-06 14:23:20 公開日:2021-04-04
# 3次元畳み込みニューラルネットワークによる失速脳毛細血管検出

3D Convolutional Neural Networks for Stalled Brain Capillary Detection ( http://arxiv.org/abs/2104.01687v1 )

ライセンス: Link先を確認
Roman Solovyev, Alexandr A. Kalinin, Tatiana Gabruseva(参考訳) 適切な血液供給は正常な脳機能に不可欠である。 脳毛細血管の血流停止などの脳血管障害は、アルツハイマー病の認知機能低下と病態形成と関連している。 画像技術の最近の進歩により、静止血管の可視化に使用できる高品質な3D画像が作成できるようになった。 しかし,3d画像中のストール血管の局在化は,手作業で行う場合,面倒で時間のかかる,エラーやすい下流解析の第一歩として必要となることが多い。 本稿では,3次元畳み込みニューラルネットワークを用いた脳画像中の失速毛細血管の自動検出のための深層学習に基づくアプローチについて述べる。 我々のネットワークはカスタム3Dデータ拡張を採用し、初期化のために事前訓練された2Dモデルから重量移動を用いた。 我々は、いくつかの3Dモデルのアンサンブルを使用して、Clog Loss: Advance Alzheimer's Research with Stall Catchersの機械学習コンテストに勝利した。 本手法は,他の手法よりも優れ,0.85マシューズ相関係数,85%感度,99.3%特異性を達成した。 私たちのソリューションのソースコードは公開されています。

Adequate blood supply is critical for normal brain function. Brain vasculature dysfunctions such as stalled blood flow in cerebral capillaries are associated with cognitive decline and pathogenesis in Alzheimer's disease. Recent advances in imaging technology enabled generation of high-quality 3D images that can be used to visualize stalled blood vessels. However, localization of stalled vessels in 3D images is often required as the first step for downstream analysis, which can be tedious, time-consuming and error-prone, when done manually. Here, we describe a deep learning-based approach for automatic detection of stalled capillaries in brain images based on 3D convolutional neural networks. Our networks employed custom 3D data augmentations and were used weight transfer from pre-trained 2D models for initialization. We used an ensemble of several 3D models to produce the winning submission to the Clog Loss: Advance Alzheimer's Research with Stall Catchers machine learning competition that challenged the participants with classifying blood vessels in 3D image stacks as stalled or flowing. In this setting, our approach outperformed other methods and demonstrated state-of-the-art results, achieving 0.85 Matthews correlation coefficient, 85% sensitivity, and 99.3% specificity. The source code for our solution is made publicly available.
翻訳日:2021-04-06 14:23:11 公開日:2021-04-04
# 受動的に捕獲された対人交流を用いた機械学習モデルの後期融合とスマートフォンからの動作による心不全の補償予測

Late fusion of machine learning models using passively captured interpersonal social interactions and motion from smartphones predicts decompensation in heart failure ( http://arxiv.org/abs/2104.01511v1 )

ライセンス: Link先を確認
Ayse S. Cakmak, Samuel Densen, Gabriel Najarro, Pratik Rout, Christopher J. Rozell, Omer T. Inan, Amit J. Shah, Gari D. Clifford(参考訳) 目的: 世界規模の心臓不全(HF)は致死率と死亡率の主要な原因であり、入院の主な原因の1つである。 HFの早期検出とプロアクティブ・マネージメントは有害事象を減少させる可能性がある。 アプローチ: 退院後, スマートフォンアプリを用いて28名の被験者をモニターし, 入院中の各臨床イベント(n=110臨床イベント)を記録した。 スマートフォンベースのモニタリングシステムを用いて収集した運動, 社会的, 位置, 臨床調査データを用いて, hf非補償事象(ホスピタリゼーションやクリニック訪問)の予測および分類アルゴリズムを, 補償または安定と判定されたクリニックモニタリング訪問に対して開発し, 検証した。 患者報告結果と受動的スマートフォンデータを組み合わせた,単一モダリティに基づくモデルおよび早期・後期融合アプローチの評価を行った。 結果: 後期核融合法で脱補償を分類する最も高いaucprは0.80であった。 意義:スマートフォンからの受動的収集データ、特に毎週の患者報告結果と組み合わせることで、HFによる行動的・生理的変化を反映し、HF補正の予測を可能にする。

Objective: Worldwide, heart failure (HF) is a major cause of morbidity and mortality and one of the leading causes of hospitalization. Early detection of HF symptoms and pro-active management may reduce adverse events. Approach: Twenty-eight participants were monitored using a smartphone app after discharge from hospitals, and each clinical event during the enrollment (N=110 clinical events) was recorded. Motion, social, location, and clinical survey data collected via the smartphone-based monitoring system were used to develop and validate an algorithm for predicting or classifying HF decompensation events (hospitalizations or clinic visit) versus clinic monitoring visits in which they were determined to be compensated or stable. Models based on single modality as well as early and late fusion approaches combining patient-reported outcomes and passive smartphone data were evaluated. Results: The highest AUCPr for classifying decompensation with a late fusion approach was 0.80 using leave one subject out cross-validation. Significance: Passively collected data from smartphones, especially when combined with weekly patient-reported outcomes, may reflect behavioral and physiological changes due to HF and thus could enable prediction of HF decompensation.
翻訳日:2021-04-06 14:20:46 公開日:2021-04-04
# グラフニューラルネットワークを用いた分散統計的推論

Decentralized Statistical Inference with Unrolled Graph Neural Networks ( http://arxiv.org/abs/2104.01555v1 )

ライセンス: Link先を確認
He Wang, Yifei Shen, Ziyuan Wang, Dongsheng Li, Jun Zhang, Khaled B. Letaief and Jie Lu(参考訳) 本稿では,エージェントのネットワークが協調的に(構造化)ベクターを集中的な調整なしにプライベートなノイズサンプルから回収する分散統計的推論問題について検討する。 既存の最適化に基づくアルゴリズムは、モデルミスマッチや収束速度の低下といった問題に悩まされており、通信ラウンドの数が限られている場合、その性能は低下する。 これにより、よく知られた分散最適化アルゴリズム(Prox-DGDやPG-EXTRAなど)をグラフニューラルネットワーク(GNN)にアンロールする学習ベースのフレームワークを提案する。 エンドツーエンドトレーニングによるリカバリエラーを最小限にすることで、この学習ベースのフレームワークは、モデルのミスマッチ問題を解決する。 我々の収束解析(PG-EXTRAをベースアルゴリズムとする)は、学習されたモデルパラメータが収束を加速し、回復誤差をかなり低減できることを示した。 シミュレーションの結果,提案手法は収束速度と回復誤差において,最先端の最適化アルゴリズムよりも優れていることがわかった。

In this paper, we investigate the decentralized statistical inference problem, where a network of agents cooperatively recover a (structured) vector from private noisy samples without centralized coordination. Existing optimization-based algorithms suffer from issues of model mismatch and poor convergence speed, and thus their performance would be degraded, provided that the number of communication rounds is limited. This motivates us to propose a learning-based framework, which unrolls well-noted decentralized optimization algorithms (e.g., Prox-DGD and PG-EXTRA) into graph neural networks (GNNs). By minimizing the recovery error via end-to-end training, this learning-based framework resolves the model mismatch issue. Our convergence analysis (with PG-EXTRA as the base algorithm) reveals that the learned model parameters may accelerate the convergence and reduce the recovery error to a large extent. The simulation results demonstrate that the proposed GNN-based learning methods prominently outperform several state-of-the-art optimization-based algorithms in convergence speed and recovery error.
翻訳日:2021-04-06 14:20:24 公開日:2021-04-04
# 非構造環境における移動ロボットのConv1Dエネルギー認識経路計画

Conv1D Energy-Aware Path Planner for Mobile Robots in Unstructured Environments ( http://arxiv.org/abs/2104.01560v1 )

ライセンス: Link先を確認
Marco Visca, Arthur Bouton, Roger Powell, Yang Gao, Saber Fallah(参考訳) エネルギー消費の推進は、特に限定的なオンボードパワーの下で無人で運用される場合、挑戦的な環境における移動ロボットのナビゲーションにおいて大きな役割を果たす。 本稿では,複雑な地形を横断するロボットの走行エネルギー消費量とエネルギー回収量を推定できるエネルギー認識経路プランナーの最初の結果について報告する。 ロボットは、知覚された地形点の雲とエネルギー消費と回復との関係を自律的に学習する自己教師付き学習アプローチを用いて、軌道上でエネルギーを推定する。 この手法の新たな特徴は、1次元畳み込みニューラルネットワークを用いて、移動中にロボットが経験するのと同じ時間順に地形をシーケンシャルに解析することである。 提案手法の性能は,実自然シナリオから収集した複数のディジタル地形モデルを用いたシミュレーションで評価され,ヒューリスティックな傾斜に基づくエネルギーモデルと比較した。 本手法の利点は,全体の予測r2得点を66.8%向上させ,計画経路上での運転エネルギー消費量を5.5%削減することにある。

Driving energy consumption plays a major role in the navigation of mobile robots in challenging environments, especially if they are left to operate unattended under limited on-board power. This paper reports on first results of an energy-aware path planner, which can provide estimates of the driving energy consumption and energy recovery of a robot traversing complex uneven terrains. Energy is estimated over trajectories making use of a self-supervised learning approach, in which the robot autonomously learns how to correlate perceived terrain point clouds to energy consumption and recovery. A novel feature of the method is the use of 1D convolutional neural network to analyse the terrain sequentially in the same temporal order as it would be experienced by the robot when moving. The performance of the proposed approach is assessed in simulation over several digital terrain models collected from real natural scenarios, and is compared with a heuristic inclination-based energy model. We show evidence of the benefit of our method to increase the overall prediction r2 score by 66.8% and to reduce the driving energy consumption over planned paths by 5.5%.
翻訳日:2021-04-06 14:20:06 公開日:2021-04-04
# 非インタラクティブ負荷モニタリングのためのフェデレーション学習フレームワーク

A Federated Learning Framework for Non-Intrusive Load Monitoring ( http://arxiv.org/abs/2104.01618v1 )

ライセンス: Link先を確認
Haijin Wang, Caomingzhe Si, Junhua Zhao(参考訳) 非侵入負荷モニタリング (NILM) は, 家庭用電力消費の総読み出しを家電製品に分解することを目的としており, 消費者行動分析や省エネルギーに有用である。 深層学習に基づくNILMは研究の焦点となっている。 より優れたニューラルネットワークをトレーニングするには、さまざまなアプライアンスを含む大量のデータをネットワークに供給し、消費者の行動習慣を反映する必要がある。 そのため、NILMデータを所有しているユーティリティやDNO(分散ネットワークオペレータ)間のデータ連携がますます重要になっている。 しかし、協力の間、消費者プライバシの漏洩とデータ制御権の喪失のリスクが発生する。 上記の問題に対処するために、連合学習(fl)によるnilmの性能向上のためのフレームワークが設定されている。 フレームワークでは、ローカルデータの代わりにモデル重み付けがユーティリティ間で共有される。 大域モデルは、局所的に訓練されたモデル重みを平均して局所的に訓練されたモデル情報を集めることによって生成される。 最適なモデル選択は、異なるドメインのデータに最も適応するモデルを選択するのに役立つ。 実験により,この提案により,地元のNILMランナーのパフォーマンスが向上することが示された。 このフレームワークのパフォーマンスは、プライバシ保護のない収束データによって得られた集中学習モデルに近い。

Non-intrusive load monitoring (NILM) aims at decomposing the total reading of the household power consumption into appliance-wise ones, which is beneficial for consumer behavior analysis as well as energy conservation. NILM based on deep learning has been a focus of research. To train a better neural network, it is necessary for the network to be fed with massive data containing various appliances and reflecting consumer behavior habits. Therefore, data cooperation among utilities and DNOs (distributed network operators) who own the NILM data has been increasingly significant. During the cooperation, however, risks of consumer privacy leakage and losses of data control rights arise. To deal with the problems above, a framework to improve the performance of NILM with federated learning (FL) has been set up. In the framework, model weights instead of the local data are shared among utilities. The global model is generated by weighted averaging the locally-trained model weights to gather the locally-trained model information. Optimal model selection help choose the model which adapts to the data from different domains best. Experiments show that this proposal improves the performance of local NILM runners. The performance of this framework is close to that of the centrally-trained model obtained by the convergent data without privacy protection.
翻訳日:2021-04-06 14:19:48 公開日:2021-04-04
# マルコフ雑音下における非線形2時間スケール確率近似の有限時間収束率

Finite-Time Convergence Rates of Nonlinear Two-Time-Scale Stochastic Approximation under Markovian Noise ( http://arxiv.org/abs/2104.01627v1 )

ライセンス: Link先を確認
Thinh T. Doan(参考訳) 本研究では,2つの連結非線形作用素の根元を求めるシミュレーションに基づく手法である,いわゆる2時間スケール確率近似について検討する。 我々の焦点は、確率的制御や強化学習問題でしばしば発生するマルコフ設定における有限時間性能を特徴付けることである。 特に、マルコフプロセスによってメソッド内のデータが生成されるシナリオを考える。 このような従属データは、基礎となる演算子のバイアス付き観測結果をもたらす。 演算子とマルコフ過程に関するかなり標準的な仮定の下で、この方法によって生成される平均二乗誤差の収束率を0に特徴づける公式を提供する。 この結果は,本手法が期待値の収束を$\mathcal{O}(1/k^{2/3})$で達成していることを示す。 我々の分析は主に、2時間スケール系の漸近収束を研究する古典的な特異摂動理論、すなわち2つのイテレーション間のカップリングを慎重に特徴づけるリャプノフ関数によって動機付けられている。 さらに,マルコフ過程の幾何学的混合時間を利用して,データのバイアスと依存を扱う。 この理論結果はマルコフ雑音下での非線形2時間スケール確率近似の速度が不明な既存の文献を補完するものである。

We study the so-called two-time-scale stochastic approximation, a simulation-based approach for finding the roots of two coupled nonlinear operators. Our focus is to characterize its finite-time performance in a Markov setting, which often arises in stochastic control and reinforcement learning problems. In particular, we consider the scenario where the data in the method are generated by Markov processes, therefore, they are dependent. Such dependent data result to biased observations of the underlying operators. Under some fairly standard assumptions on the operators and the Markov processes, we provide a formula that characterizes the convergence rate of the mean square errors generated by the method to zero. Our result shows that the method achieves a convergence in expectation at a rate $\mathcal{O}(1/k^{2/3})$, where $k$ is the number of iterations. Our analysis is mainly motivated by the classic singular perturbation theory for studying the asymptotic convergence of two-time-scale systems, that is, we consider a Lyapunov function that carefully characterizes the coupling between the two iterates. In addition, we utilize the geometric mixing time of the underlying Markov process to handle the bias and dependence in the data. Our theoretical result complements for the existing literature, where the rate of nonlinear two-time-scale stochastic approximation under Markovian noise is unknown.
翻訳日:2021-04-06 14:19:30 公開日:2021-04-04
# グラフ表現学習における不均一性,帰納性,効率性の統合

Uniting Heterogeneity, Inductiveness, and Efficiency for Graph Representation Learning ( http://arxiv.org/abs/2104.01711v1 )

ライセンス: Link先を確認
Tong Chen, Hongzhi Yin, Jie Ren, Zi Huang, Xiangliang Zhang, Hao Wang(参考訳) 様々なアプリケーションにおけるユビキタスグラフ構造化データにより、コンパクトだが表現力のあるベクトル表現を学習できるモデルは、非常に望ましいものとなっている。 近年,メッセージパッシングパラダイムを取り入れたグラフニューラルネットワーク(GNN)は,グラフ上でのノード表現学習の性能を大幅に向上させた。 しかし、GNNの大多数のクラスは均質グラフのためにのみ設計されており、様々な種類のノードとエッジを持つより情報に富む不均一グラフへの適応性が劣る。 また、完全に新しいノード(例えばストリーミングシナリオ)を誘導的に表現する必要性にもかかわらず、トレーニング中にすべてのノードを知っていなければならないトランスダクティブ学習スキームをバイパスできる異種GNNは少ない。 さらに、多くの異種GNNの訓練効率は、メタパスや関係に関連する意味を抽出するための洗練された設計によって妨げられている。 本稿では,不均一性,帰納性,効率性といった,グラフ表現学習においてほとんど研究されない問題に対処するために,WIde と DEEP メッセージパッシングネットワーク (WIDEN) を提案する。 widenでは、低次と高次の両方の隣接ノードから、異種ノードの機能を関連するエッジにまとめる、新しい帰納的、メタパスフリーメッセージパッシングスキームを提案する。 学習効率をさらに向上させるために,重要でない隣接ノードを落として情報伝達を高速化するアクティブダウンサンプリング戦略を革新的に提示する。 3つの実世界の異種グラフの実験は、トランスダクティブおよびインダクティブノード表現学習におけるWIDENの有効性と、最先端のベースラインに対する優れたトレーニング効率を更に検証した。

With the ubiquitous graph-structured data in various applications, models that can learn compact but expressive vector representations of nodes have become highly desirable. Recently, bearing the message passing paradigm, graph neural networks (GNNs) have greatly advanced the performance of node representation learning on graphs. However, a majority class of GNNs are only designed for homogeneous graphs, leading to inferior adaptivity to the more informative heterogeneous graphs with various types of nodes and edges. Also, despite the necessity of inductively producing representations for completely new nodes (e.g., in streaming scenarios), few heterogeneous GNNs can bypass the transductive learning scheme where all nodes must be known during training. Furthermore, the training efficiency of most heterogeneous GNNs has been hindered by their sophisticated designs for extracting the semantics associated with each meta path or relation. In this paper, we propose WIde and DEep message passing Network (WIDEN) to cope with the aforementioned problems about heterogeneity, inductiveness, and efficiency that are rarely investigated together in graph representation learning. In WIDEN, we propose a novel inductive, meta path-free message passing scheme that packs up heterogeneous node features with their associated edges from both low- and high-order neighbor nodes. To further improve the training efficiency, we innovatively present an active downsampling strategy that drops unimportant neighbor nodes to facilitate faster information propagation. Experiments on three real-world heterogeneous graphs have further validated the efficacy of WIDEN on both transductive and inductive node representation learning, as well as the superior training efficiency against state-of-the-art baselines.
翻訳日:2021-04-06 14:19:08 公開日:2021-04-04
# リアルな物理力学を持つリアルタイムモノのインターネットシステムにおける情報年齢最小化のための強化学習

Reinforcement Learning for Minimizing Age of Information in Real-time Internet of Things Systems with Realistic Physical Dynamics ( http://arxiv.org/abs/2104.01527v1 )

ライセンス: Link先を確認
Sihua Wang, Mingzhe Chen, Zhaohui Yang, Changchuan Yin, Walid Saad, Shuguang Cui, H. Vincent Poor(参考訳) 本稿では,インターネット・オブ・モノ(IoT)デバイスにおける情報量(AoI)と総エネルギー消費の重み付けを最小化する問題について検討する。 検討されたモデルでは、各IoTデバイスは、非線形ダイナミクスに従う物理プロセスを監視する。 物理過程のダイナミクスは時間とともに変化するため、各デバイスは物理系のリアルタイムダイナミクスをサンプリングし、サンプル情報を基地局(BS)に送信するために最適なサンプリング周波数を見つけなければならない。 無線リソースが限られているため、BSはサンプル情報を送信するためのデバイスのサブセットのみを選択できる。 一方、サンプリング周波数の変更は、各デバイスがサンプリングと情報伝達に使用するエネルギーにも影響を及ぼす。 したがって、最小エネルギーを用いて物理プロセスのダイナミクスを正確に監視するために、各装置のサンプリングポリシーとBSのデバイス選択方式を協調的に最適化する必要がある。 この問題はAoIコストとエネルギー消費の重み付けを最小化する最適化問題として定式化されている。 この問題を解決するために,サンプリングポリシーを最適化するための分散強化学習手法を提案する。 提案した学習手法により,IoTデバイスは局所的な観測から最適なサンプリングポリシーを見つけることができる。 サンプリングポリシを前提として、AoIの重み付け和と全デバイスのエネルギー消費を最小化するために、デバイス選択方式を最適化することができる。 pm 2.5 汚染の実データを用いたシミュレーションでは、従来のディープqネットワーク法や一様サンプリングポリシーと比較して、aoiの合計を最大17.8%、33.9%、総エネルギー消費量を最大13.2%、35.1%削減できることを示した。

In this paper, the problem of minimizing the weighted sum of age of information (AoI) and total energy consumption of Internet of Things (IoT) devices is studied. In the considered model, each IoT device monitors a physical process that follows nonlinear dynamics. As the dynamics of the physical process vary over time, each device must find an optimal sampling frequency to sample the real-time dynamics of the physical system and send sampled information to a base station (BS). Due to limited wireless resources, the BS can only select a subset of devices to transmit their sampled information. Meanwhile, changing the sampling frequency will also impact the energy used by each device for sampling and information transmission. Thus, it is necessary to jointly optimize the sampling policy of each device and the device selection scheme of the BS so as to accurately monitor the dynamics of the physical process using minimum energy. This problem is formulated as an optimization problem whose goal is to minimize the weighted sum of AoI cost and energy consumption. To solve this problem, a distributed reinforcement learning approach is proposed to optimize the sampling policy. The proposed learning method enables the IoT devices to find the optimal sampling policy using their local observations. Given the sampling policy, the device selection scheme can be optimized so as to minimize the weighted sum of AoI and energy consumption of all devices. Simulations with real data of PM 2.5 pollution show that the proposed algorithm can reduce the sum of AoI by up to 17.8% and 33.9% and the total energy consumption by up to 13.2% and 35.1%, compared to a conventional deep Q network method and a uniform sampling policy.
翻訳日:2021-04-06 14:14:59 公開日:2021-04-04
# メタラーニングにおけるコントラストルール

A contrastive rule for meta-learning ( http://arxiv.org/abs/2104.01677v1 )

ライセンス: Link先を確認
Nicolas Zucchet and Simon Schug and Johannes von Oswald and Dominic Zhao and Jo\~ao Sacramento(参考訳) メタ学習アルゴリズムは、一連のタスクに存在する正規性を活用して、補助学習プロセスのパフォーマンスを高速化し改善する。 最近のディープニューラルネットワークの研究は、メタパラメータの勾配に基づく事前学習が、その後の学習の効率を大幅に改善することを示した。 本稿では平衡伝播に基づく勾配に基づくメタラーニングアルゴリズムを提案する。 学習プロセスを明確に区別する代わりに、我々の対照的なメタラーニングルールは、補助プロセスの実行を1回以上行い、メタパラメータ勾配を推定する。 これにより、時間の学習ダイナミクスの反転や二階微分の計算が回避される。 それにもかかわらず、以前の一階法とは異なり、この規則は十分な計算量を与えて任意に正確なメタパラメーター更新を復元する。 対照的なメタラーニングは、生物学的に評価可能なメタラーニングの候補規則である。 我々は、その性能に関する理論的境界を確立し、標準ベンチマークとニューラルネットワークアーキテクチャのセットで実験を行う。

Meta-learning algorithms leverage regularities that are present on a set of tasks to speed up and improve the performance of a subsidiary learning process. Recent work on deep neural networks has shown that prior gradient-based learning of meta-parameters can greatly improve the efficiency of subsequent learning. Here, we present a gradient-based meta-learning algorithm based on equilibrium propagation. Instead of explicitly differentiating the learning process, our contrastive meta-learning rule estimates meta-parameter gradients by executing the subsidiary process more than once. This avoids reversing the learning dynamics in time and computing second-order derivatives. In spite of this, and unlike previous first-order methods, our rule recovers an arbitrarily accurate meta-parameter update given enough compute. As such, contrastive meta-learning is a candidate rule for biologically-plausib le meta-learning. We establish theoretical bounds on its performance and present experiments on a set of standard benchmarks and neural network architectures.
翻訳日:2021-04-06 14:14:31 公開日:2021-04-04