このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210308となっている論文です。

PDF登録状況(公開日: 20210308)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) より正確な物体ポーズ推定とロボット把持のためのオブジェクト駆動能動マッピング [全文訳有]

Object-Driven Active Mapping for More Accurate Object Pose Estimation and Robotic Grasping ( http://arxiv.org/abs/2012.01788v2 )

ライセンス: CC BY 4.0
Yanmin Wu, Yunzhou Zhang, Delong Zhu, Xin Chen, Sonya Coleman, Wenkai Sun, Xinggang Hu, Zhiqiang Deng(参考訳) 本稿では,ロボットの複雑な把握作業のための,最初のアクティブオブジェクトマッピングフレームワークを提案する。 このフレームワークは、オブジェクトSLAMシステム上に構築され、同時多目的ポーズ推定プロセスと統合される。 対象物体の観測の不確実性を減らし,その姿勢推定精度を向上させることを目的として,物体マッピングプロセスを導くオブジェクト指向探索戦略も設計する。 マッピングモジュールと探索戦略とを組み合わせることで、ロボット把持と互換性のある正確なオブジェクトマップを生成することができる。 定量的評価の結果,提案フレームワークのマッピング精度は極めて高いことがわかった。 オブジェクトの把握,オブジェクトの配置,拡張現実といった操作実験は,提案フレームワークの有効性とメリットを顕著に示している。

This paper presents the first active object mapping framework for complex robotic grasping tasks. The framework is built on an object SLAM system integrated with a simultaneous multi-object pose estimation process. Aiming to reduce the observation uncertainty on target objects and increase their pose estimation accuracy, we also design an object-driven exploration strategy to guide the object mapping process. By combining the mapping module and the exploration strategy, an accurate object map that is compatible with robotic grasping can be generated. Quantitative evaluations also show that the proposed framework has a very high mapping accuracy. Manipulation experiments, including object grasping, object placement, and the augmented reality, significantly demonstrate the effectiveness and advantages of our proposed framework.
翻訳日:2021-05-24 01:43:03 公開日:2021-03-08
# (参考訳) 電子健康記録のための概念に基づくモデル説明 [全文訳有]

Concept-based model explanations for Electronic Health Records ( http://arxiv.org/abs/2012.02308v2 )

ライセンス: CC BY 4.0
Diana Mincu, Eric Loreaux, Shaobo Hou, Sebastien Baur, Ivan Protsyuk, Martin G Seneviratne, Anne Mottram, Nenad Tomasev, Alan Karthikesanlingam and Jessica Schrouff(参考訳) リカレントニューラルネットワーク(RNN)は、過去の臨床状態をエンコードする能力により、電子健康記録(EHR)における有害な結果のシーケンシャルなモデリングにしばしば使用される。 これらの深い繰り返しアーキテクチャは、多くのタスクにおける他のモデリングアプローチと比較してパフォーマンスが向上し、臨床環境での深層モデル展開への関心が高まっている。 安全なモデルデプロイメントとユーザ信頼構築の鍵となる要素のひとつは、モデル説明性です。 概念活性化ベクトル(TCAV)を用いたテストは,高レベルの概念をネットワークの勾配と比較することにより,人間の理解可能な説明を提供する手段として最近導入された。 この技術は実世界の画像応用において有望な結果を示しているが、時間的構造には適用されていない。 EHRにおける逐次予測にTCAVを適用できるようにするため,時系列データへの拡張手法を提案する。 我々は、集中治療室からのオープンEHRベンチマークと、個々の効果をよりよく分離できる合成データについて、提案手法の評価を行った。

Recurrent Neural Networks (RNNs) are often used for sequential modeling of adverse outcomes in electronic health records (EHRs) due to their ability to encode past clinical states. These deep, recurrent architectures have displayed increased performance compared to other modeling approaches in a number of tasks, fueling the interest in deploying deep models in clinical settings. One of the key elements in ensuring safe model deployment and building user trust is model explainability. Testing with Concept Activation Vectors (TCAV) has recently been introduced as a way of providing human-understandable explanations by comparing high-level concepts to the network's gradients. While the technique has shown promising results in real-world imaging applications, it has not been applied to structured temporal inputs. To enable an application of TCAV to sequential predictions in the EHR, we propose an extension of the method to time series data. We evaluate the proposed approach on an open EHR benchmark from the intensive care unit, as well as synthetic data where we are able to better isolate individual effects.
翻訳日:2021-05-23 16:18:49 公開日:2021-03-08
# (参考訳) ニュースレコメンデーション手法の研究の進展 [全文訳有]

Research Progress of News Recommendation Methods ( http://arxiv.org/abs/2012.02360v2 )

ライセンス: CC BY 4.0
Jing Qin(参考訳) 研究者は、異なるビジネス分野のパーソナライズされたレコメンデーションを研究することを目指しており、特定の分野におけるレコメンデーション手法の要約は、実際に重要である。 ニューズレコメンデーションシステムはレコメンデーションシステムに関する最初期の研究分野であり、コラボレーティブ・フィルタリング法を適用した最初期のレコメンデーション分野でもあった。 さらに、ニュースはリアルタイムであり、コンテンツに富んでいるため、他の分野よりもニュースレコメンデーション手法が難しい。 そこで本稿では,ニュースレコメンデーション手法に関する研究の進展を概説する。 2018年から2020年にかけて、深層学習に基づく、注意に基づく、知識グラフに基づくニュースレコメンデーション手法が開発された。 2020年現在、注意機構と知識グラフを組み合わせた多くのニュースレコメンデーション手法が存在する。 しかし,これらの手法はすべて基本手法(協調フィルタリング法,コンテンツベース推薦法,混合推薦法)に基づいて開発された。 研究者がニュースレコメンデーション手法の開発過程を詳細に理解できるようにするため,本稿では,10年近くにわたるニュースレコメンデーション手法を,上記の基本手法に従って3つのカテゴリに分けた。 まず,各メソッドのカテゴリの基本概念を紹介し,各メソッドのカテゴリと研究結果の時系列に基づいて,他のメソッドと組み合わせたレコメンデーション手法を要約する。 最後に,ニュースレコメンデーションシステムの課題についても要約する。

Due to researchers'aim to study personalized recommendations for different business fields, the summary of recommendation methods in specific fields is of practical significance. News recommendation systems were the earliest research field regarding recommendation systems, and were also the earliest recommendation field to apply the collaborative filtering method. In addition, news is real-time and rich in content, which makes news recommendation methods more challenging than in other fields. Thus, this paper summarizes the research progress regarding news recommendation methods. From 2018 to 2020, developed news recommendation methods were mainly deep learning-based, attention-based, and knowledge graphs-based. As of 2020, there are many news recommendation methods that combine attention mechanisms and knowledge graphs. However, these methods were all developed based on basic methods (the collaborative filtering method, the content-based recommendation method, and a mixed recommendation method combining the two). In order to allow researchers to have a detailed understanding of the development process of news recommendation methods, the news recommendation methods surveyed in this paper, which cover nearly 10 years, are divided into three categories according to the abovementioned basic methods. Firstly, the paper introduces the basic ideas of each category of methods and then summarizes the recommendation methods that are combined with other methods based on each category of methods and according to the time sequence of research results. Finally, this paper also summarizes the challenges confronting news recommendation systems.
翻訳日:2021-05-23 12:31:02 公開日:2021-03-08
# PMP-Net:多段階移動経路学習によるポイントクラウド補完

PMP-Net: Point Cloud Completion by Learning Multi-step Point Moving Paths ( http://arxiv.org/abs/2012.03408v2 )

ライセンス: Link先を確認
Xin Wen, Peng Xiang, Zhizhong Han, Yan-Pei Cao, Pengfei Wan, Wen Zheng, Yu-Shen Liu(参考訳) ポイント・クラウド・コンプリートの目的は、不完全な3d形状の欠落部分を予測することである。 広く使われている戦略は、不完全なものから完全な点雲を生成することである。 しかしながら、離散点の詳細なトポロジーと構造は潜在コードのみを使用して生成プロセスによって捉えることが困難であるため、ポイント雲の無秩序な性質は高品質な3d形状の生成を劣化させる。 本稿では, 新たな視点から完了タスクを再考し, その予測を点雲変形過程として定式化することによって, 上記の問題に対処する。 具体的には、地球移動体の動作を模倣する新しいニューラルネットワーク、PMP-Netを設計する。 それは不完全な入力の各点を移動させ、ポイントクラウドを完結させ、ポイント移動経路(pmp)の合計距離が最も短くなる。 したがって、PMP-Netは全点移動距離の制約に応じて各点のユニークな点移動経路を予測する。 その結果、ネットワークは、不完全形状と完全対象との詳細なトポロジーおよび構造関係を捉えることができる点レベルでの厳密かつ一意な対応を学習し、予測された完全形状の品質を向上させることができる。 我々はCompletion3DとPCNデータセットの包括的な実験を行い、最先端のクラウド補完手法に対する利点を実証した。

The task of point cloud completion aims to predict the missing part for an incomplete 3D shape. A widely used strategy is to generate a complete point cloud from the incomplete one. However, the unordered nature of point clouds will degrade the generation of high-quality 3D shapes, as the detailed topology and structure of discrete points are hard to be captured by the generative process only using a latent code. In this paper, we address the above problem by reconsidering the completion task from a new perspective, where we formulate the prediction as a point cloud deformation process. Specifically, we design a novel neural network, named PMP-Net, to mimic the behavior of an earth mover. It moves move each point of the incomplete input to complete the point cloud, where the total distance of point moving paths (PMP) should be shortest. Therefore, PMP-Net predicts a unique point moving path for each point according to the constraint of total point moving distances. As a result, the network learns a strict and unique correspondence on point-level, which can capture the detailed topology and structure relationships between the incomplete shape and the complete target, and thus improves the quality of the predicted complete shape. We conduct comprehensive experiments on Completion3D and PCN datasets, which demonstrate our advantages over the state-of-the-art point cloud completion methods.
翻訳日:2021-05-16 21:26:10 公開日:2021-03-08
# TARA:AIフェアネスとドメインの一般化のためのトレーニングと表現の定式化

TARA: Training and Representation Alteration for AI Fairness and Domain Generalization ( http://arxiv.org/abs/2012.06387v2 )

ライセンス: Link先を確認
William Paul, Armin Hadzic, Neil Joshi, Fady Alajaji, Phil Burlina(参考訳) This method uses a dual strategy performing training and representation alteration (TARA) for the mitigation of prominent causes of AI bias by including: a) the use of representation learning alteration via adversarial independence to suppress the bias-inducing dependence of the data representation from protected factors; and b) training set alteration via intelligent augmentation to address bias-causing data imbalance, by using generative models that allow the fine control of sensitive factors related to underrepresented populations. 画像解析の手法をテストする場合、TARAは、(全体の精度、%精度のギャップ) = (78.75, 0.5)対EyePACSのベースライン手法のスコア(71.75, 10.5)、(73.71, 11.82)対(69.08, 21.65)と、競合するデバイアス法よりも優れた性能を保ちながら、ベースラインモデルを著しくあるいは完全に破壊することを示した。 さらに,デバイアス性能の評価に用いる現在の指標に一定の制限があることを認識し,新しい連続的デバイアス指標を提案する。 また,提案手法のパレート効率を評価する上で,これらの新しい指標が有効であることを示す。

This method uses a dual strategy performing training and representation alteration (TARA) for the mitigation of prominent causes of AI bias by including: a) the use of representation learning alteration via adversarial independence to suppress the bias-inducing dependence of the data representation from protected factors; and b) training set alteration via intelligent augmentation to address bias-causing data imbalance, by using generative models that allow the fine control of sensitive factors related to underrepresented populations. When testing our methods on image analytics, experiments demonstrate that TARA significantly or fully debiases baseline models while outperforming competing debiasing methods, e.g., with (% overall accuracy, % accuracy gap) = (78.75, 0.5) vs. the baseline method's score of (71.75, 10.5) for EyePACS, and (73.71, 11.82) vs. (69.08, 21.65) for CelebA. Furthermore, recognizing certain limitations in current metrics used for assessing debiasing performance, we propose novel conjunctive debiasing metrics. Our experiments also demonstrate the ability of these novel metrics in assessing the Pareto efficiency of the proposed methods.
翻訳日:2021-05-11 03:09:13 公開日:2021-03-08
# (参考訳) パンデミックのための最適ポリシー:確率ゲームアプローチとディープラーニングアルゴリズム [全文訳有]

Optimal Policies for a Pandemic: A Stochastic Game Approach and a Deep Learning Algorithm ( http://arxiv.org/abs/2012.06745v2 )

ライセンス: CC BY 4.0
Yao Xuan, Robert Balkin, Jiequn Han, Ruimeng Hu, Hector D. Ceniceros(参考訳) ゲーム理論は、病気の拡散を制御し、個人レベルと地域レベルの両方で最適なポリシーを提案するのに有効なツールである。 本稿では,感染症に対する最適地域政策を定式化することを目的とした,確率的微分ゲーム理論に基づく多地域サーモデルを提案する。 具体的には、複数の地域プランナーが発行する社会・健康政策を考慮し、標準流行SEIRモデルを強化する。 この拡張により、モデルはよりリアルで強力になる。 しかし、複数の領域の存在によって引き起こされる解空間の高次元性のため、強固な計算課題も導入されている。 このモデル構造の重大な数値的難しさは,[Han and Hu, MSML 2020, pp.221--245, PMLR, 2020] で導入された深い架空のアルゴリズムを一般化し,次元の呪いを克服する改良アルゴリズムを開発する動機となる。 提案するモデルとアルゴリズムを,ニューヨーク州,ニュージャージー州,ペンシルベニア州の3州で実施するcovid-19パンデミックの調査に適用した。 モデルパラメータは、CDC(Centers for Disease Control and Prevention)が投稿した実際のデータから推定される。 我々は、各州における新型コロナウイルスの拡散に対するロックダウン/トラベル禁止政策の効果と、それらの政策が相互にどのように影響するかを示すことができる。

Game theory has been an effective tool in the control of disease spread and in suggesting optimal policies at both individual and area levels. In this paper, we propose a multi-region SEIR model based on stochastic differential game theory, aiming to formulate optimal regional policies for infectious diseases. Specifically, we enhance the standard epidemic SEIR model by taking into account the social and health policies issued by multiple region planners. This enhancement makes the model more realistic and powerful. However, it also introduces a formidable computational challenge due to the high dimensionality of the solution space brought by the presence of multiple regions. This significant numerical difficulty of the model structure motivates us to generalize the deep fictitious algorithm introduced in [Han and Hu, MSML2020, pp.221--245, PMLR, 2020] and develop an improved algorithm to overcome the curse of dimensionality. We apply the proposed model and algorithm to study the COVID-19 pandemic in three states: New York, New Jersey, and Pennsylvania. The model parameters are estimated from real data posted by the Centers for Disease Control and Prevention (CDC). We are able to show the effects of the lockdown/travel ban policy on the spread of COVID-19 for each state and how their policies affect each other.
翻訳日:2021-05-10 10:05:45 公開日:2021-03-08
# モデル和解のための爆発的ハッティングセットについて

On Exploiting Hitting Sets for Model Reconciliation ( http://arxiv.org/abs/2012.09274v2 )

ライセンス: Link先を確認
Stylianos Loukas Vasileiou, Alessandro Previti, William Yeoh(参考訳) ヒューマン・アウェア・プランニングでは、プランニングエージェントは、そのプランが最適である理由を人間ユーザーに説明する必要があるかもしれない。 これを行うための一般的なアプローチはモデル和解(model reconciliation)と呼ばれ、エージェントはそのモデルと人間のモデルの違いを調和させようとする。 本稿では,計画の領域を超えたモデル調整のための論理ベースのフレームワークを提案する。 より具体的には、知識ベースが$KB_1$で式が$\varphi$であり、2番目の知識ベースが$KB_2$でなくても、モデル和解は$KB_1$の基数最小部分集合の形で説明を求める。 提案手法は,不一致の分析の文脈から生まれた概念に基づき,既存の最小補正集合 (mcses) と最小不満足集合 (muses) 間のヒット集合の双対性を利用して,適切な説明を導出する。 しかし、単一の知識ベースを仮定する一貫性のない公式を対象とする作業とは異なり、MCSとMUSは2つの異なる知識ベースで計算される。 本稿では,新たに導入された計画インスタンスに対するアプローチを実証的に評価し,既存の最先端のソルバと,他のソルバが存在しない最近のsatコンペティションの汎用的非計画インスタンスとを比較検討した。

In human-aware planning, a planning agent may need to provide an explanation to a human user on why its plan is optimal. A popular approach to do this is called model reconciliation, where the agent tries to reconcile the differences in its model and the human's model such that the plan is also optimal in the human's model. In this paper, we present a logic-based framework for model reconciliation that extends beyond the realm of planning. More specifically, given a knowledge base $KB_1$ entailing a formula $\varphi$ and a second knowledge base $KB_2$ not entailing it, model reconciliation seeks an explanation, in the form of a cardinality-minimal subset of $KB_1$, whose integration into $KB_2$ makes the entailment possible. Our approach, based on ideas originating in the context of analysis of inconsistencies, exploits the existing hitting set duality between minimal correction sets (MCSes) and minimal unsatisfiable sets (MUSes) in order to identify an appropriate explanation. However, differently from those works targeting inconsistent formulas, which assume a single knowledge base, MCSes and MUSes are computed over two distinct knowledge bases. We conclude our paper with an empirical evaluation of the newly introduced approach on planning instances, where we show how it outperforms an existing state-of-the-art solver, and generic non-planning instances from recent SAT competitions, for which no other solver exists.
翻訳日:2021-05-03 02:51:29 公開日:2021-03-08
# Skeleton-DML:Skeleto n-based One-Shot Action RecognitionのためのDeep Metric Learning

Skeleton-DML: Deep Metric Learning for Skeleton-Based One-Shot Action Recognition ( http://arxiv.org/abs/2012.13823v2 )

ライセンス: Link先を確認
Raphael Memmesheimer, Simon H\"aring, Nick Theisen, Dietrich Paulus(参考訳) ワンショットアクション認識は、単一のトレーニング例だけで、人間のパフォーマンスアクションの認識を可能にする。 これは、ロボットが以前に見つからなかった行動に反応できるようにすることで、人間とロボットの相互作用に正の影響を与える。 本稿では,一発動作認識問題を深度学習問題として定式化し,距離学習環境において優れた画像に基づく骨格表現を提案する。 そこで我々は,画像表現を埋め込み空間に投影するモデルを訓練する。 埋め込み空間において、類似作用はユークリッド距離が低く、類似作用は高い距離を持つ。 ワンショット動作認識問題は、一連のアクティビティ参照サンプルにおいて最寄りの探索となる。 提案手法は,様々なスケルトンに基づく画像表現に対して,提案手法の性能を評価する。 さらに, 埋め込みベクトルサイズ, 損失, 拡張の影響を示すアブレーション研究を行った。 提案手法は,NTU RGB+D 120データセット上のワンショットアクション認識プロトコルを,同等のトレーニング設定で3.3%向上させる。 追加で7.7%以上の改善が得られた。

One-shot action recognition allows the recognition of human-performed actions with only a single training example. This can influence human-robot-interact ion positively by enabling the robot to react to previously unseen behaviour. We formulate the one-shot action recognition problem as a deep metric learning problem and propose a novel image-based skeleton representation that performs well in a metric learning setting. Therefore, we train a model that projects the image representations into an embedding space. In embedding space the similar actions have a low euclidean distance while dissimilar actions have a higher distance. The one-shot action recognition problem becomes a nearest-neighbor search in a set of activity reference samples. We evaluate the performance of our proposed representation against a variety of other skeleton-based image representations. In addition, we present an ablation study that shows the influence of different embedding vector sizes, losses and augmentation. Our approach lifts the state-of-the-art by 3.3% for the one-shot action recognition protocol on the NTU RGB+D 120 dataset under a comparable training setup. With additional augmentation our result improved over 7.7%.
翻訳日:2021-04-25 01:12:59 公開日:2021-03-08
# 電子設計自動化のための機械学習:調査

Machine Learning for Electronic Design Automation: A Survey ( http://arxiv.org/abs/2102.03357v2 )

ライセンス: Link先を確認
Guyue Huang, Jingbo Hu, Yifan He, Jialong Liu, Mingyuan Ma, Zhaoyang Shen, Juejian Wu, Yuanfan Xu, Hengrui Zhang, Kai Zhong, Xuefei Ning, Yuzhe Ma, Haoyu Yang, Bei Yu, Huazhong Yang, Yu Wang(参考訳) CMOS技術のダウンスケーリングにより、超大規模集積(VLSI)の設計複雑さが増大している。 電子設計自動化(EDA)における機械学習(ML)技術の適用は、その歴史を90年代まで遡ることができるが、最近のMLのブレークスルーとEDAタスクの複雑さの増加により、ESAタスクの解決にMLを取り入れることへの関心が高まっている。 本稿では,EDA階層に従って編成された既存のEDA研究用MLの総合的なレビューを行う。

With the down-scaling of CMOS technology, the design complexity of very large-scale integrated (VLSI) is increasing. Although the application of machine learning (ML) techniques in electronic design automation (EDA) can trace its history back to the 90s, the recent breakthrough of ML and the increasing complexity of EDA tasks have aroused more interests in incorporating ML to solve EDA tasks. In this paper, we present a comprehensive review of existing ML for EDA studies, organized following the EDA hierarchy.
翻訳日:2021-04-08 08:23:16 公開日:2021-03-08
# 離散的な位置を探索する古典的検索ゲーム

A Classical Search Game in Discrete Locations ( http://arxiv.org/abs/2103.09310v1 )

ライセンス: Link先を確認
Jake Clarkson, Kyle Y. Lin, Kevin D. Glazebrook(参考訳) 隠れ家と捜索者の間の2人のゼロサム検索ゲームを考える。 シーカーは$n$の個別の場所の中に隠れ、サーバーはシーカーを見つけるまで個別の場所を訪れる。 どちらのプレイヤーにも知られているように、ロケーション$i$での検索は、時間単位$t_i$をとり、隠れている場合は ---- を独立して、$q_i$ を$i=1,\ldots,n$ で検出する。 シーカーは検出までの期待時間を最大化し、サーチは最小化することを目的としている。 各プレイヤーに最適な戦略が存在することを証明します。 特に、隠蔽者の最適混合戦略はゼロではない確率で各場所に隠れており、探索者の最適混合戦略は、最大$n$の単純な検索シーケンスで構築することができる。 我々は,各プレイヤーの最適戦略を計算するアルゴリズムを開発し,探索開始時に位置選好を付与しない単純な隠れ戦略と比較する。

Consider a two-person zero-sum search game between a hider and a searcher. The hider hides among $n$ discrete locations, and the searcher successively visits individual locations until finding the hider. Known to both players, a search at location $i$ takes $t_i$ time units and detects the hider -- if hidden there -- independently with probability $q_i$, for $i=1,\ldots,n$. The hider aims to maximize the expected time until detection, while the searcher aims to minimize it. We prove the existence of an optimal strategy for each player. In particular, the hider's optimal mixed strategy hides in each location with a nonzero probability, and the searcher's optimal mixed strategy can be constructed with up to $n$ simple search sequences. We develop an algorithm to compute an optimal strategy for each player, and compare the optimal hiding strategy with the simple hiding strategy which gives the searcher no location preference at the beginning of the search.
翻訳日:2021-04-05 00:58:47 公開日:2021-03-08
# ランダムメディア内流れのためのベイズ型多スケール深層学習フレームワーク

A Bayesian Multiscale Deep Learning Framework for Flows in Random Media ( http://arxiv.org/abs/2103.09056v1 )

ライセンス: Link先を確認
Govinda Anantha Padmanabha and Nicholas Zabaras(参考訳) マルチスケール偏微分方程式(PDE)によって制御される複雑なシステムの微細スケールシミュレーションは計算コストが高く,そのような問題に対処する様々なマルチスケール手法が開発されている。 さらに, 確率的マルチスケールPDEによって支配される高次元問題に対して, 限られたトレーニングデータを用いて高精度なサロゲートおよび不確実量化モデルを開発することは困難である。 そこで本研究では,訓練データに制限のある確率的多スケールpdesのための,新しいハイブリッド型ディープラーニングとマルチスケールアプローチを提案する。 実演目的では,多孔質メディアフローの問題に焦点をあてる。 画像から画像への教師あり深層学習モデルを用いて,入力透過性場とマルチスケール基底関数のマッピングを学習する。 我々はこのハイブリッドフレームワークにベイズ的アプローチを導入し、不確実な定量化と伝播のタスクを可能にする。 このハイブリッド手法の性能は,透水性場の内在的次元によって評価される。 数値計算の結果,ハイブリッドネットワークは高次元入力を効率的に予測できることがわかった。

Fine-scale simulation of complex systems governed by multiscale partial differential equations (PDEs) is computationally expensive and various multiscale methods have been developed for addressing such problems. In addition, it is challenging to develop accurate surrogate and uncertainty quantification models for high-dimensional problems governed by stochastic multiscale PDEs using limited training data. In this work to address these challenges, we introduce a novel hybrid deep-learning and multiscale approach for stochastic multiscale PDEs with limited training data. For demonstration purposes, we focus on a porous media flow problem. We use an image-to-image supervised deep learning model to learn the mapping between the input permeability field and the multiscale basis functions. We introduce a Bayesian approach to this hybrid framework to allow us to perform uncertainty quantification and propagation tasks. The performance of this hybrid approach is evaluated with varying intrinsic dimensionality of the permeability field. Numerical results indicate that the hybrid network can efficiently predict well for high-dimensional inputs.
翻訳日:2021-04-05 00:58:14 公開日:2021-03-08
# 強化学習と無線環境マップを用いた基地局切替による大規模mimoネットワークのエネルギー効率向上

Increasing Energy Efficiency of Massive-MIMO Network via Base Stations Switching using Reinforcement Learning and Radio Environment Maps ( http://arxiv.org/abs/2103.11891v1 )

ライセンス: Link先を確認
Marcin Hoffmann, Pawel Kryszkiewicz, Adrian Kliks(参考訳) 基地局(BS)に最大数百個の素子からなるアンテナアレイを設けるM-MIMO(Massive Multiple-Input Multiple-Output)ネットワークを考えると,エネルギー効率(EE)が重要である。 M-MIMO伝送はスペクトル効率が高いが、アンテナ数とともに高エネルギー消費が増加する。 本稿では,未利用BSのオン/オフによるEE改善について検討する。 無線環境マップ(rem)に最適なbssセットに関するデータを格納する位置認識手法を用いることが提案されている。 REMデータの効率的な取得、処理、利用には、強化学習(RL)アルゴリズムを用いる。 e-greedy, upper Confidence Bound (UCB) および Gradient Bandit を含む最先端の探査・探査手法の評価を行った。 次に、RL収束時間を改善するために、解析的動作フィルタリングとREMに基づく探索アルゴリズム(REM-EA)を提案する。 M-MIMO異種ネットワーク(HetNet)の高度システムレベルシミュレータを用いて,正確な3D線トレーシング無線チャネルモデルを用いてアルゴリズムの評価を行った。 提案したRLベースのBSsスイッチングアルゴリズムは,解析的ヒューリスティックを用いた最先端アルゴリズムよりも,EEが70%向上することが証明されている。 さらに,提案する動作フィルタリングとrem-eaは,最先端の探索法に対して,それぞれ60%,83%のrl収束時間を削減できる。

Energy Efficiency (EE) is of high importance while considering Massive Multiple-Input Multiple-Output (M-MIMO) networks where base stations (BSs) are equipped with an antenna array composed of up to hundreds of elements. M-MIMO transmission, although highly spectrally efficient, results in high energy consumption growing with the number of antennas. This paper investigates EE improvement through switching on/off underutilized BSs. It is proposed to use the location-aware approach, where data about an optimal active BSs set is stored in a Radio Environment Map (REM). For efficient acquisition, processing and utilization of the REM data, reinforcement learning (RL) algorithms are used. State-of-the-art exploration/exploita tion methods including e-greedy, Upper Confidence Bound (UCB), and Gradient Bandit are evaluated. Then analytical action filtering, and an REM-based Exploration Algorithm (REM-EA) are proposed to improve the RL convergence time. Algorithms are evaluated using an advanced, system-level simulator of an M-MIMO Heterogeneous Network (HetNet) utilizing an accurate 3D-ray-tracing radio channel model. The proposed RL-based BSs switching algorithm is proven to provide 70% gains in EE over a state-of-the-art algorithm using an analytical heuristic. Moreover, the proposed action filtering and REM-EA can reduce RL convergence time in relation to the best-performing state-of-the-art exploration method by 60% and 83%, respectively.
翻訳日:2021-04-05 00:57:19 公開日:2021-03-08
# GANインバージョン: 調査

GAN Inversion: A Survey ( http://arxiv.org/abs/2101.05278v2 )

ライセンス: Link先を確認
Weihao Xia, Yulun Zhang, Yujiu Yang, Jing-Hao Xue, Bolei Zhou, Ming-Hsuan Yang(参考訳) GANインバージョンは、所定の画像を事前訓練されたGANモデルの潜在空間に反転させることを目的としており、生成元によって逆コードから忠実に再構成される。 実画像ドメインと偽画像ドメインをブリッジする新たな技術として、StyleGANやBigGANといった事前訓練されたGANモデルを実際の画像編集アプリケーションに使用可能にする上で、GANインバージョンが重要な役割を果たす。 一方、GANの反転は、GANの潜伏空間の解釈と、現実的な画像の生成方法に関する洞察を与える。 本稿では,最新のアルゴリズムとアプリケーションに着目したGANインバージョンについて概説する。 GANインバージョンの重要な技術とその画像復元・画像操作への応用について述べる。 今後の動向や課題についても詳しく述べる。

GAN inversion aims to invert a given image back into the latent space of a pretrained GAN model, for the image to be faithfully reconstructed from the inverted code by the generator. As an emerging technique to bridge the real and fake image domains, GAN inversion plays an essential role in enabling the pretrained GAN models such as StyleGAN and BigGAN to be used for real image editing applications. Meanwhile, GAN inversion also provides insights on the interpretation of GAN's latent space and how the realistic images can be generated. In this paper, we provide an overview of GAN inversion with a focus on its recent algorithms and applications. We cover important techniques of GAN inversion and their applications to image restoration and image manipulation. We further elaborate on some trends and challenges for future directions.
翻訳日:2021-03-29 00:51:40 公開日:2021-03-08
# (参考訳) 言語モデルは道徳的次元を持つ [全文訳有]

Language Models have a Moral Dimension ( http://arxiv.org/abs/2103.11790 )

ライセンス: CC BY 4.0
Patrick Schramowski, Cigdem Turan, Nico Andersen, Constantin Rothkopf, Kristian Kersting(参考訳) BERTやその変種,GPT-2/3など,大規模なトランスフォーマーベース言語モデル(LM)の進歩により,人工文字は私たちの生活に浸透しています。 事前訓練されたモデルとして使用し、特定のタスクのために微調整することで、多くのNLPタスクの技術を拡張し、言語知識を捉えるだけでなく、データに暗黙的に存在する一般的な知識を保持することを示した。 これらと他の成功はエキサイティングです。 残念ながら、未フィルタリングテキストコーパスでトレーニングされたlmsは、退化と偏った振る舞いに苦しむ。 これは十分に確立されているものの、近年のLMの改良は社会の倫理的・道徳的価値を蓄積し、実際に「道徳的次元」を表面化させ、その価値は埋め込み空間の方向によって幾何学的に捉えられ、トレーニングテキストに暗黙的に表される社会規範に対する句の一致を反映している。 これは、LMの毒性変性を抑制または予防するための経路を提供する。 任意のフレーズの(非)ノルマティビティを、このタスクのためにLMを明示的に訓練することなく評価できるので、道徳的次元を'moral compass''として、(他の)LMを規範的テキストの生成に導くことができる。

Artificial writing is permeating our lives due to recent advances in large-scale, transformer-based language models (LMs) such as BERT, its variants, GPT-2/3, and others. Using them as pretrained models and fine-tuning them for specific tasks, researchers have extended the state of the art for many NLP tasks and shown that they not only capture linguistic knowledge but also retain general knowledge implicitly present in the data. These and other successes are exciting. Unfortunately, LMs trained on unfiltered text corpora suffer from degenerate and biased behaviour. While this is well established, we show that recent improvements of LMs also store ethical and moral values of the society and actually bring a ``moral dimension'' to surface: the values are capture geometrically by a direction in the embedding space, reflecting well the agreement of phrases to social norms implicitly expressed in the training texts. This provides a path for attenuating or even preventing toxic degeneration in LMs. Since one can now rate the (non-)normativity of arbitrary phrases without explicitly training the LM for this task, the moral dimension can be used as ``moral compass'' guiding (even other) LMs towards producing normative text, as we will show.
翻訳日:2021-03-26 07:38:18 公開日:2021-03-08
# EEG-Inception:脳波に基づく運動画像分類のための正確かつ堅牢なエンドツーエンドニューラルネットワーク

EEG-Inception: An Accurate and Robust End-to-End Neural Network for EEG-based Motor Imagery Classification ( http://arxiv.org/abs/2101.10932v3 )

ライセンス: Link先を確認
Ce Zhang, Young-Keun Kim, Azim Eskandarian(参考訳) EEGベースの運動画像(MI)の分類は、脳-コンピュータインタフェース(BCI)研究における重要な非侵襲的応用である。 本稿では,最先端手法に勝る正確かつロバストな脳波に基づくmi分類のための新しい畳み込みニューラルネットワーク(cnn)アーキテクチャを提案する。 提案するcnnモデル(eeg-inception)は、インセプション時間ネットワークのバックボーンに構築されており、時系列分類において非常に効率的かつ正確であることが示されている。 また、提案するネットワークは、生のEEG信号を入力とし、複雑なEEG信号前処理を必要としないため、エンドツーエンドの分類である。 さらに,脳波信号の精度を少なくとも3%向上し,限られたBCIデータセットによるオーバーフィッティングを低減するため,新しいデータ拡張手法を提案する。 提案モデルは、2008年のBCIコンペティションIV 2a(4クラス)と2bデータセット(2クラス)の平均精度88.4%と88.6%を達成することにより、すべての最新手法を上回っている。 さらに、リアルタイム処理に適したサンプルをテストするのに0.025秒未満かかります。 さらに、9種類の被験者の分類基準偏差は、2bデータセットの5.5と2aデータセットの7.1の最低値であり、提案手法が極めて堅牢であることを示す。 実験結果から、EEG-Inceptionネットワークは、EEGベースのMIタスクの主観非依存な分類器として強力なポテンシャルを示すと推測できる。

Classification of EEG-based motor imagery (MI) is a crucial non-invasive application in brain-computer interface (BCI) research. This paper proposes a novel convolutional neural network (CNN) architecture for accurate and robust EEG-based MI classification that outperforms the state-of-the-art methods. The proposed CNN model, namely EEG-Inception, is built on the backbone of the Inception-Time network, which showed to be highly efficient and accurate for time-series classification. Also, the proposed network is an end-to-end classification, as it takes the raw EEG signals as the input and does not require complex EEG signal-preprocessing . Furthermore, this paper proposes a novel data augmentation method for EEG signals to enhance the accuracy, at least by 3%, and reduce overfitting with limited BCI datasets. The proposed model outperforms all the state-of-the-art methods by achieving the average accuracy of 88.4% and 88.6% on the 2008 BCI Competition IV 2a (four-classes) and 2b datasets (binary-classes), respectively. Furthermore, it takes less than 0.025 seconds to test a sample suitable for real-time processing. Moreover, the classification standard deviation for nine different subjects achieves the lowest value of 5.5 for the 2b dataset and 7.1 for the 2a dataset, which validates that the proposed method is highly robust. From the experiment results, it can be inferred that the EEG-Inception network exhibits a strong potential as a subject-independent classifier for EEG-based MI tasks.
翻訳日:2021-03-16 09:07:14 公開日:2021-03-08
# (参考訳) 自動グリオーマ脳腫瘍セグメンテーションと全患者の生存予測に関する調査と分析

A Survey and Analysis on Automated Glioma Brain Tumor Segmentation and Overall Patient Survival Prediction ( http://arxiv.org/abs/2101.10599v2 )

ライセンス: CC BY-SA 4.0
Rupal Agravat, Mehul S Raval(参考訳) グリオーマは死亡率が高い最も致命的な脳腫瘍である。 ヒト専門家による治療計画は、磁気共鳴(MR)画像解析とともに、身体症状の適切な診断に依存します。 サイズ、形状、位置、および大量のMR画像の点で脳腫瘍の高い可変性は、分析に時間がかかります。 自動セグメンテーション手法は再現性に優れた時間短縮を実現する。 本論文は、グリオーマ脳腫瘍分節の自動化手法の進歩を調査することを目的としている。 また、ベンチマークに基づいて様々なモデルの客観的評価を行うことも不可欠である。 したがって、2012 - 2019 BraTSチャレンジデータベースは、最先端のメソッドを評価します。 課題下でのタスクの複雑さは、セグメンテーション(Task1)から総合生存予測(Task2)へ、そして分類の不確実性予測(Task3)へと成長してきた。 タスク1のディープニューラルネットワークモデルに対する手作り特徴を用いた脳腫瘍の領域分割の完全域について述べる。 目的は、自動脳腫瘍モデルにおけるトレンドの完全な変化を示すことである。 また,脳腫瘍の分節と生存予測を含む終端関節モデルについても検討した。 すべてのメソッドが調査され、パフォーマンスに影響を与えるパラメータが集計および分析されます。

Glioma is the most deadly brain tumor with high mortality. Treatment planning by human experts depends on the proper diagnosis of physical symptoms along with Magnetic Resonance(MR) image analysis. Highly variability of a brain tumor in terms of size, shape, location, and a high volume of MR images makes the analysis time-consuming. Automatic segmentation methods achieve a reduction in time with excellent reproducible results. The article aims to survey the advancement of automated methods for Glioma brain tumor segmentation. It is also essential to make an objective evaluation of various models based on the benchmark. Therefore, the 2012 - 2019 BraTS challenges database evaluates state-of-the-art methods. The complexity of tasks under the challenge has grown from segmentation (Task1) to overall survival prediction (Task 2) to uncertainty prediction for classification (Task 3). The paper covers the complete gamut of brain tumor segmentation using handcrafted features to deep neural network models for Task 1. The aim is to showcase a complete change of trends in automated brain tumor models. The paper also covers end to end joint models involving brain tumor segmentation and overall survival prediction. All the methods are probed, and parameters that affect performance are tabulated and analyzed.
翻訳日:2021-03-14 13:21:01 公開日:2021-03-08
# (参考訳) エッジデバイスにおける高効率超次元コンピューティングのためのハイパーベクトル設計 [全文訳有]

Hypervector Design for Efficient Hyperdimensional Computing on Edge Devices ( http://arxiv.org/abs/2103.06709v1 )

ライセンス: CC BY-SA 4.0
Toygun Basaklar, Yigit Tuncel, Shruti Yadav Narayana, Suat Gumussoy, and Umit Y. Ogras(参考訳) 超次元コンピューティング(HDC)は、従来の手法に比べて計算量とエネルギー要求が小さい新しい軽量学習アルゴリズムとして登場した。 HDCでは、データポイントは高次元ベクトル (hypervector) で表され、高次元空間 (hyperspace) にマップされる。 通常、従来の方法に匹敵する精度を達成するには、大きな超ベクトル次元($\geq1000$)が必要である。 しかし、必然的に大きなハイパーベクターは、ハードウェアとエネルギーコストを増大させ、その利点を損なう可能性がある。 本稿では,超ベクトル次元を最小化し,精度を保ち,分類器の堅牢性を向上する手法を提案する。 この目的のために、ハイパーベクトルの設計を文献で初めて多対象最適化問題として定式化する。 提案手法は,従来のhdcで達成した精度を維持しつつ,32\times$以上の超ベクトル次元を減少させる。 商用ハードウェアプラットフォーム上での実験により,提案手法はモデルサイズ,推測時間,エネルギー消費を1桁以上削減できることがわかった。 また、ノイズに対する精度と堅牢性のトレードオフを実証し、パレートフロントソリューションをハイパーベクトル設計の設計パラメータとして提供します。

Hyperdimensional computing (HDC) has emerged as a new light-weight learning algorithm with smaller computation and energy requirements compared to conventional techniques. In HDC, data points are represented by high-dimensional vectors (hypervectors), which are mapped to high-dimensional space (hyperspace). Typically, a large hypervector dimension ($\geq1000$) is required to achieve accuracies comparable to conventional alternatives. However, unnecessarily large hypervectors increase hardware and energy costs, which can undermine their benefits. This paper presents a technique to minimize the hypervector dimension while maintaining the accuracy and improving the robustness of the classifier. To this end, we formulate the hypervector design as a multi-objective optimization problem for the first time in the literature. The proposed approach decreases the hypervector dimension by more than $32\times$ while maintaining or increasing the accuracy achieved by conventional HDC. Experiments on a commercial hardware platform show that the proposed approach achieves more than one order of magnitude reduction in model size, inference time, and energy consumption. We also demonstrate the trade-off between accuracy and robustness to noise and provide Pareto front solutions as a design parameter in our hypervector design.
翻訳日:2021-03-12 23:29:46 公開日:2021-03-08
# 電子カルテを用いた感染性疾患症例検出のためのDeep Transfer Learning

Deep Transfer Learning for Infectious Disease Case Detection Using Electronic Medical Records ( http://arxiv.org/abs/2103.06710v1 )

ライセンス: Link先を確認
Ye Ye, Andrew Gu(参考訳) 感染症のパンデミックでは、電子カルテやモデル(これらの記録から得られた)を地域間で共有することが重要である。 あるリージョンのデータ/モデルを別のリージョンに適用する場合、従来の機械学習技術の仮定に反する分散シフトの問題がしばしば発生します。 転校学習は解決策になり得る。 ディープトランスファー学習アルゴリズムの可能性を探るため,2つのデータベースアルゴリズム(ドメイン敵対ニューラルネットワークと最大分類器差分法)とモデルベーストランスファー学習アルゴリズムを感染症検出タスクに適用した。 さらに,2つの領域間のデータ分布の違いが分かっている,明確に定義された合成シナリオについても検討した。 本研究は, 感染症分類の文脈において, (1) ソースとターゲットが類似し, 対象訓練データが不十分であり, (2) 対象訓練データにラベルがない場合に, トランスファー学習が有用であることを示す。 モデルベースの転送学習は、データベースの転送学習モデルと密接に一致する場合において、最初の状況でうまく機能する。 それでも、パフォーマンスの低下を考慮に入れた実世界の研究データのドメインシフトに関するさらなる調査が必要である。

During an infectious disease pandemic, it is critical to share electronic medical records or models (learned from these records) across regions. Applying one region's data/model to another region often have distribution shift issues that violate the assumptions of traditional machine learning techniques. Transfer learning can be a solution. To explore the potential of deep transfer learning algorithms, we applied two data-based algorithms (domain adversarial neural networks and maximum classifier discrepancy) and model-based transfer learning algorithms to infectious disease detection tasks. We further studied well-defined synthetic scenarios where the data distribution differences between two regions are known. Our experiments show that, in the context of infectious disease classification, transfer learning may be useful when (1) the source and target are similar and the target training data is insufficient and (2) the target training data does not have labels. Model-based transfer learning works well in the first situation, in which case the performance closely matched that of the data-based transfer learning models. Still, further investigation of the domain shift in real world research data to account for the drop in performance is needed.
翻訳日:2021-03-12 14:41:25 公開日:2021-03-08
# (参考訳) デュアルエンコーダを用いた高速かつ効果的なバイオメディカルエンティティリンク [全文訳有]

Fast and Effective Biomedical Entity Linking Using a Dual Encoder ( http://arxiv.org/abs/2103.05028v1 )

ライセンス: CC BY 4.0
Rajarshi Bhowmik and Karl Stratos and Gerard de Melo(参考訳) 生物医学的エンティティのリンクは、テキスト文書中の生物医学的概念の言及を特定し、ターゲットテソーラスの正規的エンティティにマッピングするタスクです。 BERTモデルを用いたエンティティリンクの最近の進歩は、検索と再帰のパラダイムに従っており、まず候補エンティティをレトリバーモデルで選択し、次に検索した候補をリランカーモデルでランク付けする。 このパラダイムは最先端の結果を生み出すが、トレーニングとテスト時間の両方で遅く、一度に1つの言及しか処理できない。 そこで本研究では,文書中の複数の言及をワンショットで解決するBERTベースのデュアルエンコーダモデルを提案する。 本稿では,提案モデルが既存のBERTモデルよりも複数倍高速であり,バイオメディカルエンティティリンクの精度に競争力があることを示す。 さらに,提案する2つのモデルに対して,参照スパン検出とエンティティの曖昧化の両方を行う,エンドツーエンドの生物医学的エンティティリンクのためのデュアルエンコーダモデルを修正した。

Biomedical entity linking is the task of identifying mentions of biomedical concepts in text documents and mapping them to canonical entities in a target thesaurus. Recent advancements in entity linking using BERT-based models follow a retrieve and rerank paradigm, where the candidate entities are first selected using a retriever model, and then the retrieved candidates are ranked by a reranker model. While this paradigm produces state-of-the-art results, they are slow both at training and test time as they can process only one mention at a time. To mitigate these issues, we propose a BERT-based dual encoder model that resolves multiple mentions in a document in one shot. We show that our proposed model is multiple times faster than existing BERT-based models while being competitive in accuracy for biomedical entity linking. Additionally, we modify our dual encoder model for end-to-end biomedical entity linking that performs both mention span detection and entity disambiguation and out-performs two recently proposed models.
翻訳日:2021-03-11 18:10:17 公開日:2021-03-08
# (参考訳) 人間評価によるドメイン制御型タイトル生成 [全文訳有]

Domain Controlled Title Generation with Human Evaluation ( http://arxiv.org/abs/2103.05069v1 )

ライセンス: CC BY 4.0
Abdul Waheed, Muskan Goyal, Nimisha Mittal, Deepak Gupta(参考訳) 本稿では,学術論文の自動タイトル生成とドメイン制御タイトル生成手法を提案する。 良いタイトルは、あなたの研究に値する注目を集めることができます。 タイトルは、実装プロセスに関する情報を含むドキュメントの圧縮記述として解釈することができる。 ドメイン制御のタイトルでは、事前学習されたテキストからテキストへのトランスフォーマーモデルと追加のトークン技術を使用しました。 タイトルトークンは、グローバル語彙ではなく、ドメイン固有の語彙のローカル分布(グローバル語彙のサブセット)からサンプリングされ、キャッチーなタイトルを生成し、それに対応する抽象と密接に結び付けます。 生成されたタイトルは現実的で説得力があり、地上の真実に非常に近く見えました。 ROUGEメトリックと人間による評価を5つのパラメータを用いて自動評価し,人名と機械名の比較を行った。 制作されたタイトルは、オリジナルのタイトルとは対照的に、より高い評価で受け入れられた。 そこで本研究では,有望なドメイン制御タイトル生成手法を提案する。

We study automatic title generation and present a method for generating domain-controlled titles for scientific articles. A good title allows you to get the attention that your research deserves. A title can be interpreted as a high-compression description of a document containing information on the implemented process. For domain-controlled titles, we used the pre-trained text-to-text transformer model and the additional token technique. Title tokens are sampled from a local distribution (which is a subset of global vocabulary) of the domain-specific vocabulary and not global vocabulary, thereby generating a catchy title and closely linking it to its corresponding abstract. Generated titles looked realistic, convincing, and very close to the ground truth. We have performed automated evaluation using ROUGE metric and human evaluation using five parameters to make a comparison between human and machine-generated titles. The titles produced were considered acceptable with higher metric ratings in contrast to the original titles. Thus we concluded that our research proposes a promising method for domain-controlled title generation.
翻訳日:2021-03-11 17:57:00 公開日:2021-03-08
# (参考訳) タグ付けによるテキスト簡略化 [全文訳有]

Text Simplification by Tagging ( http://arxiv.org/abs/2103.05070v1 )

ライセンス: CC BY 4.0
Kostiantyn Omelianchuk, Vipul Raheja, Oleksandr Skurzhanskyi(参考訳) 編集ベースのアプローチは、最近、複数の単言語シーケンス変換タスクで有望な結果を示している。 従来のシークエンス・ツー・シークエンス(Seq2Seq)モデルとは対照的に、これらの手法はより高速で正確な変換を学べると同時に、強力な事前訓練された言語モデルを活用することができるため、スクラッチからテキストを生成することがより効果的であることが証明されている。 TSTは、事前に訓練されたTransformerベースのエンコーダを活用して、シーケンスタグに基づくシンプルで効率的なテキスト簡略化システムです。 本システムでは,既存システムにおける簡易なデータ拡張とトレーニングおよび推論の微調整を行い,大量の並列トレーニングデータへの依存を軽減し,出力の制御を向上し,高速な推論速度を実現する。 我々の最良のモデルは、タスクのベンチマークテストデータセットにおける最先端のパフォーマンスをほぼ達成する。 フルオートレグレッシブなので、現在のテキスト簡略化システムよりも11倍以上高速な推論速度を実現します。

Edit-based approaches have recently shown promising results on multiple monolingual sequence transduction tasks. In contrast to conventional sequence-to-sequence (Seq2Seq) models, which learn to generate text from scratch as they are trained on parallel corpora, these methods have proven to be much more effective since they are able to learn to make fast and accurate transformations while leveraging powerful pre-trained language models. Inspired by these ideas, we present TST, a simple and efficient Text Simplification system based on sequence Tagging, leveraging pre-trained Transformer-based encoders. Our system makes simplistic data augmentations and tweaks in training and inference on a pre-existing system, which makes it less reliant on large amounts of parallel training data, provides more control over the outputs and enables faster inference speeds. Our best model achieves near state-of-the-art performance on benchmark test datasets for the task. Since it is fully non-autoregressive, it achieves faster inference speeds by over 11 times than the current state-of-the-art text simplification system.
翻訳日:2021-03-11 17:47:26 公開日:2021-03-08
# (参考訳) 合成データによる事前学習によるインターリーブテキスト要約モデルの短ショット学習 [全文訳有]

Few-Shot Learning of an Interleaved Text Summarization Model by Pretraining with Synthetic Data ( http://arxiv.org/abs/2103.05131v1 )

ライセンス: CC BY 4.0
Sanjeev Kumar Karn, Francine Chen, Yan-Ying Chen, Ulli Waltinger and Hinrich Schuetze(参考訳) 異なるスレッドに属する投稿が連続して発生するインターリーブテキストは、オンラインチャットの投稿で一般的に発生し、議論の概要をすばやく得るのに時間がかかります。 既存のシステムは、まずポストをスレッドで切り離し、そのスレッドからサマリを抽出します。 このようなシステムの大きな問題は、絡み合ったコンポーネントからのエラーの伝播である。 エンドツーエンドのトレーニング可能な要約システムは明示的な絡み合いを回避できるが、そのようなシステムは大量のラベル付きデータを必要とする。 そこで本研究では, エンドツーエンドでトレーニング可能な階層型エンコーダ・デコーダシステムを提案する。 実世界の会議データセット(AMI)を微調整することで、従来の2段階のシステムを22%向上させることを示す。 また、トランスフォーマモデルと比較し、エンコーダとデコーダの両方の合成データとのプリトレーニングが、大きなデータセット上のエンコーダのみをプリトレーニングするbertsumextabsトランスフォーマモデルよりも優れていることを観測した。

Interleaved texts, where posts belonging to different threads occur in a sequence, commonly occur in online chat posts, so that it can be time-consuming to quickly obtain an overview of the discussions. Existing systems first disentangle the posts by threads and then extract summaries from those threads. A major issue with such systems is error propagation from the disentanglement component. While end-to-end trainable summarization system could obviate explicit disentanglement, such systems require a large amount of labeled data. To address this, we propose to pretrain an end-to-end trainable hierarchical encoder-decoder system using synthetic interleaved texts. We show that by fine-tuning on a real-world meeting dataset (AMI), such a system out-performs a traditional two-step system by 22%. We also compare against transformer models and observed that pretraining with synthetic data both the encoder and decoder outperforms the BertSumExtAbs transformer model which pretrains only the encoder on a large dataset.
翻訳日:2021-03-11 17:24:09 公開日:2021-03-08
# zyell-nctu nettraffic-1.0:実世界のネットワーク異常検出のための大規模データセット

ZYELL-NCTU NetTraffic-1.0: A Large-Scale Dataset for Real-World Network Anomaly Detection ( http://arxiv.org/abs/2103.05767v1 )

ライセンス: Link先を確認
Lei Chen, Shao-En Weng, Chu-Jun Peng, Hong-Han Shuai, and Wen-Huang Cheng(参考訳) ネットワークセキュリティは長い間、活発な研究テーマでした。 重要な問題の1つは、ファイアウォールなどの侵入検出システム(IDS)の異常検出能力を改善することです。 しかし、既存のネットワーク異常データセット(例えば、何年も前に収集された)やip匿名化が進んでおり、現在のネットワークとはデータ特性が異なる。 そこで本研究では,ネットワークセキュリティ研究の進展を目的とした,ファイアウォールの生出力から収集した,大規模かつ現実的な新たなデータセットであるZYELL-NCTU NetTraffic-1.0を導入する。

Network security has been an active research topic for long. One critical issue is improving the anomaly detection capability of intrusion detection systems (IDSs), such as firewalls. However, existing network anomaly datasets are out of date (i.e., being collected many years ago) or IP-anonymized, making the data characteristics differ from today's network. Therefore, this work introduces a new, large-scale, and real-world dataset, ZYELL-NCTU NetTraffic-1.0, which is collected from the raw output of firewalls in a real network, with the objective to advance the development of network security researches.
翻訳日:2021-03-11 15:02:32 公開日:2021-03-08
# (参考訳) グラフ分類外挿のためのサイズ不変グラフ表現 [全文訳有]

Size-Invariant Graph Representations for Graph Classification Extrapolations ( http://arxiv.org/abs/2103.05045v1 )

ライセンス: CC BY 4.0
Beatrice Bevilacqua, Yangze Zhou, Bruno Ribeiro(参考訳) 一般に、グラフ表現学習法は、テストデータとトレーニングデータが同じ分布から来ると仮定する。 本研究では,グラフ表現学習の分野の未熟な分野について考察する: トレーニング中にテストデータが利用できない,トレーニングデータとテストデータが異なる分布を持つ,アウト・オブ・ディストリビューション(ood)グラフ分類の課題。 本研究は, 因果モデルを用いて, トレインデータとテストデータの間をより外挿する近似不変表現を学習できることを示す。 最後に、合成および実世界のデータセット実験により、トレーニング/テストの分散シフトに不変な表現の利点を示す。

In general, graph representation learning methods assume that the test and train data come from the same distribution. In this work we consider an underexplored area of an otherwise rapidly developing field of graph representation learning: The task of out-of-distribution (OOD) graph classification, where train and test data have different distributions, with test data unavailable during training. Our work shows it is possible to use a causal model to learn approximately invariant representations that better extrapolate between train and test data. Finally, we conclude with synthetic and real-world dataset experiments showcasing the benefits of representations that are invariant to train/test distribution shifts.
翻訳日:2021-03-11 14:32:36 公開日:2021-03-08
# (参考訳) ロボット組立タスクへのオフザシェルフソリューションのベンチマーク [全文訳有]

Benchmarking Off-The-Shelf Solutions to Robotic Assembly Tasks ( http://arxiv.org/abs/2103.05140v1 )

ライセンス: CC BY 4.0
Wenzhao Lian, Tim Kelch, Dirk Holz, Adam Norton, and Stefan Schaal(参考訳) 近年,視覚や力・触覚フィードバックなど,ロボット操作や組立作業を実現するための学習ベースのアプローチが数多く研究されている。 しかし、最新のパフォーマンスのベースラインとボトルネックの問題が何であるかは、しばしば不明です。 本稿では,最近導入した国立標準技術研究所 (nist) 組立タスクボードのベンチマークを用いて,市販のots (ots) 産業ソリューションを評価する。 組立タスクのセットを導入し、その固有の難易度を理解するためのベースラインメソッドを提供する。 次に、ハイブリッドフォース/モーション制御と2d/3dパターンマッチングアルゴリズムを含む複数のセンサベースのロボットソリューションを評価する。 タスクを達成するエンドツーエンドの統合ソリューションも提供される。 この結果と結果から,OTSソリューションの採用を妨げるいくつかの重要な要因が明らかになった。専門知識の依存,適用可能性の制限,相互運用性の欠如,シーンの認識やエラー回復機構の欠如,高コストなどだ。 また,NISTアセンブリタスクボード上での客観的なベンチマーク性能を,今後の課題に対する基準比較として提案する。

In recent years, many learning based approaches have been studied to realize robotic manipulation and assembly tasks, often including vision and force/tactile feedback. However, it remains frequently unclear what is the baseline state-of-the-art performance and what are the bottleneck problems. In this work, we evaluate some off-the-shelf (OTS) industrial solutions on a recently introduced benchmark, the National Institute of Standards and Technology (NIST) Assembly Task Boards. A set of assembly tasks are introduced and baseline methods are provided to understand their intrinsic difficulty. Multiple sensor-based robotic solutions are then evaluated, including hybrid force/motion control and 2D/3D pattern matching algorithms. An end-to-end integrated solution that accomplishes the tasks is also provided. The results and findings throughout the study reveal a few noticeable factors that impede the adoptions of the OTS solutions: expertise dependent, limited applicability, lack of interoperability, no scene awareness or error recovery mechanisms, and high cost. This paper also provides a first attempt of an objective benchmark performance on the NIST Assembly Task Boards as a reference comparison for future works on this problem.
翻訳日:2021-03-11 12:42:52 公開日:2021-03-08
# (参考訳) ハミルトンエコーバックプロパゲーションに基づく自己学習マシン [全文訳有]

Self-learning Machines based on Hamiltonian Echo Backpropagation ( http://arxiv.org/abs/2103.04992v1 )

ライセンス: CC BY 4.0
Victor Lopez-Pastor, Florian Marquardt(参考訳) 物理的な自己学習マシンは、データ(人工ニューラルネットワークと同様)で訓練できる非線形動的システムとして定義することができるが、学習可能なパラメータとして機能する内部自由度の更新が自律的に行われる。 このように、外部処理やフィードバック、これらの内部自由度に関する知識(および制御)は必要とされない。 任意の時間可逆ハミルトンシステムにおける自己学習のための一般的なスキームを紹介します。 結合非線形波動場の場合,このような自己学習マシンの訓練を数値的に示す。

A physical self-learning machine can be defined as a nonlinear dynamical system that can be trained on data (similar to artificial neural networks), but where the update of the internal degrees of freedom that serve as learnable parameters happens autonomously. In this way, neither external processing and feedback nor knowledge of (and control of) these internal degrees of freedom is required. We introduce a general scheme for self-learning in any time-reversible Hamiltonian system. We illustrate the training of such a self-learning machine numerically for the case of coupled nonlinear wave fields.
翻訳日:2021-03-11 09:47:04 公開日:2021-03-08
# (参考訳) ロボットチームにおけるデータ分散のためのコネクティビティ学習 [全文訳有]

Learning Connectivity for Data Distribution in Robot Teams ( http://arxiv.org/abs/2103.05091v1 )

ライセンス: CC BY 4.0
Ekaterina Tolstaya, Landon Butler, Daniel Mox, James Paulos, Vijay Kumar, Alejandro Ribeiro(参考訳) マルチロボットチームの制御のための多くのアルゴリズムは、エージェントアクションの調整に必要な低遅延、グローバル状態情報をチーム間で容易に広めることができると仮定して動作する。 しかし、既存の通信インフラのない厳しい環境では、ロボットはアドホックなネットワークを形成しなければならない。 この課題を克服するために,グラフニューラルネットワーク(gnn)を用いたアドホックネットワークにおけるデータ分散のためのタスク非依存,分散,低遅延手法を提案する。 当社のアプローチは、グローバル状態情報に基づいたマルチエージェントアルゴリズムを各ロボットで利用可能にすることで機能させます。 これを実現するために、エージェントはパケット送信からネットワークのトポロジーに関する情報を収集し、ローカルに実行中のgnnに送信し、最新の状態情報をいつどこで送信するかをエージェントに指示する。 我々は,情報の平均年齢を報酬関数として強化学習を通じて分散gnn通信政策を訓練し,タスク固有の報酬関数と比較してトレーニング安定性が向上することを示す。 本手法はランダムフラッディングやラウンドロビンといった業界標準のデータ分散手法と比較して好適に機能する。 また、訓練されたポリシーが静的エージェントとモバイルエージェントの両方のより大きなチームに一般化されることも示します。

Many algorithms for control of multi-robot teams operate under the assumption that low-latency, global state information necessary to coordinate agent actions can readily be disseminated among the team. However, in harsh environments with no existing communication infrastructure, robots must form ad-hoc networks, forcing the team to operate in a distributed fashion. To overcome this challenge, we propose a task-agnostic, decentralized, low-latency method for data distribution in ad-hoc networks using Graph Neural Networks (GNN). Our approach enables multi-agent algorithms based on global state information to function by ensuring it is available at each robot. To do this, agents glean information about the topology of the network from packet transmissions and feed it to a GNN running locally which instructs the agent when and where to transmit the latest state information. We train the distributed GNN communication policies via reinforcement learning using the average Age of Information as the reward function and show that it improves training stability compared to task-specific reward functions. Our approach performs favorably compared to industry-standard methods for data distribution such as random flooding and round robin. We also show that the trained policies generalize to larger teams of both static and mobile agents.
翻訳日:2021-03-11 07:46:48 公開日:2021-03-08
# (参考訳) AfriVEC: アフリカ語のための単語埋め込みモデル。 Fon と Nobiin のケーススタディ [全文訳有]

AfriVEC: Word Embedding Models for African Languages. Case Study of Fon and Nobiin ( http://arxiv.org/abs/2103.05132v1 )

ライセンス: CC BY 4.0
Bonaventure F. P. Dossou and Mohammed Sabry(参考訳) Word2VecからGloVeまで、単語埋め込みモデルは、自然言語処理で達成された最新の結果において重要な役割を果たしています。 単語と実体の有意かつユニークなベクトル化表現を与えるために設計されたこれらのモデルは、効率的に類似性を抽出し、単語と実体間の意味的および文脈的意味を反映した関係を確立することが証明されている。 アフリカ諸言語は世界の話し言葉の31%以上を占めており、近年多くの研究の対象となっている。 しかしながら、私たちの知る限りでは、これらの言語に対する単語埋め込みモデルはほとんど存在せず、本論文では研究中の言語については存在していない。 Glove, Word2Vec, Poincar\'e の埋め込み機能を説明した後、Fon と Nobiin 用の Word2Vec と Poincar\'e ワード埋め込みモデルを構築し、有望な結果を示す。 アフリカ言語が資源不足の緩和に協力するランドマークとして、これらのモデル間の移動学習の適用可能性をテストし、その結果の言語的および社会的解釈を提供することを試みる。 私たちの主な貢献は、アフリカン言語に適した単語埋め込みモデルの作成に関心を喚起し、使用の準備ができ、自然言語処理の下流タスクのパフォーマンスを大幅に改善できることです。 公式リポジトリと実装はhttps://github.com/b onaventuredossou/afr ivec

From Word2Vec to GloVe, word embedding models have played key roles in the current state-of-the-art results achieved in Natural Language Processing. Designed to give significant and unique vectorized representations of words and entities, those models have proven to efficiently extract similarities and establish relationships reflecting semantic and contextual meaning among words and entities. African Languages, representing more than 31% of the worldwide spoken languages, have recently been subject to lots of research. However, to the best of our knowledge, there are currently very few to none word embedding models for those languages words and entities, and none for the languages under study in this paper. After describing Glove, Word2Vec, and Poincar\'e embeddings functionalities, we build Word2Vec and Poincar\'e word embedding models for Fon and Nobiin, which show promising results. We test the applicability of transfer learning between these models as a landmark for African Languages to jointly involve in mitigating the scarcity of their resources, and attempt to provide linguistic and social interpretations of our results. Our main contribution is to arouse more interest in creating word embedding models proper to African Languages, ready for use, and that can significantly improve the performances of Natural Language Processing downstream tasks on them. The official repository and implementation is at https://github.com/b onaventuredossou/afr ivec
翻訳日:2021-03-11 06:05:50 公開日:2021-03-08
# (参考訳) 実世界のオブジェクト分類を考える

Contemplating real-world object classification ( http://arxiv.org/abs/2103.05137v1 )

ライセンス: CC BY 4.0
Ali Borji(参考訳) ディープオブジェクト認識モデルはimagenetのようなベンチマークデータセットで非常に成功しています。 データセットの自然と合成のバリエーションから生じる分布の変化は、どの程度正確で堅牢か? この問題に関する以前の研究は、主にImageNetのバリエーション(ImageNetV2、ImageNet-Aなど)に焦点を当てていた。 これらの研究で潜在的な偏りを避けるために、異なるアプローチを取る。 具体的には、Barbuらが最近提案したObjectNetデータセットを再分析します。 日常の状況に物を含むこと。 彼らはこのデータセット上のアートオブジェクト認識モデルの状態の劇的なパフォーマンス低下を示した。 深層モデルの一般化能力に関するそれらの結果の重要性と意義のために、我々は彼らの分析をもう一度見ます。 分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。 Barbu et al.で報告された数字と比較して、パフォーマンス損失の約10-15%は、テスト時間データ増強なしで回復される。 しかし、この増加にもかかわらず、深いモデルはObjectNetデータセットに深刻な被害を被っていると結論付けます。 また、幾何学的変換(スケール、回転、翻訳など)、自然な画像歪み(インパルスノイズ、ボケなど)、敵対的な攻撃(FGSMやPGD-5など)などの合成画像の摂動に対するモデルの堅牢性についても調査する。 以上の結果から,オブジェクト領域の制限(画像全体から境界ボックスからセグメンテーションマスクまで)は,精度とロバスト性において一貫した改善をもたらすことが示唆された。

Deep object recognition models have been very successful over benchmark datasets such as ImageNet. How accurate and robust are they to distribution shifts arising from natural and synthetic variations in datasets? Prior research on this problem has primarily focused on ImageNet variations (e.g., ImageNetV2, ImageNet-A). To avoid potential inherited biases in these studies, we take a different approach. Specifically, we reanalyze the ObjectNet dataset recently proposed by Barbu et al. containing objects in daily life situations. They showed a dramatic performance drop of the state of the art object recognition models on this dataset. Due to the importance and implications of their results regarding the generalization ability of deep models, we take a second look at their analysis. We find that applying deep models to the isolated objects, rather than the entire scene as is done in the original paper, results in around 20-30% performance improvement. Relative to the numbers reported in Barbu et al., around 10-15% of the performance loss is recovered, without any test time data augmentation. Despite this gain, however, we conclude that deep models still suffer drastically on the ObjectNet dataset. We also investigate the robustness of models against synthetic image perturbations such as geometric transformations (e.g., scale, rotation, translation), natural image distortions (e.g., impulse noise, blur) as well as adversarial attacks (e.g., FGSM and PGD-5). Our results indicate that limiting the object area as much as possible (i.e., from the entire image to the bounding box to the segmentation mask) leads to consistent improvement in accuracy and robustness.
翻訳日:2021-03-11 05:34:23 公開日:2021-03-08
# (参考訳) ディープラーニングのモデル複雑性:調査

Model Complexity of Deep Learning: A Survey ( http://arxiv.org/abs/2103.05127v1 )

ライセンス: CC BY 4.0
Xia Hu, Lingyang Chu, Jian Pei, Weiqing Liu and Jiang Bian(参考訳) モデルの複雑さはディープラーニングの基本的な問題です。 本稿では,深層学習におけるモデル複雑性に関する最新の研究を体系的に概観する。 ディープラーニングのモデルの複雑さは、表現力と効果的なモデルの複雑さに分類できる。 本稿では,これら2つのカテゴリに関する既存研究について,モデルフレームワーク,モデルサイズ,最適化プロセス,データ複雑性の4つの重要な要因について概説する。 また,モデル一般化能力の理解,モデル最適化,モデル選択と設計など,ディープラーニングモデル複雑性の応用についても論じる。 我々はいくつかの興味深い将来の方向性を提案して締めくくる。

Model complexity is a fundamental problem in deep learning. In this paper we conduct a systematic overview of the latest studies on model complexity in deep learning. Model complexity of deep learning can be categorized into expressive capacity and effective model complexity. We review the existing studies on those two categories along four important factors, including model framework, model size, optimization process and data complexity. We also discuss the applications of deep learning model complexity including understanding model generalization capability, model optimization, and model selection and design. We conclude by proposing several interesting future directions.
翻訳日:2021-03-11 05:02:51 公開日:2021-03-08
# (参考訳) 不確実性下での近接探索 [全文訳有]

Nearest Neighbor Search Under Uncertainty ( http://arxiv.org/abs/2103.05057v1 )

ライセンス: CC BY 4.0
Blake Mason, Ardhendu Tripathy, Robert Nowak(参考訳) Nearest Neighbor Search (NNS) は知識表現、学習、推論の中心的なタスクである。 データ構造を構築し、正確なNNSを実行するための効率的なアルゴリズムに関する膨大な文献がある。 本論文ではNNSを不確実性(NNSU)下で研究する。 具体的には、nnsアルゴリズムが、正確な距離ではなく、任意の対の点間の距離のノイズ、偏りのない推定を提供する確率的距離オラクルにのみアクセスする設定を考える。 このモデルは、人間の類似性判定に基づくnn、物理的測定、正確な距離に対する高速ランダム近似など、実用上重要な多くの状況をモデル化している。 NNSUに対する単純なアプローチは、標準的なNNSアルゴリズムを使用して、対距離が必要なときに確率的オラクル(ノイズを減らすために)から繰り返しクエリし、平均的な結果を得ることができる。 問題は、十分な数の繰り返しクエリが事前に分かっていないことであり、例えば、ある点が他の1つの点以外の点(距離推定の精度)から遠ざかる場合や、他の点に近い場合(正確な推定が必要となる場合)である。 本論文では,データセットサイズとデータセットの(未知の)ジオメトリに最適に依存するNNSUアルゴリズムの開発に,カバーツリーとマルチアームバンディットのアイデアをどのように活用できるかを示す。

Nearest Neighbor Search (NNS) is a central task in knowledge representation, learning, and reasoning. There is vast literature on efficient algorithms for constructing data structures and performing exact and approximate NNS. This paper studies NNS under Uncertainty (NNSU). Specifically, consider the setting in which an NNS algorithm has access only to a stochastic distance oracle that provides a noisy, unbiased estimate of the distance between any pair of points, rather than the exact distance. This models many situations of practical importance, including NNS based on human similarity judgements, physical measurements, or fast, randomized approximations to exact distances. A naive approach to NNSU could employ any standard NNS algorithm and repeatedly query and average results from the stochastic oracle (to reduce noise) whenever it needs a pairwise distance. The problem is that a sufficient number of repeated queries is unknown in advance; e.g., a point maybe distant from all but one other point (crude distance estimates suffice) or it may be close to a large number of other points (accurate estimates are necessary). This paper shows how ideas from cover trees and multi-armed bandits can be leveraged to develop an NNSU algorithm that has optimal dependence on the dataset size and the (unknown)geometry of the dataset.
翻訳日:2021-03-11 04:14:50 公開日:2021-03-08
# (参考訳) 条件付き核平均埋め込みによる二項分類の回帰関数の厳密分布フリー仮説検定 [全文訳有]

Exact Distribution-Free Hypothesis Tests for the Regression Function of Binary Classification via Conditional Kernel Mean Embeddings ( http://arxiv.org/abs/2103.05126v1 )

ライセンス: CC BY 4.0
Ambrus Tam\'as, Bal\'azs Csan\'ad Cs\'aji(参考訳) 本稿では,条件付き核平均埋め込みに基づく二項分類の回帰関数に対する2つの統計的仮説テストを提案する。 回帰関数はベイズ最適分類器と誤分類確率の両方を決定するため、分類の基本的な対象である。 リサンプリングベースのフレームワークを適用し、条件付きカーネル平均マップの一貫した点推定子と組み合わせて、分散フリーな仮説テストを構築する。 これらのテストは柔軟な方法で導入され、I型エラーの正確な確率を制御できます。 また,両手法が弱い統計的仮定,すなわち,ii型誤差確率はゼロに収束することを示した。

In this paper we suggest two statistical hypothesis tests for the regression function of binary classification based on conditional kernel mean embeddings. The regression function is a fundamental object in classification as it determines both the Bayes optimal classifier and the misclassification probabilities. A resampling based framework is applied and combined with consistent point estimators for the conditional kernel mean map to construct distribution-free hypothesis tests. These tests are introduced in a flexible manner allowing us to control the exact probability of type I error. We also prove that both proposed techniques are consistent under weak statistical assumptions, i.e., the type II error probabilities pointwise converge to zero.
翻訳日:2021-03-11 03:26:17 公開日:2021-03-08
# (参考訳) 森林ガイドスムージング

Forest Guided Smoothing ( http://arxiv.org/abs/2103.05092v1 )

ライセンス: CC BY 4.0
Isabella Verdinelli and Larry Wasserman(参考訳) 我々はランダムな森林の出力を用いて、空間適応帯域幅行列を持つ局所スムースラーの族を定義する。 スムーズさは原林の柔軟性を継承するが、単純で直線的なスムーズさのため、非常に解釈可能であり、原林にとって難易度の高い作業に使用できる。 これにはバイアスの補正、信頼区間、変数の重要性の評価、森林の構造を探索する方法が含まれる。 本手法は,いくつかの合成例とcovid-19関連データについて述べる。

We use the output of a random forest to define a family of local smoothers with spatially adaptive bandwidth matrices. The smoother inherits the flexibility of the original forest but, since it is a simple, linear smoother, it is very interpretable and it can be used for tasks that would be intractable for the original forest. This includes bias correction, confidence intervals, assessing variable importance and methods for exploring the structure of the forest. We illustrate the method on some synthetic examples and on data related to Covid-19.
翻訳日:2021-03-11 02:31:32 公開日:2021-03-08
# (参考訳) CovidGAN:Covid-19の検出改善のための補助分類器GANを用いたデータ拡張 [全文訳有]

CovidGAN: Data Augmentation Using Auxiliary Classifier GAN for Improved Covid-19 Detection ( http://arxiv.org/abs/2103.05094v1 )

ライセンス: CC BY 4.0
Abdul Waheed, Muskan Goyal, Deepak Gupta, Ashish Khanna, Fadi Al-Turjman, Placido Rogerio Pinheiro(参考訳) ウイルス(covid-19)は、重症急性呼吸器症候群(sars-cov-2)によるウイルス性疾患である。 新型コロナウイルスの感染拡大は世界経済と健康に有害な影響を及ぼしているようだ。 感染した患者の胸部X線は、新型コロナウイルスとの戦いにおいて重要なステップである。 初期の結果は、covid-19を示唆する患者の胸部x線に異常が存在することを示唆している。 この結果、様々な深層学習システムが導入され、研究により、胸部X線を用いた新型コロナウイルス患者検出の精度が強く楽観的であることが示されている。 convolutional neural networks(cnns)のようなディープラーニングネットワークは、かなりの量のトレーニングデータを必要とする。 発生は最近のため、このような短期間でかなりの数のX線写真画像を集めることは困難です。 そこで本研究では,Auxiliary Classifier Generative Adversarial Network (ACGAN) ベースの CovidGAN モデルを開発し,合成胸部X線(CXR)画像を生成する手法を提案する。 さらに,CovidGANから生成した合成画像を用いて,CNNによる新型コロナウイルス検出の性能向上を実証した。 CNNの分類だけで85%の精度が得られた。 covidganの合成画像を追加することで、精度は95%まで向上した。 この方法がcovid-19検出をスピードアップし、より堅牢な放射線治療システムにつながることを願っています。

Coronavirus (COVID-19) is a viral disease caused by severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2). The spread of COVID-19 seems to have a detrimental effect on the global economy and health. A positive chest X-ray of infected patients is a crucial step in the battle against COVID-19. Early results suggest that abnormalities exist in chest X-rays of patients suggestive of COVID-19. This has led to the introduction of a variety of deep learning systems and studies have shown that the accuracy of COVID-19 patient detection through the use of chest X-rays is strongly optimistic. Deep learning networks like convolutional neural networks (CNNs) need a substantial amount of training data. Because the outbreak is recent, it is difficult to gather a significant number of radiographic images in such a short time. Therefore, in this research, we present a method to generate synthetic chest X-ray (CXR) images by developing an Auxiliary Classifier Generative Adversarial Network (ACGAN) based model called CovidGAN. In addition, we demonstrate that the synthetic images produced from CovidGAN can be utilized to enhance the performance of CNN for COVID-19 detection. Classification using CNN alone yielded 85% accuracy. By adding synthetic images produced by CovidGAN, the accuracy increased to 95%. We hope this method will speed up COVID-19 detection and lead to more robust systems of radiology.
翻訳日:2021-03-11 02:30:41 公開日:2021-03-08
# (参考訳) 半監視型残存型注意誘導畳み込みニューラルネットワークによるASL-PET翻訳 [全文訳有]

ASL to PET Translation by a Semi-supervised Residual-based Attention-guided Convolutional Neural Network ( http://arxiv.org/abs/2103.05116v1 )

ライセンス: CC BY 4.0
Sahar Yousefi, Hessam Sokooti, Wouter M. Teeuwisse, Dennis F.R. Heijtel, Aart J. Nederveen, Marius Staring, Matthias J.P. van Osch(参考訳) ポジトロン放出トモグラフィ(PET)は、脳灌流やグルコース摂取を測定することで、構造的障害ではなく生理機能を評価することができるイメージング方法です。 しかし、このイメージング技術は放射性トレーサの注入に依存し、高価です。 それとは対照的に、Arterial Spin Labeling (ASL) MRIは、脳血行動態測定のための非侵襲的、非放射能的、比較的安価なイメージング技術であり、ある程度の定量化を可能にする。 本稿では,ASLをPET画像に変換する畳み込みニューラルネットワーク(CNN)を用いたモデルを提案する。 しかし、CNNを訓練するために十分な数のASL-PETスキャンを取得することは、多くの理由から禁止されている。 この問題に対処するために、我々は、両方のペアデータ、すなわち、訓練されている新しい半教師付きマルチタスクCNNを提示する。 ASLとPETはスキャンし、無対数データ、すなわち。 限られたペアデータでネットワークをトレーニングする問題を緩和するaslスキャンのみである。 さらに、トレーニングプロセス中にコンテキスト機能を改善するための新しい残余ベースの注意ガイドメカニズムを紹介します。 また,T1重み付きスキャンを入力として組み込むことにより,その高解像度化と解剖学的情報の提供により,結果が向上することを示した。 7倍のクロス検証を行い, 定量的画像計測に基づく2段階評価を行い, 二重盲検実験を行った。 提案ネットワークは,2次元ASLおよびT1重み付き画像からPETデータへの変換において,構造類似度指数(SSIM),平均二乗誤差(MSE),ピーク信号-雑音比(PSNR)の値が0.85\pm0.08$,$0.01\p m0.01$,$1.8\pm4.5$を達成した。 提案モデルはhttps://github.com/y ousefis/asl2petで公開されている。

Positron Emission Tomography (PET) is an imaging method that can assess physiological function rather than structural disturbances by measuring cerebral perfusion or glucose consumption. However, this imaging technique relies on injection of radioactive tracers and is expensive. On the contrary, Arterial Spin Labeling (ASL) MRI is a non-invasive, non-radioactive, and relatively cheap imaging technique for brain hemodynamic measurements, which allows quantification to some extent. In this paper we propose a convolutional neural network (CNN) based model for translating ASL to PET images, which could benefit patients as well as the healthcare system in terms of expenses and adverse side effects. However, acquiring a sufficient number of paired ASL-PET scans for training a CNN is prohibitive for many reasons. To tackle this problem, we present a new semi-supervised multitask CNN which is trained on both paired data, i.e. ASL and PET scans, and unpaired data, i.e. only ASL scans, which alleviates the problem of training a network on limited paired data. Moreover, we present a new residual-based-atten tion guided mechanism to improve the contextual features during the training process. Also, we show that incorporating T1-weighted scans as an input, due to its high resolution and availability of anatomical information, improves the results. We performed a two-stage evaluation based on quantitative image metrics by conducting a 7-fold cross validation followed by a double-blind observer study. The proposed network achieved structural similarity index measure (SSIM), mean squared error (MSE) and peak signal-to-noise ratio (PSNR) values of $0.85\pm0.08$, $0.01\pm0.01$, and $21.8\pm4.5$ respectively, for translating from 2D ASL and T1-weighted images to PET data. The proposed model is publicly available via https://github.com/y ousefis/ASL2PET.
翻訳日:2021-03-11 02:15:02 公開日:2021-03-08
# (参考訳) 基底細胞癌(BCC)の皮膚病理学的評価を支援するセマンティックセグメンテーションのための深い監視UNet [全文訳有]

Deeply supervised UNet for semantic segmentation to assist dermatopathological assessment of Basal Cell Carcinoma (BCC) ( http://arxiv.org/abs/2103.03759v2 )

ライセンス: CC BY 4.0
Jean Le'Clerc Arrastia, Nick Heilenk\"otter, Daniel Otero Baguer, Lena Hauberg-Lotte, Tobias Boskamp, Sonja Hetzer, Nicole Duschner, J\"org Schaller, and Peter Maa{\ss}(参考訳) 切除マージンの正確かつ迅速な評価は、皮膚病理学者の臨床ルーチンの重要な部分です。 本研究は,全スライド画像(WSI)に病的特徴を示す確率の高い重要な領域をマークすることで,病理医を支援する深層学習手法の開発に成功した。 unetアーキテクチャに基づく複数のモデルを用いた意味セグメンテーションによる基底細胞癌(bcc)の検出に焦点を当てた。 この研究には650のWSIと3443の組織セクションが含まれている。 2人の臨床皮膚病理医が、腫瘍組織の正確な位置を100 WSIで記録した。 残りの部分的なラベル付きデータは、モデルをさらに検証し、テストするために使用される。 我々は,UNetネットワークの最初の部分における2つの異なるエンコーダと,さらに2つのトレーニング戦略を解析する。a)Decoder出力の線形結合,b)Decoder出力の各ケースにおけるネットワークのデコーダの動作に関する解釈を得る。 最高のモデルは、テストセット上の96%、精度、感度、および特異性を達成します。

Accurate and fast assessment of resection margins is an essential part of a dermatopathologist&# x27;s clinical routine. In this work, we successfully develop a deep learning method to assist the pathologists by marking critical regions that have a high probability of exhibiting pathological features in Whole Slide Images (WSI). We focus on detecting Basal Cell Carcinoma (BCC) through semantic segmentation using several models based on the UNet architecture. The study includes 650 WSI with 3443 tissue sections in total. Two clinical dermatopathologists annotated the data, marking tumor tissues' exact location on 100 WSI. The rest of the data, with ground-truth section-wise labels, is used to further validate and test the models. We analyze two different encoders for the first part of the UNet network and two additional training strategies: a) deep supervision, b) linear combination of decoder outputs, and obtain some interpretations about what the network's decoder does in each case. The best model achieves over 96%, accuracy, sensitivity, and specificity on the test set.
翻訳日:2021-03-11 00:53:28 公開日:2021-03-08
# (参考訳) フラクタルを用いたスケール不変ロボット挙動 [全文訳有]

Scale invariant robot behavior with fractals ( http://arxiv.org/abs/2103.04876v1 )

ライセンス: CC BY 4.0
Sam Kriegman, Amir Mohammadi Nasab, Douglas Blackiston, Hannah Steele, Michael Levin, Rebecca Kramer-Bottiglio, Josh Bongard(参考訳) ロボットは、大きさの異なるスケールの順序で展開され、それらのスケールのいずれかで同じ望ましい動作を維持することで、ロボットが動作できる環境を大幅に拡張します。 しかし、現在そのようなロボットが存在するのか、もし存在すればどのように設計するかは分かっていない。 自然の自己類似構造は、しばしば異なるスケールで自己類似の挙動を示すため、同じ性質を持つロボット設計が存在する可能性があると仮定する。 小型で望ましい動作を示すロボット設計と、同じ設計を高いスケールで実現するためにそのロボットのコピーが一緒に取り付けられている場合、それらの大きなロボットは同様の行動を示す。 進化的アルゴリズムを用いてシミュレーションでそのような設計を見つける方法を示す。 また、フラクタルアタッチメントを想定せず、ベースロボットユニットの設計とともにアタッチメント形状を進化させなければならず、スケール不変の挙動は達成されず、適切な設計と組み合わせると構造的自己類似性がスケール不変のロボット動作を実現する有用な道であることを示す。 本研究では,空気圧制御型ソフトロボットへの自己類似構造と挙動の伝達に成功していることを実証した。 最後に, バイオボットが自発的に自己類似のアタッチメントジオメトリを提示できることを示し, 今後, 多様なロボットプラットフォームにおいて自己類似構造による自己類似行動が実現可能になることを示唆する。

Robots deployed at orders of magnitude different size scales, and that retain the same desired behavior at any of those scales, would greatly expand the environments in which the robots could operate. However it is currently not known whether such robots exist, and, if they do, how to design them. Since self similar structures in nature often exhibit self similar behavior at different scales, we hypothesize that there may exist robot designs that have the same property. Here we demonstrate that this is indeed the case for some, but not all, modular soft robots: there are robot designs that exhibit a desired behavior at a small size scale, and if copies of that robot are attached together to realize the same design at higher scales, those larger robots exhibit similar behavior. We show how to find such designs in simulation using an evolutionary algorithm. Further, when fractal attachment is not assumed and attachment geometries must thus be evolved along with the design of the base robot unit, scale invariant behavior is not achieved, demonstrating that structural self similarity, when combined with appropriate designs, is a useful path to realizing scale invariant robot behavior. We validate our findings by demonstrating successful transferal of self similar structure and behavior to pneumatically-contro lled soft robots. Finally, we show that biobots can spontaneously exhibit self similar attachment geometries, thereby suggesting that self similar behavior via self similar structure may be realizable across a wide range of robot platforms in future.
翻訳日:2021-03-11 00:31:45 公開日:2021-03-08
# (参考訳) 予測的ビジュアルトラッキング:新しいベンチマークとベースラインアプローチ [全文訳有]

Predictive Visual Tracking: A New Benchmark and Baseline Approach ( http://arxiv.org/abs/2103.04508v1 )

ライセンス: CC BY 4.0
Bowen Li, Yiming Li, Junjie Ye, Changhong Fu, and Hang Zhao(参考訳) ロボットの知覚能力として、視覚追跡は近年集中的に研究されている。 実世界のシナリオでは、画像ストリームのオンボード処理時間が必然的に追跡結果と実世界の状態との間に不一致をもたらす。 しかし、既存のビジュアルトラッキングベンチマークは、一般的にトラッカーをオフラインで実行し、評価においてそのような遅延を無視する。 本研究は,より現実的な遅延認識トラッキング問題に対処することを目的としている。 最新のトラッカーは、航空シナリオで評価され、追跡精度と効率を共同で評価します。 さらに、オンボード計算によるレイテンシを補償するために、新たな予測ビジュアルトラッキングベースラインを開発した。 当社の遅延認識ベンチマークは、ロボットアプリケーション用のトラッカーのより現実的な評価を提供することができます。 さらに,提案手法の有効性を徹底的に検証する実験を行った。

As a crucial robotic perception capability, visual tracking has been intensively studied recently. In the real-world scenarios, the onboard processing time of the image streams inevitably leads to a discrepancy between the tracking results and the real-world states. However, existing visual tracking benchmarks commonly run the trackers offline and ignore such latency in the evaluation. In this work, we aim to deal with a more realistic problem of latency-aware tracking. The state-of-the-art trackers are evaluated in the aerial scenarios with new metrics jointly assessing the tracking accuracy and efficiency. Moreover, a new predictive visual tracking baseline is developed to compensate for the latency stemming from the onboard computation. Our latency-aware benchmark can provide a more realistic evaluation of the trackers for the robotic applications. Besides, exhaustive experiments have proven the effectiveness of the proposed predictive visual tracking baseline approach.
翻訳日:2021-03-10 22:57:02 公開日:2021-03-08
# (参考訳) パンスハーピングのための深度グラデーションネットワーク [全文訳有]

Deep Gradient Projection Networks for Pan-sharpening ( http://arxiv.org/abs/2103.04584v1 )

ライセンス: CC BY 4.0
Shuang Xu and Jiangshe Zhang and Zixiang Zhao and Kai Sun and Junmin Liu and Chunxia Zhang(参考訳) Pan-sharpeningは、高分解能マルチスペクトル画像を得るためにリモートセンシングイメージングシステムにとって重要な技術です。 最近、深層学習はパンシャーペンの最も一般的なツールとなっています。 本稿では,モデルに基づくディープパンシャーピング手法を提案する。 具体的には,2つの最適化問題を事前に定式化し,パンクロマティック画像の生成モデルと低分解能マルチスペクトル画像に別々に責任を負う。 次に、2つの問題を勾配投影アルゴリズムにより解き、反復ステップを2つのネットワークブロックに一般化する。 代わりに2ブロックを積み重ねることで、勾配投射に基づくパンシャーピングニューラルネットワークと呼ばれる新しいネットワークが構築される。 さまざまな種類の衛星データセットの実験結果は、新しいネットワークが視覚的および定量的に最先端の方法よりも優れていることを示しています。 コードはhttps://github.com/x sxjtu/GPPNNで入手できる。

Pan-sharpening is an important technique for remote sensing imaging systems to obtain high resolution multispectral images. Recently, deep learning has become the most popular tool for pan-sharpening. This paper develops a model-based deep pan-sharpening approach. Specifically, two optimization problems regularized by the deep prior are formulated, and they are separately responsible for the generative models for panchromatic images and low resolution multispectral images. Then, the two problems are solved by a gradient projection algorithm, and the iterative steps are generalized into two network blocks. By alternatively stacking the two blocks, a novel network, called gradient projection based pan-sharpening neural network, is constructed. The experimental results on different kinds of satellite datasets demonstrate that the new network outperforms state-of-the-art methods both visually and quantitatively. The codes are available at https://github.com/x sxjtu/GPPNN.
翻訳日:2021-03-10 22:37:38 公開日:2021-03-08
# (参考訳) 再生可能資源予測のための機械学習類似度指標を用いた気象アナログ

Weather Analogs with a Machine Learning Similarity Metric for Renewable Resource Forecasting ( http://arxiv.org/abs/2103.04530v1 )

ライセンス: CC BY 4.0
Weiming Hu, Guido Cervone, George Young, Luca Delle Monache(参考訳) アナログアンサンブル(AnEn)技術はいくつかの気象問題に有効であることが示されている。 大規模な空間領域と拡張時空間ウィンドウ内で検索される以前の気象アナログとは異なり、AnEnは空間と時間を厳密に制限し、短い時間ウィンドウ内で各グリッドポイントで結果を独立に生成する。 AnEnは、正確で校正されたアンサンブル予測につながる同様の予測を見つけることができる。 AnEnテクニックのコアとなるのは、新しいターゲット予測に関して、過去の予測をソートする類似度メトリックである。 一般的に用いられる計量はユークリッド距離である。 しかし、この計量を用いた大きな困難は、全てのパラメータに対する重みの定義である。 一般に、特徴選択と広範な重み検索が必要である。 本稿では、機械学習(ML)に基づく類似度指標による気象アナログの新しい定義を提案する。 類似度メトリックは、トレーニングされたニューラルネットワークを使用して、天気アナログを検索する。 この新しいメトリックは、事前の機能選択と重み付けの最適化を必要とせずに、すべての変数を組み込むことができる。 風速と太陽照度を予測するための新しい測定器の適用について実験を行った。 その結果、MLメトリックは一般的に元のメトリックよりも優れています。 MLメトリックは、より大きなエラーを修正し、より大きな検索レポジトリを活用できる優れた機能を備えている。 学習したメトリックを用いた空間予測は、他の場所に転送可能な効果的な潜在機能を定義する能力も示す。

The Analog Ensemble (AnEn) technique has been shown effective on several weather problems. Unlike previous weather analogs that are sought within a large spatial domain and an extended temporal window, AnEn strictly confines space and time, and independently generates results at each grid point within a short time window. AnEn can find similar forecasts that lead to accurate and calibrated ensemble forecasts. The central core of the AnEn technique is a similarity metric that sorts historical forecasts with respect to a new target prediction. A commonly used metric is Euclidean distance. However, a significant difficulty using this metric is the definition of the weights for all the parameters. Generally, feature selection and extensive weight search are needed. This paper proposes a novel definition of weather analogs through a Machine Learning (ML) based similarity metric. The similarity metric uses neural networks that are trained and instantiated to search for weather analogs. This new metric allows incorporating all variables without requiring a prior feature selection and weight optimization. Experiments are presented on the application of this new metric to forecast wind speed and solar irradiance. Results show that the ML metric generally outperforms the original metric. The ML metric has a better capability to correct for larger errors and to take advantage of a larger search repository. Spatial predictions using a learned metric also show the ability to define effective latent features that are transferable to other locations.
翻訳日:2021-03-10 21:52:33 公開日:2021-03-08
# (参考訳) 未知の順序決定問題とゲームにおけるモデルフリーオンライン学習 [全文訳有]

Model-Free Online Learning in Unknown Sequential Decision Making Problems and Games ( http://arxiv.org/abs/2103.04539v1 )

ライセンス: CC BY 4.0
Gabriele Farina, Tuomas Sandholm(参考訳) 後悔の最小化は、ツリー形式のシーケンシャルな意思決定と広範囲なフォームゲームのための多用途なツールであることが証明されている。 大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。 Most regret-minimization algorithms for tree-form sequential decision making, including CFR, require (i) an exact model of the player's decision nodes, observation nodes, and how they are linked, and (ii) full knowledge, at all times t, about the payoffs -- even in parts of the decision space that are not encountered at time t. Recently, there has been growing interest towards relaxing some of those restrictions and making regret minimization applicable to settings for which reinforcement learning methods have traditionally been used -- for example, those in which only black-box access to the environment is available. 私たちはまず,要件(i) -- そして(ii) -- が削除された場合でも,サブリニアな後悔を高い確率で保証する,後悔最小化アルゴリズムを与えます。 我々は,戦略空間がエージェントに知られず,エージェントが新たな決定点に遭遇するたびに徐々に明らかにされるオンライン学習設定を定式化する。 我々は,エージェントが敵の環境に直面する場合であっても,その設定に高い確率で,$O(T^{3/4})の後悔を達成できる効率的なアルゴリズムを与える。 私たちの実験では、そのような保証がない問題の以前のアルゴリズムを大幅に上回ることが示されています。 後悔の最小化が有用であるアプリケーションには、ナッシュ平衡または量子応答平衡の近似、マルチプレイヤーゲームにおける粗い相関平衡の近似、最良の反応の学習、安全な相手の搾取の学習、未知の相手/環境に対するオンラインプレイなどがある。

Regret minimization has proved to be a versatile tool for tree-form sequential decision making and extensive-form games. In large two-player zero-sum imperfect-informatio n games, modern extensions of counterfactual regret minimization (CFR) are currently the practical state of the art for computing a Nash equilibrium. Most regret-minimization algorithms for tree-form sequential decision making, including CFR, require (i) an exact model of the player's decision nodes, observation nodes, and how they are linked, and (ii) full knowledge, at all times t, about the payoffs -- even in parts of the decision space that are not encountered at time t. Recently, there has been growing interest towards relaxing some of those restrictions and making regret minimization applicable to settings for which reinforcement learning methods have traditionally been used -- for example, those in which only black-box access to the environment is available. We give the first, to our knowledge, regret-minimization algorithm that guarantees sublinear regret with high probability even when requirement (i) -- and thus also (ii) -- is dropped. We formalize an online learning setting in which the strategy space is not known to the agent and gets revealed incrementally whenever the agent encounters new decision points. We give an efficient algorithm that achieves $O(T^{3/4})$ regret with high probability for that setting, even when the agent faces an adversarial environment. Our experiments show it significantly outperforms the prior algorithms for the problem, which do not have such guarantees. It can be used in any application for which regret minimization is useful: approximating Nash equilibrium or quantal response equilibrium, approximating coarse correlated equilibrium in multi-player games, learning a best response, learning safe opponent exploitation, and online play against an unknown opponent/environment .
翻訳日:2021-03-10 21:51:27 公開日:2021-03-08
# (参考訳) 逐次決定と拡張形式ゲームのための帯域線形最適化

Bandit Linear Optimization for Sequential Decision Making and Extensive-Form Games ( http://arxiv.org/abs/2103.04546v1 )

ライセンス: CC BY 4.0
Gabriele Farina, Robin Schmucker, Tuomas Sandholm(参考訳) tree-form sequential decision making (tfsdm) は、エージェントと潜在的に敵対的な環境の間のツリー形式の相互作用をモデル化することで、古典的なワンショット意思決定を拡張する。 これは、各プレイヤーが幅広い形式のゲームで直面するオンライン意思決定問題、およびマルコフ決定プロセス、およびエージェントが観測された履歴を条件とする部分観察可能なマルコフ決定プロセスをキャプチャする。 過去10年間で、TFSDMのオンライン最適化手法の設計に多大な努力が払われてきた。 エージェントは反事実、すなわち、エージェントが任意の決定ノードで異なるアクションを選択した場合に何が起こったかに関する情報にアクセスすることができます。 バンディット設定についてはほとんど知られていないが、この仮定は逆転し(偽情報はない)、後者の設定は1ショットの意思決定で約20年間よく理解されている。 本稿では、(i)線形時間反復(決定木の大きさ)と(ii) $O(\sqrt{T})$ 累積後悔を、任意の固定戦略と比較して常に$T$で提供するTFSDMのバンドライト線形最適化問題のための最初のアルゴリズムを与える。 1) 拡張エントロピー正則化器の幾何構造, 2) シーケンス形式戦略のための自然サンプリングスキームの自己相関行列, 3) シーケンス形式正則化器を使用する場合の鏡面下降に対する不偏推定器の構成, 4) 拡張エントロピー正則化器を用いた鏡面下降に対する厳格な後悔解析などである。

Tree-form sequential decision making (TFSDM) extends classical one-shot decision making by modeling tree-form interactions between an agent and a potentially adversarial environment. It captures the online decision-making problems that each player faces in an extensive-form game, as well as Markov decision processes and partially-observable Markov decision processes where the agent conditions on observed history. Over the past decade, there has been considerable effort into designing online optimization methods for TFSDM. Virtually all of that work has been in the full-feedback setting, where the agent has access to counterfactuals, that is, information on what would have happened had the agent chosen a different action at any decision node. Little is known about the bandit setting, where that assumption is reversed (no counterfactual information is available), despite this latter setting being well understood for almost 20 years in one-shot decision making. In this paper, we give the first algorithm for the bandit linear optimization problem for TFSDM that offers both (i) linear-time iterations (in the size of the decision tree) and (ii) $O(\sqrt{T})$ cumulative regret in expectation compared to any fixed strategy, at all times $T$. This is made possible by new results that we derive, which may have independent uses as well: 1) geometry of the dilated entropy regularizer, 2) autocorrelation matrix of the natural sampling scheme for sequence-form strategies, 3) construction of an unbiased estimator for linear losses for sequence-form strategies, and 4) a refined regret analysis for mirror descent when using the dilated entropy regularizer.
翻訳日:2021-03-10 20:50:11 公開日:2021-03-08
# (参考訳) 柔軟かつ効率的なuavスウォーム制御のための分散強化学習

Distributed Reinforcement Learning for Flexible and Efficient UAV Swarm Control ( http://arxiv.org/abs/2103.04666v1 )

ライセンス: CC BY-SA 4.0
Federico Venturini, Federico Mason, Francesco Pase, Federico Chiariotti, Alberto Testolin, Andrea Zanella, Michele Zorzi(参考訳) 過去数年間、無人航空機(uav)の群れが監視や遠隔地監視の用途に利用され、価格の引き下げとドローンの能力の増大により普及してきた。 群れのドローンは、動きを最小限に抑えながら、興味深い目標を特定し、監視するために、未知の領域を共同で探索する必要がある。 本研究では,より大きな群にスケールアップする分散強化学習(RL)手法を提案する。 提案したフレームワークは、UAVが通信チャネルを介して情報交換を行う可能性に依存しており、コンテキスト認識を実現し、Swarmの動作を暗黙的に調整する。 提案手法は,通信路障害に対して頑健であり,目標や障害物の非一様分布に容易に対応できる効果的な戦略が得られることを示す。 さらに、エージェントが特定のシナリオでトレーニングされると、最小限の追加トレーニングで新しいものに適応できます。 また,本手法は,計算集約的なルックアヘッドヒューリスティックよりも優れた性能を示すことを示す。

Over the past few years, the use of swarms of Unmanned Aerial Vehicles (UAVs) in monitoring and remote area surveillance applications has become widespread thanks to the price reduction and the increased capabilities of drones. The drones in the swarm need to cooperatively explore an unknown area, in order to identify and monitor interesting targets, while minimizing their movements. In this work, we propose a distributed Reinforcement Learning (RL) approach that scales to larger swarms without modifications. The proposed framework relies on the possibility for the UAVs to exchange some information through a communication channel, in order to achieve context-awareness and implicitly coordinate the swarm's actions. Our experiments show that the proposed method can yield effective strategies, which are robust to communication channel impairments, and that can easily deal with non-uniform distributions of targets and obstacles. Moreover, when agents are trained in a specific scenario, they can adapt to a new one with minimal additional training. We also show that our approach achieves better performance compared to a computationally intensive look-ahead heuristic.
翻訳日:2021-03-10 20:48:55 公開日:2021-03-08
# (参考訳) 教師なし学習による量子絡み検出 [全文訳有]

Detecting quantum entanglement with unsupervised learning ( http://arxiv.org/abs/2103.04804v1 )

ライセンス: CC BY 4.0
Yiwei Chen, Yu Pan, Guofeng Zhang, Shuming Cheng(参考訳) 絡み合いやコヒーレンスなどの量子特性は、様々な量子情報処理タスクにおいて不可欠な資源です。 しかし、特に高次元量子システムにおいてこれらの有用な特徴を検出するための効率的でスケーラブルな方法がまだ存在しない。 本研究では,量子的特徴を伴わない正規サンプルの凸性を利用し,教師なし機械学習法を考案し,量子的特徴の存在を異常として検出する。 特に,絡み込み検出の課題を考慮し,擬似シマネットワークと生成逆数ネットからなる複雑な評価ニューラルネットワークを提案し,それを分離可能な状態で訓練し,絡み込みの非線形目撃者を構築する。 2-qubit から 10-qubit までの数値的な例を通して、我々のネットワークは平均 97.5% 以上の高い検出精度を達成できることを示す。 さらに、サブシステム間の部分的絡み合いなど、絡み合いの豊富な構造を明らかにすることができる。 この結果はベル非局所性やステアビリティといった他の量子リソースの検出に容易に適用でき、高次元量子データに隠された量子特徴を抽出する強力なツールを提供できることを示唆する。

Quantum properties, such as entanglement and coherence, are indispensable resources in various quantum information processing tasks. However, there still lacks an efficient and scalable way to detecting these useful features especially for high-dimensional quantum systems. In this work, we exploit the convexity of normal samples without quantum features and design an unsupervised machine learning method to detect the presence of quantum features as anomalies. Particularly, given the task of entanglement detection, we propose a complex-valued neural network composed of pseudo-siamese network and generative adversarial net, and then train it with only separable states to construct non-linear witnesses for entanglement. It is shown via numerical examples, ranging from 2-qubit to 10-qubit systems, that our network is able to achieve high detection accuracy with above 97.5% on average. Moreover, it is capable of revealing rich structures of entanglement, such as partial entanglement among subsystems. Our results are readily applicable to the detection of other quantum resources such as Bell nonlocality and steerability, indicating that our work could provide a powerful tool to extract quantum features hidden in high-dimensional quantum data.
翻訳日:2021-03-10 20:47:52 公開日:2021-03-08
# (参考訳) 大次元多国VARにおける近似ベイズ推定と予測

Approximate Bayesian inference and forecasting in huge-dimensional multi-country VARs ( http://arxiv.org/abs/2103.04944v1 )

ライセンス: CC BY 4.0
Martin Feldkircher, Florian Huber, Gary Koop, Michael Pfarrhofer(参考訳) パネルベクトルオートレグレッシブ(PVAR)モデルは、非常に柔軟な方法で国間の流出を可能にするため、マルチカントリーアプリケーションでマクロ経済予測と構造分析のための一般的なツールです。 しかし、この柔軟性は、推定されるパラメータの数が過剰パラメータ化の懸念につながる可能性があることを意味します。 本論文で使用されていたホースホウのようなベイズ的局所的縮小前処理はこれらの懸念を克服できるが、高い次元では計算不可能となるマルコフ連鎖モンテカルロ法(mcmc)の使用が必要である。 本稿では、統合回転ガウス近似(IRGA)を用いてPVARを推定する計算効率の高いベイズ法を提案する。 これは、独自の国情報はPVARでしばしば重要であるが、他の国に関する情報はしばしば重要ではないという事実を利用しています。 IRGAを使用して、後部を2つの部分に分けます。1つは自国係数、もう1つは他国係数です。 近似メッセージパッシングや変動ベイなどの高速メソッドは後者で使用することができ、条件付きで、前者はMCMC法を使用して精度で推定される。 3800ドルの国ごとに最大18ドルの変数を持つpvarを含む予測演習では、我々の手法が迅速に優れた予測を生成することを実証する。

The Panel Vector Autoregressive (PVAR) model is a popular tool for macroeconomic forecasting and structural analysis in multi-country applications since it allows for spillovers between countries in a very flexible fashion. However, this flexibility means that the number of parameters to be estimated can be enormous leading to over-parameterizatio n concerns. Bayesian global-local shrinkage priors, such as the Horseshoe prior used in this paper, can overcome these concerns, but they require the use of Markov Chain Monte Carlo (MCMC) methods rendering them computationally infeasible in high dimensions. In this paper, we develop computationally efficient Bayesian methods for estimating PVARs using an integrated rotated Gaussian approximation (IRGA). This exploits the fact that whereas own country information is often important in PVARs, information on other countries is often unimportant. Using an IRGA, we split the the posterior into two parts: one involving own country coefficients, the other involving other country coefficients. Fast methods such as approximate message passing or variational Bayes can be used on the latter and, conditional on these, the former are estimated with precision using MCMC methods. In a forecasting exercise involving PVARs with up to $18$ variables for each of $38$ countries, we demonstrate that our methods produce good forecasts quickly.
翻訳日:2021-03-10 20:27:47 公開日:2021-03-08
# (参考訳) シンプレックス:高度に多重化された組織像の合成シミュレータ [全文訳有]

Synplex: A synthetic simulator of highly multiplexed histological images ( http://arxiv.org/abs/2103.04617v1 )

ライセンス: CC BY 4.0
Daniel Jim\'enez-S\'anchez, Mikel Ariz, Carlos Ortiz-de-Sol\'orzano(参考訳) 多重組織免疫染色は、腫瘍微小環境の要素間の複雑な相互作用をその場で捉えることができるため、関連性を高める技術である。 大規模な注釈付き画像データセットの存在と利用可能性は、バイオ画像解析アルゴリズムの客観的開発とベンチマークの鍵となる。 しかし、多重画像のマニュアルアノテーションは困難であり、しばしば実行不可能である。 本稿では,ユーザ定義パラメータに基づいてマルチプレックス免疫染色組織画像を生成するためのシミュレーションシステムであるsynplexを提案する。 これには、細胞の表現型の数、細胞マーカーの発現の数とレベル、または細胞形態などの構造属性の指定が含まれます。 シンプレックスは3つのシーケンシャルモジュールで構成され、それぞれが細胞近傍のモデリング、細胞表現型のモデリング、現実的な細胞/細胞のテクスチャの合成である。 複合柔軟性と精度は、実際のシナリオで見つかった疾患パラダイムをシミュレートする合成組織を生成することによって、定性的かつ定量的に実証される。 Synplexは科学的な目的で公開されており、マルチプレックス画像解析アルゴリズムのトレーニングや検証に有用なツールになるだろうと考えています。

Multiplex tissue immunostaining is a technology of growing relevance as it can capture in situ the complex interactions existing between the elements of the tumor microenvironment. The existence and availability of large, annotated image datasets is key for the objective development and benchmarking of bioimage analysis algorithms. Manual annotation of multiplex images, is however, laborious, often impracticable. In this paper, we present Synplex, a simulation system able to generate multiplex immunostained in situ tissue images based on user-defined parameters. This includes the specification of structural attributes, such as the number of cell phenotypes, the number and level of expression of cellular markers, or the cell morphology. Synplex consists of three sequential modules, each being responsible for a separate task: modeling of cellular neighborhoods, modeling of cell phenotypes, and synthesis of realistic cell/tissue textures. Synplex flexibility and accuracy are demonstrated qualitatively and quantitatively by generating synthetic tissues that simulate disease paradigms found in the real scenarios. Synplex is publicly available for scientific purposes, and we believe it will become a valuable tool for the training and/or validation of multiplex image analysis algorithms.
翻訳日:2021-03-10 20:26:32 公開日:2021-03-08
# (参考訳) 観測データと干渉データを組み合わせた因果関係の効率的な因果関係推定 [全文訳有]

Efficient Causal Inference from Combined Observational and Interventional Data through Causal Reductions ( http://arxiv.org/abs/2103.04786v1 )

ライセンス: CC BY 4.0
Maximilian Ilse, Patrick Forr\'e, Max Welling, Joris M. Mooij(参考訳) 因果効果を推定する際の主な課題の1つである。 因果モデルに付随する観察分布や介入分布を変化させることなく,治療変数と同じ空間に居住する,任意の数の高次元潜伏共創者と,単一の潜伏共創者とを置き換える新たな因果還元法を提案する。 削減後、縮小因果モデルを、フレキシブルな変換のクラス、いわゆる正規化フローを用いてパラメータ化する。 パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。 これにより,複合データから因果効果を原理的に推定することができる。 非線形因果機構を用いてシミュレーションされたデータに関する一連の実験を行い、精度を犠牲にすることなく観察訓練サンプルを追加する場合、介入サンプル数を実質的に削減できることを見出した。 したがって、観測データの追加は、観察されていない共同設立者の存在下でも因果効果をより正確に推定するのに役立ちます。

Unobserved confounding is one of the main challenges when estimating causal effects. We propose a novel causal reduction method that replaces an arbitrary number of possibly high-dimensional latent confounders with a single latent confounder that lives in the same space as the treatment variable without changing the observational and interventional distributions entailed by the causal model. After the reduction, we parameterize the reduced causal model using a flexible class of transformations, so-called normalizing flows. We propose a learning algorithm to estimate the parameterized reduced model jointly from observational and interventional data. This allows us to estimate the causal effect in a principled way from combined data. We perform a series of experiments on data simulated using nonlinear causal mechanisms and find that we can often substantially reduce the number of interventional samples when adding observational training samples without sacrificing accuracy. Thus, adding observational data may help to more accurately estimate causal effects even in the presence of unobserved confounders.
翻訳日:2021-03-10 18:52:35 公開日:2021-03-08
# (参考訳) 深層ニューラルネットワークによる集合の表現と予測の学習

Learning to Represent and Predict Sets with Deep Neural Networks ( http://arxiv.org/abs/2103.04957v1 )

ライセンス: CC BY 4.0
Yan Zhang(参考訳) 本稿では,機械学習において集合を扱うための様々な手法を考案する。 各入力または出力は画像またはシーケンスではなく、集合:複数のオブジェクトの無順序コレクション、各オブジェクトは特徴ベクトルによって記述される。 その無秩序な性質は、画像のオブジェクトから、雲の点からグラフまで、さまざまなデータのモデリングに適している。 ディープラーニングは、最近、他のタイプの構造化データに対して大きな成功を収めたので、深層ニューラルネットワークにセットに必要な構造を構築することを目指している。 この論文の最初の焦点は、より良いセット表現(入力としてセット)の学習です。 既存のアプローチにはボトルネックがあり、セット内のオブジェクト間の関係を適切にモデル化できない。 この問題に対処するため,我々は様々なシナリオのための様々な手法を開発し,ボトルネックの緩和が多数の実験で一貫した改善をもたらすことを示す。 この論文の第二の焦点は集合(集合を出力とする)の予測である。 現在のアプローチは、集合の順序のない性質を適切に考慮していない。 この結果、多くのセット予測タスクで不連続な問題を引き起こし、非常に単純なデータセットの学習を妨げていると判断します。 この問題を回避するために,集合の構造を適切に考慮した2つのモデルを開発する。 様々な実験により、既存のアプローチよりも優れた予測手法が得られた。

In this thesis, we develop various techniques for working with sets in machine learning. Each input or output is not an image or a sequence, but a set: an unordered collection of multiple objects, each object described by a feature vector. Their unordered nature makes them suitable for modeling a wide variety of data, ranging from objects in images to point clouds to graphs. Deep learning has recently shown great success on other types of structured data, so we aim to build the necessary structures for sets into deep neural networks. The first focus of this thesis is the learning of better set representations (sets as input). Existing approaches have bottlenecks that prevent them from properly modeling relations between objects within the set. To address this issue, we develop a variety of techniques for different scenarios and show that alleviating the bottleneck leads to consistent improvements across many experiments. The second focus of this thesis is the prediction of sets (sets as output). Current approaches do not take the unordered nature of sets into account properly. We determine that this results in a problem that causes discontinuity issues with many set prediction tasks and prevents them from learning some extremely simple datasets. To avoid this problem, we develop two models that properly take the structure of sets into account. Various experiments show that our set prediction techniques can significantly benefit over existing approaches.
翻訳日:2021-03-10 18:19:42 公開日:2021-03-08
# (参考訳) CheXseen: 胸部X線の深層学習のための未確認疾患検出 [全文訳有]

CheXseen: Unseen Disease Detection for Deep Learning Interpretation of Chest X-rays ( http://arxiv.org/abs/2103.04590v1 )

ライセンス: CC BY 4.0
Siyu Shi, Ishaan Malhi, Kevin Tran, Andrew Y. Ng, Pranav Rajpurkar(参考訳) 学習中にラベルが付かない疾患の存在下でのディープラーニングモデルの性能を体系的に評価する。 まず,あるサブセット(特定の疾患)で訓練されたディープラーニングモデルが,より大きな疾患群のいずれかの存在を検知できるかどうかを評価する。 モデルでは,病原体以外の疾患(見当たらない疾患)を「病気なし」と誤分類する傾向がみられた。 第2に,ある疾患に訓練されたモデルが,サブセット外の疾患と共起した場合に見いだされた疾患を検出できるかどうかについて評価する。 未発見の疾患と共生しても、モデルはまだ見いだされた疾患を検出できることが分かっています。 第3に, モデルで学習した特徴表現が, 未発見の疾患の小さな分類群から未発見の疾患の存在を検出するのに有用かどうかを評価する。 深部ニューラルネットワークの究極の層は、目に見えない病気の検出に有用な機能を提供する。 本研究は,無症状群で訓練された深層学習モデルの安全な臨床展開について報告する。

We systematically evaluate the performance of deep learning models in the presence of diseases not labeled for or present during training. First, we evaluate whether deep learning models trained on a subset of diseases (seen diseases) can detect the presence of any one of a larger set of diseases. We find that models tend to falsely classify diseases outside of the subset (unseen diseases) as "no disease". Second, we evaluate whether models trained on seen diseases can detect seen diseases when co-occurring with diseases outside the subset (unseen diseases). We find that models are still able to detect seen diseases even when co-occurring with unseen diseases. Third, we evaluate whether feature representations learned by models may be used to detect the presence of unseen diseases given a small labeled set of unseen diseases. We find that the penultimate layer of the deep neural network provides useful features for unseen disease detection. Our results can inform the safe clinical deployment of deep learning models trained on a non-exhaustive set of disease classes.
翻訳日:2021-03-10 18:18:17 公開日:2021-03-08
# 複数事例キャプション:病理学教科書と論文からの学習表現

Multiple Instance Captioning: Learning Representations from Histopathology Textbooks and Articles ( http://arxiv.org/abs/2103.05121v1 )

ライセンス: Link先を確認
Jevgenij Gamper, Nasir Rajpoot(参考訳) 本稿では,CPタスクの集中管理を容易にするために,複数インスタンスキャプションデータセットであるARCHを提案する。 既存のcpデータセットは狭いタスクに焦点を当てており、archにはさまざまな染色、組織タイプ、病理に関する詳細な診断と形態的記述が含まれている。 内在次元推定を用いて、ARCHはコンピュータビジョンアナログMS-COCOキャプションを (ARCH-) に限定した唯一のCPデータセットであることを示す。 密度の高い画像キャプションで事前学習したエンコーダは、ほとんどのcpタスクで転送可能表現を学習する。 我々は,arc表現がimagenet特徴量や自己教師付きあるいはマルチタスク学習による表現よりも様々な病理学サブタスクに転移することを示すことで,この予想を支持している。 ベストモデルをリリースし、他の研究者にCPタスクでテストするよう依頼します。

We present ARCH, a computational pathology (CP) multiple instance captioning dataset to facilitate dense supervision of CP tasks. Existing CP datasets focus on narrow tasks; ARCH on the other hand contains dense diagnostic and morphological descriptions for a range of stains, tissue types and pathologies. Using intrinsic dimensionality estimation, we show that ARCH is the only CP dataset to (ARCH-)rival its computer vision analog MS-COCO Captions. We conjecture that an encoder pre-trained on dense image captions learns transferable representations for most CP tasks. We support the conjecture with evidence that ARCH representation transfers to a variety of pathology sub-tasks better than ImageNet features or representations obtained via self-supervised or multi-task learning on pathology images alone. We release our best model and invite other researchers to test it on their CP tasks.
翻訳日:2021-03-10 15:11:21 公開日:2021-03-08
# 相互情報制約を用いたドメイン・ロバスト視覚模倣学習

Domain-Robust Visual Imitation Learning with Mutual Information Constraints ( http://arxiv.org/abs/2103.05079v1 )

ライセンス: Link先を確認
Edoardo Cetin and Oya Celiktutan(参考訳) 人間は目的を理解し、単に他人を観察することで学習することができる。 模倣学習の方法は、そのような能力を複製することを目指していますが、一般的には、エージェントのアクチュエータとエージェントの視点から取られた最適な状態とアクションの完全なセットへのアクセスに依存します。 本稿では,このような制約を回避すべく,Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを提案する。 本アルゴリズムは,識別器ネットワーク内の潜在表現を用いた対角学習を用いて,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。 このような潜在表現は、相互情報制約を通じて規則化され、示されるタスクの完了レベルに関する情報を符号化する特徴のみを学習にインセンティブ化する。 これにより、エキスパートとエージェントのドメインの違いを無視しながら、イミテーションを成功裏に実行するための共有機能空間を得ることができる。 実験により,本アルゴリズムは,バランスや操作,機関車の作業など,様々な制御問題において,環境の外観やエージェントの具体化の両面において,様々な領域の差異に頑健でありながら,効率よく模倣することができる。

Human beings are able to understand objectives and learn by simply observing others perform a task. Imitation learning methods aim to replicate such capabilities, however, they generally depend on access to a full set of optimal states and actions taken with the agent's actuators and from the agent's point of view. In this paper, we introduce a new algorithm - called Disentangling Generative Adversarial Imitation Learning (DisentanGAIL) - with the purpose of bypassing such constraints. Our algorithm enables autonomous agents to learn directly from high dimensional observations of an expert performing a task, by making use of adversarial learning with a latent representation inside the discriminator network. Such latent representation is regularized through mutual information constraints to incentivize learning only features that encode information about the completion levels of the task being demonstrated. This allows to obtain a shared feature space to successfully perform imitation while disregarding the differences between the expert's and the agent's domains. Empirically, our algorithm is able to efficiently imitate in a diverse range of control problems including balancing, manipulation and locomotive tasks, while being robust to various domain differences in terms of both environment appearance and agent embodiment.
翻訳日:2021-03-10 15:10:43 公開日:2021-03-08
# ファジィ認知地図を用いた分類と特徴変換

Classification and Feature Transformation with Fuzzy Cognitive Maps ( http://arxiv.org/abs/2103.05124v1 )

ライセンス: Link先を確認
Piotr Szwed(参考訳) Fuzzy Cognitive Maps(FCM)は、ファジィ論理と繰り返しニューラルネットワークの要素を組み合わせたソフトコンピューティング技術と考えられている。 彼らは、システムの振る舞いのモデリング、時系列の予測、意思決定、プロセス制御などのドメインで複数のアプリケーションを見つけました。 しかし、パターン分類での使用にはあまり注意が払われていない。 本研究では,フルコネクテッドマップ構造を有するFCMに基づく分類器を提案する。 推論中に安定したシステム状態に達することを期待するメソッドとは対照的に、出力ラベルを収集する前にいくつかのFCMイテレーション(ステップ)を実行することにしました。 重みを勾配アルゴリズムで学習し,コスト関数としてloglossやcross-entropyを用いた。 我々の主な目標は、そのような設計が下降する汎用分類器になるかどうかを検証することであり、性能は棚の古典的手法に匹敵するものだった。 予備結果は有望であったので、d$-step 分類器の性能は、以前の $d-1$ ステップにおいて、与えられたクラスに属する観測をグループ化し、よりコンパクトで分離可能なものにすることで特徴空間を変換できるという仮説を検証した。 この仮説を検証するために、変換された特徴空間のクラスタリングスコアを3つ計算した。 また、FCMベースのデータ変換器から構築したパイプラインの性能を分類アルゴリズムにより評価した。 標準統計分析は、FCMベースの分類器の性能とデータを改善する能力の両方を確認した。 サポートするプロトタイプソフトウェアはTensorFlowライブラリを使用してPythonで実装された。

Fuzzy Cognitive Maps (FCMs) are considered a soft computing technique combining elements of fuzzy logic and recurrent neural networks. They found multiple application in such domains as modeling of system behavior, prediction of time series, decision making and process control. Less attention, however, has been turned towards using them in pattern classification. In this work we propose an FCM based classifier with a fully connected map structure. In contrast to methods that expect reaching a steady system state during reasoning, we chose to execute a few FCM iterations (steps) before collecting output labels. Weights were learned with a gradient algorithm and logloss or cross-entropy were used as the cost function. Our primary goal was to verify, whether such design would result in a descent general purpose classifier, with performance comparable to off the shelf classical methods. As the preliminary results were promising, we investigated the hypothesis that the performance of $d$-step classifier can be attributed to a fact that in previous $d-1$ steps it transforms the feature space by grouping observations belonging to a given class, so that they became more compact and separable. To verify this hypothesis we calculated three clustering scores for the transformed feature space. We also evaluated performance of pipelines built from FCM-based data transformer followed by a classification algorithm. The standard statistical analyzes confirmed both the performance of FCM based classifier and its capability to improve data. The supporting prototype software was implemented in Python using TensorFlow library.
翻訳日:2021-03-10 15:10:23 公開日:2021-03-08
# 連合学習とメタラーニングにおける収束と正確性トレードオフ

Convergence and Accuracy Trade-Offs in Federated Learning and Meta-Learning ( http://arxiv.org/abs/2103.05032v1 )

ライセンス: Link先を確認
Zachary Charles, Jakub Kone\v{c}n\'y(参考訳) 我々は,多くのフェデレーションおよびメタ学習アルゴリズムを一般化し,局所的な更新手法と呼ぶアルゴリズム群について検討する。 二次モデルの場合、局所更新法は正に特徴付けられる代理損失の1次最適化と等価であることを示す。 さらに、基本的なアルゴリズム選択(学習率など)は、代理損失の条件数とその真の損失との整合の間のトレードオフを明示的に規定する。 これらのトレードオフを示す新しい収束率を導き出し、通信制限設定におけるその重要性を強調します。 これらの知見を用いて,局所更新手法を,経験的損失の臨界点に収束するだけでなく,その収束/正確性トレードオフに基づいて比較することができる。 その結果,フェデレート学習におけるサーバの運動量の有効性や,クライアント近位更新の影響など,幅広い現象に新たな光を当てた。

We study a family of algorithms, which we refer to as local update methods, generalizing many federated and meta-learning algorithms. We prove that for quadratic models, local update methods are equivalent to first-order optimization on a surrogate loss we exactly characterize. Moreover, fundamental algorithmic choices (such as learning rates) explicitly govern a trade-off between the condition number of the surrogate loss and its alignment with the true loss. We derive novel convergence rates showcasing these trade-offs and highlight their importance in communication-limite d settings. Using these insights, we are able to compare local update methods based on their convergence/accuracy trade-off, not just their convergence to critical points of the empirical loss. Our results shed new light on a broad range of phenomena, including the efficacy of server momentum in federated learning and the impact of proximal client updates.
翻訳日:2021-03-10 15:06:06 公開日:2021-03-08
# 非凸損失を伴う制約学習

Constrained Learning with Non-Convex Losses ( http://arxiv.org/abs/2103.05134v1 )

ライセンス: Link先を確認
Luiz F. O. Chamon and Santiago Paternain and Miguel Calvo-Fullana and Alejandro Ribeiro(参考訳) 学習は現代の情報処理の中核技術になっているが、バイアス、安全でない、偏見のあるソリューションにつながるという証拠はたくさんある。 したがって、学習に要件を課す必要性は、特に社会、産業、医療分野で重要なアプリケーションに達するにつれて、最も重要です。 しかし、ほとんどの現代学習問題の非凸性は制約の導入によってのみ悪化する。 経験的なリスク最小化(ERM)を使用して、良い制約のないソリューションを学ぶことはよくありますが、統計的制約を満たすモデルを得ることさえ困難です。 本稿では,制約付き統計学習問題が制約なく,有限次元かつ決定論的になる経験的双対領域で学習することで,この問題を克服する。 このアプローチの一般化特性を、経験的双対性ギャップ、すなわち私たちの近似、トラクタブル解と元の(非凸)-統計問題の解との差を境界として解析し、実用的制約学習アルゴリズムを提供する。 これらの結果は、古典的学習理論の制約付き対応を確立し、学習における制約の明示的な使用を可能にする。 このアルゴリズムと理論をレート制約学習アプリケーションで説明します。

Though learning has become a core technology of modern information processing, there is now ample evidence that it can lead to biased, unsafe, and prejudiced solutions. The need to impose requirements on learning is therefore paramount, especially as it reaches critical applications in social, industrial, and medical domains. However, the non-convexity of most modern learning problems is only exacerbated by the introduction of constraints. Whereas good unconstrained solutions can often be learned using empirical risk minimization (ERM), even obtaining a model that satisfies statistical constraints can be challenging, all the more so a good one. In this paper, we overcome this issue by learning in the empirical dual domain, where constrained statistical learning problems become unconstrained, finite dimensional, and deterministic. We analyze the generalization properties of this approach by bounding the empirical duality gap, i.e., the difference between our approximate, tractable solution and the solution of the original (non-convex)~statist ical problem, and provide a practical constrained learning algorithm. These results establish a constrained counterpart of classical learning theory and enable the explicit use of constraints in learning. We illustrate this algorithm and theory in rate-constrained learning applications.
翻訳日:2021-03-10 15:05:52 公開日:2021-03-08
# 高次スムース非凸有限和最適化のOracle複雑性について

On the Oracle Complexity of Higher-Order Smooth Non-Convex Finite-Sum Optimization ( http://arxiv.org/abs/2103.05138v1 )

ライセンス: Link先を確認
Nicolas Emmenegger, Rasmus Kyng and Ahad N. Zehmakan(参考訳) 平滑な非凸有限和最適化における高階法の下限を証明する。 まず,決定論的アルゴリズムは目的の有限和構造から利益を得られず,完全勾配情報を構築して関数全体に対してpth次正規化法をシミュレートすることが最適であることを示した。 さらに、ランダム化アルゴリズムの下限を示し、最もよく知られた上限と比較する。 境界間のギャップに対処するために,一階平均二乗平滑性仮定の類似物と見なすことのできる新しい二階平滑性仮定を提案する。 我々は、より鋭い下界を許容しながら、最先端の収束保証を保証するのに十分であることを証明する。

We prove lower bounds for higher-order methods in smooth non-convex finite-sum optimization. Our contribution is threefold: We first show that a deterministic algorithm cannot profit from the finite-sum structure of the objective, and that simulating a pth-order regularized method on the whole function by constructing exact gradient information is optimal up to constant factors. We further show lower bounds for randomized algorithms and compare them with the best known upper bounds. To address some gaps between the bounds, we propose a new second-order smoothness assumption that can be seen as an analogue of the first-order mean-squared smoothness assumption. We prove that it is sufficient to ensure state-of-the-art convergence guarantees, while allowing for a sharper lower bound.
翻訳日:2021-03-10 15:05:34 公開日:2021-03-08
# LCDNet:不均衡な最適輸送に基づくLiDAR SLAMのディープループクロージャ検出

LCDNet: Deep Loop Closure Detection for LiDAR SLAM based on Unbalanced Optimal Transport ( http://arxiv.org/abs/2103.05056v1 )

ライセンス: Link先を確認
Daniele Cattaneo, Matteo Vaghi, Abhinav Valada(参考訳) ループクロージャ検出は、時間とともに蓄積されるドリフトを減少させる同時局所化マッピングシステム(SLAM)の不可欠な構成要素である。 長年にわたり、この課題に対処するためにいくつかのディープラーニングアプローチが提案されてきたが、特に逆ループを扱う場合、手作り技術に比べて性能は劣っている。 本論文では,LiDAR点群のループクロージャを効率的に検出するLCDNetについて,以前に訪れた場所を同時に識別し,現在のスキャンとマップの6-DoF相対変換を推定する。 LCDNetは、共有エンコーダ、グローバルディスクリプタを抽出する場所認識ヘッド、および2つの点雲間の変換を推定する相対ポーズヘッドで構成されています。 我々は,エンドツーエンドのトレーニングを可能にするために,不均衡な最適移動理論に基づく新しい相対的ポーズヘッドを提案する。 複数の実世界の自動運転データセット上でのLCDNetの広範な評価は、私たちのアプローチが逆ループを扱う場合でも、大きなマージンで最先端の技術を上回ることを示しています。 さらに,提案したループクロージャ検出手法をLiDAR SLAMライブラリに統合して完全なマッピングシステムを提供し,未知の都市における異なるセンサ設定を用いた一般化能力を実証する。

Loop closure detection is an essential component of Simultaneous Localization and Mapping (SLAM) systems, which reduces the drift accumulated over time. Over the years, several deep learning approaches have been proposed to address this task, however their performance has been subpar compared to handcrafted techniques, especially while dealing with reverse loops. In this paper, we introduce the novel LCDNet that effectively detects loop closures in LiDAR point clouds by simultaneously identifying previously visited places and estimating the 6-DoF relative transformation between the current scan and the map. LCDNet is composed of a shared encoder, a place recognition head that extracts global descriptors, and a relative pose head that estimates the transformation between two point clouds. We introduce a novel relative pose head based on the unbalanced optimal transport theory that we implement in a differentiable manner to allow for end-to-end training. Extensive evaluations of LCDNet on multiple real-world autonomous driving datasets show that our approach outperforms state-of-the-art techniques by a large margin even while dealing with reverse loops. Moreover, we integrate our proposed loop closure detection approach into a LiDAR SLAM library to provide a complete mapping system and demonstrate the generalization ability using different sensor setup in an unseen city.
翻訳日:2021-03-10 15:04:15 公開日:2021-03-08
# 構文N-gramの新しい変数に基づく文書セマンティックスの比較のためのトポロジ的アプローチ

A Topological Approach to Compare Document Semantics Based on a New Variant of Syntactic N-grams ( http://arxiv.org/abs/2103.05135v1 )

ライセンス: Link先を確認
Fanchao Meng(参考訳) 本稿では,シンタクティックn-gram(sn-grams)の思考と利用に関する新たな視点を提案する。 Sn-gramは、多くのNLPタスクにおいて重要な役割を果たす非線形n-gramの一種である。 このように文書のセマンティクスを比較するためにsn-gramを導入することは魅力的なアプリケーションであり、その進歩を報告した研究はほとんどない。 しかし,本研究では,sn-gramの重要課題として,意味の欠如,単語の順序に敏感であること,間接構文的関係の獲得に失敗することの3つを見出した。 これらの問題に対処するため,GP(Generalized phrases)と呼ばれるsn-gramの新しい変種を提案する。 そして、GPに基づいて、文書の意味的類似性を計算するためにDSCoHというトポロジ的アプローチを提案する。 DSCoHは文書セマンティクス比較と文書クラスタリングタスクで広くテストされている。 実験の結果,DSCoHは最先端の埋め込み方式よりも優れていることがわかった。

This paper delivers a new perspective of thinking and utilizing syntactic n-grams (sn-grams). Sn-grams are a type of non-linear n-grams which have been playing a critical role in many NLP tasks. Introducing sn-grams to comparing document semantics thus is an appealing application, and few studies have reported progress at this. However, when proceeding on this application, we found three major issues of sn-grams: lack of significance, being sensitive to word orders and failing on capture indirect syntactic relations. To address these issues, we propose a new variant of sn-grams named generalized phrases (GPs). Then based on GPs we propose a topological approach, named DSCoH, to compute document semantic similarities. DSCoH has been extensively tested on the document semantics comparison and the document clustering tasks. The experimental results show that DSCoH can outperform state-of-the-art embedding-based methods.
翻訳日:2021-03-10 15:01:49 公開日:2021-03-08
# 点群からのオフボード3次元物体検出

Offboard 3D Object Detection from Point Cloud Sequences ( http://arxiv.org/abs/2103.05073v1 )

ライセンス: Link先を確認
Charles R. Qi, Yin Zhou, Mahyar Najibi, Pei Sun, Khoa Vo, Boyang Deng, Dragomir Anguelov(参考訳) 現在の3Dオブジェクト認識の研究は、主にリアルタイムのオンボードシナリオに焦点を当てていますが、マシンを使用して高品質の3Dラベルを自動的に生成するなど、主に未知の認識のオフボードユースケースが多数あります。 既存の3Dオブジェクト検出器は、入力と速度の制限により、オフボードの使用の高品質な要求を満たすことができない。 本稿では,ポイントクラウドシーケンスデータを用いたオフボード型3次元物体検出パイプラインを提案する。 異なるフレームがオブジェクトの相補的なビューを捉えているのを観察し、マルチフレームオブジェクト検出と新しいオブジェクト中心リファインメントモデルの両方を通して時間点を利用するオフボード検出器を設計する。 Waymo Open Datasetで評価された3D Auto Labelingというパイプラインは、最新のオンボードディテクタとオフボードベースラインと比較して大きな利益を示しています。 その性能は、人間のラベル研究を通じて検証された人間のラベルと同等です。 さらに,半教師付き学習へのオートラベルの適用を実証し,様々な設計選択を検証するための広範囲な分析を行った。

While current 3D object recognition research mostly focuses on the real-time, onboard scenario, there are many offboard use cases of perception that are largely under-explored, such as using machines to automatically generate high-quality 3D labels. Existing 3D object detectors fail to satisfy the high-quality requirement for offboard uses due to the limited input and speed constraints. In this paper, we propose a novel offboard 3D object detection pipeline using point cloud sequence data. Observing that different frames capture complementary views of objects, we design the offboard detector to make use of the temporal points through both multi-frame object detection and novel object-centric refinement models. Evaluated on the Waymo Open Dataset, our pipeline named 3D Auto Labeling shows significant gains compared to the state-of-the-art onboard detectors and our offboard baselines. Its performance is even on par with human labels verified through a human label study. Further experiments demonstrate the application of auto labels for semi-supervised learning and provide extensive analysis to validate various design choices.
翻訳日:2021-03-10 15:00:46 公開日:2021-03-08
# プライバシの保存はいかに行のクラウドか? 3次元ラインからのシーンの復元

How Privacy-Preserving are Line Clouds? Recovering Scene Details from 3D Lines ( http://arxiv.org/abs/2103.05086v1 )

ライセンス: Link先を確認
Kunal Chelani and Fredrik Kahl and Torsten Sattler(参考訳) 視覚局所化は、既知のシーンに関して、ある画像のカメラのポーズを推定する問題である。 視覚的ローカリゼーションアルゴリズムは、MixedおよびVirtual Realityシステムを含む高度なコンピュータビジョンアプリケーションにおける基本的なビルディングブロックです。 実際に使用される多くのアルゴリズムは、Structure-from-Motio n (SfM)ポイントクラウドを通してシーンを表現し、クエリ画像とカメラのポーズ推定のために3Dポイント間の2D-3Dマッチングを使用する。 最近示したように、スパースポイントクラウドのレンダリングを画像に変換することで、画像の詳細をSfMポイントクラウドから正確に復元できます。 ユーザ生成コンテンツの潜在的なプライバシーリスクに対処するため、最近、3dポイントをランダムに指向した3dラインで置き換えることで、ポイントクラウドをラインクラウドに持ち上げることが提案されている。 結果として得られる表現は人間には理解できず、ポイントクラウドからイメージへの翻訳を効果的に防止します。 本稿では,これらの線状雲に3次元シーン形状に関する情報が保存されており,3次元ポイントの位置を復元し,画像内容の復元を行うことができることを示す。 我々のアプローチは、直線間の最接近点が元の3d点に良い近似をもたらすという観測に基づいている。 コードはhttps://github.com/k unalchelani/Line2Poi ntで入手できる。

Visual localization is the problem of estimating the camera pose of a given image with respect to a known scene. Visual localization algorithms are a fundamental building block in advanced computer vision applications, including Mixed and Virtual Reality systems. Many algorithms used in practice represent the scene through a Structure-from-Motio n (SfM) point cloud and use 2D-3D matches between a query image and the 3D points for camera pose estimation. As recently shown, image details can be accurately recovered from SfM point clouds by translating renderings of the sparse point clouds to images. To address the resulting potential privacy risks for user-generated content, it was recently proposed to lift point clouds to line clouds by replacing 3D points by randomly oriented 3D lines passing through these points. The resulting representation is unintelligible to humans and effectively prevents point cloud-to-image translation. This paper shows that a significant amount of information about the 3D scene geometry is preserved in these line clouds, allowing us to (approximately) recover the 3D point positions and thus to (approximately) recover image content. Our approach is based on the observation that the closest points between lines can yield a good approximation to the original 3D points. Code is available at https://github.com/k unalchelani/Line2Poi nt.
翻訳日:2021-03-10 15:00:27 公開日:2021-03-08
# ニューラルアーキテクチャ比較器を用いたコントラストニューラルアーキテクチャ探索

Contrastive Neural Architecture Search with Neural Architecture Comparators ( http://arxiv.org/abs/2103.05471v1 )

ライセンス: Link先を確認
Yaofo Chen, Yong Guo, Qi Chen, Minli Li, Yaowei Wang, Wei Zeng, Mingkui Tan(参考訳) neural architecture search(nas)における重要なステップの1つは、候補アーキテクチャのパフォーマンスを見積もることである。 既存のメソッドは、バリデーションパフォーマンスを直接使用するか、あるいは予測子を学習してパフォーマンスを見積もる。 しかし,これらの手法は,探索効率や性能に悪影響を及ぼす可能性があるため,計算コストがかかるか,不正確である可能性がある。 さらに、特定のタスクで正確なパフォーマンスでアーキテクチャをアノテーションすることは非常に困難であるため、ラベル付きデータの欠如のために有望なパフォーマンス予測器の学習はしばしば簡単ではない。 本論文では,NASの絶対性能を推定する必要はないかもしれないと論じる。 それどころか、アーキテクチャがベースラインよりも優れているかどうかを理解する必要があるかもしれません。 しかし、この比較情報を報酬として利用する方法と制限付きデータをうまく利用する方法については、2つの大きな課題が残る。 本稿では,アーキテクチャ間の比較結果を報奨として,アーキテクチャ探索を行う新しいコントラストニューラルネットワーク探索(ctnas)法を提案する。 具体的には、ニューラルネットワーク比較器(NAC)を設計し、ベースラインアーキテクチャよりも優れた候補アーキテクチャの確率を計算する。 さらに,カリキュラム学習方式でベースラインを反復的に改善するためのベースライン更新方式を提案する。 より重要なことは、NACの学習はアーキテクチャのランク付けを最適化するのと等価であることを理論的に示すことである。 3つの検索空間での広範な実験は、既存の方法よりもCTNASの優位性を示しています。

One of the key steps in Neural Architecture Search (NAS) is to estimate the performance of candidate architectures. Existing methods either directly use the validation performance or learn a predictor to estimate the performance. However, these methods can be either computationally expensive or very inaccurate, which may severely affect the search efficiency and performance. Moreover, as it is very difficult to annotate architectures with accurate performance on specific tasks, learning a promising performance predictor is often non-trivial due to the lack of labeled data. In this paper, we argue that it may not be necessary to estimate the absolute performance for NAS. On the contrary, we may need only to understand whether an architecture is better than a baseline one. However, how to exploit this comparison information as the reward and how to well use the limited labeled data remains two great challenges. In this paper, we propose a novel Contrastive Neural Architecture Search (CTNAS) method which performs architecture search by taking the comparison results between architectures as the reward. Specifically, we design and learn a Neural Architecture Comparator (NAC) to compute the probability of candidate architectures being better than a baseline one. Moreover, we present a baseline updating scheme to improve the baseline iteratively in a curriculum learning manner. More critically, we theoretically show that learning NAC is equivalent to optimizing the ranking over architectures. Extensive experiments in three search spaces demonstrate the superiority of our CTNAS over existing methods.
翻訳日:2021-03-10 14:55:44 公開日:2021-03-08
# 言語モデルを用いた並列化可能な格子強調戦略

A Parallelizable Lattice Rescoring Strategy with Neural Language Models ( http://arxiv.org/abs/2103.05081v1 )

ライセンス: Link先を確認
Ke Li, Daniel Povey, Sanjeev Khudanpur(参考訳) 本稿では,音声認識のためのニューラルネットワークモデル (LM) を用いた効率的な格子再構成のための並列計算手法と後進格子拡張アルゴリズムを提案する。 まず,第1パス復号からの格子を後続の格子展開アルゴリズムにより拡張する。 第二に、拡張格子はすべての弧をカバーする最小の仮説のリストに変換される。 各仮説は、それが含む少なくとも1つの弧にとって最良の経路であると制約される。 各格子に対して、最小リストの神経LMスコアは並列に計算され、その後、再相関段階の格子に再び統合される。 Switchboardデータセット上での実験により,提案手法は,競合するベースライン法よりもよりコンパクトな格子を生成する。 さらに,PyTorchをトレーニングしたニューラル LM をKaldi との格子再構成に簡単に統合することで,並列再描画法により柔軟性が向上する。

This paper proposes a parallel computation strategy and a posterior-based lattice expansion algorithm for efficient lattice rescoring with neural language models (LMs) for automatic speech recognition. First, lattices from first-pass decoding are expanded by the proposed posterior-based lattice expansion algorithm. Second, each expanded lattice is converted into a minimal list of hypotheses that covers every arc. Each hypothesis is constrained to be the best path for at least one arc it includes. For each lattice, the neural LM scores of the minimal list are computed in parallel and are then integrated back to the lattice in the rescoring stage. Experiments on the Switchboard dataset show that the proposed rescoring strategy obtains comparable recognition performance and generates more compact lattices than a competitive baseline method. Furthermore, the parallel rescoring method offers more flexibility by simplifying the integration of PyTorch-trained neural LMs for lattice rescoring with Kaldi.
翻訳日:2021-03-10 14:49:45 公開日:2021-03-08
# CVaRのバイアス補正ピークオーバーホールド推定

Bias-Corrected Peaks-Over-Threshold Estimation of the CVaR ( http://arxiv.org/abs/2103.05059v1 )

ライセンス: Link先を確認
Dylan Troop, Fr\'ed\'eric Godin, Jia Yuan Yu(参考訳) 条件付きバリュー・アット・リスク(CVaR)は、機械学習、金融、保険、エネルギーなどの分野において有用なリスク尺度である。 極めて極端なリスクを測定する場合, CVaR値に対応する定量値である値-at-risk (VaR) 以上のデータに制限があるため, 試料平均値のCVaR推定法は正常に動作しない。 この問題を解決するために、CVaRは一般化されたパレート分布(GPD)を使用してVaRよりも低いしきい値の上に外挿することによって推定することができる。 この方法はよく収まるために非常に高いしきい値を必要とし、推定に高いばらつきをもたらし、しきい値が低すぎると大きなバイアスを引き起こす可能性があります。 本稿では、しきい値の選択によって誘導されるバイアス項であるCVaRのGPD近似誤差に対する新しい式と、推定されたGPDパラメータに対するバイアス補正法を導出する。 これによりCVaRの新しい推定器が導出され、漸近的に偏りがないことが証明された。 実用的環境下では、我々の推定器が有限サンプルの競合CVaR推定器と比較して有意な性能改善をもたらすことを実験を通して示します。 また, バイアス補正法により, 有意なバイアスを生じさせることなく, より低い閾値を選択できることが示唆された。 これにより、典型的なPOTアプローチと比較してCVaR推定でより多くのデータが使用されるようになり、より安定した推定が可能になります。 第2の結果として,重み付き分布の2次パラメータに対する新たな推定器と,推定器の変動可能性レベルを定量化可能なcvarの信頼区間が導出される。

The conditional value-at-risk (CVaR) is a useful risk measure in fields such as machine learning, finance, insurance, energy, etc. When measuring very extreme risk, the commonly used CVaR estimation method of sample averaging does not work well due to limited data above the value-at-risk (VaR), the quantile corresponding to the CVaR level. To mitigate this problem, the CVaR can be estimated by extrapolating above a lower threshold than the VaR using a generalized Pareto distribution (GPD), which is often referred to as the peaks-over-threshold (POT) approach. This method often requires a very high threshold to fit well, leading to high variance in estimation, and can induce significant bias if the threshold is chosen too low. In this paper, we derive a new expression for the GPD approximation error of the CVaR, a bias term induced by the choice of threshold, as well as a bias correction method for the estimated GPD parameters. This leads to the derivation of a new estimator for the CVaR that we prove to be asymptotically unbiased. In a practical setting, we show through experiments that our estimator provides a significant performance improvement compared with competing CVaR estimators in finite samples. As a consequence of our bias correction method, it is also shown that a much lower threshold can be selected without introducing significant bias. This allows a larger portion of data to be be used in CVaR estimation compared with the typical POT approach, leading to more stable estimates. As secondary results, a new estimator for a second-order parameter of heavy-tailed distributions is derived, as well as a confidence interval for the CVaR which enables quantifying the level of variability in our estimator.
翻訳日:2021-03-10 14:49:30 公開日:2021-03-08
# 同時ローカリゼーションとマッピングのための推論と表現の進歩

Advances in Inference and Representation for Simultaneous Localization and Mapping ( http://arxiv.org/abs/2103.05041v1 )

ライセンス: Link先を確認
David M. Rosen, Kevin J. Doherty, Antonio Teran Espinoza, John J. Leonard(参考訳) 同時にローカリゼーションとマッピング(SLAM)は、そのローカルな観察から環境のグローバルモデルを構築するプロセスです。これは、計画、ナビゲーション、制御などのコア機能をサポートする、モバイルロボットの基礎機能です。 本稿では、SLAMシステムで使用される環境モデルの表現能力の向上(表現)と、これらのモデルをデータ(推論)から推定するアルゴリズムの性能に着目し、SLAMの最近の進歩を概観する。 最近のSLAM研究の顕著なテーマは、幾何学や外観の古典的な属性を超えて、階層的組織、余裕、ダイナミクス、意味論などのモデル特性に進む環境表現(学習された表現を含む)の追求です。これらの進歩は、より汎用的でインテリジェントな操作を可能にする、より包括的な理解を持つ自律エージェントを装備しています。 第2のテーマは、SLAM推定問題自体の数学的性質(計算的および情報理論的性能限界を含む)の再活性化であり、この研究は、現実世界でのSLAMシステムの信頼性を劇的に向上させる、証明可能で堅牢な推論手法の新たなクラスの開発につながった。 我々は、これらの進歩を、堅牢で長期の自律性を達成するための分岐点を強調して調査し、オープンチャレンジと今後の研究方向の展望を議論して結論づける。

Simultaneous localization and mapping (SLAM) is the process of constructing a global model of an environment from local observations of it; this is a foundational capability for mobile robots, supporting such core functions as planning, navigation, and control. This article reviews recent progress in SLAM, focusing on advances in the expressive capacity of the environmental models used in SLAM systems (representation) and the performance of the algorithms used to estimate these models from data (inference). A prominent theme of recent SLAM research is the pursuit of environmental representations (including learned representations) that go beyond the classical attributes of geometry and appearance to model properties such as hierarchical organization, affordance, dynamics, and semantics; these advances equip autonomous agents with a more comprehensive understanding of the world, enabling more versatile and intelligent operation. A second major theme is a revitalized interest in the mathematical properties of the SLAM estimation problem itself (including its computational and information-theoreti c performance limits); this work has led to the development of novel classes of certifiable and robust inference methods that dramatically improve the reliability of SLAM systems in real-world operation. We survey these advances with an emphasis on their ramifications for achieving robust, long-duration autonomy, and conclude with a discussion of open challenges and a perspective on future research directions.
翻訳日:2021-03-10 14:48:42 公開日:2021-03-08
# 潜時空間マニピュレーションによる微分プライベートイメージング

Differentially Private Imaging via Latent Space Manipulation ( http://arxiv.org/abs/2103.05472v1 )

ライセンス: Link先を確認
Tao Li, Chris Clifton(参考訳) ソーシャルメディアや写真デバイスの人気と顔認識システムの利用の増加により、画像のプライバシーに関する懸念が高まっています。 しかし、確立された画像識別技術は再同定の対象になりすぎるか、不充分に現実的な写真を生成するか、両方になる。 そこで本研究では,無条件に訓練された生成モデルの潜在空間を操作し,高分解能のフォトリアリスティックな顔画像を合成する新しい手法を提案する。 この操作は、ローカルな差分プライバシーの正式なプライバシー標準を満たす方法で行われます。 私たちの知る限り、これは$\varepsilon$-differ ence privacy \emph{for the person.}を満たす最初の画像プライバシーのアプローチです。

There is growing concern about image privacy due to the popularity of social media and photo devices, along with increasing use of face recognition systems. However, established image de-identification techniques are either too subject to re-identification, produce photos that are insufficiently realistic, or both. To tackle this, we present a novel approach for image obfuscation by manipulating latent spaces of an unconditionally trained generative model that is able to synthesize photo-realistic facial images of high resolution. This manipulation is done in a way that satisfies the formal privacy standard of local differential privacy. To our knowledge, this is the first approach to image privacy that satisfies $\varepsilon$-differ ential privacy \emph{for the person.}
翻訳日:2021-03-10 14:47:07 公開日:2021-03-08
# 経時的腹部臓器変化に対する多相変形性レジストレーション

Multi-phase Deformable Registration for Time-dependent Abdominal Organ Variations ( http://arxiv.org/abs/2103.05525v1 )

ライセンス: Link先を確認
Seyoun Park, Elliot K. Fishman, Alan L. Yuille(参考訳) 人体は、様々なサブダイナミックな部分からなる複雑な動的システムです。 特に胸部・腹部の臓器は, 運動が速い呼吸, 動きが遅い腹膜炎などの様々な理由により, 周波数の異なる複雑な内部形状変化を呈する。 腹部病変に対するctプロトコルは各種腫瘍検出のための多相スキャンであり,血管コントラストが異なるが,同じ部位を視覚的に確認するには不十分である。 本論文では、腹部臓器運動を考慮した多相CTスキャンのための時間効率的かつ正確な変形可能な登録アルゴリズムを提案し、腹部臓器の微分可能または非微分可能な運動に適用することができる。 腹部全領域で1分以内の膵の登録精度は 0.85 +/- 0.45mm (mean +/- std) であった。

Human body is a complex dynamic system composed of various sub-dynamic parts. Especially, thoracic and abdominal organs have complex internal shape variations with different frequencies by various reasons such as respiration with fast motion and peristalsis with slower motion. CT protocols for abdominal lesions are multi-phase scans for various tumor detection to use different vascular contrast, however, they are not aligned well enough to visually check the same area. In this paper, we propose a time-efficient and accurate deformable registration algorithm for multi-phase CT scans considering abdominal organ motions, which can be applied for differentiable or non-differentiable motions of abdominal organs. Experimental results shows the registration accuracy as 0.85 +/- 0.45mm (mean +/- STD) for pancreas within 1 minute for the whole abdominal region.
翻訳日:2021-03-10 14:46:54 公開日:2021-03-08
# 雑音データによる最適プログラム合成

Optimal Program Synthesis Over Noisy Data ( http://arxiv.org/abs/2103.05030v1 )

ライセンス: Link先を確認
Shivam Handa and Martin Rinard(参考訳) ノイズの多いデータ、すなわち破損した入出力サンプルを含む可能性のあるデータに対してプログラムを合成するタスクを探索し、定式化する。 ノイズ源,入力源,プログラム上の事前分布の概念を定式化することにより,ノイズの多いデータセットを構成する確率過程を定式化する。 この形式化により、隠れたプログラムを合成する能力の観点から、合成アルゴリズムの正確性を定義することができる。 合成アルゴリズムが正しい確率は、合成アルゴリズムの最適化プロセスで使用されるノイズ源と損失関数のマッチングに依存する。 ノイズ源に関する事前情報を与えられた最適損失関数の概念を定式化する。 ノイズ源に関する完全かつ不完全な情報を与える最適損失関数を設計する手法を提案する。 また、収束に必要な概念や条件、すなわち合成アルゴリズムが正しいプログラムを生成する確率が、ノイズの多いデータセットのサイズが大きくなるにつれて増加する条件を定式化する。 本稿では、最適損失関数の概念の最初の形式化、最適損失関数の最初の閉形式定義、およびノイズの多い合成アルゴリズムが収束を保証することを保証する最初の条件について述べる。

We explore and formalize the task of synthesizing programs over noisy data, i.e., data that may contain corrupted input-output examples. By formalizing the concept of a Noise Source, an Input Source, and a prior distribution over programs, we formalize the probabilistic process which constructs a noisy dataset. This formalism allows us to define the correctness of a synthesis algorithm, in terms of its ability to synthesize the hidden underlying program. The probability of a synthesis algorithm being correct depends upon the match between the Noise Source and the Loss Function used in the synthesis algorithm's optimization process. We formalize the concept of an optimal Loss Function given prior information about the Noise Source. We provide a technique to design optimal Loss Functions given perfect and imperfect information about the Noise Sources. We also formalize the concept and conditions required for convergence, i.e., conditions under which the probability that the synthesis algorithm produces a correct program increases as the size of the noisy data set increases. This paper presents the first formalization of the concept of optimal Loss Functions, the first closed form definition of optimal Loss Functions, and the first conditions that ensure that a noisy synthesis algorithm will have convergence guarantees.
翻訳日:2021-03-10 14:46:11 公開日:2021-03-08
# WiFiローカライゼーションのためのDeep Transfer Learning

Deep Transfer Learning for WiFi Localization ( http://arxiv.org/abs/2103.05123v1 )

ライセンス: Link先を確認
Peizheng Li, Han Cui, Aftab Khan, Usman Raza, Robert Piechocki, Angela Doufexi, Tim Farnham(参考訳) 本稿では,深層学習モデルを用いたWiFi屋内ローカライズ手法とその転送戦略について検討する。 我々は,wi-fi標準チャネルから収集したcsiパケットをトレーニングデータセットとし,3つの実験環境で収集したサブセット上でcnnモデルを検証する。 我々は,障害のない理想のオフィス(6.5m \times 2.5m)$で46.55cm,障害物のあるオフィスで58.30cm,スポーツホールで102.8cmのローカライズ精度を達成する。 そこで,提案モデルの異なる環境への移動能力を評価する。 実験結果から, 訓練された局所化モデルでは, 特徴抽出層を他のモデルへ直接転送することが可能であり, 非伝達ベースモデルと同じベースライン精度を達成するためには, 完全に連結された層のみを再学習する必要があることがわかった。 これにより、トレーニングパラメータの60%を節約し、トレーニング時間を半分以上削減することができる。 最後に、トレーニングデータセットのアブレーション研究は、オフィスとスポーツホールの両方のシナリオにおいて、ベースモデルの特徴抽出層を再利用した後、ベースモデルに類似したモデルの精度を得るためにトレーニングデータの55%しか必要とされないことを示しています。

This paper studies a WiFi indoor localisation technique based on using a deep learning model and its transfer strategies. We take CSI packets collected via the WiFi standard channel sounding as the training dataset and verify the CNN model on the subsets collected in three experimental environments. We achieve a localisation accuracy of 46.55 cm in an ideal $(6.5m \times 2.5m)$ office with no obstacles, 58.30 cm in an office with obstacles, and 102.8 cm in a sports hall $(40 \times 35m)$. Then, we evaluate the transfer ability of the proposed model to different environments. The experimental results show that, for a trained localisation model, feature extraction layers can be directly transferred to other models and only the fully connected layers need to be retrained to achieve the same baseline accuracy with non-transferred base models. This can save 60% of the training parameters and reduce the training time by more than half. Finally, an ablation study of the training dataset shows that, in both office and sport hall scenarios, after reusing the feature extraction layers of the base model, only 55% of the training data is required to obtain the models' accuracy similar to the base models.
翻訳日:2021-03-10 14:45:53 公開日:2021-03-08
# ReLUニューラルネットワークコントローラによる確率システムの形式的検証

Formal Verification of Stochastic Systems with ReLU Neural Network Controllers ( http://arxiv.org/abs/2103.05142v1 )

ライセンス: Link先を確認
Shiqi Sun, Yan Zhang, Xusheng Luo, Panagiotis Vlantis, Miroslav Pajic and Michael M. Zavlanos(参考訳) 本研究では、ReLUニューラルネットワーク(NN)コントローラを備えた確率的サイバー物理システム(CPS)の安全性検証に関する問題に対処する。 私たちの目標は、所定の自信を持って、システムが指定された時間圏内に安全でない構成に達しない初期状態のセットを見つけることです。 具体的には、ガウス雑音を持つ離散時間LTIシステムについて検討し、適切なグラフで抽象化する。 次に、SMC(Satisfiability Modulo Convex)問題を定式化し、グラフ内のノード間の遷移確率上の上限を推定します。 この抽象化を用いて、ノード間の遷移確率の過剰な近似にもかかわらず、このグラフにおけるノードの安全性確率の厳密な境界を計算する手法を提案する。 さらに,提案したSMC式を用いて,システムの抽象化を改良するヒューリスティック手法を考案し,推定安全境界をさらに改善する。 最後に,提案手法の有効性と,ロボットナビゲーションの例と最新の検証手法との比較を検討したシミュレーション結果とを相関させる。

In this work, we address the problem of formal safety verification for stochastic cyber-physical systems (CPS) equipped with ReLU neural network (NN) controllers. Our goal is to find the set of initial states from where, with a predetermined confidence, the system will not reach an unsafe configuration within a specified time horizon. Specifically, we consider discrete-time LTI systems with Gaussian noise, which we abstract by a suitable graph. Then, we formulate a Satisfiability Modulo Convex (SMC) problem to estimate upper bounds on the transition probabilities between nodes in the graph. Using this abstraction, we propose a method to compute tight bounds on the safety probabilities of nodes in this graph, despite possible over-approximations of the transition probabilities between these nodes. Additionally, using the proposed SMC formula, we devise a heuristic method to refine the abstraction of the system in order to further improve the estimated safety bounds. Finally, we corroborate the efficacy of the proposed method with simulation results considering a robot navigation example and comparison against a state-of-the-art verification scheme.
翻訳日:2021-03-10 14:43:38 公開日:2021-03-08
# (参考訳) 関係に基づくニューラルベイビートーク [全文訳有]

Relationship-based Neural Baby Talk ( http://arxiv.org/abs/2103.04846v1 )

ライセンス: CC BY 4.0
Fan Fu, Tingting Xie, Ioannis Patras, Sepehr Jalali(参考訳) 画像内のオブジェクト間の相互作用を理解することは、キャプションを生成する重要な要素である。 本稿では,3つの異なる関係に基づくグラフアテンションネットワーク(GAT)を介して,各画像を符号化することにより,複数種類のペアワイズオブジェクトインタラクションを包括的に検討する,関係ベースのニューラルベビートーク(R-NBT)モデルを提案する。 幾何学的相互作用を探索する \textit{spatial relations} 、意味的相互作用を抽出するための \textit{semantic relations} 、上述のように明示的にモデル化できない隠れた情報をキャプチャする \textit{implicit relations} の3つの主要な関係を研究した。 画像中のオブジェクトをノードとする3つの関係グラフと、エッジとしてのペアワイズオブジェクトの相互関係を構築する。 GATを介して各地域の特徴を個別に探索することにより、異なる種類の関係を各ノードの視覚的特徴に統合します。 COCOデータセットの実験では、提案されたR-NBTモデルが3つの画像キャプション生成タスクでCOCOデータセットで訓練された最新モデルを上回ることが示された。

Understanding interactions between objects in an image is an important element for generating captions. In this paper, we propose a relationship-based neural baby talk (R-NBT) model to comprehensively investigate several types of pairwise object interactions by encoding each image via three different relationship-based graph attention networks (GATs). We study three main relationships: \textit{spatial relationships} to explore geometric interactions, \textit{semantic relationships} to extract semantic interactions, and \textit{implicit relationships} to capture hidden information that could not be modelled explicitly as above. We construct three relationship graphs with the objects in an image as nodes, and the mutual relationships of pairwise objects as edges. By exploring features of neighbouring regions individually via GATs, we integrate different types of relationships into visual features of each node. Experiments on COCO dataset show that our proposed R-NBT model outperforms state-of-the-art models trained on COCO dataset in three image caption generation tasks.
翻訳日:2021-03-10 14:17:27 公開日:2021-03-08
# (参考訳) 低速シンクホーンファクタリゼーション [全文訳有]

Low-Rank Sinkhorn Factorization ( http://arxiv.org/abs/2103.04737v1 )

ライセンス: CC BY 4.0
Meyer Scetbon, Marco Cuturi, Gabriel Peyr\'e(参考訳) 機械学習への最適輸送(OT)理論の最近の適用は正規化、特にエントロピーとシンクホーンアルゴリズムに依存している。 行列ベクトル積はシンクホーンアルゴリズムで広く普及しているため、いくつかの研究が低ランク因子を用いて反復で現れるカーネル行列に対して提案されている。 別の経路は、ot問題で考慮されるカップリングの実行可能な集合に低ランク制約を課すことであり、コストやカーネル行列の近似は含まない。 この経路は2018年にforrowらによって初めて研究され、正則化された2-wasserstein barycentersの機械で解くことができるプロキシの目的を用いて、二乗ユークリッドの地上コストに合わせたアルゴリズムを提案した。 そこで本研究では,低ランク制約下におけるOT問題を完全一般化して,任意のコストで解決することを目的とした汎用的なアプローチを提案する。 提案アルゴリズムは, NMF法と同様に, これらの因子を更新するために, 共通限界によって関連づけられた {textit{sub-coupling} 因子の積として, 低階結合の明示的な分解に依存する。 このアルゴリズムの非漸近定常収束を証明し、その効率をベンチマーク実験で示す。

Several recent applications of optimal transport (OT) theory to machine learning have relied on regularization, notably entropy and the Sinkhorn algorithm. Because matrix-vector products are pervasive in the Sinkhorn algorithm, several works have proposed to \textit{approximate} kernel matrices appearing in its iterations using low-rank factors. Another route lies instead in imposing low-rank constraints on the feasible set of couplings considered in OT problems, with no approximations on cost nor kernel matrices. This route was first explored by Forrow et al., 2018, who proposed an algorithm tailored for the squared Euclidean ground cost, using a proxy objective that can be solved through the machinery of regularized 2-Wasserstein barycenters. Building on this, we introduce in this work a generic approach that aims at solving, in full generality, the OT problem under low-rank constraints with arbitrary costs. Our algorithm relies on an explicit factorization of low rank couplings as a product of \textit{sub-coupling} factors linked by a common marginal; similar to an NMF approach, we alternatively updates these factors. We prove the non-asymptotic stationary convergence of this algorithm and illustrate its efficiency on benchmark experiments.
翻訳日:2021-03-10 11:27:19 公開日:2021-03-08
# (参考訳) 図形の半基底的遠視:2つの多モードコーパスからの洞察 [全文訳有]

Semiotically-grounde d distant viewing of diagrams: insights from two multimodal corpora ( http://arxiv.org/abs/2103.04692v1 )

ライセンス: CC BY 4.0
Tuomo Hiippala and John A. Bateman(参考訳) 本稿では,マルチモーダルコミュニケーション理論と計算手法を組み合わせることで,小学校理科図が複数の表現資源を組み合わせる方法を検討する。 我々は,デジタル人文科学の分野に我々の研究を位置づけ,表現資源と談話構造を対象とするマルチモダリティ研究のアノテーションにより,計算手法の出力構造を構築できることを示す。 第1のコーパスは自動ダイアグラム処理の研究を支援することを目的としていますが,第2のコーパスはコミュニケーションの手段としてダイアグラムを研究することを目的としています。 その結果,マルチモーダルなインフォームドアノテーションは,異なるトピックを扱うダイアグラムにまたがる構造的パターンを図中に持ち出すことができることがわかった。

In this article, we bring together theories of multimodal communication and computational methods to study how primary school science diagrams combine multiple expressive resources. We position our work within the field of digital humanities, and show how annotations informed by multimodality research, which target expressive resources and discourse structure, allow imposing structure on the output of computational methods. We illustrate our approach by analysing two multimodal diagram corpora: the first corpus is intended to support research on automatic diagram processing, whereas the second is oriented towards studying diagrams as a mode of communication. Our results show that multimodally-informe d annotations can bring out structural patterns in the diagrams, which also extend across diagrams that deal with different topics.
翻訳日:2021-03-10 09:51:51 公開日:2021-03-08
# (参考訳) 逆訓練ganによるグローバル・アドバーサリー・ロバストネス一般化の改善 [全文訳有]

Improving Global Adversarial Robustness Generalization With Adversarially Trained GAN ( http://arxiv.org/abs/2103.04513v1 )

ライセンス: CC BY 4.0
Desheng Wang (1), Weidong Jin (1), Yunpu Wu (1), Aamir Khan (1) ((1) School of Electrical Engineering, Southwest Jiaotong University, Chengdu, P. R. China)(参考訳) 畳み込みニューラルネットワーク(CNN)は、画像分類タスクにおける人間レベルの精度を超えて達成され、現実の環境で広く展開されています。 しかし、cnnは分類モデルを誤解することを目的としたよく設計されたノイズである逆向摂動に対する脆弱性を示す。 対向的摂動から守るために, 対向的訓練を受けたGAN(ATGAN)が提案され, 対向的訓練によって訓練された最先端CNNの対向的堅牢性一般化を改善する。 ATGANは、敵対的摂動に対する防御において誤った感覚につながる可能性のある難読化グラデーションを除去するための標準GANトレーニング手順に敵対的トレーニングを組み込んでおり、既存のGANsベースの敵対的防御方法で一般的に観察される。 さらに、atganは画像から画像へのジェネレータをデータ拡張として採用し、敵のロバスト性一般化に必要なサンプルの複雑さを高めている。 MNIST SVHN と CIFAR-10 データセットによる実験結果から,提案手法は難解勾配に依存しず,対向的に訓練された CNN よりも優れた大域的対向ロバスト性一般化性能が得られることが示された。

Convolutional neural networks (CNNs) have achieved beyond human-level accuracy in the image classification task and are widely deployed in real-world environments. However, CNNs show vulnerability to adversarial perturbations that are well-designed noises aiming to mislead the classification models. In order to defend against the adversarial perturbations, adversarially trained GAN (ATGAN) is proposed to improve the adversarial robustness generalization of the state-of-the-art CNNs trained by adversarial training. ATGAN incorporates adversarial training into standard GAN training procedure to remove obfuscated gradients which can lead to a false sense in defending against the adversarial perturbations and are commonly observed in existing GANs-based adversarial defense methods. Moreover, ATGAN adopts the image-to-image generator as data augmentation to increase the sample complexity needed for adversarial robustness generalization in adversarial training. Experimental results in MNIST SVHN and CIFAR-10 datasets show that the proposed method doesn't rely on obfuscated gradients and achieves better global adversarial robustness generalization performance than the adversarially trained state-of-the-art CNNs.
翻訳日:2021-03-10 08:44:35 公開日:2021-03-08
# (参考訳) 自律走行車におけるモデルベース対モデルフリーディープ強化学習 [全文訳有]

Model-based versus Model-free Deep Reinforcement Learning for Autonomous Racing Cars ( http://arxiv.org/abs/2103.04909v1 )

ライセンス: CC BY 4.0
Axel Brunnbauer, Luigi Berducci, Andreas Brandst\"atter, Mathias Lechner, Ramin Hasani, Daniela Rus, Radu Grosu(参考訳) モデルベース深層強化学習(rl)エージェントの豊富な理論的基礎にもかかわらず、実世界のロボティクス応用におけるその効果は研究や理解が進んでいない。 そこで本論文では,このようなエージェントが現実世界の自律車両制御タスクに一般化する方法について検討する。 特に,高次元lidarセンサを搭載したf110レースロボットのための一連のタイムラッピングタスクを,その複雑さを徐々に増やしながら,一連のテストトラックに設定した。 この連続制御設定では、モデルベースエージェントが、性能、サンプル効率、タスク完了成功、一般化に関して、モデルフリーエージェントを著しく上回り、想像力で学習できることを示す。 さらに,モデルベースエージェントの一般化能力は観測モデル選択に大きく依存することを示した。 最後に、sim2realタスクにおいて十分なメモリホライズンズを提供するモデルベースエージェントの有効性に関する広範な実証的証拠を提供する。

Despite the rich theoretical foundation of model-based deep reinforcement learning (RL) agents, their effectiveness in real-world robotics-application s is less studied and understood. In this paper, we, therefore, investigate how such agents generalize to real-world autonomous-vehicle control-tasks, where advanced model-free deep RL algorithms fail. In particular, we set up a series of time-lap tasks for an F1TENTH racing robot, equipped with high-dimensional LiDAR sensors, on a set of test tracks with a gradual increase in their complexity. In this continuous-control setting, we show that model-based agents capable of learning in imagination, substantially outperform model-free agents with respect to performance, sample efficiency, successful task completion, and generalization. Moreover, we show that the generalization ability of model-based agents strongly depends on the observation-model choice. Finally, we provide extensive empirical evidence for the effectiveness of model-based agents provided with long enough memory horizons in sim2real tasks.
翻訳日:2021-03-10 07:06:17 公開日:2021-03-08
# (参考訳) 高次元電子健康記録における説明可能な人工知能手法の比較研究:XAIの使用可能性の検討 [全文訳有]

A Comparative Approach to Explainable Artificial Intelligence Methods in Application to High-Dimensional Electronic Health Records: Examining the Usability of XAI ( http://arxiv.org/abs/2103.04951v1 )

ライセンス: CC BY 4.0
Jamie Andrew Duell(参考訳) 説明可能な人工知能(XAI)は、AIの上昇分野です。 これは、機械学習(ML)アルゴリズムだけでは生成できないコミュニケーション手段を介して、人間の被験者のために達成される信頼の実証的な要因を生成し、モデル出力へのサポートを生成する余分な層の必要性を示しています。 医療分野に近づくと、人間の主体の関与に対処するとき、人間の生き方に向かって機械を信頼する背後にあるイデオロギーは倫理的な混乱を引き起こします - 機械の決定を受け入れるための人間専門家の基礎として信頼を残します。 本稿では,説明可能なアーキテクチャをml予測と人間-専門家の意見をサポートする医療領域の3次層としての有用性を示すために,xai手法を適用し,局所的およびグローバルレベルで出力されるモデルに対する特徴的貢献を可視化することを目的とする。 本論文では,高次元データ駆動型質問に対する特徴的重要性をXAIを用いて決定し,MLアルゴリズムへの適用におけるモデル非依存手法の比較により,特定可能な傾向のドメイン専門家に通知する。 また, ガラス箱法の性能指標は, 表データのブラックボックス機能との比較として提供される。 今後は、与えられたモデルの人的専門家のユーザビリティと意見を評価するためにメトリクスを使用してユーザースタディを作成することを目指しています。

Explainable Artificial Intelligence (XAI) is a rising field in AI. It aims to produce a demonstrative factor of trust, which for human subjects is achieved through communicative means, which Machine Learning (ML) algorithms cannot solely produce, illustrating the necessity of an extra layer producing support to the model output. When approaching the medical field, we can see challenges arise when dealing with the involvement of human-subjects, the ideology behind trusting a machine to tend towards the livelihood of a human poses an ethical conundrum - leaving trust as the basis of the human-expert in acceptance to the machines decision. The aim of this paper is to apply XAI methods to demonstrate the usability of explainable architectures as a tertiary layer for the medical domain supporting ML predictions and human-expert opinion, XAI methods produce visualization of the feature contribution towards a given models output on both a local and global level. The work in this paper uses XAI to determine feature importance towards high-dimensional data-driven questions to inform domain-experts of identifiable trends with a comparison of model-agnostic methods in application to ML algorithms. The performance metrics for a glass-box method is also provided as a comparison against black-box capability for tabular data. Future work will aim to produce a user-study using metrics to evaluate human-expert usability and opinion of the given models.
翻訳日:2021-03-10 06:42:36 公開日:2021-03-08
# (参考訳) ランダム特徴モデルにおける一般化誤差と一様収束の厳密なギャップ

Exact Gap between Generalization Error and Uniform Convergence in Random Feature Models ( http://arxiv.org/abs/2103.04554v1 )

ライセンス: CC BY 4.0
Zitong Yang, Yu Bai, Song Mei(参考訳) 最近の研究では、古典的な均一収束境界と、ディープニューラルネットワークなどのゼロトレーニングエラー予測器(インターポレータ)の実際のテストエラーとの間に大きなギャップがあることが示された。 このギャップをよりよく理解するために,非線形ランダム特徴モデルの一様収束を研究し,一様収束がサンプルサイズとパラメータ数にどの程度依存しているかを理論的に解析する。 このモデルでは、1)ノルムボールに対する古典的一様収束、2)ノルムボールにおける補間体に対する一様収束(最近Zhou et alによって提案されている)の3つの量の解析式を導出し、証明する。 (2020))、および3)最小ノルム補間器のリスク。 古典的一様収束境界が空である設定($\infty$に分割する)において、補間器上の一様収束は依然として解を補間するテスト誤差の非自明な境界を与える。 また, 古典的一様収束境界は空でないが, 補間体上の一様収束は, サンプル複雑性の保証を改善する。 この結果は、単純な線形モデルを超えた補間器の試験誤差と一様収束境界との第一の正確な比較を与える。

Recent work showed that there could be a large gap between the classical uniform convergence bound and the actual test error of zero-training-error predictors (interpolators) such as deep neural networks. To better understand this gap, we study the uniform convergence in the nonlinear random feature model and perform a precise theoretical analysis on how uniform convergence depends on the sample size and the number of parameters. We derive and prove analytical expressions for three quantities in this model: 1) classical uniform convergence over norm balls, 2) uniform convergence over interpolators in the norm ball (recently proposed by Zhou et al. (2020)), and 3) the risk of minimum norm interpolator. We show that, in the setting where the classical uniform convergence bound is vacuous (diverges to $\infty$), uniform convergence over the interpolators still gives a non-trivial bound of the test error of interpolating solutions. We also showcase a different setting where classical uniform convergence bound is non-vacuous, but uniform convergence over interpolators can give an improved sample complexity guarantee. Our result provides a first exact comparison between the test errors and uniform convergence bounds for interpolators beyond simple linear models.
翻訳日:2021-03-10 06:30:27 公開日:2021-03-08
# (参考訳) 弱ラベルランダムインデックス [全文訳有]

The Weakly-Labeled Rand Index ( http://arxiv.org/abs/2103.04872v1 )

ライセンス: CC BY 4.0
Dylan Stewart, Anna Hampton, Alina Zare, Jeff Dale, James Keller(参考訳) 合成開口ソナー (SAS) 調査では, 海底型間の遷移領域が広い画像が得られた。 これらの領域により、画像のラベル付けと分割が困難であり、さらに画像分割を適切にスコア付けすることが困難である。 標準のクリスプセグメンテーションスキームの性能を定量化する多くのアプローチがあるが、不確かさの勾配や領域が不適切であるリモートセンシングイメージにおけるハードバウンダリの描画は困難である。 これらのケースは弱いラベルと関連する適切なスコア付けアプローチを保証します。 本稿では,弱いラベル付きデータに対するラベル付け手法とRand indexの修正版を導入し,これらの課題に対処する。 結果は新しいインデックスで評価され、従来のセグメンテーション評価方法と比較されます。 sasデータセットを用いた実験の結果,我々の弱いラベル付きrandインデックススコアは質的性能に適しており,弱いラベル付きデータをスコアする従来の量的指標よりも適していることがわかった。

Synthetic Aperture Sonar (SAS) surveys produce imagery with large regions of transition between seabed types. Due to these regions, it is difficult to label and segment the imagery and, furthermore, challenging to score the image segmentations appropriately. While there are many approaches to quantify performance in standard crisp segmentation schemes, drawing hard boundaries in remote sensing imagery where gradients and regions of uncertainty exist is inappropriate. These cases warrant weak labels and an associated appropriate scoring approach. In this paper, a labeling approach and associated modified version of the Rand index for weakly-labeled data is introduced to address these issues. Results are evaluated with the new index and compared to traditional segmentation evaluation methods. Experimental results on a SAS data set containing must-link and cannot-link labels show that our Weakly-Labeled Rand index scores segmentations appropriately in reference to qualitative performance and is more suitable than traditional quantitative metrics for scoring weakly-labeled data.
翻訳日:2021-03-10 06:08:07 公開日:2021-03-08
# (参考訳) 「シャークは人間の脅威ではない」--学校学生評価における論議構成区分 [全文訳有]

"Sharks are not the threat humans are": Argument Component Segmentation in School Student Essays ( http://arxiv.org/abs/2103.04518v1 )

ライセンス: CC BY 4.0
Tariq Alhindi and Debanjan Ghosh(参考訳) 引数マイニングは、まずテキストを引数単位に分割し、引数成分識別タスクによって進行するパイプライン方式によって対処されることが多い。 本研究では,中学生が執筆した議論的エッセイの新しいコーパスから,クレームと前提トークンを識別するためにトークンレベルの分類を適用する。 そのために、離散的機能やディープラーニングアーキテクチャ(BiLSTMネットワークやBERTベースのアーキテクチャなど)など、さまざまな最先端のモデルを比較し、引数コンポーネントを特定します。 BERTに基づくマルチタスク学習アーキテクチャ(トークンと文レベルの分類)が、関連する未ラベルデータセット上で適応的に事前訓練され、最良の結果が得られることを示す。

Argument mining is often addressed by a pipeline method where segmentation of text into argumentative units is conducted first and proceeded by an argument component identification task. In this research, we apply a token-level classification to identify claim and premise tokens from a new corpus of argumentative essays written by middle school students. To this end, we compare a variety of state-of-the-art models such as discrete features and deep learning architectures (e.g., BiLSTM networks and BERT-based architectures) to identify the argument components. We demonstrate that a BERT-based multi-task learning architecture (i.e., token and sentence level classification) adaptively pretrained on a relevant unlabeled dataset obtains the best results
翻訳日:2021-03-10 05:08:14 公開日:2021-03-08
# (参考訳) 逆ランダム化による多エージェント戦略挙動の探索 [全文訳有]

Discovering Diverse Multi-Agent Strategic Behavior via Reward Randomization ( http://arxiv.org/abs/2103.04564v1 )

ライセンス: CC BY 4.0
Zhenggang Tang, Chao Yu, Boyuan Chen, Huazhe Xu, Xiaolong Wang, Fei Fang, Simon Du, Yu Wang, Yi Wu(参考訳) 我々は、複雑なマルチエージェントゲームにおける多様な戦略政策を発見するためのシンプルで一般的で効果的な手法である報酬ランダム化を提案します。 報酬ランダム化と政策勾配を組み合わせた新しいアルゴリズムである報酬ランダム化政策勾配(rpg)を導出する。 rpgは、グリッドワールドゲームや、複数の均衡が存在するが標準的なマルチエージェントポリシー勾配アルゴリズムがある実世界のゲームであるagar.ioなど、時間的信頼のジレンマに挑戦して、複数の識別可能な戦略を見つけることができる。 さらに,RPGの多様な戦略の集合を用いて,(1)最良政策を微調整して高い報酬を得られること,(2)この戦略の集合を訓練相手として活用することで適応的エージェントを得ることができる。 ソースコードとサンプルビデオは、当社のウェブサイト(https://sites.googl e.com/view/staghuntr pg.com)にあります。

We propose a simple, general and effective technique, Reward Randomization for discovering diverse strategic policies in complex multi-agent games. Combining reward randomization and policy gradient, we derive a new algorithm, Reward-Randomized Policy Gradient (RPG). RPG is able to discover multiple distinctive human-interpretable strategies in challenging temporal trust dilemmas, including grid-world games and a real-world game Agar.io, where multiple equilibria exist but standard multi-agent policy gradient algorithms always converge to a fixed one with a sub-optimal payoff for every player even using state-of-the-art exploration techniques. Furthermore, with the set of diverse strategies from RPG, we can (1) achieve higher payoffs by fine-tuning the best policy from the set; and (2) obtain an adaptive agent by using this set of strategies as its training opponents. The source code and example videos can be found in our website: https://sites.google .com/view/staghuntrp g.
翻訳日:2021-03-10 04:49:16 公開日:2021-03-08
# (参考訳) OPANAS: one-shot Path Aggregation Network Architecture Search for Object [全文訳有]

OPANAS: One-Shot Path Aggregation Network Architecture Search for Object ( http://arxiv.org/abs/2103.04507v1 )

ライセンス: CC0 1.0
Tingting Liang, Yongtao Wang, Guosheng Hu, Zhi Tang, Haibin Ling(参考訳) 近年、ニューラルアーキテクチャサーチ (NAS) を用いて特徴ピラミッドネットワーク (FPN) を設計し、視覚オブジェクト検出の有望な結果を得た。 そこで本研究では,検索効率と検出精度を有意に向上させる,新しいOne-Shot Path Aggregation Network Architecture Search(OPANAS)アルゴリズムを提案する。 具体的には、トップダウン、ボトムアップ、融合分割、スケール等化、スキップ接続、およびなしの検索空間を構築するために、6つの異種情報パスを最初に導入します。 次に,FPNの候補を高密度に連結した有向非巡回グラフで表現するFPNの新しい探索空間を提案する(各ノードは特徴ピラミッドであり,各エッジは6つの異種情報パスの1つである)。 第3に,最適なパスアグリゲーションアーキテクチャ,すなわちスーパーネットをまず学習し,次に進化アルゴリズムを用いて最適な候補を見つけるための効率的なワンショット探索法を提案する。 Experimental results demonstrate the efficacy of the proposed OPANAS for object detection: (1) OPANAS is more efficient than state-of-the-art methods (e.g., NAS-FPN and Auto-FPN), at significantly smaller searching cost (e.g., only 4 GPU days on MS-COCO); (2) the optimal architecture found by OPANAS significantly improves main-stream detectors including RetinaNet, Faster R-CNN and Cascade R-CNN, by 2.3-3.2 % mAP comparing to their FPN counterparts; and (3) a new state-of-the-art accuracy-speed trade-off (52.2 % mAP at 7.6 FPS) at smaller training costs than comparable state-of-the-arts. コードはhttps://github.com/V DIGPKU/OPANASで公開されます。

Recently, neural architecture search (NAS) has been exploited to design feature pyramid networks (FPNs) and achieved promising results for visual object detection. Encouraged by the success, we propose a novel One-Shot Path Aggregation Network Architecture Search (OPANAS) algorithm, which significantly improves both searching efficiency and detection accuracy. Specifically, we first introduce six heterogeneous information paths to build our search space, namely top-down, bottom-up, fusing-splitting, scale-equalizing, skip-connect and none. Second, we propose a novel search space of FPNs, in which each FPN candidate is represented by a densely-connected directed acyclic graph (each node is a feature pyramid and each edge is one of the six heterogeneous information paths). Third, we propose an efficient one-shot search method to find the optimal path aggregation architecture, that is, we first train a super-net and then find the optimal candidate with an evolutionary algorithm. Experimental results demonstrate the efficacy of the proposed OPANAS for object detection: (1) OPANAS is more efficient than state-of-the-art methods (e.g., NAS-FPN and Auto-FPN), at significantly smaller searching cost (e.g., only 4 GPU days on MS-COCO); (2) the optimal architecture found by OPANAS significantly improves main-stream detectors including RetinaNet, Faster R-CNN and Cascade R-CNN, by 2.3-3.2 % mAP comparing to their FPN counterparts; and (3) a new state-of-the-art accuracy-speed trade-off (52.2 % mAP at 7.6 FPS) at smaller training costs than comparable state-of-the-arts. Code will be released at https://github.com/V DIGPKU/OPANAS.
翻訳日:2021-03-09 22:58:50 公開日:2021-03-08
# (参考訳) 弱教師付き物体定位における構造保存の可能性 [全文訳有]

Unveiling the Potential of Structure-Preserving for Weakly Supervised Object Localization ( http://arxiv.org/abs/2103.04523v1 )

ライセンス: CC BY 4.0
Xingjia Pan, Yingguo Gao, Zhiwen Lin, Fan Tang, Weiming Dong, Haolei Yuan, Feiyue Huang, Changsheng Xu(参考訳) 分類ネットワークを用いた対象範囲情報の発見が不足しているため,弱い教師付き対象の局所化は未解決の問題である。 先行研究は様々な空間正規化戦略によるオブジェクトのローカライズに苦慮する一方で、訓練された分類ネットワークからオブジェクト構造情報を抽出する方法は無視されていると論じている。 本稿では,WSOLの畳み込み機能に組み込まれた構造情報を完全に活用するための2段階構造保存アクティベーション(SPA)を提案する。 第1段階では、制約付きアクティベーションモジュール(ram)が、未境界分類マップとグローバル平均プーリング層がネットワークを対象部品のみに集中させるという観測に基づいて、分類ネットワークによって引き起こされる構造ミス問題を軽減するように設計されている。 第2段階では,第1段階から獲得したアクティベーションマップに基づいて,構造保存型ローカリゼーションマップを得るためのプロセス後アプローチである自己相関マップ生成(SCG)モジュールを提案する。 具体的には,高次自己相関(high-order self-correlation, hsc)を用いて,学習モデルに保持されている固有構造情報を抽出する。 CUB-200-2011 と ILSVRC を含む2つの公開ベンチマークの大規模な実験により、提案したSPA はベースラインアプローチと比較して大幅に、一貫した性能向上を達成した。

Weakly supervised object localization remains an open problem due to the deficiency of finding object extent information using a classification network. While prior works struggle to localize objects by various spatial regularization strategies, we argue that how to extract object structural information from the trained classification network is neglected. In this paper, we propose a two-stage approach, termed structure-preserving activation (SPA), towards fully leveraging the structure information incorporated in convolutional features for WSOL. In the first stage, a restricted activation module (RAM) is designed to alleviate the structure-missing issue caused by the classification network, based on the observation that the unbounded classification map and global average pooling layer drive the network to focus only on object parts. In the second stage, we propose a post-process approach, termed self-correlation map generating (SCG) module to obtain structure-preserving localization maps on the basis of the activation maps acquired from the first stage. Specifically, we utilize the high-order self-correlation (HSC) to extract the inherent structural information retained in the learned model and then aggregate HSC of multiple points for precise object localization. Extensive experiments on two publicly available benchmarks including CUB-200-2011 and ILSVRC show that the proposed SPA achieves substantial and consistent performance gains compared with baseline approaches.
翻訳日:2021-03-09 22:41:58 公開日:2021-03-08
# (参考訳) ワンショット医用ランドマーク検出 [全文訳有]

One-Shot Medical Landmark Detection ( http://arxiv.org/abs/2103.04527v1 )

ライセンス: CC BY 4.0
Qingsong Yao, Quan Quan, Li Xiao, S. Kevin Zhou(参考訳) ディープラーニング手法の成功は、多くのデータセットがアノテーション付きで利用可能であることに依存しているが、このようなデータセットのキュレーションは、特に医療画像において、面倒な作業である。 ランドマーク検出タスクの負担を軽減するため,1つの注釈付き画像のみを使用することの実現可能性を検討するとともに,ワンショットランドマーク検出のためのCascade Comparisoning to Detect (CC2D) という新しいフレームワークを提案する。 CC2Dは,1)自己指導学習(CC2D-SSL)と(2)擬似ラベル学習(CC2D-TPL)の2段階からなる。 CC2D-SSLは、カスケードの特徴表現を比較して、一貫性のある解剖情報を粗い方法でキャプチャし、トレーニングセット上で予測を生成する。 CC2D-TPLはこれらの予測で新しいランドマーク検出器を訓練することで性能をさらに向上させる。 CC2Dの有効性は4.0mm以内で81.01\%の競合検出精度を達成し、多くの訓練画像を用いた最先端の完全教師付き手法に匹敵するものである。

The success of deep learning methods relies on the availability of a large number of datasets with annotations; however, curating such datasets is burdensome, especially for medical images. To relieve such a burden for a landmark detection task, we explore the feasibility of using only a single annotated image and propose a novel framework named Cascade Comparing to Detect (CC2D) for one-shot landmark detection. CC2D consists of two stages: 1) Self-supervised learning (CC2D-SSL) and 2) Training with pseudo-labels (CC2D-TPL). CC2D-SSL captures the consistent anatomical information in a coarse-to-fine fashion by comparing the cascade feature representations and generates predictions on the training set. CC2D-TPL further improves the performance by training a new landmark detector with those predictions. The effectiveness of CC2D is evaluated on a widely-used public dataset of cephalometric landmark detection, which achieves a competitive detection accuracy of 81.01\% within 4.0mm, comparable to the state-of-the-art fully-supervised methods using a lot more than one training image.
翻訳日:2021-03-09 22:39:32 公開日:2021-03-08
# (参考訳) 局所的相互情報の最大化によるマルチモーダル表現学習 [全文訳有]

Multimodal Representation Learning via Maximization of Local Mutual Information ( http://arxiv.org/abs/2103.04537v1 )

ライセンス: CC BY 4.0
Ruizhi Liao, Daniel Moyer, Miriam Cha, Keegan Quigley, Seth Berkowitz, Steven Horng, Polina Golland, William M. Wells(参考訳) 画像とテキストの局所的特徴の相互情報を最大化することにより,表現学習手法を提案する。 このアプローチの目的は、画像内の発見を説明する自由テキストに含まれる豊富な情報を利用して、有用な画像表現を学ぶことである。 提案手法は画像とテキストのエンコーダを学習し、結果の表現に高い局所的な相互情報を表示するよう促す。 ニューラルネットワーク識別器との相互情報推定の最近の進歩を利用しています。 我々は、通常、局所的な相互情報の和は、グローバルな相互情報の束縛が低いと論じる。 下流画像分類課題における実験結果は,局所的特徴を用いた画像テキスト表現学習の利点を示す。

We propose and demonstrate a representation learning approach by maximizing the mutual information between local features of images and text. The goal of this approach is to learn useful image representations by taking advantage of the rich information contained in the free text that describes the findings in the image. Our method learns image and text encoders by encouraging the resulting representations to exhibit high local mutual information. We make use of recent advances in mutual information estimation with neural network discriminators. We argue that, typically, the sum of local mutual information is a lower bound on the global mutual information. Our experimental results in the downstream image classification tasks demonstrate the advantages of using local features for image-text representation learning.
翻訳日:2021-03-09 22:34:49 公開日:2021-03-08
# (参考訳) インスタンス認識型ヒューマン・セマンティック・パーシングのための多粒性人間表現学習 [全文訳有]

Differentiable Multi-Granularity Human Representation Learning for Instance-Aware Human Semantic Parsing ( http://arxiv.org/abs/2103.04570v1 )

ライセンス: CC BY 4.0
Tianfei Zhou, Wenguan Wang, Si Liu, Yi Yang, Luc Van Gool(参考訳) インスタンス認識型人間部分解析の課題に対処するために,カテゴリーレベルの人間意味セグメンテーションと多人数ポーズ推定を統合的・エンドツーエンド的に学習する新しいボトムアップレジームを提案する。 これはコンパクトで効率的で強力なフレームワークであり、異なる人間の粒度に関する構造情報を活用し、人的分割の難易度を緩和する。 具体的には、密接な人間のセマンティクスとスパースキーポイントを明示的に関連付ける密接な対疎射影場を学習し、堅牢性のためにネットワーク特徴ピラミッド上で段階的に改善する。 そして、難解な画素グループ化問題を、より容易で多人数の共同組み立てタスクとして提示する。 結合結合を最大重二分法マッチングとして定式化することにより、投影された勾配降下とDykstraの巡回射影アルゴリズムを利用する微分可能な解を開発した。 これにより、エンドツーエンドのトレーニングが可能となり、グループ化エラーをバックプロパゲーションすることで、複数の粒度人間の表現学習を直接監督することができる。 これは、現在のボトムアップ型人間のパーサーや、高度な後処理やヒューリスティックグリーディアルゴリズムを必要とするポーズ推定器と区別される。 3つのインスタンス認識型ヒューマンパースデータセットの実験は、我々のモデルがより効率的な推論で他のボトムアップの代替案よりも優れていることを示している。

To address the challenging task of instance-aware human part parsing, a new bottom-up regime is proposed to learn category-level human semantic segmentation as well as multi-person pose estimation in a joint and end-to-end manner. It is a compact, efficient and powerful framework that exploits structural information over different human granularities and eases the difficulty of person partitioning. Specifically, a dense-to-sparse projection field, which allows explicitly associating dense human semantics with sparse keypoints, is learnt and progressively improved over the network feature pyramid for robustness. Then, the difficult pixel grouping problem is cast as an easier, multi-person joint assembling task. By formulating joint association as maximum-weight bipartite matching, a differentiable solution is developed to exploit projected gradient descent and Dykstra's cyclic projection algorithm. This makes our method end-to-end trainable and allows back-propagating the grouping error to directly supervise multi-granularity human representation learning. This is distinguished from current bottom-up human parsers or pose estimators which require sophisticated post-processing or heuristic greedy algorithms. Experiments on three instance-aware human parsing datasets show that our model outperforms other bottom-up alternatives with much more efficient inference.
翻訳日:2021-03-09 22:24:23 公開日:2021-03-08
# (参考訳) ルック・エボリューヴ・アンド・モールド: シングルビュー合成データによる3D図形マニホールドの学習 [全文訳有]

Look, Evolve and Mold: Learning 3D Shape Manifold via Single-view Synthetic Data ( http://arxiv.org/abs/2103.04789v1 )

ライセンス: CC BY 4.0
Qianyu Feng, Yawei Luo, Keyang Luo, Yi Yang(参考訳) 日常的な観察と事前の知識により、人間が単一の視点でステレオ構造を推測することは容易である。 しかし、深層モデルにそのような能力を与えるには、通常十分な監督が必要である。 精巧な3Dアノテーションがなければ、ペアワイズで接地が簡単にアクセスできる合成データから利益を得ることができると期待しています。 それでも、異なるテクスチャ、形状、コンテキストを考えると、ドメインギャップは無視できない。 これらの難しさを克服するために, lem と呼ばれる単視点3次元再構成のためのドメイン適応ネットワークを提案し, 自然シナリオを一般化する。(1) 外観: 単一視点から空間構造を取り込んで表現を強化する, (2) 進化: 教師なしのコントラストマッピングによる意味情報を活用する, (3) 型: 認識と意味知識をもって所望のステレオ多様体へ変換する。 いくつかのベンチマークにおいて, 合成データから3次元形状多様体を学習する上で, 提案手法であるLEMの有効性とロバスト性を示す実験を行った。

With daily observation and prior knowledge, it is easy for us human to infer the stereo structure via a single view. However, to equip the deep models with such ability usually requires abundant supervision. It is promising that without the elaborated 3D annotation, we can simply profit from the synthetic data, where pairwise ground-truth is easy to access. Nevertheless, the domain gap is not neglectable considering the variant texture, shape and context. To overcome these difficulties, we propose a domain-adaptive network for single-view 3D reconstruction, dubbed LEM, to generalize towards the natural scenario by fulfilling several aspects: (1) Look: incorporating spatial structure from the single view to enhance the representation; (2) Evolve: leveraging the semantic information with unsupervised contrastive mapping recurring to the shape priors; (3) Mold: transforming into the desired stereo manifold with discernment and semantic knowledge. Extensive experiments on several benchmarks demonstrate the effectiveness and robustness of the proposed method, LEM, in learning the 3D shape manifold from the synthetic data via a single-view.
翻訳日:2021-03-09 22:05:09 公開日:2021-03-08
# (参考訳) 高度なICパッケージ内埋設構造物の3次元X線計測・評価・最適化のための機械学習手法 [全文訳有]

Machine-learning based methodologies for 3d x-ray measurement, characterization and optimization for buried structures in advanced ic packages ( http://arxiv.org/abs/2103.04838v1 )

ライセンス: CC BY-SA 4.0
Ramanpreet S Pahwa, Soon Wee Ho, Ren Qin, Richard Chang, Oo Zaw Min, Wang Jie, Vempati Srinivasa Rao, Tin Lay Nwe, Yanjing Yang, Jens Timo Neumann, Ramani Pichumani, Thomas Gregorich(参考訳) 40年以上にわたり、リソグラフィーシリコンのスケーリングは半導体産業における回路統合と性能改善を推進してきた。 シリコンのスケーリングが遅くなるにつれて、業界はICパッケージ技術に依存して、さらなる回路統合と性能向上に貢献している。 これはパラダイムシフトであり、icパッケージ産業はサイズを縮小し、これまで一度も行われなかった規模で内部インターコネクトの密度を高める必要がある。 従来のパッケージの特性評価とプロセス最適化は、内部パッケージ機能からデータを抽出するために物理的な断面や遅延などの破壊的な技術に依存します。 これらの破壊技術は、今日の先進的なパッケージでは実用的ではない。 本稿では,3次元X線顕微鏡を用いて非破壊的に取得したデータを,機械学習を用いて拡張・最適化し,高度ICパッケージにおける埋設配線の設計・製造を計測・特徴化・最適化する方法について述べる。 2.5D および HBM 構造を複製する試験車両を設計、製造し、3D X線および機械学習技術を用いてこれらの試験車両からデジタルデータを抽出した。 抽出したデジタルデータは、配線の設計と生産を特徴付け、最適化するために使用され、破壊物理的解析の優れた代替手段を示す。 3Dオブジェクト検出のためのmAP0.96、3Dセグメンテーションのためのダイススコア0.92、テストデータセット上の3D計測における平均2.1umエラーを報告する。 この論文は、マルチパートレポートの最初の部分です。

For over 40 years lithographic silicon scaling has driven circuit integration and performance improvement in the semiconductor industry. As silicon scaling slows down, the industry is increasingly dependent on IC package technologies to contribute to further circuit integration and performance improvements. This is a paradigm shift and requires the IC package industry to reduce the size and increase the density of internal interconnects on a scale which has never been done before. Traditional package characterization and process optimization relies on destructive techniques such as physical cross-sections and delayering to extract data from internal package features. These destructive techniques are not practical with today's advanced packages. In this paper we will demonstrate how data acquired non-destructively with a 3D X-ray microscope can be enhanced and optimized using machine learning, and can then be used to measure, characterize and optimize the design and production of buried interconnects in advanced IC packages. Test vehicles replicating 2.5D and HBM construction were designed and fabricated, and digital data was extracted from these test vehicles using 3D X-ray and machine learning techniques. The extracted digital data was used to characterize and optimize the design and production of the interconnects and demonstrates a superior alternative to destructive physical analysis. We report an mAP of 0.96 for 3D object detection, a dice score of 0.92 for 3D segmentation, and an average of 2.1um error for 3D metrology on the test dataset. This paper is the first part of a multi-part report.
翻訳日:2021-03-09 21:50:43 公開日:2021-03-08
# (参考訳) Domain Adaptive Egocentric Person Re-identification [全文訳有]

Domain Adaptive Egocentric Person Re-identification ( http://arxiv.org/abs/2103.04870v1 )

ライセンス: CC BY 4.0
Ankit Choudhary and Deepak Mishra and Arnab Karmakar(参考訳) ファーストパーソン(エゴセントリック)ビジョンにおける人物の再識別(再ID)は、かなり新しく未知の問題です。 ウェアラブルビデオ録画デバイスの増加に伴い、エゴセントリックなデータがすぐに利用可能になり、人物の再識別はこれの恩恵を受ける可能性があります。 しかし、ビデオ品質の低さと記録されたコンテンツのほとんどにおいて個人が不足していることから、人物再同定のための大規模な構造化エゴセントリックデータセットが著しく欠落している。 多くの研究が固定監視カメラに基づいて人の再識別で行われてきましたが、これらはエゴセントリック再IDに直接利益をもたらしません。 公開されている大規模再IDデータセットで訓練された機械学習モデルは、データセットバイアス問題のために自我中心の再IDに適用することはできません。 このアルゴリズムは、Convolutional Neural Network(CNN)の変種を組み込んだニューラルスタイル転送(NST)を利用して、固定カメラビジョンとファーストパーソンビジョンの両方の利点を利用する。 NSTは、エゴセントリックデータセットと固定カメラデータセットの両方から特徴を持つ画像を生成し、特徴抽出のために固定カメラデータセットでトレーニングされたVGG-16ネットワークを介して供給される。 抽出された特徴は、個人を再識別するために使用される。 固定カメラデータセット Market-1501 と 1 人データセット EGO Re-ID を本研究に適用し,エゴセントリック領域における現在の再識別モデルと同等の結果を得た。

Person re-identification (re-ID) in first-person (egocentric) vision is a fairly new and unexplored problem. With the increase of wearable video recording devices, egocentric data becomes readily available, and person re-identification has the potential to benefit greatly from this. However, there is a significant lack of large scale structured egocentric datasets for person re-identification, due to the poor video quality and lack of individuals in most of the recorded content. Although a lot of research has been done in person re-identification based on fixed surveillance cameras, these do not directly benefit egocentric re-ID. Machine learning models trained on the publicly available large scale re-ID datasets cannot be applied to egocentric re-ID due to the dataset bias problem. The proposed algorithm makes use of neural style transfer (NST) that incorporates a variant of Convolutional Neural Network (CNN) to utilize the benefits of both fixed camera vision and first-person vision. NST generates images having features from both egocentric datasets and fixed camera datasets, that are fed through a VGG-16 network trained on a fixed-camera dataset for feature extraction. These extracted features are then used to re-identify individuals. The fixed camera dataset Market-1501 and the first-person dataset EGO Re-ID are applied for this work and the results are on par with the present re-identification models in the egocentric domain.
翻訳日:2021-03-09 21:42:06 公開日:2021-03-08
# (参考訳) 深層強化学習を用いた省エネルギースネークロコモーション歩行政策 [全文訳有]

An Energy-Saving Snake Locomotion Gait Policy Using Deep Reinforcement Learning ( http://arxiv.org/abs/2103.04511v1 )

ライセンス: CC BY-SA 4.0
Yilang Liu, Amir Barati Farimani(参考訳) 連続的に接続された関節アクチュエータからなるスネークロボットは,近年,狭い空間での生活検知などの産業分野で注目を集めている。 このようなロボットは、バックボーンにある複数のモーターの協力によって複雑な環境をナビゲートすることができる。 しかし, 未知環境下でのロボットの制御は困難であり, 従来の制御戦略はエネルギー効率が悪く, 目的地への移動に失敗することもある。 この研究では、エネルギー効率の高い制御のための深層強化学習(DRL)を介してヘビの移動歩行政策を開発する。 角速度でパラメータ化された各関節モータに近位政策最適化(ppo)を適用し,drlエージェントは各時間ステップで標準サーペノイド曲線を学習する。 ロボットシミュレータとタスク環境はPyBullet上に構築されている。 従来の制御戦略と比較して、訓練されたppoエージェントによって制御されたスネークロボットは、より速く動き、よりエネルギー効率の良い歩行を実現できる。 この研究は、DRLがロボット制御にエネルギー効率の高いソリューションを提供することを示した。

Snake robots, comprised of sequentially connected joint actuators, have recently gained increasing attention in the industrial field, like life detection in narrow space. Such robot can navigate through the complex environment via the cooperation of multiple motors located on the backbone. However, controlling the robots under unknown environment is challenging, and conventional control strategies can be energy inefficient or even fail to navigate to the destination. In this work, a snake locomotion gait policy is developed via deep reinforcement learning (DRL) for energy-efficient control. We apply proximal policy optimization (PPO) to each joint motor parameterized by angular velocity and the DRL agent learns the standard serpenoid curve at each timestep. The robot simulator and task environment are built upon PyBullet. Comparing to conventional control strategies, the snake robots controlled by the trained PPO agent can achieve faster movement and more energy-efficient locomotion gait. This work demonstrates that DRL provides an energy-efficient solution for robot control.
翻訳日:2021-03-09 19:14:24 公開日:2021-03-08
# (参考訳) Hypernetworks を用いた個人化フェデレーション学習 [全文訳有]

Personalized Federated Learning using Hypernetworks ( http://arxiv.org/abs/2103.04628v1 )

ライセンス: CC BY 4.0
Aviv Shamsian, Aviv Navon, Ethan Fetaya, Gal Chechik(参考訳) パーソナライズされたフェデレーション学習は、複数のクライアントのための機械学習モデルをトレーニングし、それぞれ独自のデータ配布を行う。 目標は、顧客間のデータ格差を会計し、通信コストを削減しながら、パーソナライズされたモデルを共同でトレーニングすることです。 pfedhn と呼ぶハイパーネットワークを用いて,この問題に対する新しいアプローチを提案する。 このアプローチでは、中央のハイパーネットワークモデルをトレーニングして、各クライアントの1つのモデルであるモデルのセットを生成する。 このアーキテクチャは、ユニークで多様な個人モデルを生成する能力を維持しながら、クライアント間で効果的なパラメータ共有を提供する。 さらに、ハイパーネットワークパラメータは送信されないため、このアプローチはトレーニング可能なモデルサイズから通信コストを分離する。 pFedHNをいくつかの個人化学習課題において実証的にテストし,従来の手法よりも優れていることを確認した。 最後に、ハイパーネットワークはクライアント間で情報を共有しているため、pFedHNはトレーニング中に観察されたクライアントと分布が異なる新しいクライアントに対してよりよく一般化できることを示しています。

Personalized federated learning is tasked with training machine learning models for multiple clients, each with its own data distribution. The goal is to train personalized models in a collaborative way while accounting for data disparities across clients and reducing communication costs. We propose a novel approach to this problem using hypernetworks, termed pFedHN for personalized Federated HyperNetworks. In this approach, a central hypernetwork model is trained to generate a set of models, one model for each client. This architecture provides effective parameter sharing across clients, while maintaining the capacity to generate unique and diverse personal models. Furthermore, since hypernetwork parameters are never transmitted, this approach decouples the communication cost from the trainable model size. We test pFedHN empirically in several personalized federated learning challenges and find that it outperforms previous methods. Finally, since hypernetworks share information across clients we show that pFedHN can generalize better to new clients whose distributions differ from any client observed during training.
翻訳日:2021-03-09 19:06:27 公開日:2021-03-08
# (参考訳) ツリー上のMMLによるメタラーニング [全文訳有]

Meta-Learning with MAML on Trees ( http://arxiv.org/abs/2103.04691v1 )

ライセンス: CC BY 4.0
Jezabel R. Garcia, Federica Freddi, Feng-Ting Liao, Jamie McGowan, Tim Nieradzik, Da-shan Shiu, Ye Tian, Alberto Bernacchia(参考訳) メタラーニングでは、以前のタスクから学んだ知識は新しいタスクに転送されますが、この転送はタスクが関連している場合にのみ機能します。 非関連タスク間の情報共有はパフォーマンスを損なう可能性があり、階層構造を持つタスク間での知識の転送方法が不明確である。 本研究では,階層的タスク関係を活用し,モデル非依存なメタ学習モデルであるmamlを拡張した。 私たちのアルゴリズムであるtreemamlは、いくつかの勾配ステップで各タスクにモデルを適用するが、適応は階層的なツリー構造に従っている。 また,タスク構造を事前に知ることなくタスクツリーを生成するクラスタリングアルゴリズムを実装し,タスク間の暗黙的な関係性の利用を可能にした。 我々がTreeMAMLと呼ぶ新しいアルゴリズムは、タスク構造が合成実験のために階層的である場合、MDLよりも優れたパフォーマンスを発揮します。 本研究では,本手法を自然言語理解に適用し,言語系統木を利用して言語モデルを微調整する手法を提案する。 TreeMAMLは,言語間自然言語推論におけるアート結果の状態を向上することを示す。 世界のほとんどの言語はリソース不足であり、言語間移動の改善はNLPモデルの国際化を可能にしているため、この結果は有用である。 この結果は、このアルゴリズムを他の現実世界の階層的データセットで使用するためのウィンドウを開く。

In meta-learning, the knowledge learned from previous tasks is transferred to new ones, but this transfer only works if tasks are related. Sharing information between unrelated tasks might hurt performance, and it is unclear how to transfer knowledge across tasks with a hierarchical structure. Our research extends a model agnostic meta-learning model, MAML, by exploiting hierarchical task relationships. Our algorithm, TreeMAML, adapts the model to each task with a few gradient steps, but the adaptation follows the hierarchical tree structure: in each step, gradients are pooled across tasks clusters, and subsequent steps follow down the tree. We also implement a clustering algorithm that generates the tasks tree without previous knowledge of the task structure, allowing us to make use of implicit relationships between the tasks. We show that the new algorithm, which we term TreeMAML, performs better than MAML when the task structure is hierarchical for synthetic experiments. To study the performance of the method in real-world data, we apply this method to Natural Language Understanding, we use our algorithm to finetune Language Models taking advantage of the language phylogenetic tree. We show that TreeMAML improves the state of the art results for cross-lingual Natural Language Inference. This result is useful, since most languages in the world are under-resourced and the improvement on cross-lingual transfer allows the internationalization of NLP models. This results open the window to use this algorithm in other real-world hierarchical datasets.
翻訳日:2021-03-09 18:41:59 公開日:2021-03-08
# (参考訳) マルコフ決定過程における類似度指標の分類 [全文訳有]

A Taxonomy of Similarity Metrics for Markov Decision Processes ( http://arxiv.org/abs/2103.04706v1 )

ライセンス: CC BY 4.0
\'Alvaro Vis\'us, Javier Garc\'ia and Fernando Fern\'andez(参考訳) タスクの類似性の概念は、カリキュラム学習や自動計画などの幅広い分野で興味深い可能性がありますが、それは主に移行学習に結び付けられています。 転送は、ソースタスクのセットの学習で得られた知識をターゲットタスクの新しい学習プロセスに再利用し、ターゲットタスクとソースタスクが十分に近いと仮定するという考えに基づいています。 近年、転送学習は強化学習(rl)アルゴリズムをより効率的にすることに成功した(例えば、(ほぼ)最適性能を達成するのに必要なサンプル数を減らす)。 rlにおける転送は、類似性の核となる概念に基づいている:タスクが類似している場合、転送された知識を再利用して目標のタスクを解決し、学習性能を大幅に向上させることができる。 したがって、これらの類似度を測定するための良いメトリクスの選択は、特にこの知識がシミュレーションから現実世界に転送される場合、転送RLアルゴリズムを構築する際の重要な側面です。 文献では,mdp間の類似度を測定する指標が多数存在し,類似度や相補距離の定義が多数検討されている。 本稿では,これらの指標を分類し,これまでの類似性の定義を分析し,その分類について考察する。 また,この分類に従い,既存の文献を調査し,新しい指標の構築に向けた今後の方向性を示唆した。

Although the notion of task similarity is potentially interesting in a wide range of areas such as curriculum learning or automated planning, it has mostly been tied to transfer learning. Transfer is based on the idea of reusing the knowledge acquired in the learning of a set of source tasks to a new learning process in a target task, assuming that the target and source tasks are close enough. In recent years, transfer learning has succeeded in making Reinforcement Learning (RL) algorithms more efficient (e.g., by reducing the number of samples needed to achieve the (near-)optimal performance). Transfer in RL is based on the core concept of similarity: whenever the tasks are similar, the transferred knowledge can be reused to solve the target task and significantly improve the learning performance. Therefore, the selection of good metrics to measure these similarities is a critical aspect when building transfer RL algorithms, especially when this knowledge is transferred from simulation to the real world. In the literature, there are many metrics to measure the similarity between MDPs, hence, many definitions of similarity or its complement distance have been considered. In this paper, we propose a categorization of these metrics and analyze the definitions of similarity proposed so far, taking into account such categorization. We also follow this taxonomy to survey the existing literature, as well as suggesting future directions for the construction of new metrics.
翻訳日:2021-03-09 18:31:11 公開日:2021-03-08
# (参考訳) PyRCN: ESNの探索と応用 [全文訳有]

PyRCN: Exploration and Application of ESNs ( http://arxiv.org/abs/2103.04807v1 )

ライセンス: CC BY 4.0
Peter Steiner (1), Azarakhsh Jalalvand (2), Simon Stone (1), Peter Birkholz (2) ((1) Institute for Acoustics and Speech Communication, Technische Universit\"at Dresden, Dresden, Germany, (2) IDLab, Ghent University - imec, Ghent, Belgium)(参考訳) Recurrent Neural Networksのファミリーメンバーであり、Long-Short-Term Memory Cellと同様、Echo State Networks (ESNs)は時間的タスクを解くことができるが、線形回帰に基づくトレーニングパラダイムは極めて容易である。 しかし, ハイパーパラメータを最適化し, トレーニングプロセスを効率的に実装することは, ESNの初級ユーザにとってはやや圧倒的である。 本稿では,理論と実践におけるESNの理解を促進することを目的とする。 非線形フィルタとしてesnを扱い,インパルス応答などのよく知られた概念を用いてハイパーパラメータの効果を説明する。 さらに、PythonツールボックスPyRCN(Python Reservoir Computing Network)を導入し、任意に大規模なデータセット上でESNを開発し、トレーニングし、分析する。 このツールは、numpyやscipyなどの広く使われている科学パッケージに基づいており、Scikit-learnへのインタフェースを提供する。 分類および回帰タスクのサンプルコードと結果が提供される。

As a family member of Recurrent Neural Networks and similar to Long-Short-Term Memory cells, Echo State Networks (ESNs) are capable of solving temporal tasks, but with a substantially easier training paradigm based on linear regression. However, optimizing hyper-parameters and efficiently implementing the training process might be somewhat overwhelming for the first-time users of ESNs. This paper aims to facilitate the understanding of ESNs in theory and practice. Treating ESNs as non-linear filters, we explain the effect of the hyper-parameters using familiar concepts such as impulse responses. Furthermore, the paper introduces the Python toolbox PyRCN (Python Reservoir Computing Network) for developing, training and analyzing ESNs on arbitrarily large datasets. The tool is based on widely-used scientific packages, such as numpy and scipy and offers an interface to scikit-learn. Example code and results for classification and regression tasks are provided.
翻訳日:2021-03-09 18:15:18 公開日:2021-03-08
# (参考訳) 時変キャリア周波数オフセットにロバストなディジタルビームフォーミング [全文訳有]

Digital Beamforming Robust to Time-Varying Carrier Frequency Offset ( http://arxiv.org/abs/2103.04948v1 )

ライセンス: CC0 1.0
Shuang Li, Payam Nayeri, and Michael B. Wakin(参考訳) 現代の無線通信システムでは、相互に干渉する無線デバイスの普及により、適応干渉のキャンセルが急速に必要になってきています。 干渉をキャンセルするために、デジタルビームフォーミングアルゴリズムはアンテナアレイの重量ベクトルを適応的に調整し、その放射パターンは、所望の信号電力を最大化しながら干渉を最小限に抑える。 これらのアルゴリズムは理想的なシナリオで有効であるが、信号の破損に敏感である。 本研究では,通信システムにおける送信機と受信機が同期できない場合を考慮し,伝送周波数オフセットが信号の劣化の原因となることを示す。 本稿では,この時間変動キャリア周波数オフセットから生じる信号破損に対して堅牢なビームフォーミングアルゴリズムを提案する。 特に、DPSS(Disdisrete Prolate Spheroidal Sequences)を導入し、1Dと2Dの両方のフレームワークで2つの原子ノルム最小化(ANM)ベースの手法を提案し、パイロット信号と干渉信号に時間変動の周波数ドリフトがある場合の干渉をキャンセルできる重みベクトルを設計する。 どちらのアルゴリズムもパイロット信号が知られていると仮定しない。 半定値プログラムによるANM最適化問題の解法は計算負担となりうることに留意し、1次元ANM最適化問題を近似的に解くための新しい高速アルゴリズムを提案する。 最後に,提案アルゴリズムの利点を確認し,一連の実験により既存手法に対する利点を示す。

Adaptive interference cancellation is rapidly becoming a necessity for our modern wireless communication systems, due to the proliferation of wireless devices that interfere with each other. To cancel interference, digital beamforming algorithms adaptively adjust the weight vector of the antenna array, and in turn its radiation pattern, to minimize interference while maximizing the desired signal power. While these algorithms are effective in ideal scenarios, they are sensitive to signal corruptions. In this work, we consider the case when the transmitter and receiver in a communication system cannot be synchronized, resulting in a carrier frequency offset that corrupts the signal. We present novel beamforming algorithms that are robust to signal corruptions arising from this time-variant carrier frequency offset. In particular, we bring in the Discrete Prolate Spheroidal Sequences (DPSS's) and propose two atomic-norm-minimiza tion (ANM)-based methods in both 1D and 2D frameworks to design a weight vector that can be used to cancel interference when there exist unknown time-varying frequency drift in the pilot and interferer signals. Both algorithms do not assume a pilot signal is known. Noting that solving ANM optimization problems via semi-definite programs can be a computational burden, we also present a novel fast algorithm to approximately solve our 1D ANM optimization problem. Finally, we confirm the benefits of our proposed algorithms and show the advantages over existing approaches with a series of experiments.
翻訳日:2021-03-09 18:01:08 公開日:2021-03-08
# (参考訳) 自動意思決定における公正性と信頼感に関する研究 [全文訳有]

A Study on Fairness and Trust Perceptions in Automated Decision Making ( http://arxiv.org/abs/2103.04757v1 )

ライセンス: CC BY 4.0
Jakob Schoeffer, Yvette Machowski, Niklas Kuehl(参考訳) 自動意思決定システムは、様々な理由で、連続的な意思決定にますます使われています。 これらのシステムは、しばしば洗練された不透明なモデルに依存しており、ある決定が到着した理由を理解できない(あるいはほとんど)。 これは法的観点から問題となるだけでなく、非トランスペアレントなシステムは、まずは健全性の評価や調整が難しいため、望ましくない結果(例えば不公平な結果)をもたらす傾向があります。 本研究では,このようなシステムを説明するための様々な試みが,そのメカニズムに対する公平性と信頼感に対する人々の認識に与える影響について評価する。 パイロット研究では、驚くべき定性的な洞察だけでなく、大きな主な研究で検証、拡張、そして徹底的に議論されなければならない予備的な重要な効果も明らかにしました。

Automated decision systems are increasingly used for consequential decision making -- for a variety of reasons. These systems often rely on sophisticated yet opaque models, which do not (or hardly) allow for understanding how or why a given decision was arrived at. This is not only problematic from a legal perspective, but non-transparent systems are also prone to yield undesirable (e.g., unfair) outcomes because their sanity is difficult to assess and calibrate in the first place. In this work, we conduct a study to evaluate different attempts of explaining such systems with respect to their effect on people's perceptions of fairness and trustworthiness towards the underlying mechanisms. A pilot study revealed surprising qualitative insights as well as preliminary significant effects, which will have to be verified, extended and thoroughly discussed in the larger main study.
翻訳日:2021-03-09 16:47:26 公開日:2021-03-08
# T-SCI: Cox-MLPのカバレッジ保証付き2ステージコンフォーマル推論アルゴリズム

T-SCI: A Two-Stage Conformal Inference Algorithm with Guaranteed Coverage for Cox-MLP ( http://arxiv.org/abs/2103.04556v1 )

ライセンス: Link先を確認
Jiaye Teng, Zeren Tan, Yang Yuan(参考訳) 正確な価値ではなく生存時間の不完全な情報のみにアクセスできる、検閲されたデータを扱うのは困難です。 幸いなことに、線形予測子仮定の下では、人々はcox回帰のような手法を使って生存時間の信頼区間の保証範囲を得ることができる。 しかし、線形仮定をニューラルネットワーク(例えば、Cox-MLP \citep{katzman2018deepsurv, kvamme2019time})で緩和すると、保証されたカバレッジを失う。 線形仮定なしに保証されたカバレッジを回復するために,共形推論に基づく2つのアルゴリズムを提案する。 第1のアルゴリズム \emph{WCCI} では、重み付き共形推論を再検討し、部分的確率に基づく新しい非整合性スコアを導入する。 そこで、第1段階でWCCIを実行し、第2段階で結果をキャリブレーションするために量子的コンフォーマル推論を適用する2段階アルゴリズム \emph{T-SCI} を提案する。 理論的解析によると、T-SCIはWCCIよりも軽度の仮定で保証されたカバレッジを返す。 我々は,様々な手法を用いて合成データと実データに関する広範な実験を行い,解析の妥当性を検証した。

It is challenging to deal with censored data, where we only have access to the incomplete information of survival time instead of its exact value. Fortunately, under linear predictor assumption, people can obtain guaranteed coverage for the confidence band of survival time using methods like Cox Regression. However, when relaxing the linear assumption with neural networks (e.g., Cox-MLP \citep{katzman2018deepsurv, kvamme2019time}), we lose the guaranteed coverage. To recover the guaranteed coverage without linear assumption, we propose two algorithms based on conformal inference. In the first algorithm \emph{WCCI}, we revisit weighted conformal inference and introduce a new non-conformity score based on partial likelihood. We then propose a two-stage algorithm \emph{T-SCI}, where we run WCCI in the first stage and apply quantile conformal inference to calibrate the results in the second stage. Theoretical analysis shows that T-SCI returns guaranteed coverage under milder assumptions than WCCI. We conduct extensive experiments on synthetic data and real data using different methods, which validate our analysis.
翻訳日:2021-03-09 16:06:28 公開日:2021-03-08
# 事前訓練ニューラルネットワークを用いたオフラインRLの不安定性

Instabilities of Offline RL with Pre-Trained Neural Representation ( http://arxiv.org/abs/2103.04947v1 )

ライセンス: Link先を確認
Ruosong Wang, Yifan Wu, Ruslan Salakhutdinov, Sham M. Kakade(参考訳) オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。 最近の理論的進歩は、そのようなサンプル効率のよいオフラインRLは、ある強い表現条件が保たれた場合、データ収集分布がターゲットポリシーに対して緩やかな分布シフトしか持たない限り、指数的誤差増幅(問題地平線における)を示す低い境界が存在することを示している。 本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。 特に,本手法では,事前学習したニューラルネットワークの機能を利用することで,これらの表現が効率的なオフラインrlをサンプル化できるほど強力であることを願って,これらのアイデアを探求する。 様々なタスクに関する広範囲な実験を通じて、事前学習された表現(同じタスク自体でトレーニングされている)を使用しても、かなりのエラー増幅が発生することが分かっています。 これらの結果の意味は、理論的にも実証的な観点からも、オフラインRL(ローディストリビューションシフト体制を超えて成功しようとする場合)は、教師付き学習を成功させるのに十分であるものよりも大幅に強い条件を必要とするということです。

In offline reinforcement learning (RL), we seek to utilize offline data to evaluate (or learn) policies in scenarios where the data are collected from a distribution that substantially differs from that of the target policy to be evaluated. Recent theoretical advances have shown that such sample-efficient offline RL is indeed possible provided certain strong representational conditions hold, else there are lower bounds exhibiting exponential error amplification (in the problem horizon) unless the data collection distribution has only a mild distribution shift relative to the target policy. This work studies these issues from an empirical perspective to gauge how stable offline RL methods are. In particular, our methodology explores these ideas when using features from pre-trained neural networks, in the hope that these representations are powerful enough to permit sample efficient offline RL. Through extensive experiments on a range of tasks, we see that substantial error amplification does occur even when using such pre-trained representations (trained on the same task itself); we find offline RL is stable only under extremely mild distribution shift. The implications of these results, both from a theoretical and an empirical perspective, are that successful offline RL (where we seek to go beyond the low distribution shift regime) requires substantially stronger conditions beyond those which suffice for successful supervised learning.
翻訳日:2021-03-09 16:06:06 公開日:2021-03-08
# 深部生成モデル:VAE, GAN, 正規化フロー, エネルギーベース, 自己回帰モデルの比較検討

Deep Generative Modelling: A Comparative Review of VAEs, GANs, Normalizing Flows, Energy-Based and Autoregressive Models ( http://arxiv.org/abs/2103.04922v1 )

ライセンス: Link先を確認
Sam Bond-Taylor, Adam Leach, Yang Long, Chris G. Willcocks(参考訳) ディープジェネレーションモデリングは、ディープニューラルネットワークをトレーニングしてトレーニングサンプルの分布をモデル化するテクニックのクラスです。 研究はさまざまな相互接続アプローチに分断され、それぞれが実行時、多様性、アーキテクチャ上の制約を含むトレードオフを行っている。 特に、エネルギーベースのモデル、変分オートエンコーダ、生成的敵ネットワーク、自己回帰モデル、正規化フローをカバーし、多くのハイブリッドなアプローチをカバーしている。 これらのテクニックは単一の凝集フレームワークの下に描かれ、それぞれの背景にある前提を比較して対比し、現在の最先端の進歩と実装をレビューする。

Deep generative modelling is a class of techniques that train deep neural networks to model the distribution of training samples. Research has fragmented into various interconnected approaches, each of which making trade-offs including run-time, diversity, and architectural restrictions. In particular, this compendium covers energy-based models, variational autoencoders, generative adversarial networks, autoregressive models, normalizing flows, in addition to numerous hybrid approaches. These techniques are drawn under a single cohesive framework, comparing and contrasting to explain the premises behind each, while reviewing current state-of-the-art advances and implementations.
翻訳日:2021-03-09 16:04:29 公開日:2021-03-08
# 3次元部分観測可能な環境に対する教師なしオブジェクトベース遷移モデル

Unsupervised Object-Based Transition Models for 3D Partially Observable Environments ( http://arxiv.org/abs/2103.04693v1 )

ライセンス: Link先を確認
Antonia Creswell, Rishabh Kabra, Chris Burgess, Murray Shanahan(参考訳) 本稿では,シーンをオブジェクトに分解し,(スロットワイドオブジェクトメモリに関して)時間的に一貫した順序を維持するために整列し,それらのオブジェクトが連続するフレーム上でどのように進化するかを予測するスロットワイズオブジェクトベース遷移モデルを提案する。 このモデルは、ピクセルではなくオブジェクト構造表現のレベルでの損失を使用して、監視なしでエンドツーエンドでトレーニングされる。 アライメントモジュールのおかげで、モデルは他のトランジションモデル、すなわちオブジェクト永続化とオブジェクトアイデンティティによって十分に処理されない2つの問題に適切に対処します。 オブジェクトレベルの損失と正しいオブジェクトアライメントを時間とともに組み合わせることで、モデルが最先端のベースラインを上回り、部分的に観測可能な環境でオブジェクトの隠蔽と再出現にうまく対応できることを示す。

We present a slot-wise, object-based transition model that decomposes a scene into objects, aligns them (with respect to a slot-wise object memory) to maintain a consistent order across time, and predicts how those objects evolve over successive frames. The model is trained end-to-end without supervision using losses at the level of the object-structured representation rather than pixels. Thanks to its alignment module, the model deals properly with two issues that are not handled satisfactorily by other transition models, namely object persistence and object identity. We show that the combination of an object-level loss and correct object alignment over time enables the model to outperform a state-of-the-art baseline, and allows it to deal well with object occlusion and re-appearance in partially observable environments.
翻訳日:2021-03-09 16:02:15 公開日:2021-03-08
# 手視点視覚情報からグラフ型確率へ:ランキングラベルによる深層学習

From Hand-Perspective Visual Information to Grasp Type Probabilities: Deep Learning via Ranking Labels ( http://arxiv.org/abs/2103.04863v1 )

ライセンス: Link先を確認
Mo Han, Sezen Ya{\u{g}}mur G\"unay, \.Ilkay Y{\i}ld{\i}z, Paolo Bonato, Cagdas D. Onal, Ta\c{s}k{\i}n Pad{\i}r, Gunar Schirner, Deniz Erdo{\u{g}}mu\c{s}(参考訳) 肢欠損は両足の日常生活に深刻な影響を与え、この不足を補うために機能的なロボット義手を提供する努力を駆り立てている。 人工手の畳み込み型ニューラルネットワークによるコンピュータビジョン制御は,手の動きを予測するために視覚情報を訓練することにより,その信頼性から生理的信号を置き換えたり補ったりする方法として注目されている。 義手の手のひらにカメラを装着することは、視覚データを収集するための有望なアプローチであることが証明されている。 ただし、物体形状が常に対称ではないため、目や手の視点から表示された把握タイプが異なる場合があります。 そこで我々は,この違いを現実的に表現するために,目視画像と手視画像の同期画像を含むデータセットを用いて,手視画像が手動ラベリングにのみ使用されるようにした。 エレクトロミオグラム(EMG)活性と上腕からの運動キネマティクスデータを収集し、将来的な作業における多モード情報融合を行う。 さらに、人間のループ制御を組み込んで、コンピュータビジョンと生理的信号入力を組み合わせるために、絶対的な正あるいは負の予測を行う代わりに、プラケット・ルーシモデルに基づく新しい確率的分類器を構築する。 そこで我々は,手動でランク付けしたグリップのリストをラベルの新たな形式として利用して,ラベルランキングよりも統計モデルを用いて最大推定値を用いて置換領域の問題を解く。 提案モデルは,最もポピュラーで生産性の高い畳み込みニューラルネットワークフレームワークに適用可能であることを示す。

Limb deficiency severely affects the daily lives of amputees and drives efforts to provide functional robotic prosthetic hands to compensate this deprivation. Convolutional neural network-based computer vision control of the prosthetic hand has received increased attention as a method to replace or complement physiological signals due to its reliability by training visual information to predict the hand gesture. Mounting a camera into the palm of a prosthetic hand is proved to be a promising approach to collect visual data. However, the grasp type labelled from the eye and hand perspective may differ as object shapes are not always symmetric. Thus, to represent this difference in a realistic way, we employed a dataset containing synchronous images from eye- and hand- view, where the hand-perspective images are used for training while the eye-view images are only for manual labelling. Electromyogram (EMG) activity and movement kinematics data from the upper arm are also collected for multi-modal information fusion in future work. Moreover, in order to include human-in-the-loop control and combine the computer vision with physiological signal inputs, instead of making absolute positive or negative predictions, we build a novel probabilistic classifier according to the Plackett-Luce model. To predict the probability distribution over grasps, we exploit the statistical model over label rankings to solve the permutation domain problems via a maximum likelihood estimation, utilizing the manually ranked lists of grasps as a new form of label. We indicate that the proposed model is applicable to the most popular and productive convolutional neural network frameworks.
翻訳日:2021-03-09 16:01:57 公開日:2021-03-08
# 対向ロバスト性のための一貫性規則化

Consistency Regularization for Adversarial Robustness ( http://arxiv.org/abs/2103.04623v1 )

ライセンス: Link先を確認
Jihoon Tack, Sihyun Yu, Jongheon Jeong, Minseon Kim, Sung Ju Hwang, Jinwoo Shin(参考訳) 敵意訓練(adversarial training, at)は、ディープニューラルネットワークの敵意強固性を得るための最も成功した方法の1つである。 しかし、ATから得られるロバスト性における顕著な一般化のギャップは問題であり、訓練を成功させるためのトリックの袋、例えば早期停止を考えるようにしている。 本稿では,この問題に対処するためのデータ拡張(DA)技術について検討する。 DAがATの正規化に有効でないという文献の以前の報告とは対照的に、DAはATの過剰適合を驚くほど軽減できるが、意図的に選択すべきである。 DAの効果をさらに活用するために,2つの異なる拡張から攻撃した際の予測分布を互いに類似させる,簡易かつ効果的な補助的「一貫性」正規化損失を最適化する手法を提案する。 我々の実験結果は、私たちの単純な正規化スキームが幅広いAT方法に適用可能であることを実証し、テストの堅牢な精度の一貫性と大幅な改善を示しています。 さらに,本手法は,学習中に使用するものに比べて,他のタイプや大きな摂動など,目に見えない敵に対する頑健さを一般化する上で有益であることを示す。 コードはhttps://github.com/a linlab/consistency-a dversarialで入手できる。

Adversarial training (AT) is currently one of the most successful methods to obtain the adversarial robustness of deep neural networks. However, a significant generalization gap in the robustness obtained from AT has been problematic, making practitioners to consider a bag of tricks for a successful training, e.g., early stopping. In this paper, we investigate data augmentation (DA) techniques to address the issue. In contrast to the previous reports in the literature that DA is not effective for regularizing AT, we discover that DA can mitigate overfitting in AT surprisingly well, but they should be chosen deliberately. To utilize the effect of DA further, we propose a simple yet effective auxiliary 'consistency' regularization loss to optimize, which forces predictive distributions after attacking from two different augmentations to be similar to each other. Our experimental results demonstrate that our simple regularization scheme is applicable for a wide range of AT methods, showing consistent yet significant improvements in the test robust accuracy. More remarkably, we also show that our method could significantly help the model to generalize its robustness against unseen adversaries, e.g., other types or larger perturbations compared to those used during training. Code is available at https://github.com/a linlab/consistency-a dversarial.
翻訳日:2021-03-09 16:00:12 公開日:2021-03-08
# Echo状態ネットワークのためのクラスタベース入力重み初期化

Cluster-based Input Weight Initialization for Echo State Networks ( http://arxiv.org/abs/2103.04710v1 )

ライセンス: Link先を確認
Peter Steiner (1), Azarakhsh Jalalvand (2 and 3), Peter Birkholz (1) ((1) Institute for Acoustics and Speech Communication, Technische Universit\"at Dresden, 01069 Dresden, Germany, (2) IDLab, Ghent University, Belgium, (3) Aerospace Engineering department, Princeton University, USA)(参考訳) Echo State Networks (ESN) は、入力とリカレント接続が伝統的にランダムに生成され、出力重みのみをトレーニングする特殊なタイプのリカレントニューラルネットワーク(RNN)である。 近年,音声,画像,レーダ認識の様々なタスクにおいてESNが成功しているにもかかわらず,純粋にランダムな初期化はESNを初期化する理想的な方法ではないと仮定する。 本研究の目的は,K-Meansアルゴリズムを用いた入力接続の教師なし初期化を提案することである。 この初期化はランダムに初期化されたESNと同等かそれ以上に機能し、貯留層ニューロン(2000対4000、f0抽出では300対8000のニューロン)を有意に少なくし、トレーニング時間を大幅に短縮することを示した。 さらに,本手法は,データに関する事前知識に基づいて,貯水池の適切な大きさを推定する機会を提供する。

Echo State Networks (ESNs) are a special type of recurrent neural networks (RNNs), in which the input and recurrent connections are traditionally generated randomly, and only the output weights are trained. Despite the recent success of ESNs in various tasks of audio, image and radar recognition, we postulate that a purely random initialization is not the ideal way of initializing ESNs. The aim of this work is to propose an unsupervised initialization of the input connections using the K-Means algorithm on the training data. We show that this initialization performs equivalently or superior than a randomly initialized ESN whilst needing significantly less reservoir neurons (2000 vs. 4000 for spoken digit recognition, and 300 vs. 8000 neurons for f0 extraction) and thus reducing the amount of training time. Furthermore, we discuss that this approach provides the opportunity to estimate the suitable size of the reservoir based on the prior knowledge about the data.
翻訳日:2021-03-09 15:59:52 公開日:2021-03-08
# 有限水平およびストリーミングレスマルチアーム帯域問題に対する効率的なアルゴリズム

Efficient Algorithms for Finite Horizon and Streaming Restless Multi-Armed Bandit Problems ( http://arxiv.org/abs/2103.04730v1 )

ライセンス: Link先を確認
Aditya Mate, Arpita Biswas, Christoph Siebenbrunner, Milind Tambe(参考訳) Restless Multi-Armed Bandits (RMAB) はリソース割り当ての問題のモデル化に広く使われている。 近年,これらを健康モニタリングや介入計画に活用している。 しかし、既存のアプローチは、新しい患者の到着と、治療プログラムから登録された患者の出発を考慮に入れていない。 この課題に対処するため,非均質な腕が到達し,おそらくランダムなストリームの下を離れるRMABの一般化であるストリーミングバンディット(S-RMAB)フレームワークを策定する。 インデックスベースのソリューションを計算するための新しいスケーラブルなアプローチを提案します。 まず、指標値が短い寿命で減少することが証明され、これは指数減衰と呼ばれる現象である。 次に、コストのかかる有限な地平線問題を解決することなくインデックス崩壊を捕捉するアルゴリズムを提供し、既存の手法と比較して計算の複雑さを低減し、結核介入計画タスクと複数の合成領域から得られた実世界データを用いたシミュレーションによるアプローチを評価します。 当社のアルゴリズムは、これらのタスクにおける既存の方法よりも150倍以上のスピードアップを実現し、パフォーマンスを損ないません。 これらの発見は複数のドメインにまたがって堅牢である。

Restless Multi-Armed Bandits (RMABs) have been popularly used to model limited resource allocation problems. Recently, these have been employed for health monitoring and intervention planning problems. However, the existing approaches fail to account for the arrival of new patients and the departure of enrolled patients from a treatment program. To address this challenge, we formulate a streaming bandit (S-RMAB) framework, a generalization of RMABs where heterogeneous arms arrive and leave under possibly random streams. We propose a new and scalable approach to computing index-based solutions. We start by proving that index values decrease for short residual lifetimes, a phenomenon that we call index decay. We then provide algorithms designed to capture index decay without having to solve the costly finite horizon problem, thereby lowering the computational complexity compared to existing methods.We evaluate our approach via simulations run on real-world data obtained from a tuberculosis intervention planning task as well as multiple other synthetic domains. Our algorithms achieve an over 150x speed-up over existing methods in these tasks without loss in performance. These findings are robust across multiple domains.
翻訳日:2021-03-09 15:59:33 公開日:2021-03-08
# 手続き的コンテンツ生成のためのadversarial reinforcement learning

Adversarial Reinforcement Learning for Procedural Content Generation ( http://arxiv.org/abs/2103.04847v1 )

ライセンス: Link先を確認
Linus Gissl\'en, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar(参考訳) 本稿では,PCG(Procedural Content Generation)のアプローチを提案し,対向深度RLを用いて強化学習(Regress Learning, RL)エージェントの一般化を改善する。 新規環境に対する一般化のためのRLエージェントの訓練は、非常に難しい課題である。 一般的なアプローチの一つは、訓練されたエージェントの一般化性を高めるために異なる環境を手続き的に生成することである。 ここでは、1つのPCG RLエージェント(ジェネレータと呼ばれる)と1つの解決RLエージェント(ソルバーと呼ばれる)で敵対モデルを展開する。 第一に、ソルバーはジェネレータから生成された課題を通じてより良い一般化を実現します。 第二に、訓練されたジェネレータは、Solverとともに解決可能であることを示す新しい環境の創造者として使用することができる。 生成器は、環境設計が困難であるが不可能ではないことを奨励するソルバの性能に基づく報奨信号を受信する。 環境発生の多様性と制御をさらに推進するために、発電機の補助入力の使用を提案します。 そこで,本研究では,補助入力を制御変数として,既知環境を手続き的に生成する,手続き的コンテンツ生成(arlpcg)のための逆rlを提案する。 本稿では,この概念を,改良された一般化を示す従来の手法と比較し,新しい環境を創り出す新しい手法について述べる。

We present an approach for procedural content generation (PCG), and improving generalization in reinforcement learning (RL) agents, by using adversarial deep RL. Training RL agents for generalization over novel environments is a notoriously difficult task. One popular approach is to procedurally generate different environments to increase the generalizability of the trained agents. Here we deploy an adversarial model with one PCG RL agent (called Generator), and one solving RL agent (called Solver). The benefit is mainly two-fold: Firstly, the Solver achieves better generalization through the generated challenges from the Generator. Secondly, the trained Generator can be used as a creator of novel environments that, together with the Solver, can be shown to be solvable. The Generator receives a reward signal based on the performance of the Solver which encourages the environment design to be challenging but not impossible. To further drive diversity and control of the environment generation, we propose the use of auxiliary inputs for the Generator. Thus, we propose adversarial RL for procedural content generation (ARLPCG), an adversarial approach which procedurally generates previously unseen environments with an auxiliary input as a control variable. Herein we describe this concept in detail and compare it with previous methods showing improved generalization, as well as a new method to create novel environments.
翻訳日:2021-03-09 15:59:04 公開日:2021-03-08
# 体操AIに関する調査:シミュレータから研究課題まで

A Survey Of Embodied AI: From Simulator To Research Tasks ( http://arxiv.org/abs/2103.04918v1 )

ライセンス: Link先を確認
Duan Jiafei, Samson Yu, Tan Hui Li, Hongyuan Zhu and Cheston Tan(参考訳) ネットAI」の時代から「具体化AI」の時代へとパラダイムが変化し、AIアルゴリズムやエージェントは、インターネットから主に収集された画像、ビデオ、テキストのデータセットから学習しなくなりました。 その代わり、実物でもシミュレートであれ、環境との身体的相互作用を通じて学習する。 その結果、インボディードAI研究タスクの多様性をサポートするために、インボディードAIシミュレーターの需要が大幅に増加した。 このインボディードAIへの関心の高まりは、人工知能のさらなる追求に有益であるが、この分野に関する現代的で包括的な調査は行われていない。 本稿では、最先端のAIシミュレータと、それらの間の接続をマッピングする研究を包括的に調査する。 本論文では,9つの最先端のAIシミュレータを7つの特徴からベンチマークすることにより,AI研究におけるシミュレータの利用状況を把握することを目的とする。 最後に、AI研究課題のシミュレータとピラミッド階層に基づいて、AI-視覚探索、視覚ナビゲーション、および具体的質問応答(QA)における主要な研究課題を調査し、最先端のアプローチ、評価、データセットについて述べる。

There has been an emerging paradigm shift from the era of "internet AI" to "embodied AI", whereby AI algorithms and agents no longer simply learn from datasets of images, videos or text curated primarily from the internet. Instead, they learn through embodied physical interactions with their environments, whether real or simulated. Consequently, there has been substantial growth in the demand for embodied AI simulators to support a diversity of embodied AI research tasks. This growing interest in embodied AI is beneficial to the greater pursuit of artificial general intelligence, but there is no contemporary and comprehensive survey of this field. This paper comprehensively surveys state-of-the-art embodied AI simulators and research, mapping connections between these. By benchmarking nine state-of-the-art embodied AI simulators in terms of seven features, this paper aims to understand the simulators in their provision for use in embodied AI research. Finally, based upon the simulators and a pyramidal hierarchy of embodied AI research tasks, this paper surveys the main research tasks in embodied AI -- visual exploration, visual navigation and embodied question answering (QA), covering the state-of-the-art approaches, evaluation and datasets.
翻訳日:2021-03-09 15:58:41 公開日:2021-03-08
# 畳み込みモデルにおける尾根回帰の漸近

Asymptotics of Ridge Regression in Convolutional Models ( http://arxiv.org/abs/2103.04557v1 )

ライセンス: Link先を確認
Mojtaba Sahraee-Ardakan, Tung Mai, Anup Rao, Ryan Rossi, Sundeep Rangan, Alyson K. Fletcher(参考訳) 近年,線形モデルや一般化線形モデルなどの単純モデルの一般化と推定誤差の理解が注目されている。 これは、高度にパラメータ化されたニューラルネットワークがトレーニングエラーをゼロにするが、テストサンプルをうまく一般化できるという、機械学習コミュニティの興味深い観察によるものだ。 この現象はいわゆる二重降下曲線によって捉えられ、補間しきい値の後に一般化誤差が再び減少し始める。 最近の研究では、このような現象を単純なモデルに説明しようと試みた。 本研究では、畳み込み線形モデルのためのリッジ推定器における推定誤差の漸近性を分析する。 これらの畳み込み逆問題(deconvolution inverse problem, deconvolution)は、地震学、イメージング、音響学など様々な分野において自然発生する。 私たちの結果は、i.d.を含む入力分布の大規模なクラスに当てはまる。 特別な場合として特徴。 特定の高次元状態にある尾根推定器の推定誤差の正確な式を導出する。 畳み込みモデルに対する実験では, 二重降下現象を示し, 理論結果が実験と一致することを示した。

Understanding generalization and estimation error of estimators for simple models such as linear and generalized linear models has attracted a lot of attention recently. This is in part due to an interesting observation made in machine learning community that highly over-parameterized neural networks achieve zero training error, and yet they are able to generalize well over the test samples. This phenomenon is captured by the so called double descent curve, where the generalization error starts decreasing again after the interpolation threshold. A series of recent works tried to explain such phenomenon for simple models. In this work, we analyze the asymptotics of estimation error in ridge estimators for convolutional linear models. These convolutional inverse problems, also known as deconvolution, naturally arise in different fields such as seismology, imaging, and acoustics among others. Our results hold for a large class of input distributions that include i.i.d. features as a special case. We derive exact formulae for estimation error of ridge estimators that hold in a certain high-dimensional regime. We show the double descent phenomenon in our experiments for convolutional models and show that our theoretical results match the experiments.
翻訳日:2021-03-09 15:56:45 公開日:2021-03-08
# 隠れコンバウンダリングによる個人レベル因果推定値の不明瞭度の定量化

Quantifying Ignorance in Individual-Level Causal-Effect Estimates under Hidden Confounding ( http://arxiv.org/abs/2103.04850v1 )

ライセンス: Link先を確認
Andrew Jesson, S\"oren Mindermann, Yarin Gal, Uri Shalit(参考訳) 共同設立者による高次元観測データから条件付き平均治療効果(CATE)の学習問題について検討した。 観察されていない共同創業者は、CATE推定でバイアスを誘導することによって治療に対する個人の反応について無知 - 識別不能のレベルを導入します。 高次元データに適した新しいパラメトリック間隔推定器を提示し、隠れたコンバーチングのレベルに事前に定義された境界を与えられた場合に可能なCATE値の範囲を推定する。 さらに、以前の間隔推定器は、元の研究で不足しているかもしれないサンプルや重なりの仮定に反するサンプルから生じるCATEに関する無知を説明できない。 この新しい区間推定器はモデルの不確実性も組み込んでおり、実践者は分散データに気付くことができる。 我々の推定器は、観測されていないコンバウンディングが存在する場合、CATEの厳密な境界に収束し、半合成高次元データセットを用いて評価する。

We study the problem of learning conditional average treatment effects (CATE) from high-dimensional, observational data with unobserved confounders. Unobserved confounders introduce ignorance -- a level of unidentifiability -- about an individual's response to treatment by inducing bias in CATE estimates. We present a new parametric interval estimator suited for high-dimensional data, that estimates a range of possible CATE values when given a predefined bound on the level of hidden confounding. Further, previous interval estimators do not account for ignorance about the CATE stemming from samples that may be underrepresented in the original study, or samples that violate the overlap assumption. Our novel interval estimator also incorporates model uncertainty so that practitioners can be made aware of out-of-distribution data. We prove that our estimator converges to tight bounds on CATE when there may be unobserved confounding, and assess it using semi-synthetic, high-dimensional datasets.
翻訳日:2021-03-09 15:56:29 公開日:2021-03-08
# グラフニューラルネットワークを用いた自己注意層に対するリプシッツ正規化

Lipschitz Normalization for Self-Attention Layers with Application to Graph Neural Networks ( http://arxiv.org/abs/2103.04886v1 )

ライセンス: Link先を確認
George Dasoulas, Kevin Scaman, Aladin Virmaux(参考訳) 注意に基づくニューラルネットワークは、幅広いアプリケーションにおける最先端技術である。 しかし、レイヤーの数が増えるとパフォーマンスは低下する傾向にある。 本研究では,注意スコアの正規化によるリプシッツ連続性の強化により,深い注意モデルの性能が著しく向上することを示す。 まず、深いグラフ注意ネットワーク(GAT)では、トレーニング中にグラデーション爆発が現れ、グラデーションベースのトレーニングアルゴリズムのパフォーマンスが低下することを示します。 この問題に対処するために、注意モジュールのリプシッツ連続性の理論的解析を導き、リプシッツ連続となるようにモデルを強制する自己注意機構の単純かつパラメータフリーな正規化であるリプシッツノルムを導入する。 次に、GATおよびグラフトランスフォーマーにLipschitzNormを適用し、そのパフォーマンスが10から30層で大幅に改善されていることを示す。 より具体的には、LipschitzNormを用いた深部GATモデルにより、長期依存性を示すノードラベル予測タスクの成果が得られ、ベンチマークノード分類タスクにおける非正規化タスクよりも一貫した改善が示される。

Attention based neural networks are state of the art in a large range of applications. However, their performance tends to degrade when the number of layers increases. In this work, we show that enforcing Lipschitz continuity by normalizing the attention scores can significantly improve the performance of deep attention models. First, we show that, for deep graph attention networks (GAT), gradient explosion appears during training, leading to poor performance of gradient-based training algorithms. To address this issue, we derive a theoretical analysis of the Lipschitz continuity of attention modules and introduce LipschitzNorm, a simple and parameter-free normalization for self-attention mechanisms that enforces the model to be Lipschitz continuous. We then apply LipschitzNorm to GAT and Graph Transformers and show that their performance is substantially improved in the deep setting (10 to 30 layers). More specifically, we show that a deep GAT model with LipschitzNorm achieves state of the art results for node label prediction tasks that exhibit long-range dependencies, while showing consistent improvements over their unnormalized counterparts in benchmark node classification tasks.
翻訳日:2021-03-09 15:56:12 公開日:2021-03-08
# 1次摂動による逆転型防御の強化

Enhancing Transformation-based Defenses against Adversarial Examples with First-Order Perturbations ( http://arxiv.org/abs/2103.04565v1 )

ライセンス: Link先を確認
Haimin Zhang, Min Xu(参考訳) 研究によると、ニューラルネットワークは敵の攻撃を受けやすい。 これはニューラルネットワークベースの人工知能システムに潜在的な脅威をもたらす。 ニューラルネットワークによって出力される正しい結果の確率は、非予測クラスラベルで生成された小さな摂動を逆の例に適用することで増加する。 そこで本研究では, 逆転の例に反して逆転の摂動に反する手法を提案する。 本手法では,複数のクラスラベルをランダムに選択し,これらの選択ラベルの小さな摂動を生成する。 生成された摂動は一緒に加えられ、指定された空間にクランプされる。 得られた摂動は、最終的に対向例に追加され、この例に含まれる対向的摂動に対処する。 提案手法は推定時に適用され,モデルの再トレーニングや微調整は不要である。 提案手法をCIFAR-10およびCIFAR-100で検証した。 実験の結果,本手法はベースラインメソッドの防御性能を効果的に向上すること,特に多くのイテレーションで生成された強力な敵例に対して有効であることがわかった。

Studies show that neural networks are susceptible to adversarial attacks. This exposes a potential threat to neural network-based artificial intelligence systems. We observe that the probability of the correct result outputted by the neural network increases by applying small perturbations generated for non-predicted class labels to adversarial examples. Based on this observation, we propose a method of counteracting adversarial perturbations to resist adversarial examples. In our method, we randomly select a number of class labels and generate small perturbations for these selected labels. The generated perturbations are added together and then clamped onto a specified space. The obtained perturbation is finally added to the adversarial example to counteract the adversarial perturbation contained in the example. The proposed method is applied at inference time and does not require retraining or finetuning the model. We validate the proposed method on CIFAR-10 and CIFAR-100. The experimental results demonstrate that our method effectively improves the defense performance of the baseline methods, especially against strong adversarial examples generated using more iterations.
翻訳日:2021-03-09 15:54:36 公開日:2021-03-08
# 時間的メタデータ操作のコンテンツベース検出

Content-Based Detection of Temporal Metadata Manipulation ( http://arxiv.org/abs/2103.04736v1 )

ライセンス: Link先を確認
Rafael Padilha, Tawfiq Salem, Scott Workman, Fernanda A. Andal\'o, Anderson Rocha and Nathan Jacobs(参考訳) オンラインで共有されるほとんどの写真には、その背景にある理解と歴史を支援する時間的コンテキスト(すなわち、撮影された瞬間)が伴っている。 これらの画像が別の瞬間に撮影されたという主張は誤解を招く可能性があり、歪んだ現実を伝えるのに役立ちます。 本稿では,タイムスタンプ操作を検知する新たな問題を提案する。 画像の撮像時間とその内容と地理的位置とが一致しているかどうかを検証するためのエンドツーエンドのアプローチを提案する。 中心となる考え方は、画像の内容、キャプチャ時間、地理的位置が一致する確率を予測するための教師付き一貫性検証の利用である。 また、ネットワーク決定を説明するために使用できる補助的なタスクのペアも含んでいます。 我々のアプローチは、大規模なベンチマークデータセットの以前の作業により改善され、分類精度が59.03%から81.07%に向上した。 最後に、アブレーション研究は、この手法の様々な構成要素の重要性を強調し、我々の手法を用いてどのような種類の改ざんが検出できるかを示す。

Most pictures shared online are accompanied by a temporal context (i.e., the moment they were taken) that aids their understanding and the history behind them. Claiming that these images were captured in a different moment can be misleading and help to convey a distorted version of reality. In this work, we present the nascent problem of detecting timestamp manipulation. We propose an end-to-end approach to verify whether the purported time of capture of an image is consistent with its content and geographic location. The central idea is the use of supervised consistency verification, in which we predict the probability that the image content, capture time, and geographical location are consistent. We also include a pair of auxiliary tasks, which can be used to explain the network decision. Our approach improves upon previous work on a large benchmark dataset, increasing the classification accuracy from 59.03% to 81.07%. Finally, an ablation study highlights the importance of various components of the method, showing what types of tampering are detectable using our approach.
翻訳日:2021-03-09 15:54:18 公開日:2021-03-08
# 深層強化学習による現実世界のライドヘイリング車両配置

Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement Learning ( http://arxiv.org/abs/2103.04555v1 )

ライセンス: Link先を確認
Yan Jiao, Xiaocheng Tang, Zhiwei Qin, Shuaiji Li, Fan Zhang, Hongtu Zhu and Jieping Ye(参考訳) 乗用車(モビリティ・オン・デマンドの一種であるMoD)プラットフォーム上での現実世界の車両再配置のための深層強化学習と意思決定時間計画に基づく新しい実用的なフレームワークを提示する。 深値ネットワークを用いたバッチトレーニングアルゴリズムを用いて時空間状態値関数を学習する。 最適なリポジショニングアクションは、計画とブートストラップとバリューネットワークを結合したバリューベースポリシー検索を通じてオンデマンドで生成される。 大フリート問題に対して,我々は,我々のフレームワークに組み込んだいくつかのアルゴリズム機能を開発し,アルゴリズムが誘導する車両間の協調を誘導することを示す。 本研究では,このアルゴリズムを配車シミュレーション環境のベースラインでベンチマークし,時間当たりの収入効率向上の優位性を示す。 また、主要な配車プラットフォームで通常のドライバーと実世界の実験プログラムを設計および実行しています。 本手法と,自身の専門性に基づいてアイドルタイムのリポジショニングを行った経験者を比較した重要指標について,有意にポジティブな結果が得られた。

We present a new practical framework based on deep reinforcement learning and decision-time planning for real-world vehicle repositioning on ride-hailing (a type of mobility-on-demand, MoD) platforms. Our approach learns the spatiotemporal state-value function using a batch training algorithm with deep value networks. The optimal repositioning action is generated on-demand through value-based policy search, which combines planning and bootstrapping with the value networks. For the large-fleet problems, we develop several algorithmic features that we incorporate into our framework and that we demonstrate to induce coordination among the algorithmically-guid ed vehicles. We benchmark our algorithm with baselines in a ride-hailing simulation environment to demonstrate its superiority in improving income efficiency meausred by income-per-hour. We have also designed and run a real-world experiment program with regular drivers on a major ride-hailing platform. We have observed significantly positive results on key metrics comparing our method with experienced drivers who performed idle-time repositioning based on their own expertise.
翻訳日:2021-03-09 15:52:20 公開日:2021-03-08
# 等価リファインメントによる自律システムのテスト

Testing Autonomous Systems with Believed Equivalence Refinement ( http://arxiv.org/abs/2103.04578v1 )

ライセンス: Link先を確認
Chih-Hong Cheng, Rongjie Yan(参考訳) 自律運転機能の継続的エンジニアリングは、通常、問題のある決定を引き起こすインプットを得るために、道路テストに車両を配置する必要がある。 この発見はシステムの改善につながるが、同値クラスと関連する相対的なテストカバレッジ基準を使用したテストの基礎にも挑戦する。 本稿では,同値クラスの確立が当初は専門家の信念に基づいており,一貫した評価が得られたテストケースの集合を対象とする,信頼同値性を提案する。 一貫性を損なう新たなテストケースの場合、最初に信じられていた同値を2つに分割するために、確立された分類を洗練する必要がある。 最後に、各カテゴリが実際のドメイン上で入力を分割するディープニューラルネットワークを用いて実装されたモジュールに焦点を当てる。 局所的ロバスト性テストによって補完されるk-nearest近傍の指示に従って,新しいテストケースを導くことにより,新たな等価クラスを確立する。 本概念は,提案手法の潜在可能性を示す車線維持支援モジュールで実証される。

Continuous engineering of autonomous driving functions commonly requires deploying vehicles in road testing to obtain inputs that cause problematic decisions. Although the discovery leads to producing an improved system, it also challenges the foundation of testing using equivalence classes and the associated relative test coverage criterion. In this paper, we propose believed equivalence, where the establishment of an equivalence class is initially based on expert belief and is subject to a set of available test cases having a consistent valuation. Upon a newly encountered test case that breaks the consistency, one may need to refine the established categorization in order to split the originally believed equivalence into two. Finally, we focus on modules implemented using deep neural networks where every category partitions an input over the real domain. We establish new equivalence classes by guiding the new test cases following directions suggested by its k-nearest neighbors, complemented by local robustness testing. The concept is demonstrated in a lane-keeping assist module indicating the potential of our proposed approach.
翻訳日:2021-03-09 15:52:00 公開日:2021-03-08
# ロボットと強化学習のスコープにおける普及したシミュレーション環境の比較

Comparing Popular Simulation Environments in the Scope of Robotics and Reinforcement Learning ( http://arxiv.org/abs/2103.04616v1 )

ライセンス: Link先を確認
Marian K\"orber, Johann Lange, Stephan Rediske, Simon Steinmann, Roland Gl\"uck(参考訳) 本稿では,ロボット工学と強化学習(RL)の4種類のシミュレーション環境の性能を,一連のベンチマークを通じて比較する。 ベンチマークされたシナリオは、現在の産業アプリケーションを考慮して慎重に設計されます。 rlエージェントの実世界のトレーニング時間を短縮するためにできるだけ速くシミュレーションを実行する必要があるため、この比較には異なるシミュレーション環境だけでなく、エントリーレベルのノートブックからデュアルcpuハイパフォーマンスサーバまで、さまざまなハードウェア構成が含まれている。 選択したシミュレーション環境がシングルコア性能の恩恵を最も受けることを示す。 しかし、マルチコアシステムを使用すると、並列に複数のシミュレーションを実行して性能を向上させることができる。

This letter compares the performance of four different, popular simulation environments for robotics and reinforcement learning (RL) through a series of benchmarks. The benchmarked scenarios are designed carefully with current industrial applications in mind. Given the need to run simulations as fast as possible to reduce the real-world training time of the RL agents, the comparison includes not only different simulation environments but also different hardware configurations, ranging from an entry-level notebook up to a dual CPU high performance server. We show that the chosen simulation environments benefit the most from single core performance. Yet, using a multi core system, multiple simulations could be run in parallel to increase the performance.
翻訳日:2021-03-09 15:51:43 公開日:2021-03-08
# Monte Carlo Tree Search: 最近の修正と応用に関するレビュー

Monte Carlo Tree Search: A Review on Recent Modifications and Applications ( http://arxiv.org/abs/2103.04931v1 )

ライセンス: Link先を確認
Maciej \'Swiechowski, Konrad Godlewski, Bartosz Sawicki, Jacek Ma\'ndziuk(参考訳) モンテカルロツリー検索(MCTS)は、ゲームプレイボットを設計したり、連続的な決定問題を解決するための強力なアプローチです。 この方法は、探索と搾取のバランスをとるインテリジェントな木探索に依存している。 MCTSはシミュレーションの形式でランダムサンプリングを行い、その後のイテレーションごとにより教育的な選択を行うためにアクションの統計を格納する。 しかし、この手法はコンビネータゲーム(例えば、より複雑なゲーム)では最先端の技術となっている。 分岐係数の高いゲームやリアルタイムゲーム)や、さまざまな実践領域(例えば、)でのゲーム。 輸送、スケジューリング、セキュリティ) 効率的なMCTSアプリケーションは、しばしば問題に依存した修正または他の技術との統合を必要とする。 このようなドメイン固有の修正とハイブリッドアプローチがこの調査の主な焦点である。 最後の主要なMCTS調査は2012年に出版されました。 このレビューでは、リリース以来のコントリビューションが特に関心を集めています。

Monte Carlo Tree Search (MCTS) is a powerful approach to designing game-playing bots or solving sequential decision problems. The method relies on intelligent tree search that balances exploration and exploitation. MCTS performs random sampling in the form of simulations and stores statistics of actions to make more educated choices in each subsequent iteration. The method has become a state-of-the-art technique for combinatorial games, however, in more complex games (e.g. games with high branching factor or real-time ones), as well as in various practical domains (e.g. transportation, scheduling or security) efficient MCTS application often requires either its problem-dependent modification or its integration with other techniques. Such domain-specific modifications and hybrid approaches are the main focus of this survey. The last major MCTS survey has been published in 2012. Contributions that appeared since its release are of particular interest for this review.
翻訳日:2021-03-09 15:51:33 公開日:2021-03-08
# 深層強化学習によるビジョンベースのモバイルロボティクス障害回避

Vision-Based Mobile Robotics Obstacle Avoidance With Deep Reinforcement Learning ( http://arxiv.org/abs/2103.04727v1 )

ライセンス: Link先を確認
Patrick Wenzel, Torsten Sch\"on, Laura Leal-Taix\'e, Daniel Cremers(参考訳) 障害物回避は、移動ロボットの自律ナビゲーションのための根本的かつ困難な問題です。 本稿では,ロボットが単一眼カメラにのみ依存しなければならない単純な3D環境における障害物回避の問題を検討する。 特に私たちは,ローカライズやマッピング,計画手法に頼ることなく,この問題を解決することに興味を持っています。 既存の作業の多くは障害物回避を障害検出と制御という2つの問題として捉えている。 Atariゲームにおける深層強化学習の最近の利点と、非常に複雑な状況の理解に触発されて、データ駆動のエンドツーエンドのディープラーニングアプローチとして障害回避問題に取り組みます。 本手法では生画像を入力とし,制御コマンドを出力として生成する。 離散的行動空間は迷路のような環境における平均報酬の期待値の点で連続的な制御命令を上回っていることを示した。 さらに,生成的逆ネットワークによる予測深度マップを組み込むことにより,学習を加速し,ポリシーの頑健性を高める方法を示す。

Obstacle avoidance is a fundamental and challenging problem for autonomous navigation of mobile robots. In this paper, we consider the problem of obstacle avoidance in simple 3D environments where the robot has to solely rely on a single monocular camera. In particular, we are interested in solving this problem without relying on localization, mapping, or planning techniques. Most of the existing work consider obstacle avoidance as two separate problems, namely obstacle detection, and control. Inspired by the recent advantages of deep reinforcement learning in Atari games and understanding highly complex situations in Go, we tackle the obstacle avoidance problem as a data-driven end-to-end deep learning approach. Our approach takes raw images as input and generates control commands as output. We show that discrete action spaces are outperforming continuous control commands in terms of expected average reward in maze-like environments. Furthermore, we show how to accelerate the learning and increase the robustness of the policy by incorporating predicted depth maps by a generative adversarial network.
翻訳日:2021-03-09 15:47:03 公開日:2021-03-08
# 確率性は荒地をナビゲートする:位相探索問題における勾配差に基づくアルゴリズムの比較

Stochasticity helps to navigate rough landscapes: comparing gradient-descent-bas ed algorithms in the phase retrieval problem ( http://arxiv.org/abs/2103.04902v1 )

ライセンス: Link先を確認
Francesca Mignacco, Pierfrancesco Urbani, Lenka Zdeborov\'a(参考訳) 本稿では,勾配降下, (複数パス) 確率的勾配降下, 持続的変種, ランジュバンアルゴリズムなどの勾配に基づくアルゴリズムが非凸ロスランドスケープをナビゲートし, サンプル複雑性の制限により最適一般化誤差を到達できるかを検討する。 我々は,高次元位相検索問題の損失景観を,非常に非凸な原型的例と考える。 位相探索において、勾配降下アルゴリズムが存在しない制御パラメータの領域に対して、勾配降下の確率的変種が完全な一般化に達することを観察する。 統計物理学からの動的平均場理論を応用し, 連続時間限界, ウォームスタート, 大規模システムサイズにおいて, これらのアルゴリズムの完全な軌道を解析的に特徴付ける。 さらに,ランドスケープの興味をそそる性質や,より知識の少ない初期化から勾配降下がより良い一般化特性を得ることができるアルゴリズムについても明らかにする。

In this paper we investigate how gradient-based algorithms such as gradient descent, (multi-pass) stochastic gradient descent, its persistent variant, and the Langevin algorithm navigate non-convex losslandscapes and which of them is able to reach the best generalization error at limited sample complexity. We consider the loss landscape of the high-dimensional phase retrieval problem as a prototypical highly non-convex example. We observe that for phase retrieval the stochastic variants of gradient descent are able to reach perfect generalization for regions of control parameters where the gradient descent algorithm is not. We apply dynamical mean-field theory from statistical physics to characterize analytically the full trajectories of these algorithms in their continuous-time limit, with a warm start, and for large system sizes. We further unveil several intriguing properties of the landscape and the algorithms such as that the gradient descent can obtain better generalization properties from less informed initializations.
翻訳日:2021-03-09 15:46:38 公開日:2021-03-08
# Plug & Play 優先度を用いたベイズイメージング: Langevin が Tweedie に出会うとき

Bayesian imaging using Plug & Play priors: when Langevin meets Tweedie ( http://arxiv.org/abs/2103.04715v1 )

ライセンス: Link先を確認
R\'emi Laumont, Valentin de Bortoli, Andr\'es Almansa, Julie Delon, Alain Durmus and Marcelo Pereyra(参考訳) Venkatakrishnan et al の独創的な作品以来。 (2013)、プラグ&プレイ(PnP)法は、ベイズイメージングにおいてユビキタスになっています。 これらの手法は、画像復調アルゴリズムによって暗黙的に定義される事前の公約関数と組み合わせることで、画像の逆問題に対する最小平均角誤差(MMSE)または最大Aポストエリオリ(MAP)推定器を導出する。 文献で提案されたPnPアルゴリズムは主に最適化やサンプリングに使用する反復的なスキームが異なる。 最適化スキームの場合、いくつかの最近の研究は固定点への収束を保証するが、必ずしもMAP推定ではない。 サンプリングスキームの場合、私たちの知識の最大限に、収束の既知の証拠はありません。 また、基礎となるベイズモデルと推定器が十分に定義され、適切に配置され、これらの数値スキームをサポートするために必要な基本的な正則性を持つかどうかに関する重要なオープンな疑問も残っている。 これらの制約に対処するために、PnP の先行したベイズ推定を行うための理論、手法、および証明可能な収束アルゴリズムを開発する。 モンテカルロサンプリングとMMSE推論のためのPnP-ULA(Unadjusted Langevin Algorithm)とMAP推論のためのPnP-SGD(Stochastic Gradient Descent)の2つのアルゴリズムを紹介します。 マルコフ連鎖の定量的収束に関する最近の結果を用いて,これら2つのアルゴリズムの詳細な収束保証を,ニューラルネットに基づくデノイザに特に注目しながら,使用中のデノイザ演算子の現実的な仮定の下で確立する。 また,これらのアルゴリズムが決定論的に最適なベイズモデルに近似することを示す。 提案アルゴリズムは, 点推定や不確実性可視化, 定量化など, 画像の劣化, 塗装, 装飾などの標準的な問題に対して実証される。

Since the seminal work of Venkatakrishnan et al. (2013), Plug & Play (PnP) methods have become ubiquitous in Bayesian imaging. These methods derive Minimum Mean Square Error (MMSE) or Maximum A Posteriori (MAP) estimators for inverse problems in imaging by combining an explicit likelihood function with a prior that is implicitly defined by an image denoising algorithm. The PnP algorithms proposed in the literature mainly differ in the iterative schemes they use for optimisation or for sampling. In the case of optimisation schemes, some recent works guarantee the convergence to a fixed point, albeit not necessarily a MAP estimate. In the case of sampling schemes, to the best of our knowledge, there is no known proof of convergence. There also remain important open questions regarding whether the underlying Bayesian models and estimators are well defined, well-posed, and have the basic regularity properties required to support these numerical schemes. To address these limitations, this paper develops theory, methods, and provably convergent algorithms for performing Bayesian inference with PnP priors. We introduce two algorithms: 1) PnP-ULA (Unadjusted Langevin Algorithm) for Monte Carlo sampling and MMSE inference; and 2) PnP-SGD (Stochastic Gradient Descent) for MAP inference. Using recent results on the quantitative convergence of Markov chains, we establish detailed convergence guarantees for these two algorithms under realistic assumptions on the denoising operators used, with special attention to denoisers based on deep neural networks. We also show that these algorithms approximately target a decision-theoretical ly optimal Bayesian model that is well-posed. The proposed algorithms are demonstrated on several canonical problems such as image deblurring, inpainting, and denoising, where they are used for point estimation as well as for uncertainty visualisation and quantification.
翻訳日:2021-03-09 15:46:20 公開日:2021-03-08
# MCR-Net : 機械読解の解答不能な質問に対するマルチステップ協調関係ネットワーク

MCR-Net: A Multi-Step Co-Interactive Relation Network for Unanswerable Questions on Machine Reading Comprehension ( http://arxiv.org/abs/2103.04567v1 )

ライセンス: Link先を確認
Wei Peng, Yue Hu, Jing Yu, Luxi Xing, Yuqiang Xie, Zihao Zhu, Yajing Sun(参考訳) 質問応答システムは、通常、キーワード検索を使用して、質問に関連する潜在的な通路を検索し、機械読解法で回答を抽出する。 しかし、多くの質問は現実世界では答えられません。 この場合、このモデルが、どの回答が通過によって支持され、応答が断たれるかを判断する方法は、重要かつ困難である。 既存のシステムの多くは、質問と通過の間の相互相互作用と関係を明示的にモデル化することなく、暗黙的に応答可能性を決定するための単純な分類器を設計している。 そこで本研究では,相互相互作用をモデル化し,相互相互作用モジュールを導入することにより,粗雑から微妙に重要な手がかりを見つけるためのマルチステップ協調関係ネットワーク(MCR-Net)を提案する。 相互作用ブロックと融合ブロックのスタックを含み、履歴誘導および現在クエリ誘導の手がかりを明示的な方法で連続的に統合・融合する。 SQuAD 2.0とDuReaderデータセットの実験は、私たちのモデルが驚くほどの改善を達成し、文学におけるBERTスタイルのベースラインを上回っていることを示しています。 可視化分析は、質問と通過の間の相互相互作用の重要性も検証する。

Question answering systems usually use keyword searches to retrieve potential passages related to a question, and then extract the answer from passages with the machine reading comprehension methods. However, many questions tend to be unanswerable in the real world. In this case, it is significant and challenging how the model determines when no answer is supported by the passage and abstains from answering. Most of the existing systems design a simple classifier to determine answerability implicitly without explicitly modeling mutual interaction and relation between the question and passage, leading to the poor performance for determining the unanswerable questions. To tackle this problem, we propose a Multi-Step Co-Interactive Relation Network (MCR-Net) to explicitly model the mutual interaction and locate key clues from coarse to fine by introducing a co-interactive relation module. The co-interactive relation module contains a stack of interaction and fusion blocks to continuously integrate and fuse history-guided and current-query-guided clues in an explicit way. Experiments on the SQuAD 2.0 and DuReader datasets show that our model achieves a remarkable improvement, outperforming the BERT-style baselines in literature. Visualization analysis also verifies the importance of the mutual interaction between the question and passage.
翻訳日:2021-03-09 15:44:29 公開日:2021-03-08
# infillmore: ナラティブテキストインフィルディングのためのニューラルネットワークの語彙化

InFillmore: Neural Frame Lexicalization for Narrative Text Infilling ( http://arxiv.org/abs/2103.04941v1 )

ライセンス: Link先を確認
Jiefu Ou, Nathaniel Weir, Anton Belyy, Felix Yu, and Benjamin Van Durme(参考訳) フレームセマンティック理論(Fillmore, 1976)にインスパイアされた双方向コンテキスト条件付き言語生成("infilling")の構造拡張を提案する。 モデルの微調整、観察されたシンボリックフレーム上で直接条件付け、およびフレーム意味の語彙単位を利用する断続的制約付き復号への新しい拡張という2つのアプローチによりガイダンスを提供する。 自動評価と人間評価は、フレーム誘導生成によって意図されたインフィル意味論を明示的に操作できることを確認した。 我々のメソッドは様々なユースケースに柔軟に適用でき、インタラクティブなWebデモをhttps://nlp.jhu.edu/ demos.comで公開しています。

We propose a structured extension to bidirectional-contex t conditional language generation, or "infilling," inspired by Frame Semantic theory (Fillmore, 1976). Guidance is provided through two approaches: (1) model fine-tuning, conditioning directly on observed symbolic frames, and (2) a novel extension to disjunctive lexically constrained decoding that leverages frame semantic lexical units. Automatic and human evaluations confirm that frame-guided generation allows for explicit manipulation of intended infill semantics, with minimal loss of indistinguishability from the human-generated text. Our methods flexibly apply to a variety of use scenarios, and we provide an interactive web demo available at https://nlp.jhu.edu/ demos.
翻訳日:2021-03-09 15:44:06 公開日:2021-03-08
# HOI変換器によるエンドツーエンドのヒューマンオブジェクトインタラクション検出

End-to-End Human Object Interaction Detection with HOI Transformer ( http://arxiv.org/abs/2103.04503v1 )

ライセンス: Link先を確認
Cheng Zou, Bohan Wang, Yue Hu, Junqi Liu, Qian Wu, Yu Zhao, Boxun Li, Chenguang Zhang, Chi Zhang, Yichen Wei, Jian Sun(参考訳) 本稿では,Human Object Interaction (HOI) 検出にエンドツーエンドで取り組むHOI Transformerを提案する。 現在のアプローチでは、HOIタスクをオブジェクト検出と相互作用分類の分離段階に分離するか、代理相互作用問題を導入するかのいずれかである。 対照的に、HOI Transformerという名前の私たちのメソッドは、多くの手作業で設計されたコンポーネントを不要にすることでHOIパイプラインを合理化します。 HOIトランスフォーマーは、グローバルなイメージコンテキストからオブジェクトと人間の関係を判断し、HOIインスタンスを直接並列に予測する。 HOI予測を統一的に強制するために、四重整合損失を導入する。 提案手法は概念的にはるかにシンプルであり,精度が向上している。 鐘や笛がなければ、HOI TransformerはHICO-DETで$ 6.61 % $ AP $、V-COCOで$ 52.9 % $ AP_{role}$を達成し、従来の方法をはるかにシンプルにしました。 私たちのアプローチがHOIタスクのシンプルで効果的な代替手段になることを願っています。 コードはhttps://github.com/b bepoch/HoiTransforme rで入手できる。

We propose HOI Transformer to tackle human object interaction (HOI) detection in an end-to-end manner. Current approaches either decouple HOI task into separated stages of object detection and interaction classification or introduce surrogate interaction problem. In contrast, our method, named HOI Transformer, streamlines the HOI pipeline by eliminating the need for many hand-designed components. HOI Transformer reasons about the relations of objects and humans from global image context and directly predicts HOI instances in parallel. A quintuple matching loss is introduced to force HOI predictions in a unified way. Our method is conceptually much simpler and demonstrates improved accuracy. Without bells and whistles, HOI Transformer achieves $26.61\% $ $ AP $ on HICO-DET and $52.9\%$ $AP_{role}$ on V-COCO, surpassing previous methods with the advantage of being much simpler. We hope our approach will serve as a simple and effective alternative for HOI tasks. Code is available at https://github.com/b bepoch/HoiTransforme r .
翻訳日:2021-03-09 15:37:54 公開日:2021-03-08
# FastFlowNet: 高速光フロー推定のための軽量ネットワーク

FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation ( http://arxiv.org/abs/2103.04524v1 )

ライセンス: Link先を確認
Lingtong Kong, Chunhua Shen, Jie Yang(参考訳) ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。 深層学習の出現により、従来の方法よりも満足のいく精度で予測されています。 しかし、現在のネットワークはしばしば多くのパラメータを占有し、計算コストが重い。 これらの欠点は、電力やメモリに制約されたモバイルデバイスのアプリケーションを妨げる。 本稿では,これらの課題に対処するため,高速かつ正確な光流予測のための効率的な構造設計について検討する。 提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。 まず,新しいhepp機能抽出器を用いて,パラメータを低減しつつ高分解能のピラミッド機能を強化する。 第二に,計算負荷を小さくして探索半径を大きく抑える小型コストボリュームを構築するための,新しい中心密度拡張相関(CDDC)層を提案する。 第3に、効率の良いシャッフルブロックデコーダ(sbd)を各ピラミッドレベルに挿入し、精度の限界低下を伴う流量推定を行う。 合成sintelと実世界のkittiデータセットの両方の実験は、同等のネットワークの計算を1/10だけ消費し、パフォーマンスの90%を得る提案手法の有効性を示している。 特に、FastFlowNetは1.37Mパラメータのみを含み、デスクトップNVIDIA GTX 1080 Tiまたは組み込みJetson TX2 GPUをSintel解像度画像上で90または5.7fpsで実行します。

Dense optical flow estimation plays a key role in many robotic vision tasks. It has been predicted with satisfying accuracy than traditional methods with advent of deep learning. However, current networks often occupy large number of parameters and require heavy computation costs. These drawbacks have hindered applications on power- or memory-constrained mobile devices. To deal with these challenges, in this paper, we dive into designing efficient structure for fast and accurate optical flow prediction. Our proposed FastFlowNet works in the well-known coarse-to-fine manner with following innovations. First, a new head enhanced pooling pyramid (HEPP) feature extractor is employed to intensify high-resolution pyramid feature while reducing parameters. Second, we introduce a novel center dense dilated correlation (CDDC) layer for constructing compact cost volume that can keep large search radius with reduced computation burden. Third, an efficient shuffle block decoder (SBD) is implanted into each pyramid level to acclerate flow estimation with marginal drops in accuracy. Experiments on both synthetic Sintel and real-world KITTI datasets demonstrate the effectiveness of proposed approaches, which consumes only 1/10 computation of comparable networks to get 90% of their performance. In particular, FastFlowNet only contains 1.37 M parameters and runs at 90 or 5.7 fps with one desktop NVIDIA GTX 1080 Ti or embedded Jetson TX2 GPU on Sintel resolution images.
翻訳日:2021-03-09 15:37:35 公開日:2021-03-08
# 部分ラベル付きデータセットを用いた複数組織セグメンテーションのためのインクリメンタル学習

Incremental Learning for Multi-organ Segmentation with Partially Labeled Datasets ( http://arxiv.org/abs/2103.04526v1 )

ライセンス: Link先を確認
Pengbo Liu, Li Xiao, S. Kevin Zhou(参考訳) オルガンセグメンテーションのための多くのデータセットがあり、部分的に注釈付けされ、順次構築されている。 典型的なデータセットは、医療画像のキュレーションと興味ある臓器の注釈付けによって、一定時間で構築される。 言い換えれば、新しい臓器カテゴリのアノテーションを備えた新しいデータセットは、時間とともに構築される。 これらの部分ラベル付きシーケンシャルなデータセットの背後にあるポテンシャルを解き放つために、インクリメンタルラーニング(IL)を通して多臓器セグメンテーションモデルを学ぶことを提案する。 それぞれのilステージでは、知識が現在のモデルにキャプチャされるはずの以前のアノテーションへのアクセスを失い、新しい臓器カテゴリのアノテーションを備えた新しいデータセットにアクセスし、そこから臓器のセグメンテーションモデルを更新して、新しい臓器を含むようにすることを学びます。 本研究は, IL法に共通する「破滅的忘れ」の要因として, 異なる分布が重要であると推察し, 医用画像のシナリオに対して, ILが自然な適応性を持っていることを検証した。 提案手法の有効性を実証するために,5つのオープンソースデータセットの大規模な実験を行った。

There exists a large number of datasets for organ segmentation, which are partially annotated, and sequentially constructed. A typical dataset is constructed at a certain time by curating medical images and annotating the organs of interest. In other words, new datasets with annotations of new organ categories are built over time. To unleash the potential behind these partially labeled, sequentially-constru cted datasets, we propose to learn a multi-organ segmentation model through incremental learning (IL). In each IL stage, we lose access to the previous annotations, whose knowledge is assumingly captured by the current model, and gain the access to a new dataset with annotations of new organ categories, from which we learn to update the organ segmentation model to include the new organs. We give the first attempt to conjecture that the different distribution is the key reason for 'catastrophic forgetting' that commonly exists in IL methods, and verify that IL has the natural adaptability to medical image scenarios. Extensive experiments on five open-sourced datasets are conducted to prove the effectiveness of our method and the conjecture mentioned above.
翻訳日:2021-03-09 15:37:11 公開日:2021-03-08
# U-DuDoNet:CT金属アーティファクト削減のためのアンペア二重ドメインネットワーク

U-DuDoNet: Unpaired dual-domain network for CT metal artifact reduction ( http://arxiv.org/abs/2103.04552v1 )

ライセンス: Link先を確認
Yuanyuan Lyu, Jiajun Fu, Cheng Peng, S. Kevin Zhou(参考訳) 近年,CT金属アーチファクトリダクション(MAR)タスクにおいて,教師付き深層学習法と教師なし深層学習法が広く適用されている。 双対ドメインネットワーク(du-donet)のような教師あり手法はシミュレーションデータにうまく機能するが、領域間隙のため臨床データの性能は限られている。 教師なしメソッドはより一般化されているが、イメージドメインの唯一の処理によってアーティファクトを完全に排除することはない。 両MAR方式の利点を組み合わせるために,無対データを用いた無対のデュアルドメインネットワーク(U-DuDoNet)を提案する。 複数エンコーダとデコーダを併用したアーティファクト・ディコンタングルメント・ネットワーク(ADN)とは異なり,我々のU-DuDoNetは,メタルアーティファクトに付随する付加的特性によって理論的に正当化されるシングラムと画像ドメインの付加を通じて,アーティファクト生成プロセスを直接モデル化する。 本設計では,自己学習型sinogram prior netを用い,sinogramドメインの情報復元のためのガイダンスと,アーティファクトの削減と非ペアデータへの付加に関する循環制約を提供する。 シミュレーションデータと臨床画像に関する広範な実験は、私たちの新しいフレームワークが最先端の不対アプローチを上回っていることを示しています。

Recently, both supervised and unsupervised deep learning methods have been widely applied on the CT metal artifact reduction (MAR) task. Supervised methods such as Dual Domain Network (Du-DoNet) work well on simulation data; however, their performance on clinical data is limited due to domain gap. Unsupervised methods are more generalized, but do not eliminate artifacts completely through the sole processing on the image domain. To combine the advantages of both MAR methods, we propose an unpaired dual-domain network (U-DuDoNet) trained using unpaired data. Unlike the artifact disentanglement network (ADN) that utilizes multiple encoders and decoders for disentangling content from artifact, our U-DuDoNet directly models the artifact generation process through additions in both sinogram and image domains, which is theoretically justified by an additive property associated with metal artifact. Our design includes a self-learned sinogram prior net, which provides guidance for restoring the information in the sinogram domain, and cyclic constraints for artifact reduction and addition on unpaired data. Extensive experiments on simulation data and clinical images demonstrate that our novel framework outperforms the state-of-the-art unpaired approaches.
翻訳日:2021-03-09 15:36:53 公開日:2021-03-08
# 蒸留外観流によるパーサーフリー仮想試行

Parser-Free Virtual Try-on via Distilling Appearance Flows ( http://arxiv.org/abs/2103.04559v1 )

ライセンス: Link先を確認
Yuying Ge, Yibing Song, Ruimao Zhang, Chongjian Ge, Wei Liu and Ping Luo(参考訳) Image Virtual try-onは、衣料品画像(ターゲット服)を人物画像に合わせることを目的としている。 以前の手法は人間の解析に基づいている。 しかし、わずかに短いセグメンテーションの結果は、大きなアーティファクトを持つ非現実的な試行画像に繋がる。 不正確な解析ミスリードは、アーティファクトが通常発生する視覚的に非現実的な結果を生成するパーサベースの方法である。 近年の先駆的な研究は、知識蒸留を人間のパーシングの依存性を減らし、パーサーベースの手法による試行画像は、セグメンテーションに頼らずに「学生」ネットワークを訓練する監督役として使われ、パーサーベースのモデルの試行能力を模倣するものである。 しかし、学生の画質はパーサーベースのモデルによって制限されます。 そこで本研究では,人間による解析を伴わずに高度に写真実写的な画像を生成することが可能な「教師-教師-学生」知識蒸留法を提案する。 1)既存の研究とは違って,本手法では,実物は実物から自己管理的に抽出した「教師の知識」によって修正できる「教師の知識」として,パーザベースの手法で作成した偽画像を扱う。 2) 実像を監督対象として使用する以外に, 被写体画像と衣服画像の出現フローを蒸留する手段として, 試行問題における知識蒸留を定式化し, それらの間の正確な密接な対応を見つけ, 高品質な結果が得られるようにした。 (3)広範囲な評価は,本手法の優位性が高い(図参照)。 1).

Image virtual try-on aims to fit a garment image (target clothes) to a person image. Prior methods are heavily based on human parsing. However, slightly-wrong segmentation results would lead to unrealistic try-on images with large artifacts. Inaccurate parsing misleads parser-based methods to produce visually unrealistic results where artifacts usually occur. A recent pioneering work employed knowledge distillation to reduce the dependency of human parsing, where the try-on images produced by a parser-based method are used as supervisions to train a "student" network without relying on segmentation, making the student mimic the try-on ability of the parser-based model. However, the image quality of the student is bounded by the parser-based model. To address this problem, we propose a novel approach, "teacher-tutor-studen t" knowledge distillation, which is able to produce highly photo-realistic images without human parsing, possessing several appealing advantages compared to prior arts. (1) Unlike existing work, our approach treats the fake images produced by the parser-based method as "tutor knowledge", where the artifacts can be corrected by real "teacher knowledge", which is extracted from the real person images in a self-supervised way. (2) Other than using real images as supervisions, we formulate knowledge distillation in the try-on problem as distilling the appearance flows between the person image and the garment image, enabling us to find accurate dense correspondences between them to produce high-quality results. (3) Extensive evaluations show large superiority of our method (see Fig. 1).
翻訳日:2021-03-09 15:36:29 公開日:2021-03-08
# multi-label learning guided self-paced clusteringを用いた教師なし人物再同定

Unsupervised Person Re-Identification with Multi-Label Learning Guided Self-Paced Clustering ( http://arxiv.org/abs/2103.04580v1 )

ライセンス: Link先を確認
Qing Li, Xiaojiang Peng, Yu Qiao, Qi Hao(参考訳) 監視されていない人物再同定(re-id)は近年研究の注目を集めているが、カメラビュー間のアノテーションを使わずに識別的特徴を学ぶことは依然として困難である。 本論文では,教師なしのRe-IDを,MLC(Multi-label Learning Guide Self-paced Clustering)と呼ばれる概念的に斬新かつ単純なフレームワークで対処する。 MLCは主に3つの重要なモジュール(マルチスケールネットワーク、マルチラベル学習モジュール、セルフペースクラスタリングモジュール)で識別的特徴を学習する。 具体的には、マルチスケールネットワークは、グローバルビューとローカルビューの両方でマルチグラニュラリティパーソン機能を生成します。 マルチラベル学習モジュールは、メモリ特徴バンクを利用して、画像と特徴バンクの類似度に基づいて、各画像にマルチラベルベクトルを割り当てる。 いくつかのエポックに対するマルチラベルトレーニングの後、セルフペースのクラスタリングがトレーニングに参加し、各イメージに擬似ラベルを割り当てる。 i) よりよく類似度を測定するためのマルチスケール機能、ii) データセット全体に基づいたマルチラベル割り当てにより、すべての画像のトレーニングが保証され、iii) セルフペースのクラスタリングにより、機能学習のためのノイズの多いサンプルが削除されます。 3つの一般的な大規模Re-IDベンチマークに関する広範な実験は、当社のMLCが以前の最先端の方法を上回ることを実証し、教師なしのRe-IDのパフォーマンスを大幅に改善します。

Although unsupervised person re-identification (Re-ID) has drawn increasing research attention recently, it remains challenging to learn discriminative features without annotations across disjoint camera views. In this paper, we address the unsupervised person Re-ID with a conceptually novel yet simple framework, termed as Multi-label Learning guided self-paced Clustering (MLC). MLC mainly learns discriminative features with three crucial modules, namely a multi-scale network, a multi-label learning module, and a self-paced clustering module. Specifically, the multi-scale network generates multi-granularity person features in both global and local views. The multi-label learning module leverages a memory feature bank and assigns each image with a multi-label vector based on the similarities between the image and feature bank. After multi-label training for several epochs, the self-paced clustering joins in training and assigns a pseudo label for each image. The benefits of our MLC come from three aspects: i) the multi-scale person features for better similarity measurement, ii) the multi-label assignment based on the whole dataset ensures that every image can be trained, and iii) the self-paced clustering removes some noisy samples for better feature learning. Extensive experiments on three popular large-scale Re-ID benchmarks demonstrate that our MLC outperforms previous state-of-the-art methods and significantly improves the performance of unsupervised person Re-ID.
翻訳日:2021-03-09 15:36:00 公開日:2021-03-08
# Unified Batch All Triplet Loss for Visible-Infrared Person Re-identification

Unified Batch All Triplet Loss for Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2103.04607v1 )

ライセンス: Link先を確認
Wenkang Li, Ke Qi, Wenbin Chen, Yicong Zhou(参考訳) Visible-Infrared cross-modality person re-identification (VI-ReID) は、視覚的モダリティと赤外線的モダリティの人物像をマッチングすることを目的としている。 バッチハードトリプルトロスは、個人再識別タスクで広く使われているが、可視赤外線人物再識別タスクではうまく機能しない。 ミニバッチ内の各アンカー画像に対して最も硬い三重項のみを最適化するため、最も硬い三重項のサンプルはすべて同じモダリティに属し、モダリティ最適化の不均衡問題を引き起こす。 この問題に対処するために、我々は、最も難しい三重項の代わりに、サンプルの中から可能な三重項を全て選択するバッチ全三重項選択戦略を採用した。 さらに,画像ベクトル間のコサイン距離を協調的に最適化するために,統一バッチ全三重項損失とコサインソフトマックス損失を導入する。 同様に、VI-ReIDタスクのために提案されるHetero Center Triplet損失を、モデル性能を改善するために全形式に書き換える。 広範な実験は提案手法の有効性を示しており、これは最先端の手法を幅広いマージンで上回っている。

Visible-Infrared cross-modality person re-identification (VI-ReID), whose aim is to match person images between visible and infrared modality, is a challenging cross-modality image retrieval task. Batch Hard Triplet loss is widely used in person re-identification tasks, but it does not perform well in the Visible-Infrared person re-identification task. Because it only optimizes the hardest triplet for each anchor image within the mini-batch, samples in the hardest triplet may all belong to the same modality, which will lead to the imbalance problem of modality optimization. To address this problem, we adopt the batch all triplet selection strategy, which selects all the possible triplets among samples to optimize instead of the hardest triplet. Furthermore, we introduce Unified Batch All Triplet loss and Cosine Softmax loss to collaboratively optimize the cosine distance between image vectors. Similarly, we rewrite the Hetero Center Triplet loss, which is proposed for VI-ReID task, into a batch all form to improve model performance. Extensive experiments indicate the effectiveness of the proposed methods, which outperform state-of-the-art methods by a wide margin.
翻訳日:2021-03-09 15:35:33 公開日:2021-03-08
# Max-Margin:Few-shot Object DetectionのためのクラスMargin平衡

Beyond Max-Margin: Class Margin Equilibrium for Few-shot Object Detection ( http://arxiv.org/abs/2103.04612v1 )

ライセンス: Link先を確認
Bohao Li, Boyu Yang, Chang Liu, Feng Liu, Rongrong Ji, Qixiang Ye(参考訳) ベースクラスオブジェクトの集合から学習した特徴再認識を用いて,新しいクラスオブジェクトを表現するために,オブジェクト検出が大幅に進歩した。 しかし、新しい分類と表現の暗黙の矛盾は残念ながら無視される。 一方、正確な新しいクラス分類を達成するためには、2つの基底クラスの分配は互いに遠く離れなければならない(max-margin)。 一方、新しいクラスを正確に表現するには、基本クラスの分布が互いに近くなり、新しいクラス(min-margin)のクラス内不整合を減少させる。 本稿では,特徴空間分割と新規なクラス再構成の両方を体系的に最適化する目的で,クラスマージン均衡(CME)アプローチを提案する。

Few-shot object detection has made substantial progressby representing novel class objects using the feature repre-sentation learned upon a set of base class objects. However,an implicit contradiction between novel class classificationand representation is unfortunately ignored. On the onehand, to achieve accurate novel class classification, the dis-tributions of either two base classes must be far away fromeach other (max-margin). On the other hand, to preciselyrepresent novel classes, the distributions of base classesshould be close to each other to reduce the intra-class dis-tance of novel classes (min-margin). In this paper, we pro-pose a class margin equilibrium (CME) approach, with theaim to optimize both feature space partition and novel classreconstruction in a systematic way.
翻訳日:2021-03-09 15:35:10 公開日:2021-03-08
# 教師なし再識別のための共同ノイズ耐性学習とメタカメラシフト適応

Joint Noise-Tolerant Learning and Meta Camera Shift Adaptation for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2103.04618v1 )

ライセンス: Link先を確認
Fengxiang Yang, Zhun Zhong, Zhiming Luo, Yuanzheng Cai, Yaojin Lin, Shaozi Li, Nicu Sebe(参考訳) 本論文では,ラベルなしデータを用いた識別モデル学習を目的とした,教師なし再識別(re-ID)の問題を検討する。 一般的な方法としては、クラスタ化によって擬似ラベルを取得し、モデルを最適化するために使用する方法がある。 この種のアプローチは有望な精度を示しているが,1)クラスタリングによるノイズラベル,2)カメラシフトによる特徴変化によって妨げられている。 前者は誤った最適化につながるため、モデルの精度を損なう。 後者は、異なるカメラのクラス内サンプルを異なる擬似ラベルに割り当てることで、モデルがカメラのバリエーションに敏感になる。 本稿では,両問題を解決するための統一フレームワークを提案する。 具体的には,ノイズサンプルを扱うダイナミックで対称なクロスエントロピー損失(dsce)と,カメラシフトに適応するカメラ認識メタラーニングアルゴリズム(metacam)を提案する。 DSCEはノイズのあるサンプルの負の効果を緩和し、クラスタリングの各ステップの後にクラスタの変更に対応する。 MetaCamは、トレーニングデータをメタトレインとメタテストに分割することで、カメラ間の制約をシミュレートする。 メタトレインとメタテストの相互作用勾配により、モデルはカメラ不変の機能を学ぶために強制される。 3つの再IDベンチマークに関する広範な実験は、提案されたDSCEとMetaCamの有効性と補完を示す。 本手法は、完全に監視されていない再IDと監視されていないドメイン適応的再IDの両方において、最先端の手法を上回っている。

This paper considers the problem of unsupervised person re-identification (re-ID), which aims to learn discriminative models with unlabeled data. One popular method is to obtain pseudo-label by clustering and use them to optimize the model. Although this kind of approach has shown promising accuracy, it is hampered by 1) noisy labels produced by clustering and 2) feature variations caused by camera shift. The former will lead to incorrect optimization and thus hinders the model accuracy. The latter will result in assigning the intra-class samples of different cameras to different pseudo-label, making the model sensitive to camera variations. In this paper, we propose a unified framework to solve both problems. Concretely, we propose a Dynamic and Symmetric Cross-Entropy loss (DSCE) to deal with noisy samples and a camera-aware meta-learning algorithm (MetaCam) to adapt camera shift. DSCE can alleviate the negative effects of noisy samples and accommodate the change of clusters after each clustering step. MetaCam simulates cross-camera constraint by splitting the training data into meta-train and meta-test based on camera IDs. With the interacted gradient from meta-train and meta-test, the model is enforced to learn camera-invariant features. Extensive experiments on three re-ID benchmarks show the effectiveness and the complementary of the proposed DSCE and MetaCam. Our method outperforms the state-of-the-art methods on both fully unsupervised re-ID and unsupervised domain adaptive re-ID.
翻訳日:2021-03-09 15:34:57 公開日:2021-03-08
# FEDS -- Filtered Edit Distance Surrogate

FEDS -- Filtered Edit Distance Surrogate ( http://arxiv.org/abs/2103.04635v1 )

ライセンス: Link先を確認
Yash Patel, Jiri Matas(参考訳) 本稿では,編集距離の学習サーロゲートを用いて,シーンテキスト認識モデルを頑健に学習する手法を提案する。 提案手法は,自己評価学習から借用し,サロゲートに難易度の高いトレーニング例をフィルタリングする。 このフィルタは、区分的に微分可能なランプ関数を用いて近似の質を判定し、エンドツーエンドのトレーニングを可能にする。 本研究は,編集距離の学習サーロゲートを用いて,訓練されたシーンテキスト認識モデルをチューニングした後チューニングによる実験である。 この効果は, IIIT-5K, SVT, ICDAR, SVTP, CUTEなどの難易度の高いシーンテキストデータセットの改善によって実証された。 提案手法は,総編集距離で平均11.2 %$,精度で9.5 %$の誤差低減を実現した。

This paper proposes a procedure to robustly train a scene text recognition model using a learned surrogate of edit distance. The proposed method borrows from self-paced learning and filters out the training examples that are hard for the surrogate. The filtering is performed by judging the quality of the approximation, using a ramp function, which is piece-wise differentiable, enabling end-to-end training. Following the literature, the experiments are conducted in a post-tuning setup, where a trained scene text recognition model is tuned using the learned surrogate of edit distance. The efficacy is demonstrated by improvements on various challenging scene text datasets such as IIIT-5K, SVT, ICDAR, SVTP, and CUTE. The proposed method provides an average improvement of $11.2 \%$ on total edit distance and an error reduction of $9.5\%$ on accuracy.
翻訳日:2021-03-09 15:34:32 公開日:2021-03-08
# 一度しか学ばない:普遍解剖学的ランドマーク検出

You Only Learn Once: Universal Anatomical Landmark Detection ( http://arxiv.org/abs/2103.04657v1 )

ライセンス: Link先を確認
Heqin Zhu, Qingsong Yao, Li Xiao, S. Kevin Zhou(参考訳) 医療画像における解剖学的ランドマークの検出は、解剖学の理解と自動処理の計画に不可欠な役割を担います。 近年、ランドマークを自動的に検出する様々なディープニューラルネットワーク手法が開発されている。 しかしながら、これらのメソッドはすべて、高度に専門化されたネットワークが、特定の解剖学的領域に関連する単一のタスクに対して訓練されているという意味で、非定常である。 本研究では,"You Only Learn Once (YOLO)"のアイデアを初めて検討し,複合データセットに基づくエンドツーエンドのトレーニングにより,複数のランドマーク検出タスクを実現するユニバーサルな解剖学的ランドマーク検出モデルを開発した。 ローカルネットワークは、マルチドメインのローカルな特徴を学習するためのユニバーサルUNetのアイデアに基づいて構築され、グローバルネットワークは、グローバルな特徴を抽出し、ランドマークの場所をさらに曖昧にする、拡張された畳み込みの並列化シーケンスである。 新しいモデル設計は、トレーニングに標準的な畳み込みを持つモデルよりも少ないパラメータを必要とすることに言及する価値があります。 我々は,頭部,手,胸部に1,588枚の画像のX線データセットを用いたYOLOモデルの評価を行い,62件のランドマークを収集した。 実験の結果,提案するユニバーサルモデルは,複数のデータセットでトレーニングされたどのモデルよりもよく振る舞うことがわかった。 さらに、データセット毎に個別にトレーニングされたモデルのパフォーマンスも上回っている。

Detecting anatomical landmarks in medical images plays an essential role in understanding the anatomy and planning automated processing. In recent years, a variety of deep neural network methods have been developed to detect landmarks automatically. However, all of those methods are unary in the sense that a highly specialized network is trained for a single task say associated with a particular anatomical region. In this work, for the first time, we investigate the idea of "You Only Learn Once (YOLO)" and develop a universal anatomical landmark detection model to realize multiple landmark detection tasks with end-to-end training based on mixed datasets. The model consists of a local network and a global network: The local network is built upon the idea of universal UNet to learn multi-domain local features and the global network is a parallelly-duplicate d sequential of dilated convolutions that extract global features to further disambiguate the landmark locations. It is worth mentioning that the new model design requires fewer parameters than models with standard convolutions to train. We evaluate our YOLO model on three X-ray datasets of 1,588 images on the head, hand, and chest, collectively contributing 62 landmarks. The experimental results show that our proposed universal model behaves largely better than any previous models trained on multiple datasets. It even beats the performance of the model that is trained separately for every single dataset.
翻訳日:2021-03-09 15:34:17 公開日:2021-03-08
# 行動駆動型人間のダイナミクスの合成

Behavior-Driven Synthesis of Human Dynamics ( http://arxiv.org/abs/2103.04677v1 )

ライセンス: Link先を確認
Andreas Blattmann, Timo Milbich, Michael Dorkenwald, Bj\"orn Ommer(参考訳) 人間の行動の生成と表現は、様々なコンピュータビジョンアプリケーションにおいて重要である。 一般的に、人間のビデオ合成は、行動が姿勢のシーケンスとして表現され、その傾向を直接予測したり、描写された人物の外観を単に変えるだけで、合成過程で実際の行動を制御できない。 対照的に、個人間での制御された行動合成と伝達は、身体力学の深い理解を必要とし、外見や特定の姿勢にも依存しない行動の表現を要求する。 本研究では,姿勢に依存しない人間の行動の表現を学習する人間の行動合成モデルを提案する。 この表現を用いることで、任意の姿勢で描写された人物の行動を変更したり、ビデオシーケンスで観察された行動を直接転送したりすることができる。 そこで本稿では,姿勢を行動から明確に切り離す条件付き変分フレームワークを提案する。 本手法の有効性を実証し, 定量的および質的に, 細粒度, 多様な行動の捉え, 伝達, サンプリングについて評価した。 プロジェクトページはhttps://cutt.ly/5l7r XEpにあります。

Generating and representing human behavior are of major importance for various computer vision applications. Commonly, human video synthesis represents behavior as sequences of postures while directly predicting their likely progressions or merely changing the appearance of the depicted persons, thus not being able to exercise control over their actual behavior during the synthesis process. In contrast, controlled behavior synthesis and transfer across individuals requires a deep understanding of body dynamics and calls for a representation of behavior that is independent of appearance and also of specific postures. In this work, we present a model for human behavior synthesis which learns a dedicated representation of human dynamics independent of postures. Using this representation, we are able to change the behavior of a person depicted in an arbitrary posture, or to even directly transfer behavior observed in a given video sequence. To this end, we propose a conditional variational framework which explicitly disentangles posture from behavior. We demonstrate the effectiveness of our approach on this novel task, evaluating capturing, transferring, and sampling fine-grained, diverse behavior, both quantitatively and qualitatively. Project page is available at https://cutt.ly/5l7r XEp
翻訳日:2021-03-09 15:33:53 公開日:2021-03-08
# 映像中の人間の行動検出のための時間と周波数ネットワーク

Time and Frequency Network for Human Action Detection in Videos ( http://arxiv.org/abs/2103.04680v1 )

ライセンス: Link先を確認
Changhai Li, Huawei Chen, Jingqing Lu, Yang Huang and Yingying Liu(参考訳) 現在、時間的特徴はビデオの人間の行動検出のためのほとんどのディープラーニングアプローチによって受け入れられていますが、周波数領域の重要な特徴を無視します。 本研究では,TFNetと呼ばれる時間特性と周波数特性を同時に考慮したエンドツーエンドネットワークを提案する。 TFNetは、DCT係数から2次元畳み込みニューラルネットワーク(2D-CNN)を介して周波数特性を抽出する周波数分岐であり、画像シーケンスを入力として取り出す3次元畳み込みニューラルネットワーク(3D-CNN)からなる時間分岐である。 最後に、これらの2つの特徴を注目機構の下で深く融合させる。 JHMDB51-21 および UCF101-24 データセットの実験結果から,本手法がフレーム mAP の顕著な性能を達成できることが示された。

Currently, spatiotemporal features are embraced by most deep learning approaches for human action detection in videos, however, they neglect the important features in frequency domain. In this work, we propose an end-to-end network that considers the time and frequency features simultaneously, named TFNet. TFNet holds two branches, one is time branch formed of three-dimensional convolutional neural network(3D-CNN), which takes the image sequence as input to extract time features; and the other is frequency branch, extracting frequency features through two-dimensional convolutional neural network(2D-CNN) from DCT coefficients. Finally, to obtain the action patterns, these two features are deeply fused under the attention mechanism. Experimental results on the JHMDB51-21 and UCF101-24 datasets demonstrate that our approach achieves remarkable performance for frame-mAP.
翻訳日:2021-03-09 15:33:35 公開日:2021-03-08
# 微粒な視覚分類のための解釈型注意誘導ネットワーク

Interpretable Attention Guided Network for Fine-grained Visual Classification ( http://arxiv.org/abs/2103.04701v1 )

ライセンス: Link先を確認
Zhenhuan Huang, Xiaoyue Duan, Bo Zhao, Jinhu L\"u, Baochang Zhang(参考訳) 細かい粒度の視覚分類(FGVC)は困難ですが、従来の分類タスクよりも重要です。

Fine-grained visual classification (FGVC) is challenging but more critical than traditional classification tasks.
翻訳日:2021-03-09 15:33:16 公開日:2021-03-08
# 一般化ゼロショット学習のための暗黙的属性定位について

On Implicit Attribute Localization for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2103.04704v1 )

ライセンス: Link先を確認
Shiqi Yang, Kai Wang, Luis Herranz, Joost van de Weijer(参考訳) Zero-shot Learning(ZSL)は、属性ベースの記述を通じて、目に見えないクラスのイメージを識別することを目的とする。 属性はしばしばオブジェクトの特定の部分に関連しているため、最近の多くの作品は識別領域の発見に焦点を当てている。 しかし、これらの手法は通常、追加の複雑な部分検出モジュールやアテンション機構を必要とする。 本論文では, 一般的なZSLバックボーン(明示的な注意も部分検出も伴わない)が属性を暗黙的にローカライズできることを示したが, この特性は利用されていない。 2) それを実験し, 属性のローカリゼーションをさらに促進するシンプルな手法であるSELARを提案し, より複雑な最新手法と比較して非常に競争力のある一般化ZSL(GZSL)性能を達成した。 本研究は,将来のGZSL法の設計に有用な知見を提供するとともに,SELARは容易に実装できるが,強力なベースラインを提供する。

Zero-shot learning (ZSL) aims to discriminate images from unseen classes by exploiting relations to seen classes via their attribute-based descriptions. Since attributes are often related to specific parts of objects, many recent works focus on discovering discriminative regions. However, these methods usually require additional complex part detection modules or attention mechanisms. In this paper, 1) we show that common ZSL backbones (without explicit attention nor part detection) can implicitly localize attributes, yet this property is not exploited. 2) Exploiting it, we then propose SELAR, a simple method that further encourages attribute localization, surprisingly achieving very competitive generalized ZSL (GZSL) performance when compared with more complex state-of-the-art methods. Our findings provide useful insight for designing future GZSL methods, and SELAR provides an easy to implement yet strong baseline.
翻訳日:2021-03-09 15:33:13 公開日:2021-03-08
# セマンティックセグメンテーションのための二重レベルドメイン混合に基づく半教師付きドメイン適応

Semi-supervised Domain Adaptation based on Dual-level Domain Mixing for Semantic Segmentation ( http://arxiv.org/abs/2103.04705v1 )

ライセンス: Link先を確認
Shuaijun Chen, Xu Jia, Jianzhong He, Yongjie Shi and Jianzhuang Liu(参考訳) データ駆動型アプローチは、多くのタスクで大きな成功を収めたものの、見えない画像領域に適用する場合は一般化が不十分であり、特にセマンティックセグメンテーションのような高密度画素予測タスクには高価なアノテーションが必要である。 近年,大量の合成データからの教師なしドメイン適応(UDA)とラベル付きデータの小さなセットによる半教師なし学習(SSL)の両方がこの問題を軽減するために研究されている。 しかしながら、監視対象のものと比べ、パフォーマンスの差は依然として大きい。 私たちは、少数のラベル付きターゲットデータと大量のラベル付きソースデータが利用可能である半監視ドメイン適応(SSDA)のより実用的な設定に焦点を当てています。 SSDAの課題に対処するために、二重レベルドメイン混合に基づく新しいフレームワークを提案する。 提案する枠組みは3つの段階からなる。 まず,2種類のデータ混合手法を提案し,領域レベルとサンプルレベルの双方の領域ギャップを削減する。 総合的視点と部分的視点から2段階の混合データに基づいて,2つの相補的ドメイン混合教師を得ることができる。 そして、この2人の教師から知識を抽出して学生モデルを学ぶ。 最後に、教師の訓練を数回行うために、ラベルなしデータの擬似ラベルを自己学習方式で生成する。 大規模実験により,提案手法が合成-実意味セグメンテーションベンチマークに与える影響を実証した。

Data-driven based approaches, in spite of great success in many tasks, have poor generalization when applied to unseen image domains, and require expensive cost of annotation especially for dense pixel prediction tasks such as semantic segmentation. Recently, both unsupervised domain adaptation (UDA) from large amounts of synthetic data and semi-supervised learning (SSL) with small set of labeled data have been studied to alleviate this issue. However, there is still a large gap on performance compared to their supervised counterparts. We focus on a more practical setting of semi-supervised domain adaptation (SSDA) where both a small set of labeled target data and large amounts of labeled source data are available. To address the task of SSDA, a novel framework based on dual-level domain mixing is proposed. The proposed framework consists of three stages. First, two kinds of data mixing methods are proposed to reduce domain gap in both region-level and sample-level respectively. We can obtain two complementary domain-mixed teachers based on dual-level mixed data from holistic and partial views respectively. Then, a student model is learned by distilling knowledge from these two teachers. Finally, pseudo labels of unlabeled data are generated in a self-training manner for another few rounds of teachers training. Extensive experimental results have demonstrated the effectiveness of our proposed framework on synthetic-to-real semantic segmentation benchmarks.
翻訳日:2021-03-09 15:32:56 公開日:2021-03-08
# 半監督医療画像分割のためのデュアルタスク相互学習

Dual-Task Mutual Learning for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2103.04708v1 )

ライセンス: Link先を確認
Yichi Zhang, Jicong Zhang(参考訳) 医用画像分割タスクにおけるディープラーニング手法の成功は通常、大量のラベル付きデータを必要とする。 しかし、信頼できるアノテーションの取得は高価で時間がかかります。 半教師付き学習は、取得が容易なラベルなしのデータを活用することで、医用画像分割に多くの注目を集めている。 本稿では,半教師付き医用画像分割のためのデュアルタスク相互学習フレームワークを提案する。 本フレームワークは,領域型形状制約学習と境界型表面ミスマッチ学習という2つのタスクに基づいて,2つの個別セグメントネットワークの統合として定式化することができる。 教師と生徒のネットワーク間の片道移動とは異なり、デュアルタスクの学生のアンサンブルは、トレーニングプロセス中に互いに協力的かつ暗黙的に有用な知識を探索することができる。 対象のセグメンテーション確率マップと符号付き距離マップを共同で学習することで,幾何学的形状制約を強制し,より信頼性の高い情報を得ることができる。 実験結果から, ラベルのないデータを活用し, 最新の半教師付きセグメンテーション方式を上回る性能向上を達成した。

The success of deep learning methods in medical image segmentation tasks usually requires a large amount of labeled data. However, obtaining reliable annotations is expensive and time-consuming. Semi-supervised learning has attracted much attention in medical image segmentation by taking the advantage of unlabeled data which is much easier to acquire. In this paper, we propose a novel dual-task mutual learning framework for semi-supervised medical image segmentation. Our framework can be formulated as an integration of two individual segmentation networks based on two tasks: learning region-based shape constraint and learning boundary-based surface mismatch. Different from the one-way transfer between teacher and student networks, an ensemble of dual-task students can learn collaboratively and implicitly explore useful knowledge from each other during the training process. By jointly learning the segmentation probability maps and signed distance maps of targets, our framework can enforce the geometric shape constraint and learn more reliable information. Experimental results demonstrate that our method achieves performance gains by leveraging unlabeled data and outperforms the state-of-the-art semi-supervised segmentation methods.
翻訳日:2021-03-09 15:32:35 公開日:2021-03-08
# セマンティックセグメンテーションのための協調学習によるマルチソースドメイン適応

Multi-Source Domain Adaptation with Collaborative Learning for Semantic Segmentation ( http://arxiv.org/abs/2103.04717v1 )

ライセンス: Link先を確認
Jianzhong He, Xu Jia, Shuaijun Chen, Jianzhuang Liu,(参考訳) マルチソース非監視ドメイン適応~(MSDA)は、複数のラベル付きソースドメインで訓練されたモデルをラベル付きターゲットドメインに適応することを目指している。 本稿では,セマンティックセグメンテーションのための協調学習に基づく,新しいマルチソースドメイン適応フレームワークを提案する。 まず,光源領域と対象領域とのギャップをある程度低減するために,画素値分布を調整するための簡易画像変換法を提案する。 そこで本研究では,ソースドメイン間のセマンティック情報を完全に活用するために,対象ドメインからデータを見ることなく,ドメイン適応のための協調学習手法を提案する。 さらに、教師なしドメイン適応の設定と同様に、ラベルなしターゲットドメインデータを利用して、ドメイン適応の性能をさらに向上する。 これは、アンサンブルモデルによって生成された擬似ラベルで複数の適応モデルの出力をさらに制限することによって達成されます。 セマンティックセグメンテーションにおける広く使用されているドメイン適応ベンチマークデータセットに関する広範な実験とアブレーション研究が行われている。 提案手法は,Synscapes と GTA5 のデータセットと未ラベルの Cityscapes のトレーニングセットをトレーニングすることで,Cityscapes の検証セット上で59.0\% mIoU を達成する。 従来の最先端のシングルソースおよびマルチソースの非監視ドメイン適応方法を大幅に上回ります。

Multi-source unsupervised domain adaptation~(MSDA) aims at adapting models trained on multiple labeled source domains to an unlabeled target domain. In this paper, we propose a novel multi-source domain adaptation framework based on collaborative learning for semantic segmentation. Firstly, a simple image translation method is introduced to align the pixel value distribution to reduce the gap between source domains and target domain to some extent. Then, to fully exploit the essential semantic information across source domains, we propose a collaborative learning method for domain adaptation without seeing any data from target domain. In addition, similar to the setting of unsupervised domain adaptation, unlabeled target domain data is leveraged to further improve the performance of domain adaptation. This is achieved by additionally constraining the outputs of multiple adaptation models with pseudo labels online generated by an ensembled model. Extensive experiments and ablation studies are conducted on the widely-used domain adaptation benchmark datasets in semantic segmentation. Our proposed method achieves 59.0\% mIoU on the validation set of Cityscapes by training on the labeled Synscapes and GTA5 datasets and unlabeled training set of Cityscapes. It significantly outperforms all previous state-of-the-arts single-source and multi-source unsupervised domain adaptation methods.
翻訳日:2021-03-09 15:32:18 公開日:2021-03-08
# 自己拡張型マルチモーダル機能埋め込み

Self-Augmented Multi-Modal Feature Embedding ( http://arxiv.org/abs/2103.04731v1 )

ライセンス: Link先を確認
Shinnosuke Matsuo, Seiichi Uchida, Brian Kenji Iwana(参考訳) 多くの場合、パターンは異なるモダリティを通して表現できる。 例えば、葉のデータは画像や輪郭の形ですることができます。 手書き文字はオンラインでもオフラインでも利用できる。 この事実を生かすために,我々は自己表現の使用を提案し,マルチモーダル特徴埋め込みと組み合わせる。 異なるモダリティの相補的な情報を活用するために、自己拡張型マルチモーダル機能埋め込みは共有特徴空間を用いる。 オンライン手書きと葉画像による分類実験の結果,提案手法が効果的な埋め込みを作成することができることを実証した。

Oftentimes, patterns can be represented through different modalities. For example, leaf data can be in the form of images or contours. Handwritten characters can also be either online or offline. To exploit this fact, we propose the use of self-augmentation and combine it with multi-modal feature embedding. In order to take advantage of the complementary information from the different modalities, the self-augmented multi-modal feature embedding employs a shared feature space. Through experimental results on classification with online handwriting and leaf images, we demonstrate that the proposed method can create effective embeddings.
翻訳日:2021-03-09 15:31:56 公開日:2021-03-08
# モダリティバッチ正規化による可視赤外人物の分布ギャップのブリッジ化

Bridging the Distribution Gap of Visible-Infrared Person Re-identification with Modality Batch Normalization ( http://arxiv.org/abs/2103.04778v1 )

ライセンス: Link先を確認
Wenkang Li, Qi Ke, Wenbin Chen, Yicong Zhou(参考訳) Visible-infrared cross-modality person re-identification (VI-ReID) は、視覚的モダリティと赤外線的モダリティの人物像をマッチングすることを目的としている。 既存の研究の多くは、バッチ正規化層をニューラルネットワークに統合するが、バッチ正規化層が2種類の分散ギャップをもたらすことが判明した: 1) ミニバッチ間分散ギャップ -- 各ミニバッチ間の同じモダリティの分配ギャップ; 2) ミニバッチ内分散ギャップ -- 同じミニバッチ内の異なるモダリティの分配ギャップ。 これらの問題に対処するため、我々は、各モダリティサブミニバッチをそれぞれミニバッチ全体ではなく正規化し、分散ギャップを著しく低減できる、modality batch normalization(mbn)と呼ばれる新しいバッチ正規化層を提案する。 広範な実験により、MBNは異なるデータセット、バックボーン、損失でもVI-ReIDモデルのパフォーマンスを向上させることができます。

Visible-infrared cross-modality person re-identification (VI-ReID), whose aim is to match person images between visible and infrared modality, is a challenging cross-modality image retrieval task. Most existing works integrate batch normalization layers into their neural network, but we found out that batch normalization layers would lead to two types of distribution gap: 1) inter-mini-batch distribution gap -- the distribution gap of the same modality between each mini-batch; 2) intra-mini-batch modality distribution gap -- the distribution gap of different modality within the same mini-batch. To address these problems, we propose a new batch normalization layer called Modality Batch Normalization (MBN), which normalizes each modality sub-mini-batch respectively instead of the whole mini-batch, and can reduce these distribution gap significantly. Extensive experiments show that our MBN is able to boost the performance of VI-ReID models, even with different datasets, backbones and losses.
翻訳日:2021-03-09 15:31:48 公開日:2021-03-08
# グローバル・ローカル情報正規化による半監督画像分割の促進

Boosting Semi-supervised Image Segmentation with Global and Local Mutual Information Regularization ( http://arxiv.org/abs/2103.04813v1 )

ライセンス: Link先を確認
Jizong Peng and Marco Pedersoli and Christian Desrosiers(参考訳) ラベル付きデータの希少性は、しばしば医療画像のセグメンテーションへのディープラーニングの適用を妨げます。 半教師付き学習は、学習プロセスでラベルなしの例を利用することで、この制限を克服しようとする。 本稿では,大域的表現不変性と局所的滑らか性の両方を達成するために,カテゴリ分布の相互情報(MI)を利用する半教師付きセグメンテーション手法を提案する。 本研究では,セグメント化ネットワークのエンコーダとデコーダの両方から得られる中間特徴埋め込みのMIを最大化する。 まず,エンコーダが幾何学的変換に不変な画像表現を学ぶことを制約する大域的mi損失を提案する。 連続的な特徴埋め込みにおいてMIを推定する計算的拡張手法に頼る代わりに、プロジェクションヘッドを使用して、MIを効率的に計算できる離散クラスタ割り当てにマッピングする。 また、デコーダの特徴図における空間整合性を促進し、よりスムーズなセグメンテーションを実現するローカルMI損失も含みます。 相互情報には2つの異なる割り当てにおけるクラスタの厳密な順序が必要ないため、ネットワーク全体のクラスタラベルを整合させるのに役立つ出力に対する最終的な一貫性の正規化損失が組み込まれている。 医用画像セグメンテーションのための3つの挑戦的公開データセットについて評価を行った。 半教師付きセグメンテーションにおける最近提案されているアプローチを上回ることと,アノテート画像の少ない訓練中に全監督に近い精度を与える実験結果を示す。

The scarcity of labeled data often impedes the application of deep learning to the segmentation of medical images. Semi-supervised learning seeks to overcome this limitation by leveraging unlabeled examples in the learning process. In this paper, we present a novel semi-supervised segmentation method that leverages mutual information (MI) on categorical distributions to achieve both global representation invariance and local smoothness. In this method, we maximize the MI for intermediate feature embeddings that are taken from both the encoder and decoder of a segmentation network. We first propose a global MI loss constraining the encoder to learn an image representation that is invariant to geometric transformations. Instead of resorting to computationally-expe nsive techniques for estimating the MI on continuous feature embeddings, we use projection heads to map them to a discrete cluster assignment where MI can be computed efficiently. Our method also includes a local MI loss to promote spatial consistency in the feature maps of the decoder and provide a smoother segmentation. Since mutual information does not require a strict ordering of clusters in two different assignments, we incorporate a final consistency regularization loss on the output which helps align the cluster labels throughout the network. We evaluate the method on three challenging publicly-available datasets for medical image segmentation. Experimental results show our method to outperform recently-proposed approaches for semi-supervised segmentation and provide an accuracy near to full supervision while training with very few annotated images
翻訳日:2021-03-09 15:31:26 公開日:2021-03-08
# パッチ識別によるオブジェクト検出のための教師なしプリトレーニング

Unsupervised Pretraining for Object Detection by Patch Reidentification ( http://arxiv.org/abs/2103.04814v1 )

ライセンス: Link先を確認
Jian Ding, Enze Xie, Hang Xu, Chenhan Jiang, Zhenguo Li, Ping Luo, Gui-Song Xia(参考訳) 教師なし表現学習は、オブジェクトディテクタの事前トレーニング表現で有望なパフォーマンスを実現します。 しかし、従来のアプローチは主に画像レベルの分類のために設計されており、サブ最適検出性能に繋がる。 本研究では,対象物検出のための簡便かつ効果的な表現学習法であるパッチ再同定(Re-ID)を提案する。 第一に、人間のアイデンティティを異なるカメラビューでマッチングする完全に監督された人であるRe-IDとは異なり、パッチRe-IDは重要なパッチを擬似IDとして扱い、2つの異なる画像ビューでその対応を対照的に学習する。 第二に、パッチ再IDは、オブジェクト検出に訴える、マルチレベルの表現を学ぶためにDeeply Unsupervised方法で実行されます。 第3に,本手法はトレーニングイテレーションやデータパーセンテージなど,すべての設定でcocoに比較して有意な性能を示す実験を行った。 例えば、Mask R-CNNはMoCo v2を上回り、トレーニングイテレーションのすべてのセットアップで完全に監視されたもの(例:.com)を上回ります。 2.1と1.1 mAPの改善は、それぞれ12kと90kのイテレーションでMoCo v2と比較した)。 コードはhttps://github.com/d ingjiansw101/duprでリリースされる。

Unsupervised representation learning achieves promising performances in pre-training representations for object detectors. However, previous approaches are mainly designed for image-level classification, leading to suboptimal detection performance. To bridge the performance gap, this work proposes a simple yet effective representation learning method for object detection, named patch re-identification (Re-ID), which can be treated as a contrastive pretext task to learn location-discriminat ive representation unsupervisedly, possessing appealing advantages compared to its counterparts. Firstly, unlike fully-supervised person Re-ID that matches a human identity in different camera views, patch Re-ID treats an important patch as a pseudo identity and contrastively learns its correspondence in two different image views, where the pseudo identity has different translations and transformations, enabling to learn discriminative features for object detection. Secondly, patch Re-ID is performed in Deeply Unsupervised manner to learn multi-level representations, appealing to object detection. Thirdly, extensive experiments show that our method significantly outperforms its counterparts on COCO in all settings, such as different training iterations and data percentages. For example, Mask R-CNN initialized with our representation surpasses MoCo v2 and even its fully-supervised counterparts in all setups of training iterations (e.g. 2.1 and 1.1 mAP improvement compared to MoCo v2 in 12k and 90k iterations respectively). Code will be released at https://github.com/d ingjiansw101/DUPR.
翻訳日:2021-03-09 15:30:58 公開日:2021-03-08
# 画像キャプション生成のための畳み込みデコーダの解析

Analysis of Convolutional Decoder for Image Caption Generation ( http://arxiv.org/abs/2103.04914v1 )

ライセンス: Link先を確認
Sulabh Katiyar, Samir Kumar Borgohain(参考訳) 近年,画像キャプション生成などのシーケンスモデリングタスクに対して畳み込みニューラルネットワークが提案されている。 しかし、繰り返しニューラルネットワークとは異なり、イメージキャプション生成のためのデコーダとしての畳み込みニューラルネットワークの性能は広く研究されていない。 本研究では,畳み込みニューラルネットワークを用いたデコーダについて,ネットワークの複雑さや深さ,データ拡張の利用,注意機構,トレーニング中の文長,モデルの性能など,様々な側面を分析した。 flickr8kおよびflickr30k画像キャプションデータセットを用いて実験を行い、リカレントニューラルネットワークベースのデコーダとは異なり、画像キャプションのための畳み込みデコーダは、一般にネットワーク深さの増加、重ね合わせ畳み込み層、およびデータ拡張技術の使用の恩恵を受けないことを示した。 さらに、Attentionメカニズムの使用は、Convolutional Decoderによる限られたパフォーマンス向上も提供する。 さらに,畳み込みデコーダは,最大15語までの長文を含む短い文を訓練する場合のみ,繰り返しデコーダと同等の性能を示すが,高い文長で訓練した場合に制限があることから,畳み込みデコーダが長期依存を効率的にモデル化できない可能性が示唆された。 さらに、Convolutional Decoderは通常、繰り返しデコーダと比較してCIDEr評価メトリックで不十分に機能します。

Recently Convolutional Neural Networks have been proposed for Sequence Modelling tasks such as Image Caption Generation. However, unlike Recurrent Neural Networks, the performance of Convolutional Neural Networks as Decoders for Image Caption Generation has not been extensively studied. In this work, we analyse various aspects of Convolutional Neural Network based Decoders such as Network complexity and depth, use of Data Augmentation, Attention mechanism, length of sentences used during training, etc on performance of the model. We perform experiments using Flickr8k and Flickr30k image captioning datasets and observe that unlike Recurrent Neural Network based Decoder, Convolutional Decoder for Image Captioning does not generally benefit from increase in network depth, in the form of stacked Convolutional Layers, and also the use of Data Augmentation techniques. In addition, use of Attention mechanism also provides limited performance gains with Convolutional Decoder. Furthermore, we observe that Convolutional Decoders show performance comparable with Recurrent Decoders only when trained using sentences of smaller length which contain up to 15 words but they have limitations when trained using higher sentence lengths which suggests that Convolutional Decoders may not be able to model long-term dependencies efficiently. In addition, the Convolutional Decoder usually performs poorly on CIDEr evaluation metric as compared to Recurrent Decoder.
翻訳日:2021-03-09 15:30:34 公開日:2021-03-08
# ニューラルネットワーク最適化における非決定性と不安定性

Nondeterminism and Instability in Neural Network Optimization ( http://arxiv.org/abs/2103.04514v1 )

ライセンス: Link先を確認
Cecilia Summers, Michael J. Dinneen(参考訳) ニューラルネットワーク最適化における非決定性はパフォーマンスの不確実性を生み出し、実行から実行までの可変性から小さな改善を区別するのを困難にしている。 複数のモデルのコピーをトレーニングすることで不確実性を減らすことができるが、それを行うのに時間がかかり、コストがかかり、再現性が損なわれる。 本研究では、モデル多様性に対する非決定性最適化の効果を理解するための実験的プロトコルを構築し、様々な非決定性源の効果を分離する。 驚くべきことに、非決定主義のすべてのソースは、モデルの多様性の尺度に類似した効果を有する。 この興味深い事実を説明するために、我々は、エンドツーエンドの手順として取られるモデルトレーニングの不安定性を重要な決定要因として識別する。 初期パラメータが1ビット変化しても、非常に異なる値に収束するモデルが得られることを示す。 最後に,不安定性が実行変数に与える影響を低減するための2つの手法を提案する。

Nondeterminism in neural network optimization produces uncertainty in performance, making small improvements difficult to discern from run-to-run variability. While uncertainty can be reduced by training multiple model copies, doing so is time-consuming, costly, and harms reproducibility. In this work, we establish an experimental protocol for understanding the effect of optimization nondeterminism on model diversity, allowing us to isolate the effects of a variety of sources of nondeterminism. Surprisingly, we find that all sources of nondeterminism have similar effects on measures of model diversity. To explain this intriguing fact, we identify the instability of model training, taken as an end-to-end procedure, as the key determinant. We show that even one-bit changes in initial parameters result in models converging to vastly different values. Last, we propose two approaches for reducing the effects of instability on run-to-run variability.
翻訳日:2021-03-09 15:28:33 公開日:2021-03-08
# ボイドからの挙動:教師なしアクティブプレトレーニング

Behavior From the Void: Unsupervised Active Pre-Training ( http://arxiv.org/abs/2103.04551v1 )

ライセンス: Link先を確認
Liu Hao and Abbeel Pieter(参考訳) APT(Active Pre-Training)と呼ばれる強化学習のための新しい教師なしプリトレーニング方法を紹介します。 APTは報酬のない環境で新しい状態を積極的に探すことで行動や表現を学習する。 重要な新しいアイデアは、抽象表現空間で計算された非パラメトリックエントロピーを最大化することで環境を探索することであり、これは難しい密度モデリングを回避し、その結果、高次元の観察(例えば画像観察)を持つ環境において、我々のアプローチをはるかに良く拡張することを可能にする。 我々は、長期の教師なし事前訓練フェーズの後、タスク固有の報酬を露出させることで、aptを評価する。 アタリゲームでは、APTは12ゲームで人間レベルのパフォーマンスを達成し、標準完全教師付きRLアルゴリズムと比較して高い競争性能を得る。 DMControlスイートでは、APTは漸近的なパフォーマンスとデータ効率ですべてのベースラインを上回り、スクラッチからトレーニングするのが非常に難しいタスクのパフォーマンスを劇的に改善します。

We introduce a new unsupervised pre-training method for reinforcement learning called APT, which stands for Active Pre-Training. APT learns behaviors and representations by actively searching for novel states in reward-free environments. The key novel idea is to explore the environment by maximizing a non-parametric entropy computed in an abstract representation space, which avoids the challenging density modeling and consequently allows our approach to scale much better in environments that have high-dimensional observations (e.g., image observations). We empirically evaluate APT by exposing task-specific reward after a long unsupervised pre-training phase. On Atari games, APT achieves human-level performance on 12 games and obtains highly competitive performance compared to canonical fully supervised RL algorithms. On DMControl suite, APT beats all baselines in terms of asymptotic performance and data efficiency and dramatically improves performance on tasks that are extremely difficult to train from scratch.
翻訳日:2021-03-09 15:28:19 公開日:2021-03-08
# 潜在空間における選択と重み付けに基づく異常検出

Anomaly Detection Based on Selection and Weighting in Latent Space ( http://arxiv.org/abs/2103.04662v1 )

ライセンス: Link先を確認
Yiwen Liao, Alexander Bartler, and Bin Yang(参考訳) 産業 4.0 の時代のオートメーションの高い条件によって、異常な検出は生産および製造業のより高い安全そして信頼性でますます重要な役割を担います。 近年,自動エンコーダは異常検出のバックエンドアルゴリズムとして広く利用されている。 オートエンコーダの異常検出性能を改善するために,様々な技術が開発されている。 それでも、オートエンコーダが学んだ潜在表現にはほとんど注意が払われていない。 本稿では,新しい選択・重み付けに基づく異常検出フレームワークswadを提案する。 特に、学習された潜在表現は個別に選択され重み付けされる。 ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。 ベンチマークデータセットでは、SWADフレームワークは最先端のアプローチと同等あるいはそれ以上のパフォーマンスに達している。

With the high requirements of automation in the era of Industry 4.0, anomaly detection plays an increasingly important role in higher safety and reliability in the production and manufacturing industry. Recently, autoencoders have been widely used as a backend algorithm for anomaly detection. Different techniques have been developed to improve the anomaly detection performance of autoencoders. Nonetheless, little attention has been paid to the latent representations learned by autoencoders. In this paper, we propose a novel selection-and-weight ing-based anomaly detection framework called SWAD. In particular, the learned latent representations are individually selected and weighted. Experiments on both benchmark and real-world datasets have shown the effectiveness and superiority of SWAD. On the benchmark datasets, the SWAD framework has reached comparable or even better performance than the state-of-the-art approaches.
翻訳日:2021-03-09 15:28:00 公開日:2021-03-08
# 正およびラベルなしノードを用いたグラフニューラルネットワークの学習

Learning Graph Neural Networks with Positive and Unlabeled Nodes ( http://arxiv.org/abs/2103.04683v1 )

ライセンス: Link先を確認
Man Wu, Shirui Pan, Lan Du, Xingquan Zhu(参考訳) グラフニューラルネットワーク(GNN)は、ノード間の複雑な相互依存を捕捉する表現力のために、グラフのノード分類などのトランダクティブ学習タスクのための重要なツールです。 グラフニューラルネットワークの学習を可能にするために、既存の研究では、ラベル付きノードが2つまたは複数のクラスから提供されると仮定し、ラベル付きデータから識別的分類器を学ぶことができる。 実際には、この仮定はアプリケーションにとってあまりにも制限的であり、ユーザーは少数のノードに対して単一のクラスに関心のあるラベルしか提供できない。 さらに、ほとんどのGNNモデルは、各ラウンドにおける短距離(例えば1ホップの隣人)の情報のみを集約し、グラフ内の長距離関係を捉えることができない。 本稿では,これらの制約を克服するために,新しいグラフニューラルネットワークフレームワークである長短距離集約ネットワーク(LSDAN)を提案する。 隣接行列に基づいて、異なる距離レベルで複数のグラフを生成することにより、これらのグラフをモデル化する長距離距離注意モデルを開発する。 直近の隣人は近距離の注意機構で捕捉され、遠距離の隣人は遠距離の注意機構で捕捉される。 さらに2つの新しいリスク推定器を用いて、pu学習のための長距離ネットワークを集約し、モデル学習のために損失をバックプロパゲーションする。 実世界のデータセットにおける実験結果は,本アルゴリズムの有効性を示す。

Graph neural networks (GNNs) are important tools for transductive learning tasks, such as node classification in graphs, due to their expressive power in capturing complex interdependency between nodes. To enable graph neural network learning, existing works typically assume that labeled nodes, from two or multiple classes, are provided, so that a discriminative classifier can be learned from the labeled data. In reality, this assumption might be too restrictive for applications, as users may only provide labels of interest in a single class for a small number of nodes. In addition, most GNN models only aggregate information from short distances (e.g., 1-hop neighbors) in each round, and fail to capture long distance relationship in graphs. In this paper, we propose a novel graph neural network framework, long-short distance aggregation networks (LSDAN), to overcome these limitations. By generating multiple graphs at different distance levels, based on the adjacency matrix, we develop a long-short distance attention model to model these graphs. The direct neighbors are captured via a short-distance attention mechanism, and neighbors with long distance are captured by a long distance attention mechanism. Two novel risk estimators are further employed to aggregate long-short-distance networks, for PU learning and the loss is back-propagated for model learning. Experimental results on real-world datasets demonstrate the effectiveness of our algorithm.
翻訳日:2021-03-09 15:27:50 公開日:2021-03-08
# 雑音ラベルを用いた正ラベル学習の新たな展望

A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels ( http://arxiv.org/abs/2103.04685v1 )

ライセンス: Link先を確認
Daiki Tanaka, Daiki Ikami, and Kiyoharu Aizawa(参考訳) 正のラベルなし学習(Positive-unlabeled learning)とは、正と未ラベルのデータのみを用いてバイナリ分類器を訓練する過程を指す。 ラベルなしデータは正のデータを含むことができるが、ラベルなしデータはすべて、既存のポジティブラベルなし学習方法において負のデータと見なされ、結果としてパフォーマンスが低下する。 我々は,無ラベルデータを雑音ラベルデータとして考慮し,雑音ラベルデータの協調最適化問題として新たなpu学習の定式化を導入するという,この問題に対する新たな視点を提供する。 本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。 実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。

Positive-unlabeled learning refers to the process of training a binary classifier using only positive and unlabeled data. Although unlabeled data can contain positive data, all unlabeled data are regarded as negative data in existing positive-unlabeled learning methods, which resulting in diminishing performance. We provide a new perspective on this problem -- considering unlabeled data as noisy-labeled data, and introducing a new formulation of PU learning as a problem of joint optimization of noisy-labeled data. This research presents a methodology that assigns initial pseudo-labels to unlabeled data which is used as noisy-labeled data, and trains a deep neural network using the noisy-labeled data. Experimental results demonstrate that the proposed method significantly outperforms the state-of-the-art methods on several benchmark datasets.
翻訳日:2021-03-09 15:27:28 公開日:2021-03-08
# 予測符号化は、どんなニューラルネットワークでもバックプロパゲーションを可能にする

Predictive Coding Can Do Exact Backpropagation on Any Neural Network ( http://arxiv.org/abs/2103.04689v1 )

ライセンス: Link先を確認
Tommaso Salvatori, Yuhang Song, Thomas Lukasiewicz, Rafal Bogacz, Zhenghua Xu(参考訳) 神経科学とディープラーニングの交差は、何十年にもわたって両方の分野に利益と発展をもたらし、学習が脳でどのように機能するかを理解し、異なるAIベンチマークで最先端のパフォーマンスを達成するのに役立つ。 バックプロパゲーション(BP)は、ニューラルネットワークのトレーニングにおいて最も広く採用されている手法であるが、その生物学的な不確実性(例えば、パラメータの局所的な更新規則の欠如)でしばしば批判されている。 そのため、予測符号化(脳における情報処理を記述するためのフレームワーク)に依存する生物学的に妥当な学習方法(例えば推論学習(il))が研究されている。 最近の研究は、ILが多層パーセプトロン(MLP)に対して一定のマージンまでBPを近似し、他の複雑なモデルに漸近的に近づき、ILの変種であるゼロディバージェンス推論学習(Z-IL)がMLP上でBPを正確に実装できることを証明している。 しかし、最近の文献では、複雑なモデルでBPの重量更新を正確に再現できる生物学的に実行可能な方法がまだ存在しないことも示しています。 このギャップを埋めるために、計算グラフ上で直接定義することで(ILと)Z-ILを一般化する。 我々の知る限りでは、このアルゴリズムは神経科学と深層学習の学際研究において、どんなニューラルネットワーク上でもパラメータの更新方法においてbpと同等であることが示される最初の生物学的に妥当なアルゴリズムである。

Intersecting neuroscience and deep learning has brought benefits and developments to both fields for several decades, which help to both understand how learning works in the brain, and to achieve the state-of-the-art performances in different AI benchmarks. Backpropagation (BP) is the most widely adopted method for the training of artificial neural networks, which, however, is often criticized for its biological implausibility (e.g., lack of local update rules for the parameters). Therefore, biologically plausible learning methods (e.g., inference learning (IL)) that rely on predictive coding (a framework for describing information processing in the brain) are increasingly studied. Recent works prove that IL can approximate BP up to a certain margin on multilayer perceptrons (MLPs), and asymptotically on any other complex model, and that zero-divergence inference learning (Z-IL), a variant of IL, is able to exactly implement BP on MLPs. However, the recent literature shows also that there is no biologically plausible method yet that can exactly replicate the weight update of BP on complex models. To fill this gap, in this paper, we generalize (IL and) Z-IL by directly defining them on computational graphs. To our knowledge, this is the first biologically plausible algorithm that is shown to be equivalent to BP in the way of updating parameters on any neural network, and it is thus a great breakthrough for the interdisciplinary research of neuroscience and deep learning.
翻訳日:2021-03-09 15:27:13 公開日:2021-03-08
# オートエンコーダと従来の次元削減手法の実証比較

Empirical comparison between autoencoders and traditional dimensionality reduction methods ( http://arxiv.org/abs/2103.04874v1 )

ライセンス: Link先を確認
Quentin Fournier and Daniel Aloise(参考訳) 画像,文,音声記録などの超高次元データを効率的に処理するには,そのようなデータの次元性を低減する適切な方法を見つける必要がある。 この点で、PCAやIsomapを含むSVDベースのメソッドが広く使用されている。 近年、オートエンコーダと呼ばれるニューラルネットワークの代替案が提案され、高い柔軟性のためにしばしば好まれている。 本研究の目的は,PCAがいまだに分類の文脈における次元削減の関連技術であることを示すことである。 そこで本研究では,isomap,ディープオートエンコーダ,変分オートエンコーダと比較し,pcaの性能評価を行った。 MNIST、Fashion-MNIST、CIFAR-10の3つの画像データセットで実験を行った。 低次元空間にデータを投影するために、各データセットに4つの異なる次元還元技術が別々に採用された。 その後、k-nn分類器を各射影上で訓練し、隣接数を横断評価したランダム探索を行った。 興味深いことに、我々の実験ではk-NNがPCAで同等の精度を達成し、両方のオートエンコーダの投影が十分な寸法を提供することがわかった。 しかし、PCAの計算時間は、ニューラルネットワークの計算時間よりも2桁速い。

In order to process efficiently ever-higher dimensional data such as images, sentences, or audio recordings, one needs to find a proper way to reduce the dimensionality of such data. In this regard, SVD-based methods including PCA and Isomap have been extensively used. Recently, a neural network alternative called autoencoder has been proposed and is often preferred for its higher flexibility. This work aims to show that PCA is still a relevant technique for dimensionality reduction in the context of classification. To this purpose, we evaluated the performance of PCA compared to Isomap, a deep autoencoder, and a variational autoencoder. Experiments were conducted on three commonly used image datasets: MNIST, Fashion-MNIST, and CIFAR-10. The four different dimensionality reduction techniques were separately employed on each dataset to project data into a low-dimensional space. Then a k-NN classifier was trained on each projection with a cross-validated random search over the number of neighbours. Interestingly, our experiments revealed that k-NN achieved comparable accuracy on PCA and both autoencoders' projections provided a big enough dimension. However, PCA computation time was two orders of magnitude faster than its neural network counterparts.
翻訳日:2021-03-09 15:26:30 公開日:2021-03-08
# 遅延コンパイル方式における高速最適マルチロボットパス計画のためのスパーシフィケーション

Sparsification for Fast Optimal Multi-Robot Path Planning in Lazy Compilation Schemes ( http://arxiv.org/abs/2103.04496v1 )

ライセンス: Link先を確認
Pavel Surynek(参考訳) 複数のロボット(MRPP)の経路計画は、ロボットが最初の位置から指定された目標位置までナビゲートできる非衝突経路を見つけるタスクを表します。 問題は通常、ロボットがエッジを横切って頂点間を移動する非方向グラフを使用してモデル化される。 現代の最適解アルゴリズムには、この問題を直接解決する専用の検索ベース手法や、制約プログラミング(CP)、混合整数プログラミング(MIP)、ブール適合性(SAT)などの効率的な解法が存在する別の形式にMRPPを還元するコンパイルベースアルゴリズムが含まれる。 本稿では,既存の SAT ベースの MRPP アルゴリズムを,対象の Boolean 符号化を導出する各ロボットの候補経路の集合を分割することで拡張する。 経路の集合のスパーシフィケーションにより、より小さな目標ブール公式が構築され、より早く解くことができ、そのアプローチの最適性保証が保たれた。

Path planning for multiple robots (MRPP) represents a task of finding non-colliding paths for robots through which they can navigate from their initial positions to specified goal positions. The problem is usually modeled using undirected graphs where robots move between vertices across edges. Contemporary optimal solving algorithms include dedicated search-based methods, that solve the problem directly, and compilation-based algorithms that reduce MRPP to a different formalism for which an efficient solver exists, such as constraint programming (CP), mixed integer programming (MIP), or Boolean satisfiability (SAT). In this paper, we enhance existing SAT-based algorithm for MRPP via spartification of the set of candidate paths for each robot from which target Boolean encoding is derived. Suggested sparsification of the set of paths led to smaller target Boolean formulae that can be constructed and solved faster while optimality guarantees of the approach have been kept.
翻訳日:2021-03-09 15:24:24 公開日:2021-03-08
# 友達になりましょう! 人体支援ロボットのためのラプポート構築型3次元対話エージェント

Let's be friends! A rapport-building 3D embodied conversational agent for the Human Support Robot ( http://arxiv.org/abs/2103.04498v1 )

ライセンス: Link先を確認
Katarzyna Pasternak, Zishi Wu, Ubbo Visser, and Christine Lisetti(参考訳) 会話中の非言語行動の微妙なミラーリング(模倣または平行共感とも呼ばれる)はラプポート構築に不可欠であり、それによって人間と人間のコミュニケーションの最適な結果に不可欠である。 ミラーリングは、ロボットと人間の相互作用、および体外会話エージェント(ECA)と人間の間の相互作用で研究されています。 しかし、ロボットと統合されるヒトとecasの相互作用を観察する研究はほとんどなく、これらの相互作用における非言語的行動のミラーリングの効果も検討されていない。 私たちの研究課題は、対話者の表情と頭部の動き(連続的または断続的に)を人間サービスロボットに統合できるECAが、有用なモバイルマニピュレーションタスクを実行できるサポートロボットでユーザーの経験を向上させるかどうかである。 自宅で)。 私たちの貢献は、表現力のあるecaの複雑な統合であり、その対話者の顔を追跡し、その表情や頭部の動きをリアルタイムで反映し、ロボットとエージェントが互いに完全に認識し合うような人間支援ロボットと、ユーザの非言語的手がかりとを融合させます。 また、今後の大型ユーザー調査の有望な結果を示す研究課題への回答に向けたパイロット研究についても説明します。

Partial subtle mirroring of nonverbal behaviors during conversations (also known as mimicking or parallel empathy), is essential for rapport building, which in turn is essential for optimal human-human communication outcomes. Mirroring has been studied in interactions between robots and humans, and in interactions between Embodied Conversational Agents (ECAs) and humans. However, very few studies examine interactions between humans and ECAs that are integrated with robots, and none of them examine the effect of mirroring nonverbal behaviors in such interactions. Our research question is whether integrating an ECA able to mirror its interlocutor's facial expressions and head movements (continuously or intermittently) with a human-service robot will improve the user's experience with the support robot that is able to perform useful mobile manipulative tasks (e.g. at home). Our contribution is the complex integration of an expressive ECA, able to track its interlocutor's face, and to mirror his/her facial expressions and head movements in real time, integrated with a human support robot such that the robot and the agent are fully aware of each others', and of the users', nonverbals cues. We also describe a pilot study we conducted towards answering our research question, which shows promising results for our forthcoming larger user study.
翻訳日:2021-03-09 15:24:08 公開日:2021-03-08
# 非同期動作によるマルチエージェントパスの疎同期探索

Loosely Synchronized Search for Multi-agent Path Finding with Asynchronous Actions ( http://arxiv.org/abs/2103.04516v1 )

ライセンス: Link先を確認
Zhongqiang Ren, Sivakumar Rathinam and Howie Choset(参考訳) マルチエージェントパス検索(MAPF)は、各開始位置と目標位置の間の複数のエージェントの衝突のないパスのアンサンブルを決定する。 グラフとしてモデル化されたワークスペースのためのMAPFプランナのうち、A*ベースのアプローチは広く研究され、多くのシナリオでその効率を実証している。 しかしながら、これらのA*ベースのアプローチのほとんど全てが、各エージェントが同時にアクションを実行し、すべてのエージェントが一緒に開始して停止することを前提としている。 この記事では、エージェントが必ずしも同時に起動および停止しない非同期アクションによるMAPFの自然な一般化を紹介します。 この作業の主な貢献は、非同期アクションを処理するためにA*ベースのMAPFプランナーを拡張するLoosely Synchronized Search(LSS)と呼ばれる提案されたアプローチである。 LSS が完全であることを示し、もし存在するなら最適解を求める。 また,LSSと既存のMAPF手法を組み合わせることで,計算効率の最適性をトレードオフする。 提案手法の性能を裏付ける大規模な数値計算結果が提示される。 最後に、遠隔でアクセス可能な群ロボット研究プラットフォームであるRobotariumの手法の適用性についても検証する。

Multi-agent path finding (MAPF) determines an ensemble of collision-free paths for multiple agents between their respective start and goal locations. Among the available MAPF planners for workspaces modeled as a graph, A*-based approaches have been widely investigated and have demonstrated their efficiency in numerous scenarios. However, almost all of these A*-based approaches assume that each agent executes an action concurrently in that all agents start and stop together. This article presents a natural generalization of MAPF with asynchronous actions where agents do not necessarily start and stop concurrently. The main contribution of the work is a proposed approach called Loosely Synchronized Search (LSS) that extends A*-based MAPF planners to handle asynchronous actions. We show LSS is complete and finds an optimal solution if one exists. We also combine LSS with other existing MAPF methods that aims to trade-off optimality for computational efficiency. Extensive numerical results are presented to corroborate the performance of the proposed approaches. Finally, we also verify the applicability of our method in the Robotarium, a remotely accessible swarm robotics research platform.
翻訳日:2021-03-09 15:23:42 公開日:2021-03-08
# RLR-Tree:空間データのための強化学習に基づくR-Tree

The RLR-Tree: A Reinforcement Learning Based R-Tree for Spatial Data ( http://arxiv.org/abs/2103.04541v1 )

ライセンス: Link先を確認
Tu Gu, Kaiyu Feng, Gao Cong, Cheng Long, Zheng Wang, Sheng Wang(参考訳) B-Treeのような古典的なインデックス構造を機械学習(ML)モデルに置き換えるための学習インデックスが提案されている。 彼らは現在データベースによってデプロイされているインデックスとクエリ処理アルゴリズムの両方を置き換える必要があり、そのような急進的な離脱は課題や障害に遭遇する可能性が高い。 対照的に、構造やクエリ処理アルゴリズムを変更することなく、古典的なR-Treeのクエリ性能を改善するためにML技術を使用する方法が根本的に異なる方法を提案する。 具体的には,手作りのヒューリスティックルールをr-treeとその変種に頼らずに,挿入する部分木とノードを分割する方法を決定するための強化学習(rl)モデルを開発した。 最大1億の空間オブジェクトを持つ実データと合成データセットの実験は、我々のRLベースのインデックスがR-Treeとその変種より優れていることを明らかに示している。

Learned indices have been proposed to replace classic index structures like B-Tree with machine learning (ML) models. They require to replace both the indices and query processing algorithms currently deployed by the databases, and such a radical departure is likely to encounter challenges and obstacles. In contrast, we propose a fundamentally different way of using ML techniques to improve on the query performance of the classic R-Tree without the need of changing its structure or query processing algorithms. Specifically, we develop reinforcement learning (RL) based models to decide how to choose a subtree for insertion and how to split a node, instead of relying on hand-crafted heuristic rules as R-Tree and its variants. Experiments on real and synthetic datasets with up to 100 million spatial objects clearly show that our RL based index outperforms R-Tree and its variants.
翻訳日:2021-03-09 15:23:28 公開日:2021-03-08
# 人間ライクな自動テスト生成に向けて : 認知と問題解決からの視点

Towards Human-Like Automated Test Generation: Perspectives from Cognition and Problem Solving ( http://arxiv.org/abs/2103.04749v1 )

ライセンス: Link先を確認
Eduard Enoiu, Robert Feldt(参考訳) 自動テストツールは一般的に、人間のテスタが作るものとは異なるテストケースを生成する。 これにより、ツールの効率が低下し、テストの作成が難しくなり、結果として、人間テスタに対するサポートが低下する。 本稿では,認知科学に基づく枠組み,特に問題解決へのアプローチの分析を行い,テスターの認知過程を識別する手法を提案する。 このフレームワークは、ヒューマンテスト活動で使用されるテスト設計ステップと基準をマッピングし、ヒューマンテスターがタスクを実行する方法をよりよく理解するのに役立ちます。 最終的に私たちの目標は、人間がテストケースを作成する方法を模倣し、人間のような自動テスト生成システムを設計できるようにすることです。 このようなシステムは、テスターを有意義な方法で強化し、サポートできると考えています。

Automated testing tools typically create test cases that are different from what human testers create. This often makes the tools less effective, the created tests harder to understand, and thus results in tools providing less support to human testers. Here, we propose a framework based on cognitive science and, in particular, an analysis of approaches to problem-solving, for identifying cognitive processes of testers. The framework helps map test design steps and criteria used in human test activities and thus to better understand how effective human testers perform their tasks. Ultimately, our goal is to be able to mimic how humans create test cases and thus to design more human-like automated test generation systems. We posit that such systems can better augment and support testers in a way that is meaningful to them.
翻訳日:2021-03-09 15:23:14 公開日:2021-03-08
# HANDS: 人工手における人間の手指インテント推論をモデル化するマルチモーダルデータセット

HANDS: A Multimodal Dataset for Modeling Towards Human Grasp Intent Inference in Prosthetic Hands ( http://arxiv.org/abs/2103.04845v1 )

ライセンス: Link先を確認
Mo Han, Sezen Ya{\u{g}}mur G\"unay, Gunar Schirner, Ta\c{s}k{\i}n Pad{\i}r, Deniz Erdo{\u{g}}mu\c{s}(参考訳) 上肢と手の機能は日常生活の多くの活動に不可欠であり、切断は個人にとって重要な機能喪失につながる可能性がある。 この観点からは、未来の高度な義手は、ロボットハンドと人間のユーザとの共有制御の改善の恩恵を受けるが、より重要なのは、マルチモーダルセンサデータから人間の意図を推測し、操作コンテキストに関するロボットハンドの認識能力を提供する能力の向上である。 このようなマルチモーダルセンサデータには、視覚を含む様々な環境センサや、筋電図や慣性測定装置を含む人間の生理学および行動センサが含まれる。 環境状態と人間の意図推定のための融合手法は、これらの証拠の源を組み合わせることで、義手の動き計画と制御を支援する。 本論文では、義手の中にカメラを組み込むことを前提に収集されたこのタイプのデータセットを提示し、人間の意図を推定するために、コンピュータビジョンの方法は、この手視点の視覚的証拠を評価する必要がある。 具体的には、人間の視線からのペアリング画像と、さまざまな方向に配置されたさまざまなオブジェクトのハンドビューが、つかみ合い試験の初期状態でキャプチャされ、次に、把握、持ち上げ、押し下げ、および引き込みスタイルの試験構造中に人間の腕からペアビデオ、EMGおよびIMUが続きます。 各試験では、テーブル上の手と物体を示すシーンの目視画像に基づいて、複数の人間は、その手に対して与えられた構成のオブジェクトに適した5つの把握タイプ、好みの減少順にソートするように求められました。 対眼視画像と手視画像の潜在的な有用性は、畳み込みニューラルネットワークを訓練して手視画像を処理することによって、人間が割り当てた目視ラベルを予測することで示される。

Upper limb and hand functionality is critical to many activities of daily living and the amputation of one can lead to significant functionality loss for individuals. From this perspective, advanced prosthetic hands of the future are anticipated to benefit from improved shared control between a robotic hand and its human user, but more importantly from the improved capability to infer human intent from multimodal sensor data to provide the robotic hand perception abilities regarding the operational context. Such multimodal sensor data may include various environment sensors including vision, as well as human physiology and behavior sensors including electromyography and inertial measurement units. A fusion methodology for environmental state and human intent estimation can combine these sources of evidence in order to help prosthetic hand motion planning and control. In this paper, we present a dataset of this type that was gathered with the anticipation of cameras being built into prosthetic hands, and computer vision methods will need to assess this hand-view visual evidence in order to estimate human intent. Specifically, paired images from human eye-view and hand-view of various objects placed at different orientations have been captured at the initial state of grasping trials, followed by paired video, EMG and IMU from the arm of the human during a grasp, lift, put-down, and retract style trial structure. For each trial, based on eye-view images of the scene showing the hand and object on a table, multiple humans were asked to sort in decreasing order of preference, five grasp types appropriate for the object in its given configuration relative to the hand. The potential utility of paired eye-view and hand-view images was illustrated by training a convolutional neural network to process hand-view images in order to predict eye-view labels assigned by humans.
翻訳日:2021-03-09 15:22:38 公開日:2021-03-08
# データ駆動型車両軌道予測器のインジェクション知識

Injecting Knowledge in Data-driven Vehicle Trajectory Predictors ( http://arxiv.org/abs/2103.04854v1 )

ライセンス: Link先を確認
Mohammadhossein Bahari, Ismail Nejjar, Alexandre Alahi(参考訳) 車両軌道予測タスクは、知識駆動手法またはより最近のデータ駆動手法の2つの異なる視点から、一般的に取り組まれてきた。 一方、車両が道路の真ん中を進むことを想定して、ドメイン知識や物理的な事前事項を明示的に実装することができる。 この視点は実現可能な出力につながるが、都市環境における複雑な相互作用を手作業で行うのが困難であるため、性能は限られている。 一方で、最近の研究では、優れたパフォーマンスにつながるデータから複雑なインタラクションを学習できるデータ駆動アプローチが使用されている。 しかし、一般化は \textit{i.e. である。 目に見えないデータを正確に予測する } は、非現実的な出力につながる問題です。 本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。 rrbは既定の知識駆動モデルを採用し、知識認識軌道に追加するために必要な残差を見つけます。 提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。 また,運動的制約を満たすためにモデル予測制御(mpc)で出力を制約する。 公開データセットを用いて,新しいシーンに対する精度と一般化の観点から,従来の手法よりも優れていることを示す。 コードとデータの分割は、https://github.com/v ita-epfl/rrb。

Vehicle trajectory prediction tasks have been commonly tackled from two distinct perspectives: either with knowledge-driven methods or more recently with data-driven ones. On the one hand, we can explicitly implement domain-knowledge or physical priors such as anticipating that vehicles will follow the middle of the roads. While this perspective leads to feasible outputs, it has limited performance due to the difficulty to hand-craft complex interactions in urban environments. On the other hand, recent works use data-driven approaches which can learn complex interactions from the data leading to superior performance. However, generalization, \textit{i.e.}, having accurate predictions on unseen data, is an issue leading to unrealistic outputs. In this paper, we propose to learn a "Realistic Residual Block" (RRB), which effectively connects these two perspectives. Our RRB takes any off-the-shelf knowledge-driven model and finds the required residuals to add to the knowledge-aware trajectory. Our proposed method outputs realistic predictions by confining the residual range and taking into account its uncertainty. We also constrain our output with Model Predictive Control (MPC) to satisfy kinematic constraints. Using a publicly available dataset, we show that our method outperforms previous works in terms of accuracy and generalization to new scenes. We will release our code and data split here: https://github.com/v ita-epfl/RRB.
翻訳日:2021-03-09 15:22:06 公開日:2021-03-08
# インスタンス固有メッシュモデルを用いた局所化とマッピング

Localization and Mapping using Instance-specific Mesh Models ( http://arxiv.org/abs/2103.04493v1 )

ライセンス: Link先を確認
Qiaojun Feng, Yue Meng, Mo Shan, Nikolay Atanasov(参考訳) 本論文では,モノラルカメラを用いて,物体のポーズや形状を含むセマンティックマップの構築に焦点を当てる。 ロボットは、輸送、建設、農業の未来を形作るためには、ジオメトリとコンテキストを深く理解する必要があるため、これは重要な問題です。 私たちの貢献は,カメラ画像から抽出した意味情報に基づいてオンラインに最適化可能な,オブジェクト形状のインスタンス固有メッシュモデルである。 オブジェクト形状のマルチビュー制約は、オブジェクトを検出し、カテゴリ固有のキーポイントとセグメンテーションマスクを抽出することによって得られる。 メッシュモデルの投影と観察されたキーポイントとマスクの間の誤差を区別して、正確なインスタンス固有のオブジェクト形状を得ることができる。 カーポーズと形状の地図を作成することにより,シミュレーションおよびKITTIデータセット上での提案手法の性能を評価する。

This paper focuses on building semantic maps, containing object poses and shapes, using a monocular camera. This is an important problem because robots need rich understanding of geometry and context if they are to shape the future of transportation, construction, and agriculture. Our contribution is an instance-specific mesh model of object shape that can be optimized online based on semantic information extracted from camera images. Multi-view constraints on the object shape are obtained by detecting objects and extracting category-specific keypoints and segmentation masks. We show that the errors between projections of the mesh model and the observed keypoints and masks can be differentiated in order to obtain accurate instance-specific object shapes. We evaluate the performance of the proposed approach in simulation and on the KITTI dataset by building maps of car poses and shapes.
翻訳日:2021-03-09 15:20:05 公開日:2021-03-08
# カテゴリーレベルオブジェクトアライメントのための完全畳み込み幾何学的特徴

Fully Convolutional Geometric Features for Category-level Object Alignment ( http://arxiv.org/abs/2103.04494v1 )

ライセンス: Link先を確認
Qiaojun Feng, Nikolay Atanasov(参考訳) 本稿では,同じカテゴリの異なるオブジェクトインスタンスのポーズ登録に焦点を当てる。 テスト時に検出されるオブジェクトインスタンスは通常、トレーニングインスタンスとは異なるため、これはオンラインオブジェクトマッピングで必要となる。 提案手法は,同じカテゴリのインスタンスを正規化された標準座標フレームに変換し,計量学習を用いて完全な畳み込み幾何学的特徴を訓練する。 結果として得られたモデルは、インスタンス間のマッチングポイントのペアを生成することができ、カテゴリレベルの登録が可能になる。 合成データと実世界の両方のデータから,本手法が頑健な特徴を提供し,異なる形状のインスタンスの正確なアライメントを実現することを示す。

This paper focuses on pose registration of different object instances from the same category. This is required in online object mapping because object instances detected at test time usually differ from the training instances. Our approach transforms instances of the same category to a normalized canonical coordinate frame and uses metric learning to train fully convolutional geometric features. The resulting model is able to generate pairs of matching points between the instances, allowing category-level registration. Evaluation on both synthetic and real-world data shows that our method provides robust features, leading to accurate alignment of instances with different shapes.
翻訳日:2021-03-09 15:19:52 公開日:2021-03-08
# 自動ジェンダー認識に基づくトランスジェンダーパスのメイクアップ支援システムの検討

Exploring a Makeup Support System for Transgender Passing based on Automatic Gender Recognition ( http://arxiv.org/abs/2103.04544v1 )

ライセンス: Link先を確認
Toby Chong, Nolwenn Maudet, Katsuki Harima, Takeo Igarashi(参考訳) 機械学習によるジェンダーの扱いは議論の的となっている。 現在の自動性別認識(AGR)システムの採用により、トランスジェンダーコミュニティが直面する多数の問題に注目を集める重要な研究機関が増加しました。 対照的に、日本のような非西洋の文脈において、トランスジェンダーの実践やニーズをサポートするために、このような技術がいかに適するかを考察する。 私たちは、トランスジェンダーの個人が通過するのを助けるために、仮想メイクプローブを設計しました。 このようなアプリケーションがトランスジェンダーの性別を表現できるかどうかを理解するため、東京の15人にインタビューを行い、適切な状況と厳しい条件下では、AGRベースのシステムがトランスジェンダーのパスを支援することを発見した。

How to handle gender with machine learning is a controversial topic. A growing critical body of research brought attention to the numerous issues transgender communities face with the adoption of current automatic gender recognition (AGR) systems. In contrast, we explore how such technologies could potentially be appropriated to support transgender practices and needs, especially in non-Western contexts like Japan. We designed a virtual makeup probe to assist transgender individuals with passing, that is to be perceived as the gender they identify as. To understand how such an application might support expressing transgender individuals gender identity or not, we interviewed 15 individuals in Tokyo and found that in the right context and under strict conditions, AGR based systems could assist transgender passing.
翻訳日:2021-03-09 15:19:40 公開日:2021-03-08
# CRLF:道路シーンにおけるLiDARとカメラのライン機能に基づく自動キャリブレーションとリファインメント

CRLF: Automatic Calibration and Refinement based on Line Feature for LiDAR and Camera in Road Scenes ( http://arxiv.org/abs/2103.04558v1 )

ライセンス: Link先を確認
Tao Ma, Zhizheng Liu, Guohang Yan, Yikang Li(参考訳) 自動運転車の場合、LiDARとカメラの正確なキャリブレーションは、マルチセンサー認識システムの前提条件です。 しかし、既存のキャリブレーション技術では、さまざまなキャリブレーションターゲットを持つ複雑な設定、または事前に提供される初期キャリブレーションのいずれかが必要です。 これらの課題に対処するために,道路シーンにおけるLiDARとカメラの外部パラメータの校正手法を提案する。 本手法では,道路路面や点雲などの静的直線状物体からの直線特性を導入し,外在パラメータの初期校正を視点3線(P3L)問題として定式化する。 その後、ライン特徴のセマンティック制約の下で定義されたコスト関数は、解決された粗いキャリブレーションの精細化を行うように設計されている。 手順全体が完全に自動化されており、環境設定の調整や初期校正が不要である。 KITTIと社内データセットに関する広範な実験を行い、定量的および定性的な結果は、当社の方法の堅牢性と正確性を示しています。

For autonomous vehicles, an accurate calibration for LiDAR and camera is a prerequisite for multi-sensor perception systems. However, existing calibration techniques require either a complicated setting with various calibration targets, or an initial calibration provided beforehand, which greatly impedes their applicability in large-scale autonomous vehicle deployment. To tackle these issues, we propose a novel method to calibrate the extrinsic parameter for LiDAR and camera in road scenes. Our method introduces line features from static straight-line-shaped objects such as road lanes and poles in both image and point cloud and formulates the initial calibration of extrinsic parameters as a perspective-3-lines (P3L) problem. Subsequently, a cost function defined under the semantic constraints of the line features is designed to perform refinement on the solved coarse calibration. The whole procedure is fully automatic and user-friendly without the need to adjust environment settings or provide an initial calibration. We conduct extensive experiments on KITTI and our in-house dataset, quantitative and qualitative results demonstrate the robustness and accuracy of our method.
翻訳日:2021-03-09 15:19:26 公開日:2021-03-08
# 回転不変オートエンコーダによるデータ駆動型クラウドクラスタリング

Data-driven Cloud Clustering via a Rotationally Invariant Autoencoder ( http://arxiv.org/abs/2103.04885v1 )

ライセンス: Link先を確認
Takuya Kurihana, Elisabeth Moyer, Rebecca Willett, Davis Gilton, and Ian Foster(参考訳) 高度衛星リモートセンシング装置は、地球の大部分で日々の周期で高解像度のマルチスペクトルデータを生成する。 これらのデータセットは、グローバルな気候モデル予測における最大の不確実性の源であるクラウドダイナミクスとフィードバックの理解の改善の可能性を開く。 これらの質問に答える第一歩として、ディープラーニングオートエンコーダ技術を活用して、事前に定義されたクラスに関する仮定なしで、大規模データセット内でクラウドイメージを整理する、自動回転不変クラウドクラスタリング(RICC)手法について述べる。 本手法の設計及び実装と評価の両方について述べるとともに,(1)物理的に合理的である,(2)テクスチャなどの空間分布に関する情報の収集,(3)潜在空間における凝集性と分離性,(4)回転不変であること,(画像の向きに敏感でないこと)を判定するための一連のテストプロトコルを用いて評価する。 これらの評価プロトコルをricc出力に適用した場合の結果、クラウド物理学の有意義な側面を捉え、空間的に一貫性があり、入力画像の向きに不変であることが示唆される。 クラウドイメージにおける自動クラスタリングとパターン検出のための教師なしデータ駆動アプローチの利用の可能性について検討した。

Advanced satellite-born remote sensing instruments produce high-resolution multi-spectral data for much of the globe at a daily cadence. These datasets open up the possibility of improved understanding of cloud dynamics and feedback, which remain the biggest source of uncertainty in global climate model projections. As a step towards answering these questions, we describe an automated rotation-invariant cloud clustering (RICC) method that leverages deep learning autoencoder technology to organize cloud imagery within large datasets in an unsupervised fashion, free from assumptions about predefined classes. We describe both the design and implementation of this method and its evaluation, which uses a sequence of testing protocols to determine whether the resulting clusters: (1) are physically reasonable, (i.e., embody scientifically relevant distinctions); (2) capture information on spatial distributions, such as textures; (3) are cohesive and separable in latent space; and (4) are rotationally invariant, (i.e., insensitive to the orientation of an image). Results obtained when these evaluation protocols are applied to RICC outputs suggest that the resultant novel cloud clusters capture meaningful aspects of cloud physics, are appropriately spatially coherent, and are invariant to orientations of input images. Our results support the possibility of using an unsupervised data-driven approach for automated clustering and pattern discovery in cloud imagery.
翻訳日:2021-03-09 15:19:05 公開日:2021-03-08
# 同期光電子マイクロロボットによる自律物体の収穫

Autonomous object harvesting using synchronized optoelectronic microrobots ( http://arxiv.org/abs/2103.04912v1 )

ライセンス: Link先を確認
Christopher Bendkowski, Laurent Mennillo, Tao Xu, Mohamed Elsayed, Filip Stojic, Harrison Edwards, Shuailong Zhang, Cindi Morshead, Vijay Pawar, Aaron R. Wheeler, Danail Stoyanov, Michael Shaw(参考訳) OETdM(Optoelectronic tweezer-driven microrobots)は、光誘起誘電体による光伝導基板上の微小誘電体構造(マイクロロボット)の移動に基づく汎用マイクロマニピュレーション技術である。 マイクロロボットは二次的な物体に力を与え、顕微鏡貨物の収集、輸送、堆積を含む幅広いマイクロマニピュレーション操作を行うのに使用できる。 代替(直接)マイクロマニピュレーション技術とは対照的に、OETdMsは比較的穏やかであり、生体細胞のような敏感な物体との相互作用に特に適している。 しかし、現在、このようなシステムは人手による操作でのみ使用されている。 これにより、複数のマイクロロボットの同時制御能力が制限され、実験的なスループットと協調的なマルチロボット操作の可能性の両方が削減される。 本稿では,複数のマイクロロボットのオープンループ制御を実現するための,自動的ターゲティングと経路計画へのアプローチについて述べる。 本研究では, マイクロロボットを用いてシリカ微粒子を同時に収集, 輸送, 堆積する手法の性能を実演する。 実際の顕微鏡画像データに基づく計算シミュレーションを用いて、解離した組織培養から標的細胞を採取するマイクロロボットの能力を調べます。 本研究では,OETdMを用いて複雑な非構造環境下でのマイクロマニピュレーションタスクを自律的に実行できることを示した。

Optoelectronic tweezer-driven microrobots (OETdMs) are a versatile micromanipulation technology based on the use of light induced dielectrophoresis to move small dielectric structures (microrobots) across a photoconductive substrate. The microrobots in turn can be used to exert forces on secondary objects and carry out a wide range of micromanipulation operations, including collecting, transporting and depositing microscopic cargos. In contrast to alternative (direct) micromanipulation techniques, OETdMs are relatively gentle, making them particularly well suited to interacting with sensitive objects such as biological cells. However, at present such systems are used exclusively under manual control by a human operator. This limits the capacity for simultaneous control of multiple microrobots, reducing both experimental throughput and the possibility of cooperative multi-robot operations. In this article, we describe an approach to automated targeting and path planning to enable open-loop control of multiple microrobots. We demonstrate the performance of the method in practice, using microrobots to simultaneously collect, transport and deposit silica microspheres. Using computational simulations based on real microscopic image data, we investigate the capacity of microrobots to collect target cells from within a dissociated tissue culture. Our results indicate the feasibility of using OETdMs to autonomously carry out micromanipulation tasks within complex, unstructured environments.
翻訳日:2021-03-09 15:18:41 公開日:2021-03-08
# F-CAD:コーデックアバターデコーディングのためのハードウェアアクセラレータを探索するフレームワーク

F-CAD: A Framework to Explore Hardware Accelerators for Codec Avatar Decoding ( http://arxiv.org/abs/2103.04958v1 )

ライセンス: Link先を確認
Xiaofan Zhang, Dawei Wang, Pierce Chuang, Shugao Ma, Deming Chen, Yuecheng Li(参考訳) 現実的なレンダリングで仮想アバターを作成することは、非常に没入型仮想現実(VR)体験を提供するために最も不可欠で挑戦的なタスクの1つです。 高度なディープニューラルネットワーク(dnn)ベースのコーデックアバターデコーダは、高い視覚品質と正確なモーション表現を保証するだけでなく、vrヘッドセットのような軽量なエッジデバイスを使ったスムーズなリアルタイムレンダリングを保証する効率的なハードウェアアクセラレータを必要とする。 しかし、既存のハードウェアアクセラレーターは、マルチブランチDNNで構成され、計算やメモリリソースを必要とするようなデコーダをターゲットとした十分な性能と効率を提供することができない。 これらの問題に対処するため,我々はf-cad(facebook codec avatar accelerator design)と呼ばれる自動化フレームワークを提案し,コーデックアバターデコードに最適化されたハードウェアアクセラレータを探索し,提供する。 新しい技術には、1)マルチブランチDNNを効率的に処理する新しいアクセラレータアーキテクチャ、2)きめ細かいアーキテクチャ構成を可能にするマルチブランチダイナミックデザインスペース、3)アプリケーション固有の要求とハードウェアリソースの制約の両方に基づいて最適化されたハードウェア設計を選択するための効率的なアーキテクチャ検索が含まれます。 F-CADは、コーデックアバターデコーダのハードウェアアクセラレーションの設計フロー全体をサポートし、一般的な機械学習フレームワークのデコーダ設計を共同最適化し、サイクル精度の高いカスタマイズされたアクセラレータ設計に対応可能な最初の自動化ツールです。 その結果、F-CADによって生成されたアクセラレータは、最新のコーデックアバターデコーダを実行する際に、毎秒122.1フレーム(FPS)と91.6%のハードウェア効率を提供することができる。 最先端の設計と比較すると、F-CADはDNNBuilderやHybridDNNよりも4.0Xと2.8倍高いスループット、62.5%と21.2%高い効率を実現している。

Creating virtual avatars with realistic rendering is one of the most essential and challenging tasks to provide highly immersive virtual reality (VR) experiences. It requires not only sophisticated deep neural network (DNN) based codec avatar decoders to ensure high visual quality and precise motion expression, but also efficient hardware accelerators to guarantee smooth real-time rendering using lightweight edge devices, like untethered VR headsets. Existing hardware accelerators, however, fail to deliver sufficient performance and efficiency targeting such decoders which consist of multi-branch DNNs and require demanding compute and memory resources. To address these problems, we propose an automation framework, called F-CAD (Facebook Codec avatar Accelerator Design), to explore and deliver optimized hardware accelerators for codec avatar decoding. Novel technologies include 1) a new accelerator architecture to efficiently handle multi-branch DNNs; 2) a multi-branch dynamic design space to enable fine-grained architecture configurations; and 3) an efficient architecture search for picking the optimized hardware design based on both application-specific demands and hardware resource constraints. To the best of our knowledge, F-CAD is the first automation tool that supports the whole design flow of hardware acceleration of codec avatar decoders, allowing joint optimization on decoder designs in popular machine learning frameworks and corresponding customized accelerator design with cycle-accurate evaluation. Results show that the accelerators generated by F-CAD can deliver up to 122.1 frames per second (FPS) and 91.6% hardware efficiency when running the latest codec avatar decoder. Compared to the state-of-the-art designs, F-CAD achieves 4.0X and 2.8X higher throughput, 62.5% and 21.2% higher efficiency than DNNBuilder and HybridDNN by targeting the same hardware device.
翻訳日:2021-03-09 15:18:16 公開日:2021-03-08
# 深層透かしによる深部モデル知的財産保護

Deep Model Intellectual Property Protection via Deep Watermarking ( http://arxiv.org/abs/2103.04980v1 )

ライセンス: Link先を確認
Jie Zhang and Dongdong Chen and Jing Liao and Weiming Zhang and Huamin Feng and Gang Hua and Nenghai Yu(参考訳) 巨大な成功にもかかわらず、ディープニューラルネットワークは深刻なip侵害リスクにさらされている。 ターゲットの深層モデルを考えると、攻撃者がその全情報を知っていれば、微調整で簡単に盗むことができる。 たとえその出力のみがアクセス可能であっても、多くの入出力トレーニングペアを生成することで、学生-教師学習を通じて代理モデルを訓練することができる。 したがって、深層モデルip保護は重要かつ必要である。 しかし、本格的に研究されている。 本研究では,低レベルのコンピュータビジョンや画像処理タスク用に訓練された深層ネットワークを保護するための新しいモデル透かしフレームワークを提案する。 具体的には、ターゲットモデルが統一され見えない透かしを出力に埋め込むと、特別なタスクに依存しない障壁が追加される。 攻撃者がバリアターゲットモデルの入力出力ペアを使用して1つのサロゲートモデルを訓練すると、隠れた透かしが学習され、その後抽出される。 バイナリビットから高解像度画像への透かしを可能にするため、深い目に見えない透かし機構を設計する。 目標モデルと透かし埋め込みを共同でトレーニングすることで、余分な障壁を目標モデルに吸収することもできる。 大規模な実験を通じて,異なるネットワーク構造と目的関数による攻撃に抵抗できるフレームワークのロバスト性を示す。

Despite the tremendous success, deep neural networks are exposed to serious IP infringement risks. Given a target deep model, if the attacker knows its full information, it can be easily stolen by fine-tuning. Even if only its output is accessible, a surrogate model can be trained through student-teacher learning by generating many input-output training pairs. Therefore, deep model IP protection is important and necessary. However, it is still seriously under-researched. In this work, we propose a new model watermarking framework for protecting deep networks trained for low-level computer vision or image processing tasks. Specifically, a special task-agnostic barrier is added after the target model, which embeds a unified and invisible watermark into its outputs. When the attacker trains one surrogate model by using the input-output pairs of the barrier target model, the hidden watermark will be learned and extracted afterwards. To enable watermarks from binary bits to high-resolution images, a deep invisible watermarking mechanism is designed. By jointly training the target model and watermark embedding, the extra barrier can even be absorbed into the target model. Through extensive experiments, we demonstrate the robustness of the proposed framework, which can resist attacks with different network structures and objective functions.
翻訳日:2021-03-09 15:17:38 公開日:2021-03-08
# 深層強化学習モデルによる人的協力の創発的ダイナミクス

Deep reinforcement learning models the emergent dynamics of human cooperation ( http://arxiv.org/abs/2103.04982v1 )

ライセンス: Link先を確認
Kevin R. McKee, Edward Hughes, Tina O. Zhu, Martin J. Chadwick, Raphael Koster, Antonio Garcia Castaneda, Charlie Beattie, Thore Graepel, Matt Botvinick, Joel Z. Leibo(参考訳) 集団行動は、個人が協力する金額、場所、時期を効率的に調整することを要求する。 実験室の実験は、このプロセスの最初の部分を調査し、様々な社会的認知メカニズムが、個人が集団活動にどれだけ投資するかに影響することを実証した。 しかし、実験的な研究は集団行動の場所と時間に社会認知メカニズムがどのように寄与するかを明らかにできなかった。 本研究では,多エージェント深層強化学習を用いて,社会的ジレンマにおける集団行動の特定の空間的・時間的戦略に向けて,社会的認知的メカニズムのモデル化を行う。 また、同じジレンマで挑戦された人間の集団の行動データを収集する。 モデルは、集団行動の空間的および時間的パターンを正確に予測する:この公共財ジレンマでは、評判の本質的な動機は、集団行動をコーディネートするための非領土のターンテイク戦略の開発を触媒する。

Collective action demands that individuals efficiently coordinate how much, where, and when to cooperate. Laboratory experiments have extensively explored the first part of this process, demonstrating that a variety of social-cognitive mechanisms influence how much individuals choose to invest in group efforts. However, experimental research has been unable to shed light on how social cognitive mechanisms contribute to the where and when of collective action. We leverage multi-agent deep reinforcement learning to model how a social-cognitive mechanism--specifica lly, the intrinsic motivation to achieve a good reputation--steers group behavior toward specific spatial and temporal strategies for collective action in a social dilemma. We also collect behavioral data from groups of human participants challenged with the same dilemma. The model accurately predicts spatial and temporal patterns of group behavior: in this public goods dilemma, the intrinsic motivation for reputation catalyzes the development of a non-territorial, turn-taking strategy to coordinate collective action.
翻訳日:2021-03-09 15:16:13 公開日:2021-03-08
# ディープラーニングアプリケーションのためのスプリットコンピューティングとアーリーエグジット:調査と研究課題

Split Computing and Early Exiting for Deep Learning Applications: Survey and Research Challenges ( http://arxiv.org/abs/2103.04505v1 )

ライセンス: Link先を確認
Yoshitomo Matsubara, Marco Levorato, Francesco Restuccia(参考訳) スマートフォンや自動運転車などのモバイルデバイスは、画像分類や音声認識などの複雑な推論タスクを実行するために、ディープニューラルネットワーク(DNN)にますます依存している。 しかし、モバイルデバイス上で連続的にDNNを実行すると、すぐにバッテリーが枯渇する。 エッジデバイスへのタスクオフロードは、モバイルデバイスの計算負担を減少させる可能性があるが、チャネル品質、ネットワーク、エッジサーバの負荷の不安定なパターンは、タスクの実行を著しく遅らせる可能性がある。 近年、スプリットコンピューティング(SC)に基づくアプローチが提案され、DNNはそれぞれモバイルデバイスとエッジデバイスで実行されるヘッドとテールモデルに分割される。 究極的には、帯域幅の使用量とエネルギー消費を削減できる。 もう一つのアプローチはearly exiting (ee)と呼ばれ、アーキテクチャの早い段階で複数の"exits"を示すモデルを訓練し、それぞれがより高いターゲット精度を提供する。 したがって、現在の状況やアプリケーション要求に応じて精度と遅延のトレードオフを調整できる。 本論文では、SCおよびEE戦略における最先端の動向を総合的に調査し、最も関連性の高いアプローチの比較について紹介する。 我々は、説得力のある研究課題のセットを提供することで、論文を締めくくる。

Mobile devices such as smartphones and autonomous vehicles increasingly rely on deep neural networks (DNNs) to execute complex inference tasks such as image classification and speech recognition, among others. However, continuously executing the entire DNN on the mobile device can quickly deplete its battery. Although task offloading to edge devices may decrease the mobile device's computational burden, erratic patterns in channel quality, network and edge server load can lead to a significant delay in task execution. Recently, approaches based on split computing (SC) have been proposed, where the DNN is split into a head and a tail model, executed respectively on the mobile device and on the edge device. Ultimately, this may reduce bandwidth usage as well as energy consumption. Another approach, called early exiting (EE), trains models to present multiple "exits" earlier in the architecture, each providing increasingly higher target accuracy. Therefore, the trade-off between accuracy and delay can be tuned according to the current conditions or application demands. In this paper, we provide a comprehensive survey of the state of the art in SC and EE strategies, by presenting a comparison of the most relevant approaches. We conclude the paper by providing a set of compelling research challenges.
翻訳日:2021-03-09 15:13:36 公開日:2021-03-08
# スパースリワード環境における自己監督型オンラインリワードシェイピング

Self-Supervised Online Reward Shaping in Sparse-Reward Environments ( http://arxiv.org/abs/2103.04529v1 )

ライセンス: Link先を確認
Farzan Memarian, Wonjoon Goo, Rudolf Lioutikov, Ufuk Topcu, and Scott Niekum(参考訳) 自己監督型のオンライン報酬形成を行い、スパースな報酬環境において、より高速でサンプル効率の高いパフォーマンスを得られる新しい強化学習フレームワークを提案します。 提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。 ポリシー更新は推定され、潜在的に濃密な報酬機能で実行されるが、元のスパース報酬は、観察された軌道上の順序として機能することにより、報酬更新の自己スーパーバイザリー信号を提供するために使用される。 提案手法は,変更した報酬と元の報酬との間に一定の関係を維持する限り,報酬関数の変更は元のmdpの最適方針に影響を与えないという理論に基づいている。 そこで我々は,分類器に基づく報酬推論を用いて,変化した報酬を自己管理的に学習するため,提案するフレームワークをCaReS(textit{ClAssification-based Reward Shaping})と命名した。 いくつかのスパース・リワード環境における実験結果から,提案アルゴリズムは最先端のベースラインよりもサンプル効率が高いだけでなく,手書きの高次報酬関数を用いたMDPに類似したサンプル効率が得られることが示された。

We propose a novel reinforcement learning framework that performs self-supervised online reward shaping, yielding faster, sample efficient performance in sparse reward environments. The proposed framework alternates between updating a policy and inferring a reward function. While the policy update is done with the inferred, potentially dense reward function, the original sparse reward is used to provide a self-supervisory signal for the reward update by serving as an ordering over the observed trajectories. The proposed framework is based on the theory that altering the reward function does not affect the optimal policy of the original MDP as long as we maintain certain relations between the altered and the original reward. We name the proposed framework \textit{ClAssification-based REward Shaping} (CaReS), since we learn the altered reward in a self-supervised manner using classifier based reward inference. Experimental results on several sparse-reward environments demonstrate that the proposed algorithm is not only significantly more sample efficient than the state-of-the-art baseline, but also achieves a similar sample efficiency to MDPs that use hand-designed dense reward functions.
翻訳日:2021-03-09 15:13:15 公開日:2021-03-08
# 分布型ソフトアクタ-クリティックアルゴリズムによるオンランプマージシナリオによる意思決定

Decision-Making under On-Ramp merge Scenarios by Distributional Soft Actor-Critic Algorithm ( http://arxiv.org/abs/2103.04535v1 )

ライセンス: Link先を確認
Yiting Kong, Yang Guan, Jingliang Duan, Shengbo Eben Li, Qi Sun, Bingbing Nie(参考訳) オンランプから高速道路にマージすることは、自動運転にとって不可欠なシナリオです。 シナリオの下での意思決定は、動的、確率的、および敵対的な特性のために困難である長期的な目標を最適化するために、安全性と効率性能のバランスをとる必要があります。 ルールベースの手法は、しばしばこのタスクを保守的な運転に導くが、学習ベースの手法は安全要件を満たすのが困難である。 本稿では、オフライントレーニングとオンライン修正の枠組みに基づくRLに基づくエンドツーエンド意思決定手法であるShield Distributional Soft Actor-critic (SDSAC)を提案する。 SDSACは、安全を考慮した政策評価と、オフライントレーニングにおけるバリア機能とオンライン修正をパラメータ化した安全シールドをそれぞれ採用している。 この2つの手段は、効率性能を著しく損なうことなく、お互いの安全を向上する。 シミュレーションにおいて,SDSACをオンランプマージシナリオで検証する。 その結果,SDSACはベースラインアルゴリズムよりも安全性能が優れ,同時に効率的な運転を実現することがわかった。

Merging into the highway from the on-ramp is an essential scenario for automated driving. The decision-making under the scenario needs to balance the safety and efficiency performance to optimize a long-term objective, which is challenging due to the dynamic, stochastic, and adversarial characteristics. The Rule-based methods often lead to conservative driving on this task while the learning-based methods have difficulties meeting the safety requirements. In this paper, we propose an RL-based end-to-end decision-making method under a framework of offline training and online correction, called the Shielded Distributional Soft Actor-critic (SDSAC). The SDSAC adopts the policy evaluation with safety consideration and a safety shield parameterized with the barrier function in its offline training and online correction, respectively. These two measures support each other for better safety while not damaging the efficiency performance severely. We verify the SDSAC on an on-ramp merge scenario in simulation. The results show that the SDSAC has the best safety performance compared to baseline algorithms and achieves efficient driving simultaneously.
翻訳日:2021-03-09 15:12:54 公開日:2021-03-08
# 遅延を伴う敵対的バンディットにおけるディスカウント・リグレット学習

No Discounted-Regret Learning in Adversarial Bandits with Delays ( http://arxiv.org/abs/2103.04550v1 )

ライセンス: Link先を確認
Ilai Bistritz, Zhengyuan Zhou, Xi Chen, Nicholas Bambos, Jose Blanchet(参考訳) T$ラウンドのそれぞれのラウンド$t$でアクションを選択し、$d_{t}$ラウンドの遅延後に発生したコストを観察するプレイヤーを考えてみましょう。 コスト関数と遅延シーケンスは、相手によって選択される。 プレイヤーのアルゴリズムが大きな遅延のために「後悔しない」特性を失ったとしても、期待されるプレイのエルゴード分布は、アルゴリズムが「割引-回帰しない」ならば、粗い相関均衡(CCE)の集合に収束することを示す。 ゼロサムゲームでは、Nash平衡のセットに収束する割引エルゴディック平均のプレイには、ディスカウントレグレットが十分ではないことを示します。 我々は、$n$次元のFKMアルゴリズムが$O\left(nT^{\frac{3}{4}}+\sqrt{n}T^{\frac{1}{3}}D^{\frac{1}{3}}\right)$と$K$腕のEXP3アルゴリズムが$O\left(\sqrt{\ln K\left(KT+D\right)}\right)$と$D=\sum_{t=1}^{T}d_{t}$と$T$の後悔を達成することを証明している。 これらの境界は、$D$と$T$が知られているときにバインドされた後悔を確実に保持する、新しい倍増トリックを使用します。 これらの境界を用いて、$d_{t}=O\left(t\log t\right)$ であっても EXP3 と FKM は割引レグレットを持たないことを示す。 したがって、シミュレーションにより遅延帯域フィードバックのみが利用可能であっても、有限または凸未知ゲームのCCEを近似することができる。

Consider a player that in each round $t$ out of $T$ rounds chooses an action and observes the incurred cost after a delay of $d_{t}$ rounds. The cost functions and the delay sequence are chosen by an adversary. We show that even if the players' algorithms lose their "no regret" property due to too large delays, the expected discounted ergodic distribution of play converges to the set of coarse correlated equilibrium (CCE) if the algorithms have "no discounted-regret&qu ot;. For a zero-sum game, we show that no discounted-regret is sufficient for the discounted ergodic average of play to converge to the set of Nash equilibria. We prove that the FKM algorithm with $n$ dimensions achieves a regret of $O\left(nT^{\frac{3}{4}}+\sqrt{n}T^{\frac{1}{3}}D^{\frac{1}{3}}\right)$ and the EXP3 algorithm with $K$ arms achieves a regret of $O\left(\sqrt{\ln K\left(KT+D\right)}\right)$ even when $D=\sum_{t=1}^{T}d_{t}$ and $T$ are unknown. These bounds use a novel doubling trick that provably retains the regret bound for when $D$ and $T$ are known. Using these bounds, we show that EXP3 and FKM have no discounted-regret even for $d_{t}=O\left(t\log t\right)$. Therefore, the CCE of a finite or convex unknown game can be approximated even when only delayed bandit feedback is available via simulation.
翻訳日:2021-03-09 15:12:38 公開日:2021-03-08
# DDGC: Clutterで生成するDeep Dexterous Grasping

DDGC: Generative Deep Dexterous Grasping in Clutter ( http://arxiv.org/abs/2103.04783v1 )

ライセンス: Link先を確認
Jens Lundell, Francesco Verdoja, Ville Kyrki(参考訳) 近年の多指ロボットグルーピングの進歩により、高速6次元自由度(DOF)単一物体グルーピングが可能になった。 一方, 乱れ場面でのマルチフィンガーグルーピングは, 高速な衝突のないグルーピングを生成するために, 計算時間を大幅に増加させる障害の推論が困難であることから, ほとんど未解明のままである。 本研究では,単一RGB-D画像から高画質な把握を生成できる高速なマルチフィンガー把握サンプリング手法であるDDGCを導入することで,このような制約に対処した。 ddgcはシーン情報をエンコードして、粗い衝突のないポーズと構成を生成するネットワークとして構築されている。 GraspItのシミュレートアニーリングプランナーに対してDDGCを実験的にベンチマークします! 1200のシミュレートされたシーンと7つの現実世界シーン。 その結果、DDGCは5倍速く、高品質の把握とクラッタの除去の合成のベースラインを上回っています。 これにより、他の手法で必要とされる過度の計算時間のためにこれまで制限されていた実用的なアプリケーションでマルチ指の把握を使用するための扉が開きます。

Recent advances in multi-fingered robotic grasping have enabled fast 6-Degrees-Of-Freedom (DOF) single object grasping. Multi-finger grasping in cluttered scenes, on the other hand, remains mostly unexplored due to the added difficulty of reasoning over obstacles which greatly increases the computational time to generate high-quality collision-free grasps. In this work we address such limitations by introducing DDGC, a fast generative multi-finger grasp sampling method that can generate high quality grasps in cluttered scenes from a single RGB-D image. DDGC is built as a network that encodes scene information to produce coarse-to-fine collision-free grasp poses and configurations. We experimentally benchmark DDGC against the simulated-annealing planner in GraspIt! on 1200 simulated cluttered scenes and 7 real world scenes. The results show that DDGC outperforms the baseline on synthesizing high-quality grasps and removing clutter while being 5 times faster. This, in turn, opens up the door for using multi-finger grasps in practical applications which has so far been limited due to the excessive computation time needed by other methods.
翻訳日:2021-03-09 15:11:20 公開日:2021-03-08
# アンチエイジングNPUの信頼性認識量子化

Reliability-Aware Quantization for Anti-Aging NPUs ( http://arxiv.org/abs/2103.04812v1 )

ライセンス: Link先を確認
Sami Salamin, Georgios Zervakis, Ourania Spantidi, Iraklis Anagnostopoulos, J\"org Henkel, Hussam Amrouch(参考訳) トランジスタの老化は、デザイナーが先進技術に挑戦する主な懸念の1つだ。 これは、大きなガードバンドを含まないとタイミング違反によりトランジスタが遅くなるため、トランジスタの寿命中に回路の信頼性が著しく低下し、パフォーマンスが大幅に低下する。 推論速度を上げることが主な目標であるニューラルプロセッシングユニット(NPU)に関しては、そのようなパフォーマンスの損失は許容できません。 本研究では, ガードバンドを完全に取り除いたまま, NPUの老化効果を排除するために, 信頼性を考慮した量子化を提案する。 本手法は,老化によるnpuの遅延増加を補償しながら,時間とともに優雅な推論精度の低下をもたらす。 ImageNetデータセットでトレーニングされた10以上の最先端ニューラルネットワークアーキテクチャによる評価は、10年間の生涯平均精度損失がわずか3%であることを示している。 その間、私達の技術は老化のガードバンドの除去による23%のより高い性能を達成します。

Transistor aging is one of the major concerns that challenges designers in advanced technologies. It profoundly degrades the reliability of circuits during its lifetime as it slows down transistors resulting in errors due to timing violations unless large guardbands are included, which leads to considerable performance losses. When it comes to Neural Processing Units (NPUs), where increasing the inference speed is the primary goal, such performance losses cannot be tolerated. In this work, we are the first to propose a reliability-aware quantization to eliminate aging effects in NPUs while completely removing guardbands. Our technique delivers a graceful inference accuracy degradation over time while compensating for the aging-induced delay increase of the NPU. Our evaluation, over ten state-of-the-art neural network architectures trained on the ImageNet dataset, demonstrates that for an entire lifetime of 10 years, the average accuracy loss is merely 3%. In the meantime, our technique achieves 23% higher performance due to the elimination of the aging guardband.
翻訳日:2021-03-09 15:11:00 公開日:2021-03-08
# ニューラルネットワークにおけるヒントン:深層学習の量子場理論

The Hintons in your Neural Network: a Quantum Field Theory View of Deep Learning ( http://arxiv.org/abs/2103.04913v1 )

ライセンス: Link先を確認
Roberto Bondesan, Max Welling(参考訳) 本研究では,入力信号がガウス状態に符号化され,エージェントの入力信号に対する不確実性を符号化するガウス過程を一般化する,深層学習のための量子場理論形式論を開発する。 本稿では、線形および非線形層をユニタリ量子ゲートとして表現し、量子モデルの基本的な励起を粒子として解釈する方法を示す。 ニューラルネットワークの研究のための新しい視点と技術を開くことに加えて、量子定式化は光学量子コンピューティングに適しており、これらのデバイス上で効率的に実行できるニューラルネットワークの量子変形を提供する。 最後に,古典的シミュレーションに応用可能な量子変形モデルの半古典的極限について考察する。

In this work we develop a quantum field theory formalism for deep learning, where input signals are encoded in Gaussian states, a generalization of Gaussian processes which encode the agent's uncertainty about the input signal. We show how to represent linear and non-linear layers as unitary quantum gates, and interpret the fundamental excitations of the quantum model as particles, dubbed ``Hintons''. On top of opening a new perspective and techniques for studying neural networks, the quantum formulation is well suited for optical quantum computing, and provides quantum deformations of neural networks that can be run efficiently on those devices. Finally, we discuss a semi-classical limit of the quantum deformed models which is amenable to classical simulation.
翻訳日:2021-03-09 15:10:45 公開日:2021-03-08
# webアプリケーションにおける性能問題の自動原因検出

Automatic Cause Detection of Performance Problems in Web Applications ( http://arxiv.org/abs/2103.04954v1 )

ライセンス: Link先を確認
Quentin Fournier, Naser Ezzati-Jivan, Daniel Aloise, and Michel R. Dagenais(参考訳) 同様のユニットの実行は、内部動作によって比較して、潜在的なパフォーマンス問題の原因を決定することができる。 例えば、異なる高速あるいは遅いWebリクエストの内部動作をより詳しく調べ、クラスタ化して内部実行を比較することで、いくつかのリクエストがゆっくりと実行されたり、予期しない方法で動作したりする原因を判断できます。 本稿では、Webリクエストの内部動作を抽出する手法を提案するとともに、Webリクエストのパフォーマンス上の問題を検出し、その根本原因に関する洞察を提供するパイプラインを導入する。 まず、ユーザ空間とカーネル空間の両方をトレースすることで、各要求に関する低レベルかつきめ細かい情報を収集する。 第二に、さらなる情報が抽出され、異常検知器に供給される。 最後に、これらの外れ値が振る舞いによってクラスタ化され、各グループは別々に分析される。 実験の結果、このパイプラインは、遅いWebリクエストを検出し、真の根本原因に関する洞察を提供することができることがわかった。 特に、提案したアプローチを使って、実際のPHPキャッシュ競合を特定できた。

The execution of similar units can be compared by their internal behaviors to determine the causes of their potential performance issues. For instance, by examining the internal behaviors of different fast or slow web requests more closely and by clustering and comparing their internal executions, one can determine what causes some requests to run slowly or behave in unexpected ways. In this paper, we propose a method of extracting the internal behavior of web requests as well as introduce a pipeline that detects performance issues in web requests and provides insights into their root causes. First, low-level and fine-grained information regarding each request is gathered by tracing both the user space and the kernel space. Second, further information is extracted and fed into an outlier detector. Finally, these outliers are then clustered by their behavior, and each group is analyzed separately. Experiments revealed that this pipeline is indeed able to detect slow web requests and provide additional insights into their true root causes. Notably, we were able to identify a real PHP cache contention using the proposed approach.
翻訳日:2021-03-09 15:10:33 公開日:2021-03-08
# 関数近似を用いた効率的協調型マルチエージェント強化学習

Provably Efficient Cooperative Multi-Agent Reinforcement Learning with Function Approximation ( http://arxiv.org/abs/2103.04972v1 )

ライセンス: Link先を確認
Abhimanyu Dubey and Alex Pentland(参考訳) 協調型マルチエージェント環境における強化学習は, 広告の協調的評価, 動的処理体制, 分散制御, フェデレーション学習などにおいて, 近年大きく進歩している。 本稿では,エージェント群が互いに通信してエピソディックmdpを協調的に解くような関数近似による協調型マルチエージェントrlの問題について議論する。 我々は,メッセージパッシングと協調的価値反復によって,固定的なコミュニケーション予算であっても,ほぼ最適に学習できることを示した。 次に, 不均質な協調環境であっても, 限られたコミュニケーションでPareto-optimal no-regret Learningを実現できることを実証する。 私たちの仕事は、マルチエージェントコンテキストとマルチアームバンディット文学からMDP、強化学習まで、いくつかのアイデアを一般化します。

Reinforcement learning in cooperative multi-agent settings has recently advanced significantly in its scope, with applications in cooperative estimation for advertising, dynamic treatment regimes, distributed control, and federated learning. In this paper, we discuss the problem of cooperative multi-agent RL with function approximation, where a group of agents communicates with each other to jointly solve an episodic MDP. We demonstrate that via careful message-passing and cooperative value iteration, it is possible to achieve near-optimal no-regret learning even with a fixed constant communication budget. Next, we demonstrate that even in heterogeneous cooperative settings, it is possible to achieve Pareto-optimal no-regret learning with limited communication. Our work generalizes several ideas from the multi-agent contextual and multi-armed bandit literature to MDPs and reinforcement learning.
翻訳日:2021-03-09 15:10:17 公開日:2021-03-08
# データ1分で不安定なダイナミクスを学習する:微分に基づくガウス過程アプローチ

Learning Unstable Dynamics with One Minute of Data: A Differentiation-base d Gaussian Process Approach ( http://arxiv.org/abs/2103.04548v1 )

ライセンス: Link先を確認
Ivan D. Jimenez Rodriguez, Ugo Rosolia, Aaron D. Ames, Yisong Yue(参考訳) 不安定なロボットシステムのダイナミクスモデルを簡易かつ効率的に推定する手法を提案する。 具体的には、ガウス過程の微分可能性を利用して真の連続力学の状態依存線形化近似を作成する方法を示す。 本手法はシステム同定のためのgaussianプロセスアプローチと互換性があり,少量のトレーニングデータを用いて正確なモデルを学ぶことができる。 本研究では,9-Dセグウェイのような不安定なシステムのシステムダイナミクスを反復的に学習することにより,モデル化されていないダイナミクスや障害に対して,コントローラが堅牢であること,公称モデルに基づく最先端の制御手法が小さな摂動下で失敗すること,などを検証した。

We present a straightforward and efficient way to estimate dynamics models for unstable robotic systems. Specifically, we show how to exploit the differentiability of Gaussian processes to create a state-dependent linearized approximation of the true continuous dynamics. Our approach is compatible with most Gaussian process approaches for system identification, and can learn an accurate model using modest amounts of training data. We validate our approach by iteratively learning the system dynamics of an unstable system such as a 9-D segway (using only one minute of data) and we show that the resulting controller is robust to unmodelled dynamics and disturbances, while state-of-the-art control methods based on nominal models can fail under small perturbations.
翻訳日:2021-03-09 15:07:06 公開日:2021-03-08
# 水センサ配置のリスクアウェア最適化

Risk Aware Optimization of Water Sensor Placement ( http://arxiv.org/abs/2103.04862v1 )

ライセンス: Link先を確認
Antonio Candelieri, Andrea Ponti, Francesco Archetti(参考訳) 最適なセンサ配置(sp)は通常、汚染水の量や検出前に影響を受ける住民の数など、衝撃測定を最小化する。 一般的な選択は、汚染イベントのセットで平均される最小検出時間(MDT)を最小化することであり、汚染物質は別の場所で注入される。 SPが与えられると、伝播はネットワークの油圧ソフトウェアモデルを通してシミュレートされ、時空間濃度と平均MSTを得る。 最適SPの探索はNPハードであり、中規模ネットワークでも効率的な探索法が必要であり、進化的アプローチがよく用いられる。 平均MDTとその標準偏差を最小化することは、平均MDTよりも遅すぎる汚染事象を検出するリスクである。 本論文では,SP毎にシミュレーション結果を収集し,特に進化的最適化に適したデータ構造(時空間ヒートマップの組)を提案する。 実際、提案されたデータ構造は集団ベースのアルゴリズムの収束解析を可能にし、他の類似の問題に一般化できる問題固有の収束問題を検出する指標の同定につながった。 Pymooは、問題の特定終了基準を組み込むのに十分な柔軟性を備えた最近のPythonフレームワークです。 ベンチマークと実世界ネットワークの結果を提示します。

Optimal sensor placement (SP) usually minimizes an impact measure, such as the amount of contaminated water or the number of inhabitants affected before detection. The common choice is to minimize the minimum detection time (MDT) averaged over a set of contamination events, with contaminant injected at a different location. Given a SP, propagation is simulated through a hydraulic software model of the network to obtain spatio-temporal concentrations and the average MDT. Searching for an optimal SP is NP-hard: even for mid-size networks, efficient search methods are required, among which evolutionary approaches are often used. A bi-objective formalization is proposed: minimizing the average MDT and its standard deviation, that is the risk to detect some contamination event too late than the average MDT. We propose a data structure (sort of spatio-temporal heatmap) collecting simulation outcomes for every SP and particularly suitable for evolutionary optimization. Indeed, the proposed data structure enabled a convergence analysis of a population-based algorithm, leading to the identification of indicators for detecting problem-specific converge issues which could be generalized to other similar problems. We used Pymoo, a recent Python framework flexible enough to incorporate our problem specific termination criterion. Results on a benchmark and a real-world network are presented.
翻訳日:2021-03-09 15:06:51 公開日:2021-03-08
# 強化学習に関するクラッシュコース

A Crash Course on Reinforcement Learning ( http://arxiv.org/abs/2103.04910v1 )

ライセンス: Link先を確認
Farnaz Adib Yaghmaie, Lennart Ljung(参考訳) 強化学習(RL)の新興分野は、戦略ゲーム、ロボティクスなどのさまざまな分野で印象的な結果をもたらしました。 この手引きは、制御の観点からrlを簡単に紹介し、rl問題を解決するための3つの可能なアプローチ、すなわちポリシーグラデーション、ポリシーイテレーション、モデル構築について論じることを目的としている。 動的系はカートポールのような離散的な作用空間を持ち、2つの可能な作用は+1と-1または線形ガウス系のような連続的な作用空間である。 我々の議論は両方のケースをカバーしている。

The emerging field of Reinforcement Learning (RL) has led to impressive results in varied domains like strategy games, robotics, etc. This handout aims to give a simple introduction to RL from control perspective and discuss three possible approaches to solve an RL problem: Policy Gradient, Policy Iteration, and Model-building. Dynamical systems might have discrete action-space like cartpole where two possible actions are +1 and -1 or continuous action space like linear Gaussian systems. Our discussion covers both cases.
翻訳日:2021-03-09 15:06:31 公開日:2021-03-08
# (参考訳) 米下院議員、英国で初の新型コロナウイルスのロックダウンを阻止-ホワイトペーパー [全文訳有]

MP Twitter Engagement and Abuse Post-first COVID-19 Lockdown in the UK: White Paper ( http://arxiv.org/abs/2103.02917v2 )

ライセンス: CC BY 4.0
Tracie Farrell, Mehmet Bakir, Kalina Bontcheva(参考訳) 英国は数年前から不安定な政治環境をとっており、ブレグジットとリーダーシップの危機は過去5年間をマークしています。 この研究では、世界の保健緊急事態であるCOVID-19が、英国政治家が公衆と関わるときに受ける虐待の量、種類、またはトピックにどのように影響するかについてもっと理解したいと考えました。 この研究では、世界の保健緊急事態であるCOVID-19が、英国政治家が公衆と関わるときに受ける虐待の量、種類、またはトピックにどのように影響するかについてもっと理解したいと考えました。 この研究は、2020年6月から12月までの期間をカバーし、英国の議員に対するTwitterの乱用を分析します。 この研究は、英国の新型コロナウイルスパンデミックの最初の4ヶ月間のオンライン虐待の分析によるフォローアップです。 この論文は、この新しい7ヶ月間の全体的な虐待レベルを調べ、さまざまな政党や英国政府のメンバーへの反応を分析し、オンラインの虐待とブレグジット、政府のCOVID-19対応と政策、社会問題などのトピックとの関係を分析します。 また,同時期の国会議員への虐待的回答に載った陰謀論の存在についても検討した。 英国議会議員に対する虐待レベルは、2020年12月に過去最高(全返信ツイートの5.4%)に達したことが判明した。 これは、総選挙の2ヶ月前よりもほぼ1%高いです。 新型コロナウイルスの感染拡大と欧州連合(EU)とのブレグジット(ブレグジット)交渉の終了が近づいている中、2020年7月以降、トーリー党の国会議員は、新型コロナウイルス(COVID-19)の危機が深刻化し、2020年9月から5%を超える虐待的な回答を最も多く受け取っている。

The UK has had a volatile political environment for some years now, with Brexit and leadership crises marking the past five years. With this work, we wanted to understand more about how the global health emergency, COVID-19, influences the amount, type or topics of abuse that UK politicians receive when engaging with the public. With this work, we wanted to understand more about how the global health emergency, COVID-19, influences the amount, type or topics of abuse that UK politicians receive when engaging with the public. This work covers the period of June to December 2020 and analyses Twitter abuse in replies to UK MPs. This work is a follow-up from our analysis of online abuse during the first four months of the COVID-19 pandemic in the UK. The paper examines overall abuse levels during this new seven month period, analyses reactions to members of different political parties and the UK government, and the relationship between online abuse and topics such as Brexit, government's COVID-19 response and policies, and social issues. In addition, we have also examined the presence of conspiracy theories posted in abusive replies to MPs during the period. We have found that abuse levels toward UK MPs were at an all-time high in December 2020 (5.4% of all reply tweets sent to MPs). This is almost 1% higher that the two months preceding the General Election. In a departure from the trend seen in the first four months of the pandemic, MPs from the Tory party received the highest percentage of abusive replies from July 2020 onward, which stays above 5% starting from September 2020 onward, as the COVID-19 crisis deepened and the Brexit negotiations with the EU started nearing completion.
翻訳日:2021-03-09 12:51:49 公開日:2021-03-08
# ヒートマップとトリックバッグを用いたサブピクセル顔のランドマーク

Sub-pixel face landmarks using heatmaps and a bag of tricks ( http://arxiv.org/abs/2103.03059v2 )

ライセンス: Link先を確認
Samuel W. F. Earp and Aubin Samacoits and Sanjana Jain and Pavit Noinongyao and Siwa Boonpunmongkol(参考訳) 正確な顔のランドマークのローカリゼーションは、顔認識、再構築、モーフィングの不可欠な部分です。 顔のランドマークを正確にローカライズするために,熱マップ回帰手法を提案する。 各モデルはmobilenetv2バックボーンからなり、続いていくつかのスケールアップ層があり、パフォーマンスと推論コストの両方を最適化するさまざまなトリックがある。 従来の手法のように境界ボックスを使うのではなく、顔の位置とアライメントに5つのna\"ive face landmarkを使用します。 さらに,アライメント後にランダムな回転,変位,スケーリングを加えることで,モデルが向きよりも顔位置に敏感であることが分かる。 また, デコンボリューション層とピクセルシャッフル層を混合することで, 局所化性能を損なうことなく, アップスケーリングの複雑さを低減できることを示した。 我々は,最先端の顔ランドマークローカライズモデルを提案する(第2位は106ポイント顔ランドマークローカライズ検証セットの2位)。 最後に,公開モデルとベンチマークを用いて,これらのランドマークを用いた顔認識の効果をテストする。

Accurate face landmark localization is an essential part of face recognition, reconstruction and morphing. To accurately localize face landmarks, we present our heatmap regression approach. Each model consists of a MobileNetV2 backbone followed by several upscaling layers, with different tricks to optimize both performance and inference cost. We use five na\"ive face landmarks from a publicly available face detector to position and align the face instead of using the bounding box like traditional methods. Moreover, we show by adding random rotation, displacement and scaling -- after alignment -- that the model is more sensitive to the face position than orientation. We also show that it is possible to reduce the upscaling complexity by using a mixture of deconvolution and pixel-shuffle layers without impeding localization performance. We present our state-of-the-art face landmark localization model (ranking second on The 2nd Grand Challenge of 106-Point Facial Landmark Localization validation set). Finally, we test the effect on face recognition using these landmarks, using a publicly available model and benchmarks.
翻訳日:2021-03-09 12:25:24 公開日:2021-03-08
# 医用画像解析における深層学習一般化の複雑性評価

Evaluation of Complexity Measures for Deep Learning Generalization in Medical Image Analysis ( http://arxiv.org/abs/2103.03328v2 )

ライセンス: Link先を確認
Aleksandar Vakanski, Min Xian(参考訳) 医用画像解析のためのディープラーニングモデルの一般化性能は、データ取得、デバイス設定、患者集団のための異なるデバイスで収集された画像に対して低下することが多い。 新しい画像に対する一般化能力の理解が深層学習における臨床医の信頼性に不可欠である。 近年,一般化限界と複雑性尺度の確立に向けた研究が盛んに行われているが,予測と実際の一般化性能との間には大きな差があることが多い。 同様に、関連する大規模な実証研究は、主に汎用画像データセットによる検証に基づいている。 本稿では,乳房超音波画像における25種類の複雑性尺度と教師付き深層学習分類器の一般化能力の相関について検討する。 結果は,PAC-Bayes平坦度とパスノルムに基づく尺度が,モデルとデータの組み合わせについて最も一貫した説明をもたらすことを示唆している。 また,乳房画像に対するマルチタスク分類とセグメンテーション手法の利用について検討し,これらの学習手法が暗黙の正規化として機能し,一般化の促進に寄与することを示す。

The generalization performance of deep learning models for medical image analysis often decreases on images collected with different devices for data acquisition, device settings, or patient population. A better understanding of the generalization capacity on new images is crucial for clinicians' trustworthiness in deep learning. Although significant research efforts have been recently directed toward establishing generalization bounds and complexity measures, still, there is often a significant discrepancy between the predicted and actual generalization performance. As well, related large empirical studies have been primarily based on validation with general-purpose image datasets. This paper presents an empirical study that investigates the correlation between 25 complexity measures and the generalization abilities of supervised deep learning classifiers for breast ultrasound images. The results indicate that PAC-Bayes flatness-based and path norm-based measures produce the most consistent explanation for the combination of models and data. We also investigate the use of multi-task classification and segmentation approach for breast images, and report that such learning approach acts as an implicit regularizer and is conducive toward improved generalization.
翻訳日:2021-03-09 12:25:03 公開日:2021-03-08
# 皮膚病変分類のためのピアラーニング

Peer Learning for Skin Lesion Classification ( http://arxiv.org/abs/2103.03703v2 )

ライセンス: Link先を確認
Tariq Bdair, Nassir Navab and Shadi Albarqouni(参考訳) 皮膚がんは世界で最も致命的ながんの1つである。 しかし、早期検出によって減少する可能性がある。 近年の深層学習法は皮膚がんの分類において皮膚科医レベルの性能を示した。 しかし、この成功には大量の集中型データが必要です。 フェデレーションラーニングは最近導入され、特に医療分野では高価で利用できないアノテーション付きデータをクライアントに要求する、プライバシー保護された分散方式で機械学習モデルをトレーニングする。 そこで本研究では,社会科学からのピアラーニングと,委員会機械からの平均的なアンサンブルを活用した半教師付きフェデレーション学習手法であるfederlを提案する。 また、FedPerlのコアコンポーネントとしてピア匿名化(PA)手法を提案する。 PAはプライバシーを保ち、追加の複雑さなしにパフォーマンスを維持しながら通信コストを削減します。 4つの公開データセットから採取した38,000枚の皮膚病変画像について検討を行った。 FedPerlはベースラインと最先端のSSFLよりも15.8%向上し、それぞれ1.8%向上した。 さらに、FedPerlは騒々しいクライアントに対する感度が低い。

Skin cancer is one of the most deadly cancers worldwide. Yet, it can be reduced by early detection. Recent deep-learning methods have shown a dermatologist-level performance in skin cancer classification. Yet, this success demands a large amount of centralized data, which is oftentimes not available. Federated learning has been recently introduced to train machine learning models in a privacy-preserved distributed fashion demanding annotated data at the clients, which is usually expensive and not available, especially in the medical field. To this end, we propose FedPerl, a semi-supervised federated learning method that utilizes peer learning from social sciences and ensemble averaging from committee machines to build communities and encourage its members to learn from each other such that they produce more accurate pseudo labels. We also propose the peer anonymization (PA) technique as a core component of FedPerl. PA preserves privacy and reduces the communication cost while maintaining the performance without additional complexity. We validated our method on 38,000 skin lesion images collected from 4 publicly available datasets. FedPerl achieves superior performance over the baselines and state-of-the-art SSFL by 15.8%, and 1.8% respectively. Further, FedPerl shows less sensitivity to noisy clients.
翻訳日:2021-03-09 12:24:47 公開日:2021-03-08
# 構造融合正規化による合同ネットワークトポロジー推論

Joint Network Topology Inference via Structured Fusion Regularization ( http://arxiv.org/abs/2103.03471v2 )

ライセンス: Link先を確認
Yanli Yuan, De Wen Soh, Xiao Yang, Kun Guo, Tony Q. S. Quek(参考訳) 結合ネットワークトポロジ推論は、異種グラフ信号から複数グラフラプラシア行列を共同学習する標準的な問題である。 そのような問題において、広く用いられる仮定は、複数のネットワーク間で共有される単純な共通成分である。 しかし実際には、スパース、均質、異質な成分を同時に含むより複雑なトポロジカルパターンが複数のネットワークに現れる。 本論文では,このような複雑な位相パターンを持つ複数のグラフラプラシアン行列を共同学習し,高い計算効率と厳密な理論的保証を兼ね備えた,新規な構造化融合正規化に基づく一般グラフ推定器を提案する。 さらに,提案した正規化項において,ネットワーク間のトポロジ的パターンは,グラム行列の異なる選択によって異なるタイプのトポロジ的パターンを柔軟にモデル化できるグラフ推定器によって特徴づけられる。 計算的に,パラメータを結合する正規化項は定式化された最適化問題を抽出可能とし,乗算器の交互方向法(ADMM)に基づく計算可能アルゴリズムを開発し,効率よく解く。 理論的には、提案したグラフ推定器の理論解析を行い、高次元設定下で推定誤差の非漸近境界を確立し、アルゴリズムの収束率に対するいくつかの重要な因子の影響を反映する。 最後に、提案手法の優れた性能は、シミュレーションおよび実データ例を通じて示される。

Joint network topology inference represents a canonical problem of jointly learning multiple graph Laplacian matrices from heterogeneous graph signals. In such a problem, a widely employed assumption is that of a simple common component shared among multiple networks. However, in practice, a more intricate topological pattern, comprising simultaneously of sparse, homogeneity and heterogeneity components, would exhibit in multiple networks. In this paper, we propose a general graph estimator based on a novel structured fusion regularization that enables us to jointly learn multiple graph Laplacian matrices with such complex topological patterns, and enjoys both high computational efficiency and rigorous theoretical guarantee. Moreover, in the proposed regularization term, the topological pattern among networks is characterized by a Gram matrix, endowing our graph estimator with the ability of flexible modelling different types of topological patterns by different choices of the Gram matrix. Computationally, the regularization term, coupling the parameters together, makes the formulated optimization problem intractable and thus, we develop a computationally-scal able algorithm based on the alternating direction method of multipliers (ADMM) to solve it efficiently. Theoretically, we provide a theoretical analysis of the proposed graph estimator, which establishes a non-asymptotic bound of the estimation error under the high-dimensional setting and reflects the effect of several key factors on the convergence rate of our algorithm. Finally, the superior performance of the proposed method is illustrated through simulated and real data examples.
翻訳日:2021-03-09 12:24:04 公開日:2021-03-08