このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210226となっている論文です。

PDF登録状況(公開日: 20210226)

TitleAuthorsAbstract論文公表日・翻訳日
# バッチ強化学習のためのソフトロバストアルゴリズム

Soft-Robust Algorithms for Batch Reinforcement Learning ( http://arxiv.org/abs/2011.14495v2 )

ライセンス: Link先を確認
Elita A. Lobo, Mohammad Ghavamzadeh, Marek Petrik(参考訳) 強化学習では、限られたデータによる高リスク意思決定問題に対する強固な方針は、通常はパーセンタイルの基準を最適化することで計算される。 残念なことに、このようなポリシーは通常、パーセンタイル基準が非凸であり、最適化が難しく、平均性能を無視しているため、過度に保守的である。 これらの欠点を克服するために、リスク対策を用いて平均とパーセンタイルの基準のバランスを改善するソフト・ロバスト基準について検討する。 本稿では,ソフトロバスト基準の基本特性を定式化し,最適化がnp困難であることを証明し,その最適化のために2つのアルゴリズムを提案し,解析する。 理論解析と経験的評価により,既存のパーセンタイル基準の最適化法に比べて,アルゴリズムは保存的解の計算がはるかに少ないことが示された。

In reinforcement learning, robust policies for high-stakes decision-making problems with limited data are usually computed by optimizing the percentile criterion, which minimizes the probability of a catastrophic failure. Unfortunately, such policies are typically overly conservative as the percentile criterion is non-convex, difficult to optimize, and ignores the mean performance. To overcome these shortcomings, we study the soft-robust criterion, which uses risk measures to balance the mean and percentile criterion better. In this paper, we establish the soft-robust criterion's fundamental properties, show that it is NP-hard to optimize, and propose and analyze two algorithms to approximately optimize it. Our theoretical analyses and empirical evaluations demonstrate that our algorithms compute much less conservative solutions than the existing approximate methods for optimizing the percentile-criterion .
翻訳日:2021-06-06 15:04:29 公開日:2021-02-26
# (参考訳) MLPerfモバイル推論ベンチマーク [全文訳有]

MLPerf Mobile Inference Benchmark ( http://arxiv.org/abs/2012.02328v2 )

ライセンス: CC BY 4.0
Vijay Janapa Reddi, David Kanter, Peter Mattson, Jared Duke, Thai Nguyen, Ramesh Chukka, Kenneth Shiring, Koan-Sin Tan, Mark Charlebois, William Chou, Mostafa El-Khamy, Jungwook Hong, Michael Buch, Cindy Trinh, Thomas Atta-fosu, Fatih Cakir, Masoud Charkhabi, Xiaodong Chen, Jimmy Chiang, Dave Dexter, Woncheol Heo, Guenther Schmuelling, Maryam Shabani, Dylan Zika(参考訳) MLPerf Mobileは、業界メンバーと学術研究者が開発し、AIチップとソフトウェアスタックの異なるモバイルデバイスのパフォーマンス/精度評価を可能にする最初の業界標準のオープンソースモバイルベンチマークである。 このベンチマークは、主要なモバイルSoCベンダー、MLフレームワークプロバイダ、モデルプロデューサの専門知識から導かれる。 本稿では,モバイルAI性能のデミスティフィケーションを推進し,MLPerf Mobileの設計上の考慮事項,アーキテクチャ,実装について述べる。 ベンチマークは、標準モデル、データセット、品質メトリクス、そしてルールを実行する一連のモデルで構成されている。 第1回では,モバイルデバイス上でのコンピュータビジョンと自然言語処理のための"アウト・オブ・ボックス"な推論パフォーマンスベンチマークを提供するアプリを開発した。 MLPerf Mobileは、将来のモデルの統合、品質目標しきい値のカスタマイズ、システムパフォーマンスの評価、ソフトウェアフレームワークの比較、マシンラーニングの不均一なハードウェア能力の評価のためのフレームワークとして機能する。

MLPerf Mobile is the first industry-standard open-source mobile benchmark developed by industry members and academic researchers to allow performance/accuracy evaluation of mobile devices with different AI chips and software stacks. The benchmark draws from the expertise of leading mobile-SoC vendors, ML-framework providers, and model producers. In this paper, we motivate the drive to demystify mobile-AI performance and present MLPerf Mobile's design considerations, architecture, and implementation. The benchmark comprises a suite of models that operate under standard models, data sets, quality metrics, and run rules. For the first iteration, we developed an app to provide an "out-of-the-box" inference-performanc e benchmark for computer vision and natural-language processing on mobile devices. MLPerf Mobile can serve as a framework for integrating future models, for customizing quality-target thresholds to evaluate system performance, for comparing software frameworks, and for assessing heterogeneous-hardwa re capabilities for machine learning, all fairly and faithfully with fully reproducible results.
翻訳日:2021-05-23 15:55:15 公開日:2021-02-26
# 連続パスを用いたFJの制御流難読化

Control Flow Obfuscation for FJ using Continuation Passing ( http://arxiv.org/abs/2012.06340v2 )

ライセンス: Link先を確認
Kenny Zhuo Ming Lu(参考訳) 制御フローの難読化は、プログラムの制御フロー転送を変更することによって、ソフトウェアをリバースエンジニアリングの試行を妨げる。 交替はソフトウェアの実行時の振る舞いに影響を与えてはならない。 本稿では,例外処理を伴うFJの制御フロー難読化手法を提案する。 このアプローチは継続パススタイル(cps)を用いたソースからソースへの変換に基づいている。 提案したCPS変換は、文脈不感な静的解析と固定呼び出し文字列を用いた文脈不感な解析を用いて悪質な攻撃を引き起こし、精度が低下すると主張している。

Control flow obfuscation deters software reverse engineering attempts by altering the program's control flow transfer. The alternation should not affect the software's run-time behaviour. In this paper, we propose a control flow obfuscation approach for FJ with exception handling. The approach is based on a source to source transformation using continuation passing style (CPS). We argue that the proposed CPS transformation causes malicious attacks using context insensitive static analysis and context sensitive analysis with fixed call string to lose precision.
翻訳日:2021-05-16 21:09:23 公開日:2021-02-26
# (参考訳) 限界を知る: 信頼度OOD検出で失敗するReLU分類器の不確かさ推定 [全文訳有]

Know Your Limits: Uncertainty Estimation with ReLU Classifiers Fails at Reliable OOD Detection ( http://arxiv.org/abs/2012.05329v3 )

ライセンス: CC BY 4.0
Dennis Ulmer and Giovanni Cin\`a(参考訳) 安全クリティカルなアプリケーションにディープラーニングモデルを確実にデプロイするための重要な要件は、アウト・オブ・ディストリビューション(OOD)データポイント、トレーニングデータと異なるサンプル、モデルが過小評価される可能性のあるサンプルを特定する能力である。 前回の研究では不確実性推定手法を用いてこの問題に取り組んでいる。 しかし, 分類作業においてOODを確実に検出できないという実証的な証拠がある。 本稿では, 実験結果について理論的に説明し, 合成データから考察する。 これらの手法は,その信頼性レベルが特徴空間の未確認領域に一般化されるため,分類設定においてOODサンプルを確実に識別できない。 この結果は、ReLUネットワークを断片的なアフィン変換として表現すること、ソフトマックスのような活性化関数の飽和の性質、そして最も広く使われている不確実性メトリクスの間の相互作用に起因している。

A crucial requirement for reliable deployment of deep learning models for safety-critical applications is the ability to identify out-of-distribution (OOD) data points, samples which differ from the training data and on which a model might underperform. Previous work has attempted to tackle this problem using uncertainty estimation techniques. However, there is empirical evidence that a large family of these techniques do not detect OOD reliably in classification tasks. This paper gives a theoretical explanation for said experimental findings and illustrates it on synthetic data. We prove that such techniques are not able to reliably identify OOD samples in a classification setting, since their level of confidence is generalized to unseen areas of the feature space. This result stems from the interplay between the representation of ReLU networks as piece-wise affine transformations, the saturating nature of activation functions like softmax, and the most widely-used uncertainty metrics.
翻訳日:2021-05-16 04:04:51 公開日:2021-02-26
# (参考訳) ColorShapeLinks: 教育者や学生のためのボードゲームAIコンペティション [全文訳有]

ColorShapeLinks: A board game AI competition for educators and students ( http://arxiv.org/abs/2012.09015v2 )

ライセンス: CC BY 4.0
Nuno Fachada(参考訳) ColorShapeLinksは、ゲーム開発における学生や教育者向けに特別に設計されたAIボードゲームコンペティションフレームワークで、オープン性とアクセシビリティを念頭に置いている。 このコンペは、simplexity board gameの任意サイズのバージョンに基づいており、そのモットーである"simple to learn, complex to master"は、興味深いことにaiエージェントにも当てはまる。 ColorShapeLinksはグラフィカルおよびテキストベースのフロントエンドと、業界標準ツールを使用して構築された完全にオープンでドキュメント化された開発フレームワークを提供する。 ColorShapeLinksは競争相手であるだけでなく、教育者や学生が自分の競争をホストするためのゲームとフレームワークでもある。 AIクラスの内部コンペティションの実行や、IEEE Conference on Gamesで国際AIコンペティションの開催に成功している。

ColorShapeLinks is an AI board game competition framework specially designed for students and educators in videogame development, with openness and accessibility in mind. The competition is based on an arbitrarily-sized version of the Simplexity board game, the motto of which, "simple to learn, complex to master", is curiously also applicable to AI agents. ColorShapeLinks offers graphical and text-based frontends and a completely open and documented development framework built using industry standard tools and following software engineering best practices. ColorShapeLinks is not only a competition, but both a game and a framework which educators and students can extend and use to host their own competitions. It has been successfully used for running internal competitions in AI classes, as well as for hosting an international AI competition at the IEEE Conference on Games.
翻訳日:2021-05-03 11:09:37 公開日:2021-02-26
# (参考訳) 私はまだあなたを信頼できますか。 分散シフトがアルゴリズム的会話に与える影響を理解する [全文訳有]

Can I Still Trust You?: Understanding the Impact of Distribution Shifts on Algorithmic Recourses ( http://arxiv.org/abs/2012.11788v2 )

ライセンス: CC BY 4.0
Kaivalya Rawal, Ece Kamar, Himabindu Lakkaraju(参考訳) 雇用の決定からローンの承認まで、予測モデルが様々な決定を下すためにますます展開されているため、影響を受ける個人に信頼できるリコースを提供するアルゴリズムの設計に重点が置かれている。 本研究では,分布シフトのレンズによるアルゴリズムの講義の信頼性を評価する。すなわち,現状のアルゴリズムが分布シフトに対して堅牢であるかどうかを検討する。 私たちの知る限りでは、この研究は、この批判的な問題に取り組む最初の試みとなる。 我々は、時間シフト、地理空間シフト、データ修正によるシフトなど、様々な種類の分布シフトを収集する複数の合成および実世界のデータセットを実験した。 その結果,上記の分散シフトが,最先端アルゴリズムによる帰結を無効にする可能性が示唆された。 提案理論は, 分散シフトによるリコース無効化確率の低い値を確立し, この無効化確率と, 現代のリコース生成アルゴリズムで最小化されるコストの典型的な概念とのトレードオフの存在を示す。 本研究は,リコース発見戦略の根本的な欠陥を明らかにするだけでなく,リコース生成アルゴリズムの設計と開発を再考する新たな手法を開拓する。

As predictive models are being increasingly deployed to make a variety of consequential decisions ranging from hiring decisions to loan approvals, there is growing emphasis on designing algorithms that can provide reliable recourses to affected individuals. In this work, we assess the reliability of algorithmic recourses through the lens of distribution shifts i.e., we study if the recourses generated by state-of-the-art algorithms are robust to distribution shifts. To the best of our knowledge, this work makes the first attempt at addressing this critical question. We experiment with multiple synthetic and real world datasets capturing different kinds of distribution shifts including temporal shifts, geospatial shifts, and shifts due to data corrections. Our results demonstrate that all the aforementioned distribution shifts could potentially invalidate the recourses generated by state-of-the-art algorithms. Our theoretical results establish a lower bound on the probability of recourse invalidation due to distribution shifts, and show the existence of a tradeoff between this invalidation probability and typical notions of cost minimized by modern recourse generation algorithms. Our findings not only expose fundamental flaws in recourse finding strategies but also pave new way for rethinking the design and development of recourse generation algorithms.
翻訳日:2021-04-27 04:05:58 公開日:2021-02-26
# (参考訳) 私たちは同じページにいますか? 強化学習を用いたロボットチームにおける計画課題の階層的説明生成 [全文訳有]

Are We On The Same Page? Hierarchical Explanation Generation for Planning Tasks in Human-Robot Teaming using Reinforcement Learning ( http://arxiv.org/abs/2012.11792v2 )

ライセンス: CC BY 4.0
Mehrdad Zakershahrak and Samira Ghodratnama(参考訳) 説明を提供することは、人間ロボットのチームリングフレームワークにおけるAIエージェントにとって必須の能力であると考えられている。 正しい説明は、AIエージェントの意思決定の背後にある根拠を提供する。 しかしながら、提供された説明を理解するための人間のチームメイトの認知的要求を維持するために、先行研究は、説明を特定の順序で提供したり、説明の生成と計画実行の間を行き来することに焦点を当ててきた。 さらに、これらのアプローチは、提供された説明を通じて共有するために必要な詳細の度合いを考慮していない。 本研究では,エージェントが生成する説明,特に複雑な説明は,受取人の認知負荷を維持したい人間のチームメートが望む詳細レベルに合致するように抽象化されるべきである。 したがって、階層的説明モデルを学ぶことは難しい課題である。 さらに、エージェントは学習したチームメイトの好みを新しいシナリオに移すための一貫性のある高レベルなポリシーに従う必要があります。 本評価では,説明の理解過程,特に複雑かつ詳細な説明が階層的であることを確認した。 この側面を反映した人間の嗜好は、認知過程の奥深くに隠された知識同化のための抽象概念の作成と活用と正確に一致する。 階層的な説明は, 認知負荷を低減しつつ, 作業性能と行動解釈性を向上することを示した。 これらの結果は,様々な領域にわたる強化学習と計画を活用した説明可能なエージェントの設計に光を当てた。

Providing explanations is considered an imperative ability for an AI agent in a human-robot teaming framework. The right explanation provides the rationale behind an AI agent's decision-making. However, to maintain the human teammate's cognitive demand to comprehend the provided explanations, prior works have focused on providing explanations in a specific order or intertwining the explanation generation with plan execution. Moreover, these approaches do not consider the degree of details required to share throughout the provided explanations. In this work, we argue that the agent-generated explanations, especially the complex ones, should be abstracted to be aligned with the level of details the human teammate desires to maintain the recipient's cognitive load. Therefore, learning a hierarchical explanations model is a challenging task. Moreover, the agent needs to follow a consistent high-level policy to transfer the learned teammate preferences to a new scenario while lower-level detailed plans are different. Our evaluation confirmed the process of understanding an explanation, especially a complex and detailed explanation, is hierarchical. The human preference that reflected this aspect corresponded exactly to creating and employing abstraction for knowledge assimilation hidden deeper in our cognitive process. We showed that hierarchical explanations achieved better task performance and behavior interpretability while reduced cognitive load. These results shed light on designing explainable agents utilizing reinforcement learning and planning across various domains.
翻訳日:2021-04-27 03:49:23 公開日:2021-02-26
# 非線形神経放射場:モノクロ映像からの動的シーンの再構成と新しい視点合成

Non-Rigid Neural Radiance Fields: Reconstruction and Novel View Synthesis of a Dynamic Scene From Monocular Video ( http://arxiv.org/abs/2012.12247v3 )

ライセンス: Link先を確認
Edgar Tretschk, Ayush Tewari, Vladislav Golyanik, Michael Zollh\"ofer, Christoph Lassner, Christian Theobalt(参考訳) nr-nerf(non-rigid neural radiance fields)は,一般の非剛性動的シーンに対する再構成と新しい視点合成手法である。 本研究では,動的シーンのrgb画像を,例えば単眼映像記録から入力として取得し,高品質な時空間形状と外観表現を作成する。 特に,単一ハンドヘルドのコンシューマグレードカメラであっても,新しい仮想カメラビューからダイナミックシーンの高度なレンダリングを合成するのに十分であることを示す。 本手法は, 動的シーンを標準体積と変形に分解する。 シーン変形は、直線線が無拘束に変形してシーンの動きを表すレイ曲げとして実装される。 また,シーンの剛性領域をよりよく制約し,より安定した結果が得られる新しい剛性回帰ネットワークを提案する。 レイ曲げと剛性ネットワークは、明確な監督なしに訓練される。 新規なビュー合成に加えて,ビューと時間間の密接な対応推定を可能にするとともに,モーション誇張などの魅力的なビデオ編集アプリケーションも提供する。 本手法は, アブレーション研究を含む広範囲な評価と, 現状との比較により, 有効性を示す。 我々は読者に質的な結果のために補足ビデオを見るよう促す。 私たちのコードはオープンソースになります。

We present Non-Rigid Neural Radiance Fields (NR-NeRF), a reconstruction and novel view synthesis approach for general non-rigid dynamic scenes. Our approach takes RGB images of a dynamic scene as input, e.g., from a monocular video recording, and creates a high-quality space-time geometry and appearance representation. In particular, we show that even a single handheld consumer-grade camera is sufficient to synthesize sophisticated renderings of a dynamic scene from novel virtual camera views, for example a `bullet-time' video effect. Our method disentangles the dynamic scene into a canonical volume and its deformation. Scene deformation is implemented as ray bending, where straight rays are deformed non-rigidly to represent scene motion. We also propose a novel rigidity regression network that enables us to better constrain rigid regions of the scene, which leads to more stable results. The ray bending and rigidity network are trained without any explicit supervision. In addition to novel view synthesis, our formulation enables dense correspondence estimation across views and time, as well as compelling video editing applications such as motion exaggeration. We demonstrate the effectiveness of our method using extensive evaluations, including ablation studies and comparisons to the state of the art. We urge the reader to watch the supplemental video for qualitative results. Our code will be open sourced.
翻訳日:2021-04-26 07:21:22 公開日:2021-02-26
# 不変リスク最小化は不変量を取るか?

Does Invariant Risk Minimization Capture Invariance? ( http://arxiv.org/abs/2101.01134v2 )

ライセンス: Link先を確認
Pritish Kamath and Akilesh Tangella and Danica J. Sutherland and Nathan Srebro(参考訳) 本稿では,Arjovskyらによる不変リスク最小化(IRM)の定式化について述べる。 (2019)は、少なくとも実用的な「線形」形式や、IRMのモチベーションのある例に直従する非常に単純な問題において、「自然な」不変性を捉えることができない。 これは、制約のないermと比較しても、新しい環境の一般化を悪化させる可能性がある。 この問題は、線形変種(具体的にはIRMv1)と完全な非線形IRMの定式化の間の大きなギャップに起因する。 さらに, 「右」 不変量を捕捉しても, 環境間の損失関数が不変でないため, IRM が準最適予測器を学習することは可能であることを示す。 この問題は人口分布の不均一性を測定する際にも生じるが、IRMがサンプリングに非常に脆弱であるという事実によりさらに悪化する。

We show that the Invariant Risk Minimization (IRM) formulation of Arjovsky et al. (2019) can fail to capture "natural" invariances, at least when used in its practical "linear" form, and even on very simple problems which directly follow the motivating examples for IRM. This can lead to worse generalization on new environments, even when compared to unconstrained ERM. The issue stems from a significant gap between the linear variant (as in their concrete method IRMv1) and the full non-linear IRM formulation. Additionally, even when capturing the "right" invariances, we show that it is possible for IRM to learn a sub-optimal predictor, due to the loss function not being invariant across environments. The issues arise even when measuring invariance on the population distributions, but are exacerbated by the fact that IRM is extremely fragile to sampling.
翻訳日:2021-04-11 23:05:48 公開日:2021-02-26
# (参考訳) 物体検出法を用いたミツバチのハチ寄生ダニの視覚診断 [全文訳有]

Visual diagnosis of the Varroa destructor parasitic mite in honeybees using object detector techniques ( http://arxiv.org/abs/2103.03133v1 )

ライセンス: CC BY 4.0
Simon Bilik, Lukas Kratochvila, Adam Ligocki, Ondrej Bostik, Tomas Zemcik, Matous Hybl, Karel Horak, Ludek Zalud(参考訳) ミツバチは世界で最も危険なミツバチ(apis mellifera)寄生虫の1つであり、ミツバチのコロニーはその拡散を制御するために定期的に監視されなければならない。 本稿では,ミツバチコロニーの健康状態モニタリングのためのオブジェクト検出法を提案する。 この方法はオンライン計測と処理の可能性を秘めている。 実験では、YOLOとSSDオブジェクト検出器とDeep SVDD異常検出器を比較した。 さまざまな場面で健康なハチと感染したハチの600枚の地上写真によるカスタムデータセットに基づいて、検出装置は感染したミツバチの検出では0.874点、バロアデストラクタのダニ検出では0.727点に達した。 その結果, リアルタイムコンピュータビジョンを用いたミツバチ検査システムにおいて, このアプローチの可能性を実証した。 私たちの知る限りでは、この研究は物体検出器をこの目的のために使う最初の研究です。 これらの物体検出器の性能は、ミツバチコロニーの健康状態を検査できると期待しています。

The Varroa destructor mite is one of the most dangerous Honey Bee (Apis mellifera) parasites worldwide and the bee colonies have to be regularly monitored in order to control its spread. Here we present an object detector based method for health state monitoring of bee colonies. This method has the potential for online measurement and processing. In our experiment, we compare the YOLO and SSD object detectors along with the Deep SVDD anomaly detector. Based on the custom dataset with 600 ground-truth images of healthy and infected bees in various scenes, the detectors reached a high F1 score up to 0.874 in the infected bee detection and up to 0.727 in the detection of the Varroa Destructor mite itself. The results demonstrate the potential of this approach, which will be later used in the real-time computer vision based honey bee inspection system. To the best of our knowledge, this study is the first one using object detectors for this purpose. We expect that performance of those object detectors will enable us to inspect the health status of the honey bee colonies.
翻訳日:2021-04-05 08:23:40 公開日:2021-02-26
# 遺伝的アルゴリズムを用いた変換畳み込みニューラルネットワークのハイパーパラメータ最適化

Genetic Algorithm based hyper-parameters optimization for transfer Convolutional Neural Network ( http://arxiv.org/abs/2103.03875v1 )

ライセンス: Link先を確認
Chen Li, JinZhe Jiang, YaQian Zhao, RenGang Li, EnDong Wang, Xin Zhang, Kun Zhao(参考訳) ハイパーパラメータ最適化は、ディープニューラルネットワークを開発する上で難しい問題である。 転送層とトレーニング可能な層の決定は、転送畳み込みニューラルネットワーク(CNN)の設計における主要なタスクである。 従来のCNNモデルは直感に基づいて手動で設計される。 本稿では,トランスファーモデルのトレーニング可能な層選択に遺伝的アルゴリズムを適用した。 フィルタ基準は、トレーニング可能な層の数と精度で構成される。 その結果,この手法は有能であることがわかった。 このシステムは、猫と犬のデータセットの分類において、97%の精度で15世代以内の精度で収束する。 さらに, 遺伝的アルゴリズムの結果に基づく後方推定により, ネットワーク層の勾配特徴を捉えることができ, トランスファーaiモデルの理解に寄与することを示した。

Hyperparameter optimization is a challenging problem in developing deep neural networks. Decision of transfer layers and trainable layers is a major task for design of the transfer convolutional neural networks (CNN). Conventional transfer CNN models are usually manually designed based on intuition. In this paper, a genetic algorithm is applied to select trainable layers of the transfer model. The filter criterion is constructed by accuracy and the counts of the trainable layers. The results show that the method is competent in this task. The system will converge with a precision of 97% in the classification of Cats and Dogs datasets, in no more than 15 generations. Moreover, backward inference according the results of the genetic algorithm shows that our method can capture the gradient features in network layers, which plays a part on understanding of the transfer AI models.
翻訳日:2021-04-05 00:52:28 公開日:2021-02-26
# 不均質な目的:現状と今後の研究

Heterogeneous Objectives: State-of-the-Art and Future Research ( http://arxiv.org/abs/2103.15546v1 )

ライセンス: Link先を確認
Richard Allmendinger and Joshua Knowles(参考訳) 異質な目的を持つ多目的最適化問題は、(単位やスケールでは無視できないだけでなく)非常に異なる種類の目的関数コンポーネントを持つものとして定義される。 例えば、不均一な問題では、客観的関数成分は形式的な計算複雑性、実際的な評価努力(時間、コスト、資源)、決定論(確率的対決定論的)、あるいはこれら3つの組み合わせで異なる場合がある。 特に困難な多様性は、時間を消費する実験室ベースの目的と、より高速なコンピュータベースの計算を用いて評価される他の目的の組み合わせによって起こりうる。 おそらくより一般的には、全ての目的を計算的に評価することができるが、あるものは比較的単純な閉形式計算から計算される一方で、長いシミュレーションプロセスを必要とする。 本章では、異質な目的(実世界の例を参照して)のトピックに関するさらなる研究の必要性を動機付け、異質なタイプの基本的な分類法を拡張し、これらの問題に取り組む技術の現状について検討する。 評価時間(相対性)における不均一性に特に注目する。 また,多目的問題における評価時間の不均一性について,合理的な仮定から推定する実験結果と,今後この領域に寄与する可能性のある調査研究スレッドについて述べる。

Multiobjective optimization problems with heterogeneous objectives are defined as those that possess significantly different types of objective function components (not just incommensurable in units or scale). For example, in a heterogeneous problem the objective function components may differ in formal computational complexity, practical evaluation effort (time, costs, or resources), determinism (stochastic vs deterministic), or some combination of all three. A particularly challenging variety of heterogeneity may occur by the combination of a time-consuming laboratory-based objective with other objectives that are evaluated using faster computer-based calculations. Perhaps more commonly, all objectives may be evaluated computationally, but some may require a lengthy simulation process while others are computed from a relatively simple closed-form calculation. In this chapter, we motivate the need for more work on the topic of heterogeneous objectives (with reference to real-world examples), expand on a basic taxonomy of heterogeneity types, and review the state of the art in tackling these problems. We give special attention to heterogeneity in evaluation time (latency) as this requires sophisticated approaches. We also present original experimental work on estimating the amount of heterogeneity in evaluation time expected in many-objective problems, given reasonable assumptions, and survey related research threads that could contribute to this area in future.
翻訳日:2021-04-05 00:52:18 公開日:2021-02-26
# 日本語意味的役割ラベリングのための依存解析を用いた階層型マルチタスク学習

Hierarchical Multitask Learning with Dependency Parsing for Japanese Semantic Role Labeling Improves Performance of Argument Identification ( http://arxiv.org/abs/2101.06071v2 )

ライセンス: Link先を確認
Tomohiro Nakamura, Tomoya Miyashita, Soh Ohara(参考訳) FrameNetとPropBankの出現により、多くの意味的役割ラベルシステム(SRL)が英語で提案されている。 日本語述語引数構造解析 (pasa) の研究は行われているが, 表面事例に着目した研究が多い。 日本におけるSRLの深層事例に関する先行研究はごくわずかであり, モデルの精度は低い。 そこで本研究では,依存関係解析(DP)を用いた階層型マルチタスク学習手法を提案する。 また,引数識別と引数分類を同時に行うジョイントモデルを用いて実験を行った。 その結果,DPを用いたマルチタスクは議論の識別に有効であることが示唆された。

With the advent of FrameNet and PropBank, many semantic role labeling (SRL) systems have been proposed in English. Although research on Japanese predicate argument structure analysis (PASA) has been conducted, most studies focused on surface cases. There are only few previous works on Japanese SRL for deep cases, and their models' accuracies are low. Therefore, we propose a hierarchical multitask learning method with dependency parsing (DP) and show that our model achieves state-of-the-art results in Japanese SRL. Also, we conduct experiments with a joint model that performs both argument identification and argument classification simultaneously. The result suggests that multitasking with DP is mainly effective for argument identification.
翻訳日:2021-03-28 11:21:21 公開日:2021-02-26
# オープンソースの脅威情報収集・管理自動化システム

A System for Automated Open-Source Threat Intelligence Gathering and Management ( http://arxiv.org/abs/2101.07769v2 )

ライセンス: Link先を確認
Peng Gao, Xiaoyuan Liu, Edward Choi, Bhavna Soman, Chinmaya Mishra, Kate Farris, Dawn Song(参考訳) 急速に進化するサイバー脅威の状況に気付くために、オープンソースのCyber Threat Intelligence(OSCTI)はコミュニティから注目を集めている。 一般的に、脅威に関する知識は多くのosctiレポートで提示される。 しかし、高品質なOSCTIの必要性が強まっているにもかかわらず、既存のOSCTIの収集および管理プラットフォームは、主に分離された低レベルのCompromiseの指標に焦点を当てている。 一方、高度な概念(敵戦術、技法、手続きなど)とその関係性は見過ごされ、完全な脅威シナリオを明らかにする上で重要な脅威行動に関する本質的な知識を含んでいる。 このギャップを埋めるため,OSCTIの自動収集・管理システムであるSecurityKGを提案する。 SecurityKGは、さまざまなソースからOSCTIレポートを収集し、AIとNLP技術を組み合わせて脅威行動に関する高精度な知識を抽出し、セキュリティ知識グラフを構築する。 SecurityKGはまた、知識グラフ探索を容易にするさまざまなタイプの対話性をサポートするUIを提供する。

To remain aware of the fast-evolving cyber threat landscape, open-source Cyber Threat Intelligence (OSCTI) has received growing attention from the community. Commonly, knowledge about threats is presented in a vast number of OSCTI reports. Despite the pressing need for high-quality OSCTI, existing OSCTI gathering and management platforms, however, have primarily focused on isolated, low-level Indicators of Compromise. On the other hand, higher-level concepts (e.g., adversary tactics, techniques, and procedures) and their relationships have been overlooked, which contain essential knowledge about threat behaviors that is critical to uncovering the complete threat scenario. To bridge the gap, we propose SecurityKG, a system for automated OSCTI gathering and management. SecurityKG collects OSCTI reports from various sources, uses a combination of AI and NLP techniques to extract high-fidelity knowledge about threat behaviors, and constructs a security knowledge graph. SecurityKG also provides a UI that supports various types of interactivity to facilitate knowledge graph exploration.
翻訳日:2021-03-22 11:30:37 公開日:2021-02-26
# invariance, encodings, and generalization: learning identity effects with neural networks

Invariance, encodings, and generalization: learning identity effects with neural networks ( http://arxiv.org/abs/2101.08386v2 )

ライセンス: Link先を確認
S. Brugiapaglia, M. Liu, P. Tupper(参考訳) 言語や他の認知領域では、オブジェクトの2つの要素が同一であるかどうかが、それがよく形成されているかどうかを判断する。 このような制約をアイデンティティ効果と呼ぶ。 実例から順調に学習するシステムを開発する場合、特定効果で構築することは十分容易である。 しかし、ID効果は明確なガイダンスなしでデータから学べるだろうか? 単純な基準を満たすアルゴリズムが正しい推論を行うことができないことを厳密に証明できるフレームワークを提供する。 次に,勾配に基づくアルゴリズム(確率的勾配降下法やadam法など)で学習された深層フィードフォワードニューラルネットワークを含む幅広い学習アルゴリズムが,入力の符号化に依存する条件を満たすことを示す。 より広い状況下では、ネットワークが必ずしも正しく分類しない敵例を提供することができる。 最後に,新しい入力に一般化するアルゴリズムの能力に対する異なる入力エンコーディングの効果を探索する計算実験により,我々の理論を実証する。

Often in language and other areas of cognition, whether two components of an object are identical or not determines if it is well formed. We call such constraints identity effects. When developing a system to learn well-formedness from examples, it is easy enough to build in an identify effect. But can identity effects be learned from the data without explicit guidance? We provide a framework in which we can rigorously prove that algorithms satisfying simple criteria cannot make the correct inference. We then show that a broad class of learning algorithms including deep feedforward neural networks trained via gradient-based algorithms (such as stochastic gradient descent or the Adam method) satisfy our criteria, dependent on the encoding of inputs. In some broader circumstances we are able to provide adversarial examples that the network necessarily classifies incorrectly. Finally, we demonstrate our theory with computational experiments in which we explore the effect of different input encodings on the ability of algorithms to generalize to novel inputs.
翻訳日:2021-03-21 08:05:51 公開日:2021-02-26
# (参考訳) ニューラルネットワーク上のグラディエントDescentは、通常安定性の端で発生する

Gradient Descent on Neural Networks Typically Occurs at the Edge of Stability ( http://arxiv.org/abs/2103.00065v1 )

ライセンス: CC BY 4.0
Jeremy M. Cohen, Simran Kaur, Yuanzhi Li, J. Zico Kolter, Ameet Talwalkar(参考訳) 実験的に、ニューラルネットワークトレーニングの目的に対するフルバッチ勾配降下は、通常、安定性のエッジと呼ばれる体制で動作します。 この方法では、トレーニング損失ヘッシアンの最大固有値は数値値2 / \text{(step size)}$の真上をホバリングし、トレーニング損失は短い時間スケールで単調に振る舞うが、長い時間スケールで一貫して減少する。 この振舞いは最適化の分野で広範囲にわたる推定と矛盾するため、これらの推定がニューラルネットワークのトレーニングに関係しているかどうかという疑問が提起される。 我々は,安定性のエッジにおける最適化の厳密な理解を目的とした今後の取り組みに刺激を与えることを期待している。 コードはhttps://github.com/l ocuslab/edge-of-stab ilityで入手できる。

We empirically demonstrate that full-batch gradient descent on neural network training objectives typically operates in a regime we call the Edge of Stability. In this regime, the maximum eigenvalue of the training loss Hessian hovers just above the numerical value $2 / \text{(step size)}$, and the training loss behaves non-monotonically over short timescales, yet consistently decreases over long timescales. Since this behavior is inconsistent with several widespread presumptions in the field of optimization, our findings raise questions as to whether these presumptions are relevant to neural network training. We hope that our findings will inspire future efforts aimed at rigorously understanding optimization at the Edge of Stability. Code is available at https://github.com/l ocuslab/edge-of-stab ility.
翻訳日:2021-03-05 23:24:29 公開日:2021-02-26
# (参考訳) 道路走行速度予測のための逆・回帰ネットワークを用いた分割グラフ畳み込み [全文訳有]

Partitioned Graph Convolution Using Adversarial and Regression Networks for Road Travel Speed Prediction ( http://arxiv.org/abs/2103.00067v1 )

ライセンス: CC BY 4.0
Jakob Meldgaard Kj{\ae}r, Lasse Kristensen, Mads Alberg Christensen(参考訳) 道路網内の経路のリアルタイム走行時間推定の需要が高まり、道路網内の道路の品質走行時間情報へのアクセスがますます重要になっている。 本稿では, デンマーク道路網(drn)データ集合の文脈において, 走行時間推定が困難となる850,980区間の23.88%を対象として, 動脈道路に対してデータカバレッジがばらばらで歪曲していることを示す。 グラフベースのデータ処理の既存のソリューションは、しばしばグラフのサイズを無視するが、これは大量の接続された道路セグメントを持つ道路ネットワークにとって明らかな問題である。 そこで本研究では,逆正規化畳み込みネットワークによって生成された潜在表現に基づいて,データレスエッジの道路セグメント走行速度ヒストグラムを予測する枠組みを提案する。 分割アルゴリズムを適用してグラフを高密度サブグラフに分割し、各サブグラフのモデルをトレーニングしてノードの速度ヒストグラムを予測します。 このフレームワークは、DRNデータセットを用いた走行速度ヒストグラムの予測において、71.5%の交差点と78.5%の相関の精度を実現する。 さらに、データセットをクラスタに分割することで、フレームワークのパフォーマンスが向上することを示した。 具体的には、道路ネットワークデータセットを100のクラスタに分割し、各クラスタに約500の道路セグメントがあり、10および20のクラスタを使用する場合よりも優れたパフォーマンスを実現します。

Access to quality travel time information for roads in a road network has become increasingly important with the rising demand for real-time travel time estimation for paths within road networks. In the context of the Danish road network (DRN) dataset used in this paper, the data coverage is sparse and skewed towards arterial roads, with a coverage of 23.88% across 850,980 road segments, which makes travel time estimation difficult. Existing solutions for graph-based data processing often neglect the size of the graph, which is an apparent problem for road networks with a large amount of connected road segments. To this end, we propose a framework for predicting road segment travel speed histograms for dataless edges, based on a latent representation generated by an adversarially regularized convolutional network. We apply a partitioning algorithm to divide the graph into dense subgraphs, and then train a model for each subgraph to predict speed histograms for the nodes. The framework achieves an accuracy of 71.5% intersection and 78.5% correlation on predicting travel speed histograms using the DRN dataset. Furthermore, experiments show that partitioning the dataset into clusters increases the performance of the framework. Specifically, partitioning the road network dataset into 100 clusters, with approximately 500 road segments in each cluster, achieves a better performance than when using 10 and 20 clusters.
翻訳日:2021-03-05 10:41:32 公開日:2021-02-26
# (参考訳) CXR-Net:胸部X線スクリーニングのための人工知能パイプライン [全文訳有]

CXR-Net: An Artificial Intelligence Pipeline for Quick Covid-19 Screening of Chest X-Rays ( http://arxiv.org/abs/2103.00087v1 )

ライセンス: CC BY 4.0
Haikal Abdulah, Benjamin Huber, Sinan Lal, Hassan Abdallah, Luigi L. Palese, Hamid Soltanian-Zadeh, Domenico L. Gatti(参考訳) CXR-Netは、胸部X線(CXR)からSARS-CoV-2を素早く検出するための2モジュール人工知能パイプラインである。 モジュール1は6395 cxrの公開データセットで訓練され、放射線科医は肺輪郭に注意を付けて、心臓と大血管を重複する肺のマスクを生成した。 モジュール2は、学習係数を持つ最初の畳み込み層を、ウェーブレット散乱変換(WST)によって提供される固定係数の層に置き換えるハイブリッドコンベットである。 モジュール2は、患者CXRとそれに対応する肺マスクをモジュール1で計算し、クラス割り当て(Covid vs. non-Covid)とSARS関連肺領域を識別する高分解能熱マップを出力する。 モジュール2は、デトロイトのHenry Ford Health System(HFHS)病院で取得した非CovidおよびRT-PCRのCXRのデータセットで訓練された。 全ての非コビッドCXRは、コビッド前(2018-2019年)のもので、非コビッド病の影響を受ける正常な肺と肺の両方の画像を含んでいた。 トレーニングとテストセットはそれぞれ2265 CXR (1417 Covid negative, 848 Covid positive) と1532 CXR (945 Covid negative, 587 Covid positive) で構成されていた。 1887年の画像で訓練され、378の画像に対して検証された6つの異なるクロスバリデーションモデルがアンサンブルモデルに結合され、その結果、テストセットのCXRイメージを精度 = 0.789、精度 = 0.739、リコール = 0.693、F1スコア = 0.715、ROC(AUC) = 0.852で分類した。

CXR-Net is a two-module Artificial Intelligence pipeline for the quick detection of SARS-CoV-2 from chest X-rays (CXRs). Module 1 was trained on a public dataset of 6395 CXRs with radiologist annotated lung contours to generate masks of the lungs that overlap the heart and large vasa. Module 2 is a hybrid convnet in which the first convolutional layer with learned coefficients is replaced by a layer with fixed coefficients provided by the Wavelet Scattering Transform (WST). Module 2 takes as inputs the patients CXRs and corresponding lung masks calculated by Module 1, and produces as outputs a class assignment (Covid vs. non-Covid) and high resolution heat maps that identify the SARS associated lung regions. Module 2 was trained on a dataset of CXRs from non-Covid and RT-PCR confirmed Covid patients acquired at the Henry Ford Health System (HFHS) Hospital in Detroit. All non-Covid CXRs were from pre-Covid era (2018-2019), and included images from both normal lungs and lungs affected by non-Covid pathologies. Training and test sets consisted of 2265 CXRs (1417 Covid negative, 848 Covid positive), and 1532 CXRs (945 Covid negative, 587 Covid positive), respectively. Six distinct cross-validation models, each trained on 1887 images and validated against 378 images, were combined into an ensemble model that was used to classify the CXR images of the test set with resulting Accuracy = 0.789, Precision = 0.739, Recall = 0.693, F1 score = 0.715, ROC(AUC) = 0.852.
翻訳日:2021-03-04 09:44:17 公開日:2021-02-26
# (参考訳) 公共空間における視覚の注意と歩行行動を変化させるポスト・フレイナーとスマートフォン・ゾンビ・スマートフォン間 [全文訳有]

Between Post-Flaneur and Smartphone Zombie Smartphone Users Altering Visual Attention and Walking Behavior in Public Space ( http://arxiv.org/abs/2103.01217v1 )

ライセンス: CC BY 4.0
Gorsev Argin, Burak Pak, Handan Turkoglu(参考訳) 日常生活におけるスマートフォンの広範な使用は、公共空間における新しい用途と行動のモードを作り出しました。 これらの認識は、人間、技術、都市環境の関係を改善するのに役立つ都市設計と都市計画の実践に不可欠である。 本研究の目的は、公共空間におけるスマートフォン利用者の視覚的注意と歩行行動の変化を観察し、新たな人物を明らかにすることである。 この目的のために、ベルギーのヘントにあるコレンマルクト広場は10分間隔で7日間観察された。 スマートフォン利用者の視線と歩行行動は,位置情報と時間データとしてエンコードされ,統計的および空間的分析手法を用いて解析,マッピングされた。 本研究は,スマートフォン利用者の特徴を識別する新しい手法を開発し,実装し,新しい空間的価値の微妙な評価を行った。 この発見は、公共空間における視覚的相互作用や動きの変化を明らかにしながら、発火後やスマートフォンゾンビなどの発生人物のさまざまな行動パターンをよりよく理解し、理解した。 その結果、研究者やデザイナーが空間分析手法をどのように活用し、未来の公共空間を仮想と物理を統合したハイブリッド構造として再考できるかという疑問が持ち上がった。

The extensive use of smartphones in our everyday lives has created new modes of appropriation and behavior in public spaces. Recognition of these are essential for urban design and planning practices which help us to improve the relationship between humans, technologies, and urban environment. This study aims to research smartphone users in public space by observing their altering visual attention and walking behavior, and, in this way, to reveal the emergent new figures. For this purpose, Korenmarkt square in Ghent, Belgium, was observed for seven days in 10-min time intervals. The gaze and walking behavior of smartphone users were encoded as geo-located and temporal data, analyzed and mapped using statistical and spatial analysis methods. Developing and implementing new methods for identifying the characteristics of smartphone users, this study resulted in a nuanced characterization of novel spatial appropriations. The findings led to a better understanding and knowledge of the different behavior patterns of emergent figures such as post-flaneurs and smartphone zombies while uncovering their altering visual interactions with and movements in the public space. The results evoked questions on how researchers and designers can make use of spatial analysis methods and rethink the public space of the future as a hybrid construct integrating the virtual and the physical.
翻訳日:2021-03-04 06:25:04 公開日:2021-02-26
# (参考訳) サンプリングやシャッフルなしで実践的でプライベートな(深い)学習

Practical and Private (Deep) Learning without Sampling or Shuffling ( http://arxiv.org/abs/2103.00039v1 )

ライセンス: CC BY 4.0
Peter Kairouz, Brendan McMahan, Shuang Song, Om Thakkar, Abhradeep Thakurta, Zheng Xu(参考訳) ミニバッチグラデーションを用いた差分プライバシー(DP)のトレーニングモデルを検討する。 DP-SGDは、最高のプライバシー/正確性/コンピューティングのトレードオフを得るためにサンプリングまたはシャフリングによるプライバシーの増幅を必要とします。 残念ながら、正確なサンプリングとシャッフルの正確な要件は、重要な実践シナリオ、特に連邦学習(FL)において得るのは難しい。 DP-SGDの増幅と(理論的および実証的に)有利に比較し、より柔軟なデータアクセスパターンを可能にするDP-FTRLのDPバリアントを設計し、分析します。 DP-FTRLはいかなる形のプライバシー増幅も使用しません。

We consider training models with differential privacy (DP) using mini-batch gradients. The existing state-of-the-art, Differentially Private Stochastic Gradient Descent (DP-SGD), requires privacy amplification by sampling or shuffling to obtain the best privacy/accuracy/com putation trade-offs. Unfortunately, the precise requirements on exact sampling and shuffling can be hard to obtain in important practical scenarios, particularly federated learning (FL). We design and analyze a DP variant of Follow-The-Regulariz ed-Leader (DP-FTRL) that compares favorably (both theoretically and empirically) to amplified DP-SGD, while allowing for much more flexible data access patterns. DP-FTRL does not use any form of privacy amplification.
翻訳日:2021-03-04 05:42:53 公開日:2021-02-26
# 知識認識ゼロショット学習:調査と展望

Knowledge-aware Zero-Shot Learning: Survey and Perspective ( http://arxiv.org/abs/2103.00070v1 )

ライセンス: Link先を確認
Jiaoyan Chen and Yuxia Geng and Zhuo Chen and Ian Horrocks and Jeff Z. Pan and Huajun Chen(参考訳) ゼロショット学習(ZSL: Zero-shot Learning)は、外部知識を用いてトレーニング中に一度も現れないクラスを予測することを目的とした学習である。 側面情報)は広く調査されている。 本稿では,外部知識の観点からのZSLに向けた文献レビューを行い,外部知識を分類し,その手法をレビューし,異なる外部知識を比較する。 文献レビューでは、ZSLや他の機械学習サンプル不足問題に対処する上で、象徴的知識が果たす役割について論じ、概観する。

Zero-shot learning (ZSL) which aims at predicting classes that have never appeared during the training using external knowledge (a.k.a. side information) has been widely investigated. In this paper we present a literature review towards ZSL in the perspective of external knowledge, where we categorize the external knowledge, review their methods and compare different external knowledge. With the literature review, we further discuss and outlook the role of symbolic knowledge in addressing ZSL and other machine learning sample shortage issues.
翻訳日:2021-03-03 17:25:50 公開日:2021-02-26
# より良い反事実的説明があれば--反事実的xai手法の評価を正すための5つの重要な欠陥

If Only We Had Better Counterfactual Explanations: Five Key Deficits to Rectify in the Evaluation of Counterfactual XAI Techniques ( http://arxiv.org/abs/2103.01035v1 )

ライセンス: Link先を確認
Mark T Keane, Eoin M Kenny, Eoin Delaney, Barry Smyth(参考訳) 近年,eXplainable AI(XAI)問題に対する解決策として,対実的説明に関するAI研究が爆発的に増えている。 これらの説明は他の説明技術よりも技術的、心理的、法的利益を提供するようです。 文献に報告された100の異なる非実用説明方法を調査した。 本研究は,これらの手法が心理的および計算学的に適切に評価され,発生した欠点を定量化する方法である。 例えば、これらのメソッドの21%がユーザテスト済みである。 これらの手法の評価における5つの重要な欠陥が詳細に述べられ、その問題点を解決するために、ベンチマーク評価を標準化したロードマップが提案されている。

In recent years, there has been an explosion of AI research on counterfactual explanations as a solution to the problem of eXplainable AI (XAI). These explanations seem to offer technical, psychological and legal benefits over other explanation techniques. We survey 100 distinct counterfactual explanation methods reported in the literature. This survey addresses the extent to which these methods have been adequately evaluated, both psychologically and computationally, and quantifies the shortfalls occurring. For instance, only 21% of these methods have been user tested. Five key deficits in the evaluation of these methods are detailed and a roadmap, with standardised benchmark evaluations, is proposed to resolve the issues arising; issues, that currently effectively block scientific progress in this field.
翻訳日:2021-03-03 17:23:45 公開日:2021-02-26
# TEC:Tensor Ensemble Classifier for Big Data

TEC: Tensor Ensemble Classifier for Big Data ( http://arxiv.org/abs/2103.00025v1 )

ライセンス: Link先を確認
Peide Li and Rejaul Karim and Tapabrata Maiti(参考訳) テンソル(多次元配列)分類問題は、画像認識や高次元時空間データ解析などの現代の応用で非常に人気がある。 サポートベクターマシンから拡張されたサポートテンソルマシン(STM)分類器は、入力としてテンソルデータのCANDECOMP / Parafac(CP)形式を取り、データラベルを予測します。 STMのディストリビューションフリーで統計的に一貫性のある特性は、幅広いデータアプリケーションにうまく対応できる可能性を強調しています。 STMのトレーニングは高次元テンソルで計算コストがかかる。 しかし、ランダムプロジェクション技術によりテンソルのサイズを縮小することで、計算時間とコストを削減でき、通常のマシンで大型テンソルを扱うことが可能です。 ランダムに投影されたテンソルで推定されたSTMをRandom Projection-based Support Tensor Machine(RPSTM)と名付けた。 本研究では,大テンソル分類のための複数のRSSTMを集約したテンソルエンサンブル分類器(TEC)を提案する。 TECはアンサンブルのアイデアを利用してランダムプロジェクションによって引き起こされる過度な分類リスクを最小化し、RPSTMの計算上の利点を生かしながら統計的に一貫した予測を提供する。 各 RPSTM は独立して推定できるため、TEC はさらに並列計算技術を利用して計算効率を上げることができる。 理論的および数値的な結果は、高次元テンソル分類問題におけるTECモデルの良好な性能を示す。 モデル予測は統計的に一貫性があり、そのリスクは最適なベイズリスクに収束することが示されている。 さらに、計算コストとtecモデルの予測リスクとのトレードオフについても強調する。 この手法は、広範囲なシミュレーションと実データ例によって検証される。 TECを適用するためのpythonパッケージを用意しています。

Tensor (multidimensional array) classification problem has become very popular in modern applications such as image recognition and high dimensional spatio-temporal data analysis. Support Tensor Machine (STM) classifier, which is extended from the support vector machine, takes CANDECOMP / Parafac (CP) form of tensor data as input and predicts the data labels. The distribution-free and statistically consistent properties of STM highlight its potential in successfully handling wide varieties of data applications. Training a STM can be computationally expensive with high-dimensional tensors. However, reducing the size of tensor with a random projection technique can reduce the computational time and cost, making it feasible to handle large size tensors on regular machines. We name an STM estimated with randomly projected tensor as Random Projection-based Support Tensor Machine (RPSTM). In this work, we propose a Tensor Ensemble Classifier (TEC), which aggregates multiple RPSTMs for big tensor classification. TEC utilizes the ensemble idea to minimize the excessive classification risk brought by random projection, providing statistically consistent predictions while taking the computational advantage of RPSTM. Since each RPSTM can be estimated independently, TEC can further take advantage of parallel computing techniques and be more computationally efficient. The theoretical and numerical results demonstrate the decent performance of TEC model in high-dimensional tensor classification problems. The model prediction is statistically consistent as its risk is shown to converge to the optimal Bayes risk. Besides, we highlight the trade-off between the computational cost and the prediction risk for TEC model. The method is validated by extensive simulation and a real data example. We prepare a python package for applying TEC, which is available at our GitHub.
翻訳日:2021-03-03 17:20:43 公開日:2021-02-26
# 摂動安定性を超えて:ノイズの多い安定インスタンス上のMAP推論のためのLPリカバリ保証

Beyond Perturbation Stability: LP Recovery Guarantees for MAP Inference on Noisy Stable Instances ( http://arxiv.org/abs/2103.00034v1 )

ライセンス: Link先を確認
Hunter Lang, Aravind Reddy, David Sontag, Aravindan Vijayaraghavan(参考訳) いくつかの研究により、ポッツモデルにおけるMAP推論問題の摂動安定例は、自然線形プログラミング(LP)緩和を用いて正確に解けることが示されている。 しかし、これらの研究の多くは、比較的厳密な摂動安定性の定義を満たさないインスタンス上でのLP解の保証をほとんど(あるいはなし)与えない。 本研究では, LP が安定インスタンスの MAP ソリューションを, ノイズによってインスタンスが破損した後でも, ほぼ回復することを示した。 この「ノイズの多い安定」モデルは、実践的なMAP推論問題に現実的に適合する:我々は、"クローズ"安定なインスタンスを見つけるアルゴリズムを設計し、コンピュータビジョンのいくつかの実世界のインスタンスが摂動安定であることを示す。 これらの結果は, このlp緩和の実用的性能に対する新たな理論的説明を示唆する。

Several works have shown that perturbation stable instances of the MAP inference problem in Potts models can be solved exactly using a natural linear programming (LP) relaxation. However, most of these works give few (or no) guarantees for the LP solutions on instances that do not satisfy the relatively strict perturbation stability definitions. In this work, we go beyond these stability results by showing that the LP approximately recovers the MAP solution of a stable instance even after the instance is corrupted by noise. This "noisy stable" model realistically fits with practical MAP inference problems: we design an algorithm for finding "close" stable instances, and show that several real-world instances from computer vision have nearby instances that are perturbation stable. These results suggest a new theoretical explanation for the excellent performance of this LP relaxation in practice.
翻訳日:2021-03-03 17:20:16 公開日:2021-02-26
# 深部量子アグリゲーション

Deep Quantile Aggregation ( http://arxiv.org/abs/2103.00083v1 )

ライセンス: Link先を確認
Taesup Kim, Rasool Fakoor, Jonas Mueller, Alexander J. Smola, Ryan J. Tibshirani(参考訳) 条件量子推定は、予測の不確実性を定量化したり、過剰に還元されることなく多様な人口をモデル化する必要性によって動機付けられた重要な統計的学習課題である。 このために多くのモデルが開発されている。 メタ視点を採用することで,予測精度を高めるために,任意の条件付き量子量モデルの集約を行う汎用フレームワーク(ニューラルネットワーク最適化に触発された)を提案する。 我々は、個々のモデル、量子レベル、特徴値によって重みが変化する柔軟性を高めるための重み付きアンサンブル戦略を検討する。 グラデーションをバックプロパゲーションできる単純な変換を適用することで、隣接するレベルにおける推定分位子を交差させないことを保証し、それによって分位数アンサンブルを構築するために現代のディープラーニングツールキットを活用できるのです。 実験により,構成モデル自体が強力で柔軟である場合でも,アンサンブルが精度を大幅に向上させることができることを確認した。

Conditional quantile estimation is a key statistical learning challenge motivated by the need to quantify uncertainty in predictions or to model a diverse population without being overly reductive. As such, many models have been developed for this problem. Adopting a meta viewpoint, we propose a general framework (inspired by neural network optimization) for aggregating any number of conditional quantile models in order to boost predictive accuracy. We consider weighted ensembling strategies of increasing flexibility where the weights may vary over individual models, quantile levels, and feature values. An appeal of our approach is its portability: we ensure that estimated quantiles at adjacent levels do not cross by applying simple transformations through which gradients can be backpropagated, and this allows us to leverage the modern deep learning toolkit for building quantile ensembles. Our experiments confirm that ensembling can lead to big gains in accuracy, even when the constituent models are themselves powerful and flexible.
翻訳日:2021-03-03 17:20:00 公開日:2021-02-26
# 自然言語スーパービジョンから伝達可能な視覚モデルを学ぶ

Learning Transferable Visual Models From Natural Language Supervision ( http://arxiv.org/abs/2103.00020v1 )

ライセンス: Link先を確認
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever(参考訳) 最先端のコンピュータビジョンシステムは、所定の対象カテゴリの固定セットを予測するように訓練される。 この制限された形式の監督は、他の視覚概念を特定するためにラベル付きデータを追加する必要があるため、その一般性とユーザビリティを制限します。 画像の生のテキストから直接学ぶことは、はるかに広い監督源を活用する有望な代替手段である。 インターネットから収集した4億(画像,テキスト)ペアのデータセット上で,SOTA画像表現をスクラッチから学習する上で,どのキャプションがどの画像に対応するかを予測するための単純な事前学習タスクが効率的かつスケーラブルであることを示す。 事前トレーニングの後、自然言語は学習した視覚概念を参照(あるいは新しい概念を記述)するために使用され、モデルの下流タスクへのゼロショット転送を可能にする。 我々は,30以上の既存コンピュータビジョンデータセットをベンチマークし,OCR,ビデオ中のアクション認識,地理的局在化,さまざまな種類の細粒度オブジェクト分類など,このアプローチの性能について検討した。 モデルは非自明にほとんどのタスクに転送され、データセット固有のトレーニングを必要とせずに、完全に監督されたベースラインと競合することが多い。 例えば、imagenet zero-shotのオリジナルのresnet-50の精度は、トレーニングした1億2800万のトレーニングサンプルを使用せずに一致します。 コードと事前トレーニング済みのモデルウェイトはhttps://github.com/O penAI/CLIP.comで公開しています。

State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text about images is a promising alternative which leverages a much broader source of supervision. We demonstrate that the simple pre-training task of predicting which caption goes with which image is an efficient and scalable way to learn SOTA image representations from scratch on a dataset of 400 million (image, text) pairs collected from the internet. After pre-training, natural language is used to reference learned visual concepts (or describe new ones) enabling zero-shot transfer of the model to downstream tasks. We study the performance of this approach by benchmarking on over 30 different existing computer vision datasets, spanning tasks such as OCR, action recognition in videos, geo-localization, and many types of fine-grained object classification. The model transfers non-trivially to most tasks and is often competitive with a fully supervised baseline without the need for any dataset specific training. For instance, we match the accuracy of the original ResNet-50 on ImageNet zero-shot without needing to use any of the 1.28 million training examples it was trained on. We release our code and pre-trained model weights at https://github.com/O penAI/CLIP.
翻訳日:2021-03-03 17:14:27 公開日:2021-02-26
# PURSUhInT:知識蒸留のための層クラスタリングに基づくインフォメーティブなヒントポイントの探索

PURSUhInT: In Search of Informative Hint Points Based on Layer Clustering for Knowledge Distillation ( http://arxiv.org/abs/2103.00053v1 )

ライセンス: Link先を確認
Reyhan Kevser Keser, Aydin Ayanzadeh, Omid Abdollahi Aghdam, Caglar Kilcioglu, Behcet Ugur Toreyin, Nazim Kemal Ure(参考訳) 深層ニューラルネットワークを圧縮するための新しい知識蒸留法を提案する。 知識蒸留の最も効率的な方法の1つは、教師モデルのいくつかの異なる層から情報(ヒント)で学生モデルが注入されるヒント蒸留です。 ヒントポイントの選択は圧縮性能を大幅に変えることができるが、ブルートフォースハイパーパラメータサーチ以外は、それらを選択するための体系的なアプローチは存在しない。 本稿では,教師モデルの階層を複数の指標に対してクラスタリングし,クラスタセンターをヒントポイントとして利用するクラスタリングに基づくヒント選択手法を提案する。 提案手法は,教師モデルとしてResNet-110ネットワークを用いたCIFAR-100データセットで検証されている。 その結果,提案アルゴリズムが選択したヒントポイントは,同じ学生モデルやデータセット上での最先端知識蒸留アルゴリズムに対して,圧縮性能が向上することがわかった。

We propose a novel knowledge distillation methodology for compressing deep neural networks. One of the most efficient methods for knowledge distillation is hint distillation, where the student model is injected with information (hints) from several different layers of the teacher model. Although the selection of hint points can drastically alter the compression performance, there is no systematic approach for selecting them, other than brute-force hyper-parameter search. We propose a clustering based hint selection methodology, where the layers of teacher model are clustered with respect to several metrics and the cluster centers are used as the hint points. The proposed approach is validated in CIFAR-100 dataset, where ResNet-110 network was used as the teacher model. Our results show that hint points selected by our algorithm results in superior compression performance with respect to state-of-the-art knowledge distillation algorithms on the same student models and datasets.
翻訳日:2021-03-03 17:14:08 公開日:2021-02-26
# CURE: 自動プログラム修復のためのコード認識ニューラルマシン翻訳

CURE: Code-Aware Neural Machine Translation for Automatic Program Repair ( http://arxiv.org/abs/2103.00073v1 )

ライセンス: Link先を確認
Nan Jiang, Thibaud Lutellier, Lin Tan(参考訳) ソフトウェア信頼性を向上させるには自動プログラム修復(apr)が不可欠である。 近年,ソフトウェアバグの自動修正にニューラルネットワーク翻訳(NMT)技術が用いられている。 有望ながら、これらのアプローチには2つの大きな制限がある。 彼らの検索空間はしばしば正しい修正を含まず、その検索戦略は厳密なコード構文のようなソフトウェア知識を無視します。 これらの制限のために、既存のNMTベースの技術は、最高のテンプレートベースのアプローチを上回ります。 提案するCUREは,3つの新奇性を持つ新しいNMTベースのAPR手法である。 まず、curyは大きなソフトウェアコードベースでプログラミング言語(pl)モデルを事前トレーニングし、aprタスクの前に開発者のようなソースコードを学ぶ。 第2に、curyは、バギーコードに近いコンパイル可能なパッチとパッチに注目して、より正確な修正を見つける新しいコードアウェア検索戦略をデザインする。 最後に、CUREはサブワードトークン化技術を使用して、より正確な修正を含むより小さな検索スペースを生成します。 2つの広く使われているベンチマークの評価から、57の欠陥4jバグと26のquixbugsバグを正しく修正できることが分かりました。

Automatic program repair (APR) is crucial to improve software reliability. Recently, neural machine translation (NMT) techniques have been used to fix software bugs automatically. While promising, these approaches have two major limitations. Their search space often does not contain the correct fix, and their search strategy ignores software knowledge such as strict code syntax. Due to these limitations, existing NMT-based techniques underperform the best template-based approaches. We propose CURE, a new NMT-based APR technique with three major novelties. First, CURE pre-trains a programming language (PL) model on a large software codebase to learn developer-like source code before the APR task. Second, CURE designs a new code-aware search strategy that finds more correct fixes by focusing on compilable patches and patches that are close in length to the buggy code. Finally, CURE uses a subword tokenization technique to generate a smaller search space that contains more correct fixes. Our evaluation on two widely-used benchmarks shows that CURE correctly fixes 57 Defects4J bugs and 26 QuixBugs bugs, outperforming all existing APR techniques on both benchmarks.
翻訳日:2021-03-03 17:05:33 公開日:2021-02-26
# ニューラルコード要約

Neural Code Summarization ( http://arxiv.org/abs/2103.01025v1 )

ライセンス: Link先を確認
Piyush Shrivastava(参考訳) コードの要約は、意味的に意味があり、ソフトウェアの推定タスクを正確に記述できる読みやすい要約を生成するタスクです。 プログラム理解は、知識伝達の最も面倒なタスクの1つになっている。 コードベースが時間とともに進化するにつれて、変更を行うたびに記述を手動で更新する必要があります。 ベンチマークとカスタムデータセットに基づくキャプションを,オリジナルと生成結果の比較により推定する自動アプローチを提案する。

Code summarization is the task of generating readable summaries that are semantically meaningful and can accurately describe the presumed task of a software. Program comprehension has become one of the most tedious tasks for knowledge transfer. As the codebase evolves over time, the description needs to be manually updated each time with the changes made. An automatic approach is proposed to infer such captions based on benchmarked and custom datasets with comparison between the original and generated results.
翻訳日:2021-03-03 17:01:43 公開日:2021-02-26
# ゼロショットセマンティックセグメンテーションのための再帰的トレーニング

Recursive Training for Zero-Shot Semantic Segmentation ( http://arxiv.org/abs/2103.00086v1 )

ライセンス: Link先を確認
Ce Wang, Moshiur Farazi, Nick Barnes(参考訳) 汎用意味セグメンテーションはバックボーンcnnネットワークに依存し、各画像ピクセルを「seen」オブジェクトクラス(トレーニング中に利用可能なオブジェクトクラス)またはバックグラウンドクラスに分類するのに役立つ識別的特徴を抽出する。 ゼロショットセマンティックセグメンテーションは、コンピュータビジョンモデルがこれまで見たことのないオブジェクトクラスに属する画像ピクセルを識別することを必要とする課題です。 unseen'クラスのイメージピクセルを背景から分離する汎用意味セグメンテーションモデルの導入は、まだ未解決の課題である。 最近のモデルでは、ゼロショット設定のためのセグメンテーションモデルの最終的なピクセル分類層を微調整することでこの問題にアプローチしているが、監督の欠如による識別的特徴の習得に苦慮している。 擬似特徴表現を用いたゼロショット設定のためのセマンティックセグメンテーションモデルの再トレーニングを監督する再帰的トレーニングスキームを提案する。 そこで本研究では、画素分類層の高信頼出力を擬似表現として重み付けし、生成元にフィードバックするゼロショット最大平均離散度(ZS-MMD)損失を提案する。 ジェネレータエンドのループを閉じることで、再トレーニング中にモデルが'unseen'クラスのより識別的な特徴表現を学ぶのに役立つように監督する。 本研究では,再帰学習とZS-MMD損失を用いて,Pascal-VOC 2012データセットとPascal-Contextデータセットの最先端性能を実現する。

General purpose semantic segmentation relies on a backbone CNN network to extract discriminative features that help classify each image pixel into a 'seen' object class (ie., the object classes available during training) or a background class. Zero-shot semantic segmentation is a challenging task that requires a computer vision model to identify image pixels belonging to an object class which it has never seen before. Equipping a general purpose semantic segmentation model to separate image pixels of 'unseen' classes from the background remains an open challenge. Some recent models have approached this problem by fine-tuning the final pixel classification layer of a semantic segmentation model for a Zero-Shot setting, but struggle to learn discriminative features due to the lack of supervision. We propose a recursive training scheme to supervise the retraining of a semantic segmentation model for a zero-shot setting using a pseudo-feature representation. To this end, we propose a Zero-Shot Maximum Mean Discrepancy (ZS-MMD) loss that weighs high confidence outputs of the pixel classification layer as a pseudo-feature representation, and feeds it back to the generator. By closing-the-loop on the generator end, we provide supervision during retraining that in turn helps the model learn a more discriminative feature representation for 'unseen' classes. We show that using our recursive training and ZS-MMD loss, our proposed model achieves state-of-the-art performance on the Pascal-VOC 2012 dataset and Pascal-Context dataset.
翻訳日:2021-03-03 16:44:34 公開日:2021-02-26
# マルチアーマッド帯域における局所クラスタリング

Local Clustering in Contextual Multi-Armed Bandits ( http://arxiv.org/abs/2103.00063v1 )

ライセンス: Link先を確認
Yikun Ban, Jingrui He(参考訳) 文脈的マルチアームバンディット(MAB)におけるユーザクラスタの同定について検討する。 コンテキストMABは、コンテンツレコメンデーションやオンライン広告など、多くの実際のアプリケーションに効果的なツールです。 実際には、ユーザ依存はユーザのアクション、つまり報酬において重要な役割を果たす。 類似したユーザーをクラスタリングすることで報酬の質が向上し、結果としてより効果的なコンテンツレコメンデーションとターゲット広告につながる。 従来のクラスタリング設定とは異なり、未知のbanditパラメータに基づいてユーザをクラスタ化します。 特に、コンテキストMABにおけるクラスタ検出の問題を定義し、ローカルクラスタリング手順に埋め込まれたバンディットアルゴリズムLOCBを提案する。 また, クラスタ化の正確性と効率, 後悔の束縛の観点から, locbに関する理論的解析を行う。 最後に,提案アルゴリズムを,最先端のベースラインを上回る様々な側面から評価する。

We study identifying user clusters in contextual multi-armed bandits (MAB). Contextual MAB is an effective tool for many real applications, such as content recommendation and online advertisement. In practice, user dependency plays an essential role in the user's actions, and thus the rewards. Clustering similar users can improve the quality of reward estimation, which in turn leads to more effective content recommendation and targeted advertising. Different from traditional clustering settings, we cluster users based on the unknown bandit parameters, which will be estimated incrementally. In particular, we define the problem of cluster detection in contextual MAB, and propose a bandit algorithm, LOCB, embedded with local clustering procedure. And, we provide theoretical analysis about LOCB in terms of the correctness and efficiency of clustering and its regret bound. Finally, we evaluate the proposed algorithm from various aspects, which outperforms state-of-the-art baselines.
翻訳日:2021-03-03 16:23:19 公開日:2021-02-26
# ノイズトランクSGD:最適化と一般化

Noisy Truncated SGD: Optimization and Generalization ( http://arxiv.org/abs/2103.00075v1 )

ライセンス: Link先を確認
Yingxue Zhou, Xinyan Li, Arindam Banerjee(参考訳) 過パラメータ深層学習に適用するsgdに関する最近の実証研究は、epochs上の勾配成分のほとんどが極めて小さいことを示している。 このような観測に触発されて,小勾配成分のほとんどをゼロに切断(ハードしきい値)し,すべての成分にガウス雑音を付加する雑音勾配降下アルゴリズムであるsgd(nt-sgd)の特性を厳密に研究した。 非凸平滑な問題を考えると、まず経験的勾配ノルムの観点からNT-SGDの収束率を確立し、バニラSGDと同じ順序であることを示す。 さらに,NT-SGDはサドル点から確実に脱出でき,従来と比べノイズの少ないことを証明した。 また、離散化一般化ランゲビン力学に基づく一様安定性を用いたNT-SGDの一般化境界を確立する。 MNIST (VGG-5) と CIFAR-10 (ResNet-18) を用いた実験により, NT-SGD はバニラSGD の速度と精度に一致し, より理論的性質が良く, 鋭いミニマを回避できることを示した。

Recent empirical work on SGD applied to over-parameterized deep learning has shown that most gradient components over epochs are quite small. Inspired by such observations, we rigorously study properties of noisy truncated SGD (NT-SGD), a noisy gradient descent algorithm that truncates (hard thresholds) the majority of small gradient components to zeros and then adds Gaussian noise to all components. Considering non-convex smooth problems, we first establish the rate of convergence of NT-SGD in terms of empirical gradient norms, and show the rate to be of the same order as the vanilla SGD. Further, we prove that NT-SGD can provably escape from saddle points and requires less noise compared to previous related work. We also establish a generalization bound for NT-SGD using uniform stability based on discretized generalized Langevin dynamics. Our experiments on MNIST (VGG-5) and CIFAR-10 (ResNet-18) demonstrate that NT-SGD matches the speed and accuracy of vanilla SGD, and can successfully escape sharp minima while having better theoretical properties.
翻訳日:2021-03-03 16:23:06 公開日:2021-02-26
# GaNDLF:医療画像におけるスケーラブルなエンドツーエンド臨床ワークフローのための一般向けディープラーニングフレームワーク

GaNDLF: A Generally Nuanced Deep Learning Framework for Scalable End-to-End Clinical Workflows in Medical Imaging ( http://arxiv.org/abs/2103.01006v1 )

ライセンス: Link先を確認
Sarthak Pati, Siddhesh P. Thakur, Megh Bhalerao, Ujjwal Baid, Caleb Grenko, Brandon Edwards, Micah Sheller, Jose Agraz, Bhakti Baheti, Vishnu Bashyam, Parth Sharma, Babak Haghighi, Aimilia Gastounioti, Mark Bergman, Bjoern Menze, Despina Kontos, Christos Davatzikos, Spyridon Bakas(参考訳) ディープラーニング(DL)は、科学と臨床の両方のコミュニティで最適化された機械学習の潜在的な影響を大幅に強調しています。 TensorFlow(Google)、PyTorch(Facebook)、MXNet(Apache)といった主要な産業組織からのオープンソースDLライブラリの出現は、計算分析の民主化におけるDLの約束にも貢献している。 しかし、dlアルゴリズムの開発には技術と専門的な背景が増す必要があり、実装の詳細のばらつきによってその再現性が阻害される。 障壁を低くし、DL開発、トレーニング、推論のメカニズムをより安定、再現可能、スケーラブルにするために、広範な技術的背景を必要とせずに、この原稿は \textbf{G}ener\textbf{a}lly \textbf{N}uanced \textbf{D}eep \textbf{L}earning \textbf{F}ramework (GaNDLF)を提案する。 k$フォールドのクロスバリデーション、データ拡張、複数モードと出力クラス、マルチGPUトレーニングのビルトインサポート、放射線画像と組織像の両方を扱う機能、GaNDLFは、すべてのDL関連タスクに対するエンドツーエンドソリューションの提供、医療画像の問題への取り組み、臨床ワークフローへのデプロイのための堅牢なアプリケーションフレームワークの提供を目的としている。

Deep Learning (DL) has greatly highlighted the potential impact of optimized machine learning in both the scientific and clinical communities. The advent of open-source DL libraries from major industrial entities, such as TensorFlow (Google), PyTorch (Facebook), and MXNet (Apache), further contributes to DL promises on the democratization of computational analytics. However, increased technical and specialized background is required to develop DL algorithms, and the variability of implementation details hinders their reproducibility. Towards lowering the barrier and making the mechanism of DL development, training, and inference more stable, reproducible, and scalable, without requiring an extensive technical background, this manuscript proposes the \textbf{G}ener\textbf{a}lly \textbf{N}uanced \textbf{D}eep \textbf{L}earning \textbf{F}ramework (GaNDLF). With built-in support for $k$-fold cross-validation, data augmentation, multiple modalities and output classes, and multi-GPU training, as well as the ability to work with both radiographic and histologic imaging, GaNDLF aims to provide an end-to-end solution for all DL-related tasks, to tackle problems in medical imaging and provide a robust application framework for deployment in clinical workflows.
翻訳日:2021-03-03 16:18:12 公開日:2021-02-26
# 知識グラフマージゲインのセキュアな評価

Secure Evaluation of Knowledge Graph Merging Gain ( http://arxiv.org/abs/2103.00082v1 )

ライセンス: Link先を確認
Leandro Eichenberger, Michael Cochez, Benjamin Heitmann, Stefan Decker(参考訳) 両者の知識の違いと共通点を見つけることは重要な課題である。 このような比較は、一方の当事者が第二の当事者の知識を獲得する価値があるかを決定したい場合、または同様に2の当事者が決定しようとする場合、コラボレーションが有益であるかどうかを決定する場合、必要です。 これら2つの当事者がお互いを信頼できない場合(例えば、競争相手であることから)、どちらの当事者も彼らの資産を共有しようとしないため、そのような比較を行うのは難しい。 本稿では,非開示契約やプロトコル中の第三者を必要とせず,知識グラフのこの問題に対処する。 このプロトコルでは、2つの知識グラフの交わりはプライバシ保護方式で決定される。 これは、実際の知識グラフ内容を秘密にしながら、他の当事者の知識グラフを取得することによる潜在的な利益を示すさまざまなメトリクスの計算が続きます。 このプロトコルは、ブラインドシグネチャと(カウント)ブルームフィルタを使用して、漏れた情報の量を減らします。 最後に、相手の知識グラフを得たい相手は、そのグラフのどの部分が得られているかを事前に知ることができない(つまり、良い部分のみを得るか、共有するかを選択できない)方法で、その一部を取得することができる。 この部分の品質を検査した後、買い手は取引を進めることを決定できる。 プロトコルの分析は、開発したプロトコルが悪意のある参加者に対して安全であることを示している。 さらなる実験的分析により、資源消費はナレッジグラフの文数と線形にスケールすることを示した。

Finding out the differences and commonalities between the knowledge of two parties is an important task. Such a comparison becomes necessary, when one party wants to determine how much it is worth to acquire the knowledge of the second party, or similarly when two parties try to determine, whether a collaboration could be beneficial. When these two parties cannot trust each other (for example, due to them being competitors) performing such a comparison is challenging as neither of them would be willing to share any of their assets. This paper addresses this problem for knowledge graphs, without a need for non-disclosure agreements nor a third party during the protocol. During the protocol, the intersection between the two knowledge graphs is determined in a privacy preserving fashion. This is followed by the computation of various metrics, which give an indication of the potential gain from obtaining the other parties knowledge graph, while still keeping the actual knowledge graph contents secret. The protocol makes use of blind signatures and (counting) Bloom filters to reduce the amount of leaked information. Finally, the party who wants to obtain the other's knowledge graph can get a part of such in a way that neither party is able to know beforehand which parts of the graph are obtained (i.e., they cannot choose to only get or share the good parts). After inspection of the quality of this part, the Buyer can decide to proceed with the transaction. The analysis of the protocol indicates that the developed protocol is secure against malicious participants. Further experimental analysis shows that the resource consumption scales linear with the number of statements in the knowledge graph.
翻訳日:2021-03-03 16:12:19 公開日:2021-02-26
# 交通渋滞低減のためのスケーラブルマルチエージェント運転ポリシー

Scalable Multiagent Driving Policies For Reducing Traffic Congestion ( http://arxiv.org/abs/2103.00058v1 )

ライセンス: Link先を確認
Jiaxun Cui, William Macke, Harel Yedidsion, Aastha Goyal, Daniel Urielli, Peter Stone(参考訳) 交通渋滞は現代の都市環境において大きな課題です。 自動運転と自動運転(AV)の業界全体の開発は、AVが混雑低減にどのように貢献できるかという疑問を喚起します。 過去の研究では、AVと人間駆動車両の両方で小規模の混合交通シナリオでは、制御されたマルチエージェント運転ポリシーを実行する少数のAVが混雑を緩和できることを示しています。 本稿では,既存のアプローチをスケールアップし,より複雑なシナリオにおいてavのための新しいマルチエージェント駆動ポリシを開発する。 我々は、自動車が道路に動的に合流して出発するオープンロードネットワークシナリオにおいて、過去の研究で使用されている渋滞指標が操作可能であることを示すことから始める。 次に、オープンなネットワークトラフィック効率を反映し、操作に頑健な異なるメトリックの使用を提案する。 次に,モジュラトランスファー強化学習手法を提案し,それをマルチエージェント駆動ポリシをスケールアップして,従来のシナリオ(数十台の車両ではなく数百台の車両)よりも桁違いに大きいシミュレーションされた現実的シナリオにおいて,ヒューマンライクなトラフィックと既存のアプローチを上回る。 さらに、モジュラー転送学習アプローチは、ネットワークの重要な場所にデータ収集を集中させることで、実験におけるトレーニング時間の最大80%を節約します。 最後に、人間主導のトラフィックに対する混雑を改善する分散マルチエージェントポリシーを初めて示します。 既存のセンシングとアクティベーション機能のみに依存しており、新しい通信インフラストラクチャを追加する必要はないため、分散アプローチはより現実的で実用的です。

Traffic congestion is a major challenge in modern urban settings. The industry-wide development of autonomous and automated vehicles (AVs) motivates the question of how can AVs contribute to congestion reduction. Past research has shown that in small scale mixed traffic scenarios with both AVs and human-driven vehicles, a small fraction of AVs executing a controlled multiagent driving policy can mitigate congestion. In this paper, we scale up existing approaches and develop new multiagent driving policies for AVs in scenarios with greater complexity. We start by showing that a congestion metric used by past research is manipulable in open road network scenarios where vehicles dynamically join and leave the road. We then propose using a different metric that is robust to manipulation and reflects open network traffic efficiency. Next, we propose a modular transfer reinforcement learning approach, and use it to scale up a multiagent driving policy to outperform human-like traffic and existing approaches in a simulated realistic scenario, which is an order of magnitude larger than past scenarios (hundreds instead of tens of vehicles). Additionally, our modular transfer learning approach saves up to 80% of the training time in our experiments, by focusing its data collection on key locations in the network. Finally, we show for the first time a distributed multiagent policy that improves congestion over human-driven traffic. The distributed approach is more realistic and practical, as it relies solely on existing sensing and actuation capabilities, and does not require adding new communication infrastructure.
翻訳日:2021-03-03 16:00:57 公開日:2021-02-26
# 多項式ベースを生成するDampened LTIシステムの構築

Constructing Dampened LTI Systems Generating Polynomial Bases ( http://arxiv.org/abs/2103.00051v1 )

ライセンス: Link先を確認
Andreas St\"ockel(参考訳) 本稿では,LDN(Legendre Delay Network)の基盤となるLTIシステムについて述べる。 この目的のために、まずルジャンドル多項式を生成するLTIシステムを構築する。 次に、"遅延再エンコーダ"と呼ばれるものを使って、ウィンドウ付きインパルス応答を近似してシステムをダンプします。 結果のLTIシステムはLDNシステムと等価である。 同じ手法は任意の多項式基底にも適用できるが、典型的には対応する LTI システムを構築するために使用できる閉形式方程式の集合は存在しない。

We present an alternative derivation of the LTI system underlying the Legendre Delay Network (LDN). To this end, we first construct an LTI system that generates the Legendre polynomials. We then dampen the system by approximating a windowed impulse response, using what we call a "delay re-encoder". The resulting LTI system is equivalent to the LDN system. The same technique can be applied to arbitrary polynomial bases, although there typically is no set of closed form equations that can be used to construct the corresponding LTI systems.
翻訳日:2021-03-03 15:47:32 公開日:2021-02-26
# (参考訳) 多視点情報ボトルネックによるロバスト深層強化学習 [全文訳有]

Robust Deep Reinforcement Learning via Multi-View Information Bottleneck ( http://arxiv.org/abs/2102.13268v1 )

ライセンス: CC BY 4.0
Jiameng Fan, Wenchao Li(参考訳) 深部強化学習(DRL)エージェントは、トレーニング環境では目に見えない視覚変化に敏感であることが多い。 この問題に対処するために,RLのための頑健な表現学習手法を提案する。 マルチビュー情報ボトルネック(MIB)原則に基づく補助目標を導入し、将来の予測的であり、タスクに関係しない気晴らしに敏感な学習表現を促進する。 これにより、視覚的な気晴らしに強く、目に見えない環境に一般化できる高性能ポリシーをトレーニングできます。 背景が自然な映像に置き換えられた場合でも、視覚制御の課題に対してSOTAの性能を発揮できることを実証します。 さらに,本手法は,大規模Procgenベンチマークを用いて,未知の環境への一般化の基盤となることを実証した。

Deep reinforcement learning (DRL) agents are often sensitive to visual changes that were unseen in their training environments. To address this problem, we introduce a robust representation learning approach for RL. We introduce an auxiliary objective based on the multi-view information bottleneck (MIB) principle which encourages learning representations that are both predictive of the future and less sensitive to task-irrelevant distractions. This enables us to train high-performance policies that are robust to visual distractions and can generalize to unseen environments. We demonstrate that our approach can achieve SOTA performance on challenging visual control tasks, even when the background is replaced with natural videos. In addition, we show that our approach outperforms well-established baselines on generalization to unseen environments using the large-scale Procgen benchmark.
翻訳日:2021-03-02 03:07:53 公開日:2021-02-26
# (参考訳) ロバストで信頼性の高いアルゴリズムリコースを目指して [全文訳有]

Towards Robust and Reliable Algorithmic Recourse ( http://arxiv.org/abs/2102.13620v1 )

ライセンス: CC BY 4.0
Sohini Upadhyay, Shalmali Joshi, Himabindu Lakkaraju(参考訳) 予測モデルが高リスクな意思決定(ローンの承認など)に展開されるようになってきており、影響を受けた個人へのリアクションを提供するポストホック技術への関心が高まっている。 これらの手法は、基礎となる予測モデルが変化しないという仮定のもとにリコースを生成する。 しかし、実際には、モデルはしばしば様々な理由(例えばデータセットのシフト)のために定期的に更新されるため、事前に定められたリコースは有効ではない。 この問題に対処するために,モデルシフトに頑健なリコースを見つけるために,敵対的トレーニングを活用する新しいフレームワークRObust Algorithmic Recourse(ROAR)を提案する。 我々の知る限りでは、この研究はこの重要な問題の第一の解決法を提案する。 また、モデルシフトに堅牢なリコースの構築の重要性を強調した詳細な理論的分析を実施します。1)モデルシフトに堅牢でない既存のアプローチによって生成されたリコースの無効化の確率を低く導出します。 2) フレームワークが出力するロバストなリコースによって生じる追加コストが有界であることを証明する。 複数の合成データと実世界のデータセットの実験的評価は,提案手法の有効性を示し,理論的知見を裏付けるものである。

As predictive models are increasingly being deployed in high-stakes decision making (e.g., loan approvals), there has been growing interest in post hoc techniques which provide recourse to affected individuals. These techniques generate recourses under the assumption that the underlying predictive model does not change. However, in practice, models are often regularly updated for a variety of reasons (e.g., dataset shifts), thereby rendering previously prescribed recourses ineffective. To address this problem, we propose a novel framework, RObust Algorithmic Recourse (ROAR), that leverages adversarial training for finding recourses that are robust to model shifts. To the best of our knowledge, this work proposes the first solution to this critical problem. We also carry out detailed theoretical analysis which underscores the importance of constructing recourses that are robust to model shifts: 1) we derive a lower bound on the probability of invalidation of recourses generated by existing approaches which are not robust to model shifts. 2) we prove that the additional cost incurred due to the robust recourses output by our framework is bounded. Experimental evaluation on multiple synthetic and real-world datasets demonstrates the efficacy of the proposed framework and supports our theoretical findings.
翻訳日:2021-03-02 02:20:24 公開日:2021-02-26
# (参考訳) sjive: 監督ジョイントと個人差の説明 [全文訳有]

sJIVE: Supervised Joint and Individual Variation Explained ( http://arxiv.org/abs/2102.13278v1 )

ライセンス: CC BY 4.0
Elise F. Palzer, Christine Wendt, Russell Bowler, Craig P. Hersh, Sandra E. Safo, and Eric F. Lock(参考訳) 同一対象に関するデータの複数ビューであるマルチソースデータの解析は、分子生物学的研究においてますます一般的になっている。 近年,データソース間の構造や関係を明らかにする手法が試みられ,他の手法ではすべてのソースを用いて結果の予測モデルの構築が試みられている。 しかし、(1)すべてのデータセットが共有するデータ構造のみを検討し、各ソース固有の構造を無視するか、(2)結果に考慮せずに基礎構造を最初に抽出するため、両方の既存の方法は現在制限されている。 本研究では,(1)共有(結合)構造とソース固有(個別)構造を同時に特定し,(2)これらの構造を用いた結果の線形予測モデルを構築することができる,教師付き関節と個人変動説明法(sJIVE)と呼ばれる手法を提案する。 これら2つのコンポーネントは、マルチソースデータのバリエーションの説明と結果の妥協に重きが置かれている。 シミュレーションでは、マルチソースデータに大量のノイズが存在する場合、sJIVEは既存の手法を上回ります。 COPDGene研究のデータへの適用は、肺機能を予測する遺伝子発現およびプロテオミクスパターンを明らかにします。 sJIVE を実行する関数は R.JIVE パッケージに含まれており、http://github.com/lo ckEF/r.jive でオンラインで入手できる。

Analyzing multi-source data, which are multiple views of data on the same subjects, has become increasingly common in molecular biomedical research. Recent methods have sought to uncover underlying structure and relationships within and/or between the data sources, and other methods have sought to build a predictive model for an outcome using all sources. However, existing methods that do both are presently limited because they either (1) only consider data structure shared by all datasets while ignoring structures unique to each source, or (2) they extract underlying structures first without consideration to the outcome. We propose a method called supervised joint and individual variation explained (sJIVE) that can simultaneously (1) identify shared (joint) and source-specific (individual) underlying structure and (2) build a linear prediction model for an outcome using these structures. These two components are weighted to compromise between explaining variation in the multi-source data and in the outcome. Simulations show sJIVE to outperform existing methods when large amounts of noise are present in the multi-source data. An application to data from the COPDGene study reveals gene expression and proteomic patterns that are predictive of lung function. Functions to perform sJIVE are included in the R.JIVE package, available online at http://github.com/lo ckEF/r.jive .
翻訳日:2021-03-01 23:10:15 公開日:2021-02-26
# (参考訳) OCT-Angiographyにおける深度マップによる3次元血管再建 [全文訳有]

3D Vessel Reconstruction in OCT-Angiography via Depth Map Estimation ( http://arxiv.org/abs/2102.13588v1 )

ライセンス: CC BY 4.0
Shuai Yu, Jianyang Xie, Jinkui Hao, Yalin Zheng, Jiong Zhang, Yan Hu, Jiang Liu, Yitian Zhao(参考訳) 光コヒーレンス断層撮影 (optical coherence tomography angiography,octa) は,近年,眼疾患や全身疾患の治療に広く用いられている。 2次元オクタード画像(顔血管造影図)の手動的または自動的な血管分析は臨床で一般的に用いられるが、臨床意思決定に有用な血管や毛細血管の3d空間分布情報を失う可能性がある。 本稿では,OCTA画像から船舶深度マップを推定した新しい3次元船舶再構築フレームワークを提案する。 まず,オクタ画像中の血管の深さを予測するために,構造的制約のあるネットワークを設計する。 全体構造と画素レベルの予測深度マップの精度を高めるため,MSEとSSIMの損失をトレーニング損失関数として組み合わせた。 最後に,推定深度マップと2次元容器分割結果を用いて3次元容器復元を実現する。 実験結果は,OCTA画像の深度予測と3次元血管再建に有効であり,その後の血管解析に有効であることを示す。

Optical Coherence Tomography Angiography (OCTA) has been increasingly used in the management of eye and systemic diseases in recent years. Manual or automatic analysis of blood vessel in 2D OCTA images (en face angiograms) is commonly used in clinical practice, however it may lose rich 3D spatial distribution information of blood vessels or capillaries that are useful for clinical decision-making. In this paper, we introduce a novel 3D vessel reconstruction framework based on the estimation of vessel depth maps from OCTA images. First, we design a network with structural constraints to predict the depth of blood vessels in OCTA images. In order to promote the accuracy of the predicted depth map at both the overall structure- and pixel- level, we combine MSE and SSIM loss as the training loss function. Finally, the 3D vessel reconstruction is achieved by utilizing the estimated depth map and 2D vessel segmentation results. Experimental results demonstrate that our method is effective in the depth prediction and 3D vessel reconstruction for OCTA images.% results may be used to guide subsequent vascular analysis
翻訳日:2021-03-01 21:43:57 公開日:2021-02-26
# (参考訳) ソーシャルメディア上の危機関連メッセージから実行可能な情報を見つけるためのマルチタスク転送学習 [全文訳有]

Multi-task transfer learning for finding actionable information from crisis-related messages on social media ( http://arxiv.org/abs/2102.13395v1 )

ライセンス: CC BY 4.0
Congcong Wang, David Lillis(参考訳) インシデントストリーム(IS)トラックは、緊急対応のために危機時にソーシャルメディアから重要な情報を見つけることを目的とした研究課題です。 より具体的には、危機関連のツイートのストリームを考えると、ISチャレンジは、1)各ツイートで、情報タイプ(IT)分類タスクとして知られているユーザーの懸念やニーズの種類を分類し、2)各ツイートが優先順位レベル予測タスクとして知られている緊急対応に関してどれほど重要かを推定する参加システムを求めます。 本稿では,この課題に対するマルチタスク転送学習手法について述べる。 提案手法では,BERTのようなエンコーダベースモデルとシーケンス・ツー・シーケンスベースT5の両方を含む最先端のトランスフォーマモデルを用いて,2つのタスクの共振学習を行う。 このアプローチに基づいて、トラックにいくつかのランを提出した。 得られた評価結果は,IT分類と優先度レベルの予測の両方において,我々の業績が他の作業よりも大幅に優れていたことを示している。

The Incident streams (IS) track is a research challenge aimed at finding important information from social media during crises for emergency response purposes. More specifically, given a stream of crisis-related tweets, the IS challenge asks a participating system to 1) classify what the types of users' concerns or needs are expressed in each tweet, known as the information type (IT) classification task and 2) estimate how critical each tweet is with regard to emergency response, known as the priority level prediction task. In this paper, we describe our multi-task transfer learning approach for this challenge. Our approach leverages state-of-the-art transformer models including both encoder-based models such as BERT and a sequence-to-sequence based T5 for joint transfer learning on the two tasks. Based on this approach, we submitted several runs to the track. The returned evaluation results show that our runs substantially outperform other participating runs in both IT classification and priority level prediction.
翻訳日:2021-03-01 21:35:30 公開日:2021-02-26
# (参考訳) ニューラルネットワーク翻訳のための勾配誘導損失マスキング [全文訳有]

Gradient-guided Loss Masking for Neural Machine Translation ( http://arxiv.org/abs/2102.13549v1 )

ライセンス: CC BY 4.0
Xinyi Wang, Ankur Bapna, Melvin Johnson, Orhan Firat(参考訳) 低品質トレーニングデータのニューラルマシン翻訳モデルの性能に対する悪影響を軽減するため、既存の戦略のほとんどはトレーニング開始前に有害なデータをフィルタリングすることに焦点を当てている。 本稿では,少量のクリーンデータに対してモデルの勾配を用いて,トレーニングプロセス中のデータ使用を動的に最適化する戦略について検討する。 トレーニングの各ステップでは、トレーニングデータとクリーンデータとの勾配アライメントを計算し、負のアライメントでデータをマスクアウトする。 私たちの方法には自然な直感があります:良いトレーニングデータは、クリーンデータと同じ方向にモデルパラメータを更新する必要があります。 3つのWMT言語ペアの実験は、我々の手法が強力なベースラインよりも有意な改善をもたらし、改善は異なるドメインのテストデータ間で一般化可能であることを示している。

To mitigate the negative effect of low quality training data on the performance of neural machine translation models, most existing strategies focus on filtering out harmful data before training starts. In this paper, we explore strategies that dynamically optimize data usage during the training process using the model's gradients on a small set of clean data. At each training step, our algorithm calculates the gradient alignment between the training data and the clean data to mask out data with negative alignment. Our method has a natural intuition: good training data should update the model parameters in a similar direction as the clean data. Experiments on three WMT language pairs show that our method brings significant improvement over strong baselines, and the improvements are generalizable across test data from different domains.
翻訳日:2021-03-01 21:25:21 公開日:2021-02-26
# (参考訳) オン・ザ・ジョブ学習対話システムの評価と自然言語理解の事例研究 [全文訳有]

Evaluate On-the-job Learning Dialogue Systems and a Case Study for Natural Language Understanding ( http://arxiv.org/abs/2102.13589v1 )

ライセンス: CC BY 4.0
Mathilde Veron, Sophie Rosset, Olivier Galibert, Guillaume Bernard(参考訳) オン・ザ・ジョブ・ラーニングは、プロダクションで、オープンな環境で使用しながら継続的に学習することで構成されます。つまり、システムはこれまでにない状況や要素を自分で処理する必要があります。 オンザジョブ学習に特に適応しているように見えるシステムは対話システムであり、ユーザとのインタラクションを利用してフィードバックを収集し、時間とともにコンポーネントを適応し改善することができる。 オンザジョブ学習を行う対話システムは構築され評価されているが、一般的な方法論はまだ定義されていない。 そこで,本論文では,学習対話システムを評価するための最初の一般的な手法を提案する。 また,タスク指向対話システムについて記述し,ユーザインタラクションによる自然言語コンポーネントの改善について述べる。 最終的に,提案手法を用いてシステム評価を行った。

On-the-job learning consists in continuously learning while being used in production, in an open environment, meaning that the system has to deal on its own with situations and elements never seen before. The kind of systems that seem to be especially adapted to on-the-job learning are dialogue systems, since they can take advantage of their interactions with users to collect feedback to adapt and improve their components over time. Some dialogue systems performing on-the-job learning have been built and evaluated but no general methodology has yet been defined. Thus in this paper, we propose a first general methodology for evaluating on-the-job learning dialogue systems. We also describe a task-oriented dialogue system which improves on-the-job its natural language component through its user interactions. We finally evaluate our system with the described methodology.
翻訳日:2021-03-01 21:17:55 公開日:2021-02-26
# (参考訳) スマートホームが人間の行動に与える影響 : 強化学習アプローチ [全文訳有]

Potential Impacts of Smart Homes on Human Behavior: A Reinforcement Learning Approach ( http://arxiv.org/abs/2102.13307v1 )

ライセンス: CC BY 4.0
Shashi Suman, Ali Etemad, Francois Rivest(参考訳) スマートホームが人間の行動に与える影響を調査することを目指しています。 そこで我々は,強化学習に基づくスマートホーム内で様々な活動を行うことができる一連の人間モデルをシミュレーションした。 そこで我々は,スマートホームと人間モデルが相互に適応することによって,人間の行動が変化する可能性を検討する。 我々は階層的強化学習に基づく半マルコフ決定プロセスのヒューマンタスクインターリービングモデルを設計し、アクティビティを追求または離脱するための意思決定を学習する。 そして、q-learningをベースにしたスマートホームに人間モデルを統合します。 汎用モデルを用いたスマートホームは,人間モデルに類似した本質的な報酬を持つ人間のモデルの熱的嗜好を予測し,学習することができることを示す。 階層的人間モデルは、各活動の完了を学習し、最大限の快適さのために最適な温度設定を設定する。 スマートホームでは、人間のモデルでは、温度設定を変更するために必要な時間ステップの数を減らします。 興味深いことに、人間のモデル報酬構造の小さな変化は、スマートホームの存在による人間の行動の変化を信号する活動間の予期せぬ切り替えの形で反対の行動につながる可能性があることを観察します。

We aim to investigate the potential impacts of smart homes on human behavior. To this end, we simulate a series of human models capable of performing various activities inside a reinforcement learning-based smart home. We then investigate the possibility of human behavior being altered as a result of the smart home and the human model adapting to one-another. We design a semi-Markov decision process human task interleaving model based on hierarchical reinforcement learning that learns to make decisions to either pursue or leave an activity. We then integrate our human model in the smart home which is based on Q-learning. We show that a smart home trained on a generic human model is able to anticipate and learn the thermal preferences of human models with intrinsic rewards similar to the generic model. The hierarchical human model learns to complete each activity and set optimal thermal settings for maximum comfort. With the smart home, the number of time steps required to change the thermal settings are reduced for the human models. Interestingly, we observe that small variations in the human model reward structures can lead to the opposite behavior in the form of unexpected switching between activities which signals changes in human behavior due to the presence of the smart home.
翻訳日:2021-03-01 21:03:10 公開日:2021-02-26
# (参考訳) 胸部疾患同定のための多対一分布学習とK-Nearest Neighbor Smoothing [全文訳有]

Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for Thoracic Disease Identification ( http://arxiv.org/abs/2102.13269v1 )

ライセンス: CC0 1.0
Yi Zhou, Lei Huang, Tianfei Zhou, Ling Shao(参考訳) 胸部X線は、多くの胸部疾患の検出のための重要でアクセス可能な臨床イメージングツールです。 過去10年間で、深層学習は、畳み込みニューラルネットワーク(CNN)に焦点を合わせ、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。 しかし、効果的で堅牢なCNNのトレーニングは通常、高いアノテーション品質の大量のデータを必要とする。 胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。 したがって、既存の公開胸部X線データセットは通常、レポートからラベルを自動的にマイニングする言語パターンベースの手法を採用する。 しかし、これはラベルの不確実性と矛盾をもたらす。 本稿では, モデルアンサンブルではなく, 単一モデルの疾患識別性能を向上させるため, マルチツーワン分布学習 (MODL) と K-アレスト近傍平滑化 (KNNS) 手法を2つの視点から提案する。 MODLは複数のモデルを統合し、単一のターゲットモデルを最適化するためのソフトなラベル分布を得る。 さらに、KNNSは、ターゲットモデルの堅牢性を高め、同様の医学的発見を持つ画像の一貫した予測を提供することを目指しています。 公開NIH Chest X-rayおよびCheXpertデータセットに関する広範な実験は、私たちのモデルが最先端の方法よりも一貫した改善を達成していることを示しています。

Chest X-rays are an important and accessible clinical imaging tool for the detection of many thoracic diseases. Over the past decade, deep learning, with a focus on the convolutional neural network (CNN), has become the most powerful computer-aided diagnosis technology for improving disease identification performance. However, training an effective and robust deep CNN usually requires a large amount of data with high annotation quality. For chest X-ray imaging, annotating large-scale data requires professional domain knowledge and is time-consuming. Thus, existing public chest X-ray datasets usually adopt language pattern based methods to automatically mine labels from reports. However, this results in label uncertainty and inconsistency. In this paper, we propose many-to-one distribution learning (MODL) and K-nearest neighbor smoothing (KNNS) methods from two perspectives to improve a single model's disease identification performance, rather than focusing on an ensemble of models. MODL integrates multiple models to obtain a soft label distribution for optimizing the single target model, which can reduce the effects of original label uncertainty. Moreover, KNNS aims to enhance the robustness of the target model to provide consistent predictions on images with similar medical findings. Extensive experiments on the public NIH Chest X-ray and CheXpert datasets show that our model achieves consistent improvements over the state-of-the-art methods.
翻訳日:2021-03-01 20:47:26 公開日:2021-02-26
# (参考訳) 映画をどこに見るか : 映像編集を理解するための視覚的注意の分析 [全文訳有]

Where to look at the movies : Analyzing visual attention to understand movie editing ( http://arxiv.org/abs/2102.13378v1 )

ライセンス: CC BY 4.0
Alexandre Bruckert, Marc Christie, Olivier Le Meur(参考訳) 映画制作の過程では、監督は観客が画面を見る場所を常に気にしている。 ショット構成、フレーミング、カメラの動き、編集は、注意を向けるために一般的に使用されるツールである。 そこで本研究では,これらのツールと視線パターンの関係を定量的に解析するために,映画シーケンスの視線パターン情報とアノテーションの編集を含む新しい視線追跡データベースを提案する。 本研究では,映像編集と観客のスカンパスとの強い関連を明らかにするとともに,編集情報の知識が映像コンテンツに対する人間の視覚の注意モデリングをいかに改善するかについて,いくつかの手がかりを開く。 現在の研究中に生成されたデータセットは、https://github.com/a bruckert/eye_trackin g_filmmakingで入手できる。

In the process of making a movie, directors constantly care about where the spectator will look on the screen. Shot composition, framing, camera movements or editing are tools commonly used to direct attention. In order to provide a quantitative analysis of the relationship between those tools and gaze patterns, we propose a new eye-tracking database, containing gaze pattern information on movie sequences, as well as editing annotations, and we show how state-of-the-art computational saliency techniques behave on this dataset. In this work, we expose strong links between movie editing and spectators scanpaths, and open several leads on how the knowledge of editing information could improve human visual attention modeling for cinematic content. The dataset generated and analysed during the current study is available at https://github.com/a bruckert/eye_trackin g_filmmaking
翻訳日:2021-03-01 20:31:37 公開日:2021-02-26
# (参考訳) 深層学習によるロバスト表面再構成のためのポイントクラウドアップサンプリングと正規推定 [全文訳有]

Point Cloud Upsampling and Normal Estimation using Deep Learning for Robust Surface Reconstruction ( http://arxiv.org/abs/2102.13391v1 )

ライセンス: CC BY 4.0
Rajat Sharma, Tobias Schwandt, Christian Kunert, Steffen Urban and Wolfgang Broll(参考訳) 実世界の表面の再構築は様々な応用において需要が高い。 既存のレコンストラクション・アプローチのほとんどは、3dスキャナーを用いて、一般的には希薄で密度の低い点雲を作成する。 これらの点雲は三角測量され、幾何学的アプローチによって推定される表面正規値と組み合わせて可視化に使用される。 しかし、再構成の品質は点群の密度と表面正規度の推定に依存する。 本論文では,以降の安定かつ円滑な表面再構成を可能にする点群アップサンプリングのための深層学習アーキテクチャを提案する。 対応する点正規度を持つ低密度の雑音点雲を用いて、高密度および随伴点正規度を持つ点雲を推定する。 そこで本研究では,ネットワークが面の向きを正確に予測する正規性を含む面上の点を推定することを促す複合損失関数を提案する。 以上の結果から,正常度を点位置とともに推定する利点が示された。 結果として得られるポイントの雲はより滑らか、より完全であり、最終的な表面の再建は地上の真実に大いに近いです。

The reconstruction of real-world surfaces is on high demand in various applications. Most existing reconstruction approaches apply 3D scanners for creating point clouds which are generally sparse and of low density. These points clouds will be triangulated and used for visualization in combination with surface normals estimated by geometrical approaches. However, the quality of the reconstruction depends on the density of the point cloud and the estimation of the surface normals. In this paper, we present a novel deep learning architecture for point cloud upsampling that enables subsequent stable and smooth surface reconstruction. A noisy point cloud of low density with corresponding point normals is used to estimate a point cloud with higher density and appendant point normals. To this end, we propose a compound loss function that encourages the network to estimate points that lie on a surface including normals accurately predicting the orientation of the surface. Our results show the benefit of estimating normals together with point positions. The resulting point cloud is smoother, more complete, and the final surface reconstruction is much closer to ground truth.
翻訳日:2021-03-01 20:05:31 公開日:2021-02-26
# (参考訳) 特徴の再同定による正確な視覚-慣性SLAM [全文訳有]

Accurate Visual-Inertial SLAM by Feature Re-identification ( http://arxiv.org/abs/2102.13438v1 )

ライセンス: CC BY 4.0
Xiongfeng Peng, Zhihua Liu, Qiang Wang, Yun-Tae Kim, Myungjae Jeon(参考訳) リアルタイム視覚慣性SLAMの新たな特徴再同定手法を提案する。 最先端のビジュアル慣性SLAMメソッドのフロントエンドモジュール(例) 視覚特徴抽出およびマッチングスキーム)は、難易度の高いシナリオで容易に破壊され、ポーズ推定における不十分な視覚測定と累積誤差をもたらす画像フレーム上の特徴トラックに依存します。 本稿では,時空間感性サブグローバルマップから既存の特徴を再同定し,効率的なドリフトレスSLAM法を提案する。 長期間にわたって再特定された特徴は、拡張された視覚計測となり、長期の累積誤差を徐々に低減し、さらにシステム内にドリフトのないグローバルマップを構築する最適化モジュールに組み込まれる。 広範な実験により,本手法は効率的かつ効率的であることが判明した。 具体的には,機能再同定と最先端SLAM法[11]を組み合わせると,2つの公開SLAMベンチマークDB(EuRoCとTUM-VI)に対して,それぞれ67.3%と87.5%の絶対変換誤差削減を実現している。

We propose a novel feature re-identification method for real-time visual-inertial SLAM. The front-end module of the state-of-the-art visual-inertial SLAM methods (e.g. visual feature extraction and matching schemes) relies on feature tracks across image frames, which are easily broken in challenging scenarios, resulting in insufficient visual measurement and accumulated error in pose estimation. In this paper, we propose an efficient drift-less SLAM method by re-identifying existing features from a spatial-temporal sensitive sub-global map. The re-identified features over a long time span serve as augmented visual measurements and are incorporated into the optimization module which can gradually decrease the accumulative error in the long run, and further build a drift-less global map in the system. Extensive experiments show that our feature re-identification method is both effective and efficient. Specifically, when combining the feature re-identification with the state-of-the-art SLAM method [11], our method achieves 67.3% and 87.5% absolute translation error reduction with only a small additional computational cost on two public SLAM benchmark DBs: EuRoC and TUM-VI respectively.
翻訳日:2021-03-01 19:53:40 公開日:2021-02-26
# (参考訳) グラフに基づく半教師付き学習:包括的レビュー [全文訳有]

Graph-based Semi-supervised Learning: A Comprehensive Review ( http://arxiv.org/abs/2102.13303v1 )

ライセンス: CC BY 4.0
Zixing Song, Xiangli Yang, Zenglin Xu, Irwin King(参考訳) 半教師付き学習(ssl)はラベル付きデータとラベルなしデータの両方を利用する能力があるため、実際非常に価値があります。 SSL手法の重要なクラスは、グラフベースの半教師付き学習法(GSSL)に対応するグラフから、ラベルのないサンプルのラベル情報を推測できるように、自然にデータをグラフとして表現することである。 GSSLメソッドは、構造のユニークさ、アプリケーションの普遍性、大規模データへのスケーラビリティのために、さまざまなドメインでその利点を実証しています。 本研究の目的は, 研究者と実践者の両方に, 関連する進歩の体系的かつ体系的な理解と, それらの相互関係の基盤を提供することである。 これは、GSSLメソッドの基本的な理解を無視しながら、SSLメソッドの全体像をカバーする最近の調査と区別することができます。 特に、この論文の主な貢献は、グラフ正規化やグラフ埋め込みメソッドを含む、GSSLの新しい一般化分類であり、最も最新の参照とコード、データセット、アプリケーションなどの有用なリソースがある。 さらに,この急速に拡大する分野への洞察を活かした今後の研究として,いくつかの研究の方向性を示す。

Semi-supervised learning (SSL) has tremendous value in practice due to its ability to utilize both labeled data and unlabelled data. An important class of SSL methods is to naturally represent data as graphs such that the label information of unlabelled samples can be inferred from the graphs, which corresponds to graph-based semi-supervised learning (GSSL) methods. GSSL methods have demonstrated their advantages in various domains due to their uniqueness of structure, the universality of applications, and their scalability to large scale data. Focusing on this class of methods, this work aims to provide both researchers and practitioners with a solid and systematic understanding of relevant advances as well as the underlying connections among them. This makes our paper distinct from recent surveys that cover an overall picture of SSL methods while neglecting fundamental understanding of GSSL methods. In particular, a major contribution of this paper lies in a new generalized taxonomy for GSSL, including graph regularization and graph embedding methods, with the most up-to-date references and useful resources such as codes, datasets, and applications. Furthermore, we present several potential research directions as future work with insights into this rapidly growing field.
翻訳日:2021-03-01 19:19:40 公開日:2021-02-26
# (参考訳) 安全な分布強化学習 [全文訳有]

Safe Distributional Reinforcement Learning ( http://arxiv.org/abs/2102.13446v1 )

ライセンス: CC BY 4.0
Jianyi Zhang, Paul Weng(参考訳) 強化学習における安全性(RL)は、自動運転や金融などの多くの分野での訓練と実行の両方において重要な特性です。 本稿では,分布RL設定における制約付きRL定式化で定式化する。 我々の一般的なモデルは、様々な安全性の定義を受け入れている(例えば、期待される性能、CVaR、分散、悪い状態に達する確率など)。 学習中の安全性を確保するため,安全政策最適化手法を拡張して課題を解決する。 分布的RLパースペクティブは、より効率的なアルゴリズムを導き、さらに自然の安全な制約に対処する。 私たちは、人工および現実ドメインに関する提案を、最新の安全RLアルゴリズムに対して実証的に検証します。

Safety in reinforcement learning (RL) is a key property in both training and execution in many domains such as autonomous driving or finance. In this paper, we formalize it with a constrained RL formulation in the distributional RL setting. Our general model accepts various definitions of safety(e.g., bounds on expected performance, CVaR, variance, or probability of reaching bad states). To ensure safety during learning, we extend a safe policy optimization method to solve our problem. The distributional RL perspective leads to a more efficient algorithm while additionally catering for natural safe constraints. We empirically validate our propositions on artificial and real domains against appropriate state-of-the-art safe RL algorithms.
翻訳日:2021-03-01 18:13:34 公開日:2021-02-26
# (参考訳) sarおよびpushbroomイメージングのためのロバストな有理多項式カメラモデリング [全文訳有]

Robust Rational Polynomial Camera Modelling for SAR and Pushbroom Imaging ( http://arxiv.org/abs/2102.13423v1 )

ライセンス: CC BY-SA 4.0
Roland Akiki, Roger Mar\'i, Carlo de Franchis, Jean-Michel Morel, Gabriele Facciolo(参考訳) Rational Polynomial Camera (RPC)モデルを使用して、リモートセンシング、特に光学および合成開口レーダ(SAR)センサーにおけるさまざまな画像取得システムを記述することができます。 RPC関数は3Dから2Dの座標を関連づけるが、物理的センサーの特異性に関係なく、一般的な方法で衛星画像を利用するのに欠かせないツールとなっている。 本稿では, 正規化最小二乗の適合度に基づく3D-2D点対応の集合から, RPCモデルを正確に導出する地形に依存しないアルゴリズムについて述べる。 この手法の性能は、それらがカバーする領域の大きさと点対応度を変化させて評価する。 我々は,SARと光学データを用いて,物理センサモデルや補正関数を用いた合成後の他のRPCモデルからRPCを導出するアルゴリズムを検証した。

The Rational Polynomial Camera (RPC) model can be used to describe a variety of image acquisition systems in remote sensing, notably optical and Synthetic Aperture Radar (SAR) sensors. RPC functions relate 3D to 2D coordinates and vice versa, regardless of physical sensor specificities, which has made them an essential tool to harness satellite images in a generic way. This article describes a terrain-independent algorithm to accurately derive a RPC model from a set of 3D-2D point correspondences based on a regularized least squares fit. The performance of the method is assessed by varying the point correspondences and the size of the area that they cover. We test the algorithm on SAR and optical data, to derive RPCs from physical sensor models or from other RPC models after composition with corrective functions.
翻訳日:2021-03-01 17:54:00 公開日:2021-02-26
# (参考訳) 深層学習による核燃料チャネルUTスキャンにおける欠陥検出の自動化 [全文訳有]

Using Deep Learning to Automate the Detection of Flaws in Nuclear Fuel Channel UT Scans ( http://arxiv.org/abs/2102.13635v1 )

ライセンス: CC BY 4.0
Issam Hammad, Ryan Simpson, Hippolyte Djonon Tsague, and Sarah Hall(参考訳) 原子炉の検査は、プラントの安全性と信頼性を確保するために重要である。 検査は計画的な停止時に行われ、原子炉の燃料チャネルの検査を含む。 カナダでは、超音波検査(UT)がカナダのウランウラン原子炉(CANDU)の燃料流路の健全性を検査するために用いられる。 現在、UTスキャンの分析は、手動の可視化と測定によって行われ、欠陥を見つけ、特徴付け、および配置します。 したがって、迅速かつ正確な自動化方法を開発する動機があります。 本論文では、畳み込みニューラルネットワーク(CNN)を用いた核燃料チャネルUTスキャンにおける欠陥の検出を自動化する概念実証(PoC)について述べる。 この業界調査はカナダのオンタリオ州ピカリングにあるAlithya Digital Technology Corporationで行われました。 cnnモデルは、履歴utスキャンと対応する検査結果を用いてデータセットを構築して訓練された。 このデータはオンタリオ州の大規模原子力発電会社から入手された。 このプロトタイプの要件は、偽陽性(FP)を最小限に抑えつつ、燃料チャネルスキャンにおける各欠陥の少なくとも一部を特定することである。 これにより、欠陥の程度と種類を特定するために、さらなる手動分析が行われる各欠陥の位置を自動的に検出できます。 決定された要件に基づき,提案モデルでは,小文字のUTスキャンに対して100%の精度を達成でき,かつ18個のUTフルテストスキャンを用いて,複雑なUTスキャンに対して最小のFPで100%の感度を達成できた。

Nuclear reactor inspections are critical to ensure the safety and reliability of plants operation. Inspections occur during planned outages and include the inspection of the reactor's fuel channels. In Canada, Ultrasonic Testing (UT) is used to inspect the health of fuel channels in Canada's Deuterium Uranium (CANDU) reactors. Currently, analysis of the UT scans is performed by manual visualization and measurement to locate, characterize, and disposition flaws. Therefore, there is a motivation to develop an automated method that is fast and accurate. In this paper, a proof of concept (PoC) that automates the detection of flaws in nuclear fuel channel UT scans using a convolutional neural network (CNN) is presented. This industry research was conducted at Alithya Digital Technology Corporation in Pickering, Ontario, Canada. The CNN model was trained after constructing a dataset using historical UT scans and the corresponding inspection results. This data was obtained from a large nuclear power generation company in Ontario. The requirement for this prototype was to identify the location of at least a portion of each flaw in fuel channel scans while minimizing false positives (FPs). This allows for automatic detection of the location of each flaw where further manual analysis is performed to identify the extent and the type of the flaw. Based on the defined requirement, the proposed model was able to achieve 100% accuracy for UT scans with minor chatter and a 100% sensitivity with minimal FPs for complicated UT scans with severe chatter using 18 UT full test scans.
翻訳日:2021-03-01 17:43:34 公開日:2021-02-26
# (参考訳) 変換器を用いた畳み込みフリー医用画像分割 [全文訳有]

Convolution-Free Medical Image Segmentation using Transformers ( http://arxiv.org/abs/2102.13645v1 )

ライセンス: CC BY 4.0
Davood Karimi, Serge Vasylechko, Ali Gholipour(参考訳) コンピュータビジョンの他のアプリケーションと同様に、医療画像セグメンテーションは、畳み込み操作を主なビルディングブロックとして依存するディープラーニングモデルを使用して最もうまく対処されています。 畳み込みは、疎相互作用、重み共有、翻訳等分散といった重要な特性を享受する。 これらの特性は、畳み込みニューラルネットワーク(CNN)に視覚タスクのための強力で有用な誘導バイアスを与える。 本研究では,隣り合う画像パッチ間の自己照合と畳み込み操作を伴わない異なる手法が,競争的あるいはよりよい結果が得られることを示す。 3Dイメージブロックを付与すると、ネットワークはそれを$n^3$ 3Dパッチに分割し、$n=3 \text{ or } 5$で各パッチの1D埋め込みを計算します。 ネットワークは、これらのパッチ埋め込み間の自己注意に基づいて、ブロックの中心パッチのセグメンテーションマップを予測する。 提案モデルにより,3つのデータセット上でのCNNの状態よりも優れたセグメンテーション精度が得られることを示す。 また,このモデルをラベルなし画像の大きなコーパス上で事前学習する方法を提案する。 実験の結果,ラベル付きトレーニングデータが少ない場合には,提案するネットワークのCNNに対するアドバンテージの事前学習が重要であることがわかった。

Like other applications in computer vision, medical image segmentation has been most successfully addressed using deep learning models that rely on the convolution operation as their main building block. Convolutions enjoy important properties such as sparse interactions, weight sharing, and translation equivariance. These properties give convolutional neural networks (CNNs) a strong and useful inductive bias for vision tasks. In this work we show that a different method, based entirely on self-attention between neighboring image patches and without any convolution operations, can achieve competitive or better results. Given a 3D image block, our network divides it into $n^3$ 3D patches, where $n=3 \text{ or } 5$ and computes a 1D embedding for each patch. The network predicts the segmentation map for the center patch of the block based on the self-attention between these patch embeddings. We show that the proposed model can achieve segmentation accuracies that are better than the state of the art CNNs on three datasets. We also propose methods for pre-training this model on large corpora of unlabeled images. Our experiments show that with pre-training the advantage of our proposed network over CNNs can be significant when labeled training data is small.
翻訳日:2021-03-01 17:36:06 公開日:2021-02-26
# (参考訳) Swift for TensorFlow: ディープラーニングのためのポータブルで柔軟なプラットフォーム [全文訳有]

Swift for TensorFlow: A portable, flexible platform for deep learning ( http://arxiv.org/abs/2102.13243v1 )

ライセンス: CC BY 4.0
Brennan Saeta, Denys Shabalin, Marc Rasi, Brad Larson, Xihui Wu, Parker Schuh, Michelle Casbon, Daniel Zheng, Saleem Abdulrasool, Aleksandr Efremov, Dave Abrahams, Chris Lattner, and Richard Wei(参考訳) Swift for TensorFlowは、モバイルデバイスから、データセンタ内のハードウェアアクセラレータのクラスタにスケールする、ディープラーニングプラットフォームである。 言語統合自動微分システムと複数のTensor実装を、可変値セマンティクスを指向した最新の事前コンパイル言語に組み合わせている。 その結果得られたプラットフォームは、30以上のディープラーニングモデルで使用することで検証され、データセンタとモバイルアプリケーションで採用されている。

Swift for TensorFlow is a deep learning platform that scales from mobile devices to clusters of hardware accelerators in data centers. It combines a language-integrated automatic differentiation system and multiple Tensor implementations within a modern ahead-of-time compiled language oriented around mutable value semantics. The resulting platform has been validated through use in over 30 deep learning models and has been employed across data center and mobile applications.
翻訳日:2021-03-01 17:22:12 公開日:2021-02-26
# (参考訳) 完璧にフィットするテンソル [全文訳有]

Tensors Fitting Perfectly ( http://arxiv.org/abs/2102.13254v1 )

ライセンス: CC BY 4.0
Adam Paszke and Brennan Saeta(参考訳) 多次元配列(NDArray)は、現代の科学計算環境における中心的な抽象化である。 残念なことに、プログラムの実行で使用する配列の異なる数は通常非常に大きく、プログラムテキストに明示的に現れることはめったにないため、プログラムの推論を困難にすることができる。 さらに悪いことに、多くの演算子は入力の形状について暗黙の仮定をする: 配列加算は一般に放送意味論に富み、行列乗法は収縮次元の長さが等しいと仮定する。 NDArrayを使用して正しいプログラムを書くには、形状に関する正確な推論が重要であるため、プログラムを一目で推測するのは難しいことが多いため、プログラム抽象的な解釈から形状制約のセットを合成することにより、TensorFlowプログラム用のSwiftでNDArray形状を推論する静的解析ツールであるTensors Fitting Perfectlyを開発しました。 1)不整合の可能性を確認すること,(2)プログラムに現れる中間値の形状に関する直接的な洞察を,形状ホールと呼ばれる機構を通じて提供すること,の2つが考えられる。 静的解析は、プログラム作者の生産性を改善するために、オプションのランタイムアサーションと連携して動作する。

Multidimensional arrays (NDArrays) are a central abstraction in modern scientific computing environments. Unfortunately, they can make reasoning about programs harder as the number of different array shapes used in an execution of a program is usually very large, and they rarely appear explicitly in program text. To make things worse, many operators make implicit assumptions about the shapes of their inputs: array addition is commonly enriched with broadcasting semantics, while matrix multiplication assumes that the lengths of contracted dimensions are equal. Because precise reasoning about shapes is crucial to write correct programs using NDArrays, and because shapes are often hard to infer from a quick glance at the program, we developed Tensors Fitting Perfectly, a static analysis tool that reasons about NDArray shapes in Swift for TensorFlow programs by synthesizing a set of shape constraints from an abstract interpretation of the program. It can both (1) check for possible inconsistencies, and (2) provide direct insights about the shapes of intermediate values appearing in the program, including via a mechanism called shape holes. The static analysis works in concert with optional runtime assertions to improve the productivity of program authors.
翻訳日:2021-03-01 16:50:17 公開日:2021-02-26
# (参考訳) LazyTensor: 熱心な実行とドメイン固有コンパイラを組み合わせる [全文訳有]

LazyTensor: combining eager execution with domain-specific compilers ( http://arxiv.org/abs/2102.13267v1 )

ライセンス: CC BY 4.0
Alex Suhan, Davide Libenzi, Ailing Zhang, Parker Schuh, Brennan Saeta, Jie Young Sohn, and Denys Shabalin(参考訳) ドメイン固有の最適化コンパイラは、パフォーマンスとポータビリティのメリットは大きいが、特別なirsでプログラムを表現する必要がある。 これらのコンパイラの既存のフロントエンドは、ドメイン固有のコンパイラと対話するユーザのプログラムのサブセットでは、いくつかのホスト言語機能がサポートされない"言語サブセット問題"に苦しんでいる。 対照的に、"eager"モードと呼ばれる定義別MLフレームワークは、ホストプログラミング言語のフルパワーを使用できる使いやすさと表現性のために人気があります。 LazyTensorは、定義による人間工学を犠牲にすることなく、ドメイン固有のコンパイラをターゲットとする技術である。 当初、クラウドTPUでPyTorchをサポートするために開発されたこのテクニックは、実質的に共有された実装とともに、CPU、GPU、TPUでTensorFlow用にSwiftで使用され、(1)Tensor実装、(2)ハードウェアアクセラレータ、(3)プログラミング言語にわたるアプローチの一般性を示している。

Domain-specific optimizing compilers have demonstrated significant performance and portability benefits, but require programs to be represented in their specialized IRs. Existing frontends to these compilers suffer from the "language subset problem" where some host language features are unsupported in the subset of the user's program that interacts with the domain-specific compiler. By contrast, define-by-run ML frameworks-colloquia lly called "eager" mode-are popular due to their ease of use and expressivity, where the full power of the host programming language can be used. LazyTensor is a technique to target domain specific compilers without sacrificing define-by-run ergonomics. Initially developed to support PyTorch on Cloud TPUs, the technique, along with a substantially shared implementation, has been used by Swift for TensorFlow across CPUs, GPUs, and TPUs, demonstrating the generality of the approach across (1) Tensor implementations, (2) hardware accelerators, and (3) programming languages.
翻訳日:2021-03-01 16:34:07 公開日:2021-02-26
# (参考訳) 水平フェデレーション学習における効率的なクライアント貢献度評価 [全文訳有]

Efficient Client Contribution Evaluation for Horizontal Federated Learning ( http://arxiv.org/abs/2102.13314v1 )

ライセンス: CC BY 4.0
Jie Zhao, Xinghua Zhu, Jianzong Wang, Jing Xiao(参考訳) フェデレーション学習(fl)では,各フェデレーション参加者の貢献度を公平かつ正確に測定することが重要である。 貢献のレベルは、フェデレーション参加者に経済的利益を分配するための合理的な指標を提供するだけでなく、FLフレームワークを毒殺しようとする悪意のある参加者を発見するのに役立ちます。 これまでの貢献度測定の方法は、連合参加者の可能な組み合わせの列挙に基づいている。 計算コストは参加者数や特徴寸法によって劇的に増加し、実際の状況では適用できない。 本稿では,フェデレーション参加者の貢献度を評価するための効率的な手法を提案する。 本稿では,クライアントサーバがローカルデータ上でパラメータ勾配を計算し,その勾配を中央サーバにアップロードする水平型flフレームワークについて述べる。 クライアントの勾配を集約する前に、中央サーバは強化学習技術を用いて勾配のデータ値推定器を訓練する。 実験結果から示すように,提案手法は評価精度および時間的複雑さの観点から,従来手法よりも一貫して優れる。

In federated learning (FL), fair and accurate measurement of the contribution of each federated participant is of great significance. The level of contribution not only provides a rational metric for distributing financial benefits among federated participants, but also helps to discover malicious participants that try to poison the FL framework. Previous methods for contribution measurement were based on enumeration over possible combination of federated participants. Their computation costs increase drastically with the number of participants or feature dimensions, making them inapplicable in practical situations. In this paper an efficient method is proposed to evaluate the contributions of federated participants. This paper focuses on the horizontal FL framework, where client servers calculate parameter gradients over their local data, and upload the gradients to the central server. Before aggregating the client gradients, the central server train a data value estimator of the gradients using reinforcement learning techniques. As shown by experimental results, the proposed method consistently outperforms the conventional leave-one-out method in terms of valuation authenticity as well as time complexity.
翻訳日:2021-03-01 16:15:13 公開日:2021-02-26
# (参考訳) 生成モデルを用いたニューラルネットワークの分布認識テスト [全文訳有]

Distribution-Aware Testing of Neural Networks Using Generative Models ( http://arxiv.org/abs/2102.13602v1 )

ライセンス: CC BY 4.0
Swaroopa Dola, Matthew B. Dwyer, Mary Lou Soffa(参考訳) ディープニューラルネットワーク(DNN)をコンポーネントとして持つソフトウェアの信頼性は、DNNでデプロイされる重要なアプリケーションの数が増加しているため、今日では緊急に重要です。 信頼性の必要性は、これらのシステムの安全性と信頼性を厳密にテストする必要がある。 ここ数年、DNNのテストに焦点を当てた多くの研究が行われています。 しかし、これまでに提案されたテスト生成技術は、それらが生成するテスト入力が有効であるかどうかのチェックを欠いており、したがって無効な入力が生成される。 この状況を説明するために、我々は3つの最近のDNNテスト技術を検討した。 ディープジェネレーティブモデルに基づく入力検証を用いて,3つの手法がいずれも相当数の無効なテスト入力を生成することを示した。 dnnテスト技術によって生成されたテストインプットによって得られたテストカバレッジをさらに分析し、不正なテストインプットがテストカバレッジメトリクスを誤って膨らませる方法を示した。 テストにおける無効な入力の包含を克服するために、テスト生成プロセスにテスト中のDNNモデルの有効な入力空間を組み込む手法を提案する。 本手法では,モデルに基づく深層生成アルゴリズムを用いて有効な入力のみを生成する。 実証実験の結果,本手法は無効なテストの排除と有効なテスト入力数の増加に有効であることが示された。

The reliability of software that has a Deep Neural Network (DNN) as a component is urgently important today given the increasing number of critical applications being deployed with DNNs. The need for reliability raises a need for rigorous testing of the safety and trustworthiness of these systems. In the last few years, there have been a number of research efforts focused on testing DNNs. However the test generation techniques proposed so far lack a check to determine whether the test inputs they are generating are valid, and thus invalid inputs are produced. To illustrate this situation, we explored three recent DNN testing techniques. Using deep generative model based input validation, we show that all the three techniques generate significant number of invalid test inputs. We further analyzed the test coverage achieved by the test inputs generated by the DNN testing techniques and showed how invalid test inputs can falsely inflate test coverage metrics. To overcome the inclusion of invalid inputs in testing, we propose a technique to incorporate the valid input space of the DNN model under test in the test generation process. Our technique uses a deep generative model-based algorithm to generate only valid inputs. Results of our empirical studies show that our technique is effective in eliminating invalid tests and boosting the number of valid test inputs generated.
翻訳日:2021-03-01 15:55:49 公開日:2021-02-26
# (参考訳) Tails: Zwicky Transient FacilityとDeep LearningでCometsを魅了する [全文訳有]

Tails: Chasing Comets with the Zwicky Transient Facility and Deep Learning ( http://arxiv.org/abs/2102.13352v1 )

ライセンス: CC BY 4.0
Dmitry A. Duev, Bryce T. Bolin, Matthew J. Graham, Michael S. P. Kelley, Ashish Mahabal, Eric C. Bellm, Michael W. Coughlin, Richard Dekany, George Helou, Shrinivas R. Kulkarni, Frank J. Masci, Thomas A. Prince, Reed Riddle, Maayane T. Soumagnac, St\'efan J. van der Walt(参考訳) 今回我々は,米国カリフォルニア州パロマー天文台で現在運用中のロボット光学時間領域調査であるzwicky transient facility (ztf) の画像データから彗星の同定と局在を示す,オープンソースのディープラーニングフレームワーク tails を提案する。 TailsはカスタムのEfficientDetベースのアーキテクチャを採用しており、従来の方法のように複数のエポックを必要とするのではなく、ほぼリアルタイムで単一の画像で彗星を見つけることができる。 このシステムは、予測位置における99%リコール、0.01%偽陽性率、1-2ピクセルのルート平均平方誤差で最先端のパフォーマンスを実現します。 ZTF Twilightサーベイのデータに基づいて,彗星 (C/2020 T2) のAI支援による最初の発見と彗星の回収 (P/2016 J3 = P/2021 A3) を含む生産環境におけるタイルス効率評価の初期結果を報告する。

We present Tails, an open-source deep-learning framework for the identification and localization of comets in the image data of the Zwicky Transient Facility (ZTF), a robotic optical time-domain survey currently in operation at the Palomar Observatory in California, USA. Tails employs a custom EfficientDet-based architecture and is capable of finding comets in single images in near real time, rather than requiring multiple epochs as with traditional methods. The system achieves state-of-the-art performance with 99% recall, 0.01% false positive rate, and 1-2 pixel root mean square error in the predicted position. We report the initial results of the Tails efficiency evaluation in a production setting on the data of the ZTF Twilight survey, including the first AI-assisted discovery of a comet (C/2020 T2) and the recovery of a comet (P/2016 J3 = P/2021 A3).
翻訳日:2021-03-01 15:34:00 公開日:2021-02-26
# (参考訳) 人工ニューラルネットワークを用いたマルチファイダリグレッション:パラメータ依存性出力量の効率的な近似 [全文訳有]

Multi-fidelity regression using artificial neural networks: efficient approximation of parameter-dependent output quantities ( http://arxiv.org/abs/2102.13403v1 )

ライセンス: CC BY 4.0
Mengwu Guo, Andrea Manzoni, Maurice Amendt, Paolo Conti, Jan S. Hesthaven(参考訳) 高精度な数値実験や物理実験は、しばしば時間を要するか費用がかかる。 時間や予算の制限が追加データの生成を禁止する場合、利用可能なサンプルの量に制限があり、満足のいくモデル結果が得られる場合があります。 マルチファイダリティ手法は、高ファイダリティデータと理想的に相関があるが、低コストで得られる他のソースからの情報を組み込むことで、そのような問題に対処します。 異なるデータセット間の相関を活用することで、少量のハイファイダリティデータのみに基づくモデルと比較して、マルチファイダリティ手法はしばしば優れた一般化をもたらす。 本研究では,マルチファイダリグレッション問題に応用した人工ニューラルネットワークの利用について述べる。 既存のアプローチをいくつか検討することにより,マルチフィデリティ回帰のためのニューラルネットワークアーキテクチャを提案する。 導入されたモデルは、従来のマルチファイアリティスキームと比較されます。 分析モデルの性能を測定するために、人工ベンチマークのコレクションが提示される。 その結果, ベイズ最適化と組み合わせたクロスバリデーションは, 共利得スキームに匹敵するニューラルネットワークモデルへと導かれることがわかった。 さらに, 工学的問題に対する多面的回帰の応用について述べる。 パラメトリゼーションされた形状と周波数を持つ音響ホーンへの圧力波の伝搬を考慮し、多面体モデルを用いて反射強度の指標を近似する。 有限要素モデルと縮小基底モデルがそれぞれ高忠実度および低忠実度として採用される。 その結果, ニューラルネットワークは, 少ないフルオーダー評価と, 少ない不正確だが少ないオーダーモデルの安価評価を組み合わせることで, 高価なフルオーダーモデルと同等の精度が得られる出力を返すことが分かった。

Highly accurate numerical or physical experiments are often time-consuming or expensive to obtain. When time or budget restrictions prohibit the generation of additional data, the amount of available samples may be too limited to provide satisfactory model results. Multi-fidelity methods deal with such problems by incorporating information from other sources, which are ideally well-correlated with the high-fidelity data, but can be obtained at a lower cost. By leveraging correlations between different data sets, multi-fidelity methods often yield superior generalization when compared to models based solely on a small amount of high-fidelity data. In this work, we present the use of artificial neural networks applied to multi-fidelity regression problems. By elaborating a few existing approaches, we propose new neural network architectures for multi-fidelity regression. The introduced models are compared against a traditional multi-fidelity scheme, co-kriging. A collection of artificial benchmarks are presented to measure the performance of the analyzed models. The results show that cross-validation in combination with Bayesian optimization consistently leads to neural network models that outperform the co-kriging scheme. Additionally, we show an application of multi-fidelity regression to an engineering problem. The propagation of a pressure wave into an acoustic horn with parametrized shape and frequency is considered, and the index of reflection intensity is approximated using the multi-fidelity models. A finite element model and a reduced basis model are adopted as the high- and low-fidelity, respectively. It is shown that the multi-fidelity neural network returns outputs that achieve a comparable accuracy to those from the expensive, full-order model, using only very few full-order evaluations combined with a larger amount of inaccurate but cheap evaluations of a reduced order model.
翻訳日:2021-03-01 14:59:13 公開日:2021-02-26
# (参考訳) ピアノ録音における表現的品質の説明に向けて:音響領域適応による説明的特徴の伝達 [全文訳有]

Towards Explaining Expressive Qualities in Piano Recordings: Transfer of Explanatory Features via Acoustic Domain Adaptation ( http://arxiv.org/abs/2102.13479v1 )

ライセンス: CC BY 4.0
Shreyan Chowdhury and Gerhard Widmer(参考訳) 音楽における感情と表現性は、音楽情報検索の分野で大きな関心を集めている。 近年,音楽感情の計算的予測を説明する手段として,中程度の知覚的特徴が提案されている。 これらの特徴を学習するために利用可能なデータセット内の音楽スタイルとジャンルの多様性は、ソロピアノ音楽などの専門音響領域にモデルがうまく一般化するのに十分ではないことがわかります。 本研究では,教師なし領域適応とレセプティブフィールド正規化ディープニューラルネットワークを併用することで,この領域への一般化を大幅に改善できることを示した。 さらに,我々のドメイン適応モデルが,人間の聞き手によって認識され,説明されるように,クラシックピアノ演奏の表現的性質をより良く予測し,説明できることを実証する。

Emotion and expressivity in music have been topics of considerable interest in the field of music information retrieval. In recent years, mid-level perceptual features have been suggested as means to explain computational predictions of musical emotion. We find that the diversity of musical styles and genres in the available dataset for learning these features is not sufficient for models to generalise well to specialised acoustic domains such as solo piano music. In this work, we show that by utilising unsupervised domain adaptation together with receptive-field regularised deep neural networks, it is possible to significantly improve generalisation to this domain. Additionally, we demonstrate that our domain-adapted models can better predict and explain expressive qualities in classical piano performances, as perceived and described by human listeners.
翻訳日:2021-03-01 14:31:12 公開日:2021-02-26
# 回帰のためのゾエトロープ遺伝的プログラミング

Zoetrope Genetic Programming for Regression ( http://arxiv.org/abs/2102.13388v1 )

ライセンス: Link先を確認
Aur\'elie Boisbunon, Carlo Fanara, Ingrid Grenet, Jonathan Daeden, Alexis Vighi, Marc Schoenauer(参考訳) The Zoetrope Genetic Programming (ZGP) algorithm is based on a original representation for mathematical expression, targeting evolution symbolic regression, the zoetropic representation using repeat fusion operation between partial expression, from the terminal set。 個体内の反復融合は徐々により複雑な表現を生成し、最終的には新しい特徴と見なされる。 これらの機能はトレーニングデータに最も適するように線形に結合されます。 その後、ZGP個体は特定の交叉と突然変異操作を行い、親と子孫の間で選択が行われる。 ZGPは、多数のパブリックドメイン回帰データセットを使用して検証され、他のシンボリック回帰アルゴリズムや従来の機械学習アルゴリズムと比較されます。 ZGPは両タイプのアルゴリズムに対して最先端の性能に達し、他のシンボリック回帰手法と比較して計算時間が少ないことを示す。

The Zoetrope Genetic Programming (ZGP) algorithm is based on an original representation for mathematical expressions, targeting evolutionary symbolic regression.The zoetropic representation uses repeated fusion operations between partial expressions, starting from the terminal set. Repeated fusions within an individual gradually generate more complex expressions, ending up in what can be viewed as new features. These features are then linearly combined to best fit the training data. ZGP individuals then undergo specific crossover and mutation operators, and selection takes place between parents and offspring. ZGP is validated using a large number of public domain regression datasets, and compared to other symbolic regression algorithms, as well as to traditional machine learning algorithms. ZGP reaches state-of-the-art performance with respect to both types of algorithms, and demonstrates a low computational time compared to other symbolic regression approaches.
翻訳日:2021-03-01 14:08:07 公開日:2021-02-26
# $PredDiff$:条件付き期待からの説明とインタラクション

$PredDiff$: Explanations and Interactions from Conditional Expectations ( http://arxiv.org/abs/2102.13519v1 )

ライセンス: Link先を確認
Stefan Bl\"ucher and Nils Strodthoff(参考訳) $PredDiff$ は確率論をしっかりと根づけたモデルに依存しない局所帰属法である。 その単純な直感は、特徴変数を疎外する際の予測変化を測定することである。 本研究では,$preddiff$の特性を明確にし,元の形式的拡張をいくつか提示する。 特に、相互作用効果の新しい尺度を紹介します。 相互作用はブラックボックスモデルの包括的理解に向けた必然的なステップである。 重要な点として,我々のフレームワークは任意の特徴部分集合間の相互作用や,その数と線形にスケールすることを可能にする。 分類と回帰設定の両方で$PredDiff$関連性と相互作用の健全性を実証します。 そのためには、さまざまな分析、合成、実世界のデータセットを使用します。

$PredDiff$ is a model-agnostic, local attribution method that is firmly rooted in probability theory. Its simple intuition is to measure prediction changes when marginalizing out feature variables. In this work, we clarify properties of $PredDiff$ and put forward several extensions of the original formalism. Most notably, we introduce a new measure for interaction effects. Interactions are an inevitable step towards a comprehensive understanding of black-box models. Importantly, our framework readily allows to investigate interactions between arbitrary feature subsets and scales linearly with their number. We demonstrate the soundness of $PredDiff$ relevances and interactions both in the classification and regression setting. To this end, we use different analytic, synthetic and real-world datasets.
翻訳日:2021-03-01 14:07:35 公開日:2021-02-26
# NOMU:ニューラルオプティマイズに基づくモデル不確実性

NOMU: Neural Optimization-based Model Uncertainty ( http://arxiv.org/abs/2102.13640v1 )

ライセンス: Link先を確認
Jakob Heiss, Jakob Weissteiner, Hanna Wutte, Sven Seuken, Josef Teichmann(参考訳) ニューラル最適化に基づくモデル不確実性(NOMU)と呼ばれる回帰モデルニューラルネットワーク(NN)のモデル不確かさを捉える新しい手法を提案する。 NOMUの主な考え方は、モデル予測とモデル不確実性のための2つの接続サブネットワークからなるネットワークアーキテクチャを設計し、慎重に設計された損失関数を用いてそれを訓練することである。 この設計により、NOMUは、モデル予測に使用されるサブネットワークとしてフレームワークに接続することで、任意の(以前に訓練された)NNに対してモデル不確実性を提供することができる。 NOMUはモデル不確実性に関して4つの重要なデシラタを満たす不確実性境界(UBs)を得るように設計されている。 さらに、当社のUBは単一のNNとして表現可能であり、ベイズ最適化などのアプリケーションで計算コストの利点につながります。 複数の設定でNOMUを実験的に評価します。 回帰では、nomuが確立したベンチマークよりも優れた性能を示す。 ベイズ最適化では、NOMUが他のベンチマークよりも優れていることを示す。

We introduce a new approach for capturing model uncertainty for neural networks (NNs) in regression, which we call Neural Optimization-based Model Uncertainty (NOMU). The main idea of NOMU is to design a network architecture consisting of two connected sub-networks, one for the model prediction and one for the model uncertainty, and to train it using a carefully designed loss function. With this design, NOMU can provide model uncertainty for any given (previously trained) NN by plugging it into the framework as the sub-network used for model prediction. NOMU is designed to yield uncertainty bounds (UBs) that satisfy four important desiderata regarding model uncertainty, which established methods often do not satisfy. Furthermore, our UBs are themselves representable as a single NN, which leads to computational cost advantages in applications such as Bayesian optimization. We evaluate NOMU experimentally in multiple settings. For regression, we show that NOMU performs as well as or better than established benchmarks. For Bayesian optimization, we show that NOMU outperforms all other benchmarks.
翻訳日:2021-03-01 14:07:26 公開日:2021-02-26
# learning chess blindfolded: 状態追跡による言語モデルの評価

Learning Chess Blindfolded: Evaluating Language Models on State Tracking ( http://arxiv.org/abs/2102.13249v1 )

ライセンス: Link先を確認
Shubham Toshniwal, Sam Wiseman, Karen Livescu, Kevin Gimpel(参考訳) トランスフォーマー言語モデルは自然言語理解タスクにおいて大きな進歩を遂げた。 しかし、自然言語の複雑さは、これらのモデルがテキストの基礎となる世界状態を正確に追跡しているかどうかを確認するのに困難である。 この問題に動機づけられたのは,チェスゲームにおける言語モデリングの課題である。 自然言語とは異なり、チェス表記法は単純で制約のある決定論的領域を記述する。 さらに, チェス表記の適切な選択は, 追加のプロビング関連機械を必要とせずに, 直接世界状態を探索することを可能にする。 a) 十分なトレーニングデータがあれば、トランスフォーマー言語モデルは、移動シーケンスのみをトレーニングした場合に、ピースを追跡し、高い精度で法的動きを予測することができる。 b) 訓練中にボード状態情報にアクセス可能な小さなトレーニングセットでは、大幅な改善が期待できる。 (c) トランスフォーマー言語モデルの成功は,ゲーム履歴全体へのアクセスに依存している。 「全面的注意」。 この全注意を近似すると、パフォーマンスが大幅に低下する。 このテストベッドは、トランス言語モデルの開発と分析に関する今後の作業のベンチマークとして提案します。

Transformer language models have made tremendous strides in natural language understanding tasks. However, the complexity of natural language makes it challenging to ascertain how accurately these models are tracking the world state underlying the text. Motivated by this issue, we consider the task of language modeling for the game of chess. Unlike natural language, chess notations describe a simple, constrained, and deterministic domain. Moreover, we observe that the appropriate choice of chess notation allows for directly probing the world state, without requiring any additional probing-related machinery. We find that: (a) With enough training data, transformer language models can learn to track pieces and predict legal moves with high accuracy when trained solely on move sequences. (b) For small training sets providing access to board state information during training can yield significant improvements. (c) The success of transformer language models is dependent on access to the entire game history i.e. "full attention". Approximating this full attention results in a significant performance drop. We propose this testbed as a benchmark for future work on the development and analysis of transformer language models.
翻訳日:2021-03-01 14:06:27 公開日:2021-02-26
# 自然言語ビデオのローカライゼーション: Span-based Question Answering Frameworkの再考

Natural Language Video Localization: A Revisit in Span-based Question Answering Framework ( http://arxiv.org/abs/2102.13558v1 )

ライセンス: Link先を確認
Hao Zhang, Aixin Sun, Wei Jing, Liangli Zhen, Joey Tianyi Zhou, Rick Siow Mong Goh(参考訳) 自然言語ビデオローカライゼーション(NLVL)は、テキストクエリに意味的に対応する未編集ビデオからターゲットモーメントを見つけることを目的としている。 既存のアプローチは主にコンピュータビジョンの観点からNLVL問題をランク付け、アンカー、回帰タスクとして定式化することで解決している。 これらの手法は、長いビデオのローカライズ時に大きな性能劣化に悩まされる。 本研究では,入力映像をテキストパスとして扱うことにより,スパンベースの質問応答 (QA) という新たな視点からNLVLに対処する。 NLVLに対処するために、標準のスパンベースのQAフレームワーク(VSLBaseという名前)上にビデオスパンローカライズネットワーク(VSLNet)を提案します。 VSLNetは、シンプルで効果的なクエリガイドハイライト(QGH)戦略を通じて、NLVLとスパンベースのQAの違いに取り組みます。 QGHはVSLNetをガイドして、ハイライトされた領域内のマッチングビデオスパンを検索する。 長編ビデオのパフォーマンス劣化に対処するため,マルチスケールスプリット・アンド・コンカネーション戦略を適用し,VSLNetをVSLNet-Lに拡張する。 VSLNet-Lはまず、トリミングされていないビデオを短いクリップセグメントに分割し、ターゲットモーメントを含むクリップセグメントを予測し、他のセグメントの重要性を抑制します。 最後に、クリップセグメントを異なる信頼度で結合して、ターゲットモーメントを正確に特定する。 3つのベンチマークデータセットに関する広範な実験では、提案された VSLNet と VSLNet-L が最新手法を上回っていることが示された。 本研究は,NLVL問題の解決に有効な手法として,スパンベースQAフレームワークが重要であることを示唆する。

Natural Language Video Localization (NLVL) aims to locate a target moment from an untrimmed video that semantically corresponds to a text query. Existing approaches mainly solve the NLVL problem from the perspective of computer vision by formulating it as ranking, anchor, or regression tasks. These methods suffer from large performance degradation when localizing on long videos. In this work, we address the NLVL from a new perspective, i.e., span-based question answering (QA), by treating the input video as a text passage. We propose a video span localizing network (VSLNet), on top of the standard span-based QA framework (named VSLBase), to address NLVL. VSLNet tackles the differences between NLVL and span-based QA through a simple yet effective query-guided highlighting (QGH) strategy. QGH guides VSLNet to search for the matching video span within a highlighted region. To address the performance degradation on long videos, we further extend VSLNet to VSLNet-L by applying a multi-scale split-and-concatenat ion strategy. VSLNet-L first splits the untrimmed video into short clip segments; then, it predicts which clip segment contains the target moment and suppresses the importance of other segments. Finally, the clip segments are concatenated, with different confidences, to locate the target moment accurately. Extensive experiments on three benchmark datasets show that the proposed VSLNet and VSLNet-L outperform the state-of-the-art methods; VSLNet-L addresses the issue of performance degradation on long videos. Our study suggests that the span-based QA framework is an effective strategy to solve the NLVL problem.
翻訳日:2021-03-01 14:06:10 公開日:2021-02-26
# 単眼深度予測のための境界誘起およびシーン集約ネットワーク

Boundary-induced and scene-aggregated network for monocular depth prediction ( http://arxiv.org/abs/2102.13258v1 )

ライセンス: Link先を確認
Feng Xue and Junfeng Cao and Yu Zhou and Fei Sheng and Yankai Wang and Anlong Ming(参考訳) 単眼深度予測はシーン理解において重要な課題である。 単一のRGB画像の濃密な深さを予測することを目的としている。 ディープラーニングの開発により、このタスクのパフォーマンスは大幅に改善されました。 しかし,(1) 深い特徴がシーンの最も遠い領域を符号化し, 予測された深さの歪んだ3次元構造に繋がる。(2) 低レベルの特徴が十分に活用されていないため, 急激な深さ変化で縁付近の深さを推定することがさらに困難になる。 そこで,Boundary-induced and Scene-aggregated Network (BS-Net) を提案する。 このネットワークでは、深さ相関エンコーダ(DCE)は、最初に画像内の領域間のコンテキスト相関を取得し、相関を考慮して最も遠い領域を知覚するように設計されている。 一方、ボトムアップ境界融合(BUBF)モジュールは、深さ変化を示す正確な境界を抽出するために設計されている。 最後に、Stripe Refinement Module (SRM) は、境界キューによって誘導される密度の深い深さを改良するために設計され、予測された深さの境界精度が向上する。 NYUD v2 データセットと \xff{the iBims-1 データセットに関するいくつかの実験結果は、提案手法の最先端性能を示している。 また,SUN-RGBDデータセットを用いて,この手法の一般化を評価する。 コードはhttps://github.com/X uefengBUPT/BS-Netで入手できる。

Monocular depth prediction is an important task in scene understanding. It aims to predict the dense depth of a single RGB image. With the development of deep learning, the performance of this task has made great improvements. However, two issues remain unresolved: (1) The deep feature encodes the wrong farthest region in a scene, which leads to a distorted 3D structure of the predicted depth; (2) The low-level features are insufficient utilized, which makes it even harder to estimate the depth near the edge with sudden depth change. To tackle these two issues, we propose the Boundary-induced and Scene-aggregated network (BS-Net). In this network, the Depth Correlation Encoder (DCE) is first designed to obtain the contextual correlations between the regions in an image, and perceive the farthest region by considering the correlations. Meanwhile, the Bottom-Up Boundary Fusion (BUBF) module is designed to extract accurate boundary that indicates depth change. Finally, the Stripe Refinement module (SRM) is designed to refine the dense depth induced by the boundary cue, which improves the boundary accuracy of the predicted depth. Several experimental results on the NYUD v2 dataset and \xff{the iBims-1 dataset} illustrate the state-of-the-art performance of the proposed approach. And the SUN-RGBD dataset is employed to evaluate the generalization of our method. Code is available at https://github.com/X uefengBUPT/BS-Net.
翻訳日:2021-03-01 14:05:41 公開日:2021-02-26
# 大きなフィルタによる畳み込み計算のためのネスティング分解アルゴリズムを用いた再構成可能なWinograd CNN加速器

A Reconfigurable Winograd CNN Accelerator with Nesting Decomposition Algorithm for Computing Convolution with Large Filters ( http://arxiv.org/abs/2102.13272v1 )

ライセンス: Link先を確認
Jingbo Jiang, Xizi Chen, Chi-Ying Tsui(参考訳) 近年の文献では、画像セマンティックセグメンテーションなどのいくつかの応用において、大きなフィルタを持つ畳み込みニューラルネットワーク(CNN)がよく機能している。 ウィノグラード変換は畳み込みの乗算数を減らすのに役立つが、畳み込みフィルタのサイズが大きくなると数値不安定になる。 本研究は,3x3 タイルの列に大規模フィルタを繰り返し分解し,それを3x3 Winograd アルゴリズムで高速化するネスト付きウィノグラードアルゴリズムを提案する。 最新のOLA-Winogradアルゴリズムと比較して、提案アルゴリズムは5x5から9x9の畳み込みを計算するための乗算を1.41から3.29倍に削減する。

Recent literature found that convolutional neural networks (CNN) with large filters perform well in some applications such as image semantic segmentation. Winograd transformation helps to reduce the number of multiplications in a convolution but suffers from numerical instability when the convolution filter size gets large. This work proposes a nested Winograd algorithm to iteratively decompose a large filter into a sequence of 3x3 tiles which can then be accelerated with a 3x3 Winograd algorithm. Compared with the state-of-art OLA-Winograd algorithm, the proposed algorithm reduces the multiplications by 1.41 to 3.29 times for computing 5x5 to 9x9 convolutions.
翻訳日:2021-03-01 14:05:20 公開日:2021-02-26
# MixSearch: ドメイン一般化医療画像分割アーキテクチャの検索

MixSearch: Searching for Domain Generalized Medical Image Segmentation Architectures ( http://arxiv.org/abs/2102.13280v1 )

ライセンス: Link先を確認
Luyan Liu, Zhiwei Wen, Songwei Liu, Hong-Yu Zhou, Hongwei Zhu, Weicheng Xie, Linlin Shen, Kai Ma and Yefeng Zheng(参考訳) 医学的データの希少性を考えると、医学的画像分析におけるほとんどのデータセットは、自然画像よりも桁違いに小さい。 しかし、医療画像におけるほとんどのネットワークアーキテクチャ検索(NAS)アプローチは、特定のデータセットに焦点を当てており、未知のデータセットと異なるドメインに関する学習されたアーキテクチャの一般化能力を考慮していなかった。 本稿では,複数のセグメント化タスクの医療画像と,MixSearchという名前のドメインを創造的に組み合わせた複合データセット上で,一般化可能なU字型アーキテクチャの探索を提案する。 具体的には、複数のドメインから複数の小規模データセットとセグメント化タスクを組み合わせ、大規模データセットを作成する新しいアプローチを提案する。 次に, セルレベルとネットワークレベルの両方において, 一般化セグメンテーションネットワークを探索する新しいエンコーダ・デコーダ構造を設計する。 提案したMixSearchフレームワークによって生成されたネットワークは、さまざまなデータセットにわたる高度なエンコーダデコーダネットワークと比較して、最先端の結果が得られる。

Considering the scarcity of medical data, most datasets in medical image analysis are an order of magnitude smaller than those of natural images. However, most Network Architecture Search (NAS) approaches in medical images focused on specific datasets and did not take into account the generalization ability of the learned architectures on unseen datasets as well as different domains. In this paper, we address this point by proposing to search for generalizable U-shape architectures on a composited dataset that mixes medical images from multiple segmentation tasks and domains creatively, which is named MixSearch. Specifically, we propose a novel approach to mix multiple small-scale datasets from multiple domains and segmentation tasks to produce a large-scale dataset. Then, a novel weaved encoder-decoder structure is designed to search for a generalized segmentation network in both cell-level and network-level. The network produced by the proposed MixSearch framework achieves state-of-the-art results compared with advanced encoder-decoder networks across various datasets.
翻訳日:2021-03-01 14:05:04 公開日:2021-02-26
# ゼロショット画像分類のための視覚特徴学習のためのクラス知識オーバーレイ

Class Knowledge Overlay to Visual Feature Learning for Zero-Shot Image Classification ( http://arxiv.org/abs/2102.13322v1 )

ライセンス: Link先を確認
Cheng Xie, Ting Zeng, Hongxin Xiang, Keqin Li, Yun Yang, Qing Liu(参考訳) ゼロショット画像分類のトレーニングサンプルに対応することなく、意味的特徴を合成した視覚特徴に変換することで、新たなカテゴリが発見できる。 生成的対数ネットワークを用いた高品質な合成視覚特徴の生成には大きな進歩があったが、意味的特徴と視覚的特徴とのセマンティック一貫性を保証することは依然として非常に困難である。 本論文では,クラス知識と視覚的特徴学習を基礎として,その課題に取り組むための新たなゼロショット学習手法GAN-CSTを提案する。 このアプローチは、クラス知識のオーバーレイ、半教師付き学習、三重項損失という3つの部分からなる。 クラス知識オーバーレイ(CKO)を適用して、対応するクラスだけでなく、知識オーバーレイを持つ他のクラスからも知識を得ます。 これにより、知識と視覚の学習プロセスが、合成された視覚特徴を生成するのに十分な情報を持つことが保証される。 このアプローチはまた、知識-視覚モデルの再訓練に半教師付き学習プロセスを適用する。 合成された視覚特徴生成の強化と新しいカテゴリー予測に寄与する。 提案モデルが最先端のアプローチよりも優れたパフォーマンスを提供することを示す,いくつかのベンチマークデータセットの結果を集計した。

New categories can be discovered by transforming semantic features into synthesized visual features without corresponding training samples in zero-shot image classification. Although significant progress has been made in generating high-quality synthesized visual features using generative adversarial networks, guaranteeing semantic consistency between the semantic features and visual features remains very challenging. In this paper, we propose a novel zero-shot learning approach, GAN-CST, based on class knowledge to visual feature learning to tackle the problem. The approach consists of three parts, class knowledge overlay, semi-supervised learning and triplet loss. It applies class knowledge overlay (CKO) to obtain knowledge not only from the corresponding class but also from other classes that have the knowledge overlay. It ensures that the knowledge-to-visual learning process has adequate information to generate synthesized visual features. The approach also applies a semi-supervised learning process to re-train knowledge-to-visual model. It contributes to reinforcing synthesized visual features generation as well as new category prediction. We tabulate results on a number of benchmark datasets demonstrating that the proposed model delivers superior performance over state-of-the-art approaches.
翻訳日:2021-03-01 14:04:49 公開日:2021-02-26
# 知識共有に基づくゼロショット学習

Zero-Shot Learning Based on Knowledge Sharing ( http://arxiv.org/abs/2102.13326v1 )

ライセンス: Link先を確認
Zeng Ting, Xiang Hongxin, Xie Cheng, Yang Yun, Liu Qing(参考訳) Zero-Shot Learning(ZSL)は、ごくわずかなトレーニングデータで分類問題を解決することを目的とした新しい研究です。 現在ZSLは、主に視覚空間への学習意味空間のマッピングに焦点を当てている。 ZSL研究の進歩を妨げる多くの課題に直面している。 まず、セマンティック機能の表現は、カテゴリのすべての機能を表すには不十分です。 第二に、ドメインドリフト問題は、意味空間から視覚空間への移動中にまだ存在する。 本稿では,意味的特徴の表現を充実させるために,知識共有(KS)を導入する。 KSをベースとして,実際の視覚特徴に非常に近い意味的特徴から擬似視覚特徴を生成するために,生成的対向ネットワークを適用した。 ZSLの2つのベンチマークデータセットによる実験結果から,提案手法は一貫した改善が得られた。

Zero-Shot Learning (ZSL) is an emerging research that aims to solve the classification problems with very few training data. The present works on ZSL mainly focus on the mapping of learning semantic space to visual space. It encounters many challenges that obstruct the progress of ZSL research. First, the representation of the semantic feature is inadequate to represent all features of the categories. Second, the domain drift problem still exists during the transfer from semantic space to visual space. In this paper, we introduce knowledge sharing (KS) to enrich the representation of semantic features. Based on KS, we apply a generative adversarial network to generate pseudo visual features from semantic features that are very close to the real visual features. Abundant experimental results from two benchmark datasets of ZSL show that the proposed approach has a consistent improvement.
翻訳日:2021-03-01 14:04:31 公開日:2021-02-26
# ICD符号化予測のためのメタ埋め込みに基づくアンサンブルアプローチ

A Meta-embedding-based Ensemble Approach for ICD Coding Prediction ( http://arxiv.org/abs/2102.13622v1 )

ライセンス: Link先を確認
Pavithra Rajendran, Alexandros Zenonos, Josh Spear, Rebecca Pope(参考訳) 国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。 これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。 icd符号を自動的に割り当てる問題は、非構造化データ上のニューラルモデルを用いて、マルチラベル分類として文献で研究されている。 提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。 さらに,2組のワードベクトルの幾何学的特性を利用して,メタ埋め込み手法を用いて,それらを共通次元空間に結合する。 非構造化情報と構造化情報を用いたマルチモーダル設定に対するこのアプローチの有効性を実証する。 私たちのアプローチは、最新のディープラーニングアーキテクチャと利点のアンサンブルモデルを改善することを実証的に示しています。

International Classification of Diseases (ICD) are the de facto codes used globally for clinical coding. These codes enable healthcare providers to claim reimbursement and facilitate efficient storage and retrieval of diagnostic information. The problem of automatically assigning ICD codes has been approached in literature as a multilabel classification, using neural models on unstructured data. Our proposed approach enhances the performance of neural models by effectively training word vectors using routine medical data as well as external knowledge from scientific articles. Furthermore, we exploit the geometric properties of the two sets of word vectors and combine them into a common dimensional space, using meta-embedding techniques. We demonstrate the efficacy of this approach for a multimodal setting, using unstructured and structured information. We empirically show that our approach improves the current state-of-the-art deep learning architectures and benefits ensemble models.
翻訳日:2021-03-01 14:03:53 公開日:2021-02-26
# Beyond Convolutions: 生の地震データ取得のための新しいディープラーニングアプローチ

Beyond Convolutions: A Novel Deep Learning Approach for Raw Seismic Data Ingestion ( http://arxiv.org/abs/2102.13631v1 )

ライセンス: Link先を確認
Zhaozhuo Xu, Aditya Desai, Menal Gupta, Anu Chandran, Antoine Vial-Aussavy, Anshumali Shrivastava(参考訳) 従来の地震処理ワークフロー(SPW)は高価であり、1年以上の人的および計算的努力を必要とします。 深層学習(DL)に基づくデータ駆動型地震波動ワークフロー(DSPW)は、これらのタイムラインを数分に短縮する可能性を秘めている。 生地震データ(テラバイト)と必要な地下予測(ギガバイト)は巨大である。 この大規模で空間的に不規則な時系列データは、DSPWの非定型かつ根本的な問題として地震データ取り込み(SDI)を引き起こします。 現在のDL研究は、画像のような地震データを処理し、畳み込みネットワークで処理する、小規模な単純化された合成データセットに限られている。 しかし、実際の地震データは少なくとも5Dです。 このスケールに5次元畳み込みを適用することは計算的に禁止される。 さらに、生の地震データは高度に非構造であり、本質的に画像的ではない。 我々は、畳み込みから脱却する根本的なシフトを提案し、SESDI: Set Embedding based SDI approachを導入します。 SESDIは、まず大規模な予測のマンモスタスクを効率的なコンパクトな補助タスクに分解する。 SESDIはその新しいモデルアーキテクチャでデータに不規則性を優雅に組み込む。 SESDIは、実際の地震データに関するエンドツーエンド学習の実証に初めて成功しました。 SESDIはメキシコ湾の実際のプロプライエタリなデータに対するベロシティインバージョンタスクにおいて0.8以上のSSIMを達成し、合成データセット上で最先端のU-Netモデルを上回っている。

Traditional seismic processing workflows (SPW) are expensive, requiring over a year of human and computational effort. Deep learning (DL) based data-driven seismic workflows (DSPW) hold the potential to reduce these timelines to a few minutes. Raw seismic data (terabytes) and required subsurface prediction (gigabytes) are enormous. This large-scale, spatially irregular time-series data poses seismic data ingestion (SDI) as an unconventional yet fundamental problem in DSPW. Current DL research is limited to small-scale simplified synthetic datasets as they treat seismic data like images and process them with convolution networks. Real seismic data, however, is at least 5D. Applying 5D convolutions to this scale is computationally prohibitive. Moreover, raw seismic data is highly unstructured and hence inherently non-image like. We propose a fundamental shift to move away from convolutions and introduce SESDI: Set Embedding based SDI approach. SESDI first breaks down the mammoth task of large-scale prediction into an efficient compact auxiliary task. SESDI gracefully incorporates irregularities in data with its novel model architecture. We believe SESDI is the first successful demonstration of end-to-end learning on real seismic data. SESDI achieves SSIM of over 0.8 on velocity inversion task on real proprietary data from the Gulf of Mexico and outperforms the state-of-the-art U-Net model on synthetic datasets.
翻訳日:2021-03-01 14:03:13 公開日:2021-02-26
# オフライン回帰オーラクルを用いた文脈的包帯の誤認への適応

Adapting to misspecification in contextual bandits with offline regression oracles ( http://arxiv.org/abs/2102.13240v1 )

ライセンス: Link先を確認
Sanath Kumar Krishnamurthy, Vitor Hadad, and Susan Athey(参考訳) 計算効率の良いコンテクストバンディットは、過去のデータを用いて与えられたコンテクストとアームの予測モデルに基づくことが多い。 しかし、報奨モデルが十分に特定されていない場合、バンディットアルゴリズムは予期せぬ後悔を引き起こす可能性があるため、最近の研究は誤特定に頑健なアルゴリズムに焦点を当てている。 我々は,誤特定が後悔の増大を引き起こすという証拠がある場合に,適切な安全ポリシーに戻すことにより,誤特定エラーに適応する,文脈的バンディットアルゴリズムの単純なファミリを提案する。 我々のアルゴリズムは、平均的な不特定化レベルの測定で優雅に劣化する後悔の保証を保証するために、オフラインの回帰オラクルのみを必要とします。 以前の研究と比較すると、同様の後悔の保証を得るが、マスターアルゴリズムに頼らず、オンラインや制約付き回帰オラクル(フォスターなど)のようなより堅牢なオラクルを必要としない。 (2020a): Krishnamurthy et al。 (2020)). これにより、より一般的な関数近似クラスのためのアルゴリズムを設計できる。

Computationally efficient contextual bandits are often based on estimating a predictive model of rewards given contexts and arms using past data. However, when the reward model is not well-specified, the bandit algorithm may incur unexpected regret, so recent work has focused on algorithms that are robust to misspecification. We propose a simple family of contextual bandit algorithms that adapt to misspecification error by reverting to a good safe policy when there is evidence that misspecification is causing a regret increase. Our algorithm requires only an offline regression oracle to ensure regret guarantees that gracefully degrade in terms of a measure of the average misspecification level. Compared to prior work, we attain similar regret guarantees, but we do no rely on a master algorithm, and do not require more robust oracles like online or constrained regression oracles (e.g., Foster et al. (2020a); Krishnamurthy et al. (2020)). This allows us to design algorithms for more general function approximation classes.
翻訳日:2021-03-01 14:02:27 公開日:2021-02-26
# ランダム森林用MDA:不整合性、Sobol-MDAによる実用的なソリューション。

MDA for random forests: inconsistency, and a practical solution via the Sobol-MDA ( http://arxiv.org/abs/2102.13347v1 )

ライセンス: Link先を確認
Cl\'ement B\'enard (LPSM), S\'ebastien da Veiga, Erwan Scornet (CMAP)(参考訳) 変数重要度尺度は、ランダム森林のブラックボックス機構を分析する主要なツールである。 平均減少精度(MDA)はランダム森林にとって最も効率的な変数重要度尺度として広く受け入れられているが、その理論的性質についてはほとんど知られていない。 実際、正確なMDA定義は、メインのランダムフォレストソフトウェアによって異なる。 本稿では,主要なMDA実装の動作を厳格に分析することを目的とする。 その結果,様々な実装されたMDAアルゴリズムを数学的に定式化し,サンプルサイズが大きくなるとその限界を確定する。 特に、これらの限界を3つの成分に分解する: 第一の2つは、入力変数の依存性によって値が増加する第三項とは対照的に、出力の分散に対する変数の寄与を適切に定義した尺度であるソボ指標に関連付けられている。 そこで,本研究では,入力が依存している場合には,MDAが適切な量を目標としていないことを理論的に示した。 この問題に対処するために、我々は、元のMDAの欠陥を修正するランダム森林の新たな重要度尺度、Sobol-MDAを定義した。 Sobol-MDAの一貫性を証明し、シミュレーションデータと実データの両方の実験を通じて、その優れた実証性能を示します。 RとC++のオープンソース実装がオンラインで公開されている。

Variable importance measures are the main tools to analyze the black-box mechanism of random forests. Although the Mean Decrease Accuracy (MDA) is widely accepted as the most efficient variable importance measure for random forests, little is known about its theoretical properties. In fact, the exact MDA definition varies across the main random forest software. In this article, our objective is to rigorously analyze the behavior of the main MDA implementations. Consequently, we mathematically formalize the various implemented MDA algorithms, and then establish their limits when the sample size increases. In particular, we break down these limits in three components: the first two are related to Sobol indices, which are well-defined measures of a variable contribution to the output variance, widely used in the sensitivity analysis field, as opposed to the third term, whose value increases with dependence within input variables. Thus, we theoretically demonstrate that the MDA does not target the right quantity when inputs are dependent, a fact that has already been noticed experimentally. To address this issue, we define a new importance measure for random forests, the Sobol-MDA, which fixes the flaws of the original MDA. We prove the consistency of the Sobol-MDA and show its good empirical performance through experiments on both simulated and real data. An open source implementation in R and C++ is available online.
翻訳日:2021-03-01 14:02:09 公開日:2021-02-26
# 最適弱輸送バリセンターのストリーミング計算

Streaming computation of optimal weak transport barycenters ( http://arxiv.org/abs/2102.13380v1 )

ライセンス: Link先を確認
Elsa Cazelles and Felipe Tobar and Joaquin Fontbona(参考訳) 確率分布のファミリーの弱いバリセンターについて、最近開発された測度 arXiv:1412.7480(v4) の最適弱輸送の概念に基づいて紹介する。 弱バリセンタと古典的なワッサーシュタインバリセンタとの関係を理論的に解析し、確率測度間の凸秩序の観点からその意味を議論する。 特に、通常の最適輸送バリセンタによって行われる入力分布の情報を平均化するのではなく、弱いバリセンタは全ての入力分布間で共有される幾何学的情報を含み、全ての測度に影響を与える潜在確率変数として解釈できると論じる。 また、任意の測度(順序2の有限モーメントを持つ)の有限または無限の測度のいずれかのファミリーに対して弱いバリセンターを計算するための反復アルゴリズムも提供しており、これは特に、測度が順次到着する時など、ストリーミング設定に適している。 特に、弱いバリセンタのストリーミング計算では、これまでのwassstin barycentersに対するアプローチがそうであるように、スムーズな経験的尺度や、それらの共通のグリッドを定義する必要はありません。 弱いバリセンタの概念と計算手法は、2次元実世界データ上で検証され、古典的ワッサースタイン・バリセンタと比較された合成例で示される。

We introduce the weak barycenter of a family of probability distributions, based on the recently developed notion of optimal weak transport of measures arXiv:1412.7480(v4). We provide a theoretical analysis of the weak barycenter and its relationship to the classic Wasserstein barycenter, and discuss its meaning in the light of convex ordering between probability measures. In particular, we argue that, rather than averaging the information of the input distributions as done by the usual optimal transport barycenters, weak barycenters contain geometric information shared across all input distributions, which can be interpreted as a latent random variable affecting all the measures. We also provide iterative algorithms to compute a weak barycenter for either finite or infinite families of arbitrary measures (with finite moments of order 2), which are particularly well suited for the streaming setting, i.e., when measures arrive sequentially. In particular, our streaming computation of weak barycenters does not require to smooth empirical measures or to define a common grid for them, as some of the previous approaches to Wasserstin barycenters do. The concept of weak barycenter and our computation approaches are illustrated on synthetic examples, validated on 2D real-world data and compared to the classical Wasserstein barycenters.
翻訳日:2021-03-01 14:01:46 公開日:2021-02-26
# 獲得重み付き核を用いた置換のバッチベイズ最適化

Batch Bayesian Optimization on Permutations using Acquisition Weighted Kernels ( http://arxiv.org/abs/2102.13382v1 )

ライセンス: Link先を確認
Changyong Oh, Roberto Bondesan, Efstratios Gavves, Max Welling(参考訳) 本研究では,置換のコスト関数に好適な置換問題に対するベイズ最適化手法を提案する。 取得重み付きカーネルを用いて、決定点プロセスに基づく新しい効率的なバッチ取得方法であるLAWを紹介します。 複数の並列評価に基づいて、LAWは最適な置換の探索を高速化する。 本研究では,理論特性の知見を得るための後悔分析法を提案する。 その枠組みを置換問題に適用するが、ベイズ最適化の文献では、実用的重要性にもかかわらずほとんど注目されていない。 このメソッドを LAW2ORDER と呼ぶ。 本稿では,2次割当,フローショップスケジューリング,旅行セールスマンなどの置換を含むいくつかの標準組合せ問題に対する手法と構造学習タスクについて評価する。

In this work we propose a batch Bayesian optimization method for combinatorial problems on permutations, which is well suited for expensive cost functions on permutations. We introduce LAW, a new efficient batch acquisition method based on the determinantal point process, using an acquisition weighted kernel. Relying on multiple parallel evaluations, LAW accelerates the search for the optimal permutation. We provide a regret analysis for our method to gain insight in its theoretical properties. We then apply the framework to permutation problems, which have so far received little attention in the Bayesian Optimization literature, despite their practical importance. We call this method LAW2ORDER. We evaluate the method on several standard combinatorial problems involving permutations such as quadratic assignment, flowshop scheduling and the traveling salesman, as well as on a structure learning task.
翻訳日:2021-03-01 14:01:23 公開日:2021-02-26
# 反復se(3)変換器

Iterative SE(3)-Transformers ( http://arxiv.org/abs/2102.13419v1 )

ライセンス: Link先を確認
Fabian B. Fuchs, Edward Wagstaff, Justas Dauparas, Ingmar Posner(参考訳) 三次元データを操作する場合、いわゆるSE(3)-同変モデルを適用することにより、回転対称性と翻訳対称性が尊重されることを保証できる。 タンパク質構造予測は、これらの対称性を示すタスクの顕著な例である。 この領域における最近の研究はSE(3)-同変モデルを使い、反復SE(3)-同変アテンション機構を適用した。 このアプリケーションに動機づけられて、グラフデータのSE(3)等価な注意ベースのモデルであるSE(3)-Transformerの反復バージョンを実装します。 反復的な方法でSE(3)-Transformerを適用する際に生じる追加的な合併症に対処し、おもちゃ問題の反復バージョンとシングルパスバージョンを比較し、反復モデルがいくつかの問題設定で有益である理由を検討する。 実装のコードをコミュニティに公開しています。

When manipulating three-dimensional data, it is possible to ensure that rotational and translational symmetries are respected by applying so-called SE(3)-equivariant models. Protein structure prediction is a prominent example of a task which displays these symmetries. Recent work in this area has successfully made use of an SE(3)-equivariant model, applying an iterative SE(3)-equivariant attention mechanism. Motivated by this application, we implement an iterative version of the SE(3)-Transformer, an SE(3)-equivariant attention-based model for graph data. We address the additional complications which arise when applying the SE(3)-Transformer in an iterative fashion, compare the iterative and single-pass versions on a toy problem, and consider why an iterative model may be beneficial in some problem settings. We make the code for our implementation available to the community.
翻訳日:2021-03-01 14:01:11 公開日:2021-02-26
# 深層学習のためのリッチレギムトレーニングによる実験

Experiments with Rich Regime Training for Deep Learning ( http://arxiv.org/abs/2102.13522v1 )

ライセンス: Link先を確認
Xinyan Li and Arindam Banerjee(参考訳) 遅延トレーニングの理解の進歩にもかかわらず、最近の研究は、複雑な誘導バイアスを持つ豊かな体制に深層学習の実践的な成功を特徴とする。 本稿では,リッチレジームトレーニングをベンチマークデータセットを用いて経験的に検討し,ほとんどのパラメータが遅延であるが,トレーニング中にかなり変化する少数のアクティブパラメータが存在することを発見した。 活性パラメータの再初期化(初期乱数値のリセット)は、より悪い一般化をもたらすことを示す。 さらに、アクティブなパラメータのほとんどは、特にネットワークが広くなるにつれて、入力に近い下層にあることを示しています。 このような観測に基づいて、いくつかのレイヤのみを更新する静的なLayer-Wise Sparse (LWS) SGDについて検討する。 トップ層とボトム層の更新だけが良好な一般化を持ち、予想通りトップ層を更新するだけで高速なアルゴリズムが得られる。 そこで本研究では,主に上位層を更新し,時には全ネットワークを更新する確率的LWS-SGDについて検討する。 確率的LWS-SGDはバニラSGDの一般化性能と一致し、バックプロパゲーション時間は2~5倍効率がよいことを示す。

In spite of advances in understanding lazy training, recent work attributes the practical success of deep learning to the rich regime with complex inductive bias. In this paper, we study rich regime training empirically with benchmark datasets, and find that while most parameters are lazy, there is always a small number of active parameters which change quite a bit during training. We show that re-initializing (resetting to their initial random values) the active parameters leads to worse generalization. Further, we show that most of the active parameters are in the bottom layers, close to the input, especially as the networks become wider. Based on such observations, we study static Layer-Wise Sparse (LWS) SGD, which only updates some subsets of layers. We find that only updating the top and bottom layers have good generalization and, as expected, only updating the top layers yields a fast algorithm. Inspired by this, we investigate probabilistic LWS-SGD, which mostly updates the top layers and occasionally updates the full network. We show that probabilistic LWS-SGD matches the generalization performance of vanilla SGD and the back-propagation time can be 2-5 times more efficient.
翻訳日:2021-03-01 14:00:56 公開日:2021-02-26
# 回帰のための学習予測間隔:一般化と校正

Learning Prediction Intervals for Regression: Generalization and Calibration ( http://arxiv.org/abs/2102.13625v1 )

ライセンス: Link先を確認
Haoxian Chen, Ziyi Huang, Henry Lam, Huajie Qian, Haofeng Zhang(参考訳) 不確実性定量のための回帰における予測間隔の生成について検討する。 このタスクは、データ全体のカバレッジ精度を維持しながら、平均間隔幅を最小化する経験的制約付き最適化問題として定式化することができる。 我々は,この経験的最適化の2つの側面を研究することにより,既存の文献を強化する。 まず、回帰木やニューラルネットワークに代表されるLipschitz連続性およびVCサブグラフクラスを含む最適性-実現性トレードオフを特徴付けるための一般的な学習理論です。 第2に、このトレードオフを管理する正規化パラメータを最適に選択するためのキャリブレーション機械と対応する統計理論である。 我々は既存のベンチマークと比べてテスト性能の点で、区間生成とキャリブレーションアルゴリズムの強みを実証的に示している。

We study the generation of prediction intervals in regression for uncertainty quantification. This task can be formalized as an empirical constrained optimization problem that minimizes the average interval width while maintaining the coverage accuracy across data. We strengthen the existing literature by studying two aspects of this empirical optimization. First is a general learning theory to characterize the optimality-feasibili ty tradeoff that encompasses Lipschitz continuity and VC-subgraph classes, which are exemplified in regression trees and neural networks. Second is a calibration machinery and the corresponding statistical theory to optimally select the regularization parameter that manages this tradeoff, which bypasses the overfitting issues in previous approaches in coverage attainment. We empirically demonstrate the strengths of our interval generation and calibration algorithms in terms of testing performances compared to existing benchmarks.
翻訳日:2021-03-01 14:00:37 公開日:2021-02-26
# なぜ流通が変わったのか?

Why did the distribution change? ( http://arxiv.org/abs/2102.13384v1 )

ライセンス: Link先を確認
Kailash Budhathoki, Dominik Janzing, Patrick Bloebaum, Hoiyi Ng(参考訳) 本稿では,変数の確率分布の変化の「根本原因」を特定するためのグラフィカル因果モデルに基づく形式的アプローチについて述べる。 共役分布を各変数の条件分布に分解し、その親(「因果メカニズム」)が与えられた後、これらの因果メカニズムの変化にその変化を分類する。 この属性分析は、メカニズムがしばしば独立して変化し、時には一部しか変化しないという事実を表します。 シミュレーションにより,分布変化帰属法の性能について検討した。 次に、男女の所得分布の違いの要因を特定する実世界のケーススタディを提示します。

We describe a formal approach based on graphical causal models to identify the "root causes" of the change in the probability distribution of variables. After factorizing the joint distribution into conditional distributions of each variable, given its parents (the "causal mechanisms"), we attribute the change to changes of these causal mechanisms. This attribution analysis accounts for the fact that mechanisms often change independently and sometimes only some of them change. Through simulations, we study the performance of our distribution change attribution method. We then present a real-world case study identifying the drivers of the difference in the income distribution between men and women.
翻訳日:2021-03-01 13:59:30 公開日:2021-02-26
# ECO: ハーベステッドエネルギーのランタイム割り当てによるエネルギーニュートラルIoTデバイスの実現

ECO: Enabling Energy-Neutral IoT Devices through Runtime Allocation of Harvested Energy ( http://arxiv.org/abs/2102.13605v1 )

ライセンス: Link先を確認
Yigit Tuncel, Ganapati Bhat, Jaehyun Park, Umit Ogras(参考訳) エネルギー収穫は低エネルギーデバイスを動かすための魅力的で有望なメカニズムを提供する。 しかし、エネルギー中立的な動作を可能にするには不十分であり、面倒なバッテリー充電や交換要求を排除できる。 エネルギー中立運転の達成は、収穫エネルギーの不確実性がサービスの質を損なうため困難である。 この課題に対処するために、エネルギー制約下でターゲットデバイスの有用性を最適化するロールアウトベースのランタイムエネルギーアロケーションフレームワークを紹介します。 提案フレームワークは, 効率的な反復アルゴリズムを用いて, 初期エネルギー割り当てを1日の初めに計算する。 初期割り当ては、期待されるエネルギー収穫パターンからのずれを補うために、各間隔で補正される。 このフレームワークは、太陽と運動エネルギーの収穫モードと、4772の異なるユーザーからのアメリカンタイムユースサーベイデータを使用して評価します。 最先端技術と比較して、提案手法はエネルギー制限シナリオの下でも34.6%高い実用性を達成する。 さらに, ウェアラブルデバイスのプロトタイプを用いた測定結果から, 実用性が無視できる反復的アプローチと比較して, 提案フレームワークのエネルギーオーバーヘッドが0.1%未満であることが判明した。

Energy harvesting offers an attractive and promising mechanism to power low-energy devices. However, it alone is insufficient to enable an energy-neutral operation, which can eliminate tedious battery charging and replacement requirements. Achieving an energy-neutral operation is challenging since the uncertainties in harvested energy undermine the quality of service requirements. To address this challenge, we present a rollout-based runtime energy-allocation framework that optimizes the utility of the target device under energy constraints. The proposed framework uses an efficient iterative algorithm to compute initial energy allocations at the beginning of a day. The initial allocations are then corrected at every interval to compensate for the deviations from the expected energy harvesting pattern. We evaluate this framework using solar and motion energy harvesting modalities and American Time Use Survey data from 4772 different users. Compared to state-of-the-art techniques, the proposed framework achieves 34.6% higher utility even under energy-limited scenarios. Moreover, measurements on a wearable device prototype show that the proposed framework has less than 0.1% energy overhead compared to iterative approaches with a negligible loss in utility.
翻訳日:2021-03-01 13:59:20 公開日:2021-02-26
# 潜在木モデルのスペクトルトップダウン復元

Spectral Top-Down Recovery of Latent Tree Models ( http://arxiv.org/abs/2102.13276v1 )

ライセンス: Link先を確認
Yariv Aizenbud, Ariel Jaffe, Meng Wang, Amber Hu, Noah Amsel, Boaz Nadler, Joseph T. Chang, Yuval Kluger(参考訳) 潜伏木グラフモデルによる高次元データの分布のモデル化は、複数の科学的領域において共通のアプローチである。 共通するタスクは、端末ノードの観測のみを前提としたツリー構造を推測することである。 多くの木回復アルゴリズムは計算量が多いため、適度な大きさの木への適用性が制限されている。 大きな木の場合、分割と分割と呼ばれる一般的なアプローチは、2つのステップで木構造を回復することである。 まず、複数の端末ノードのランダムに選択されたサブセットに対して別々に構造を復元する。 次に、結果のサブツリーをマージして、フルツリーを形成する。 本研究では,大規模潜在木モデルの推定のための分割・解法であるスペクトルトップダウンリカバリ(stdr)を開発した。 従来の方法とは異なり、STDRの分割ステップは非ランダムである。 代わりに、観測されたノードに関連する適切なラプラシア行列のFiedlerベクトルに基づいている。 特定の条件下では、この分割はツリー構造と一致していることを示す。 これにより、小さな部分木のマージ手順が大幅に単純化される。 私達はSTDRが統計的に一貫性があることを証明し、高い確率で木を正確に回復するために必要なサンプルの数を縛ります。 系統学におけるいくつかの共通木モデルのシミュレーションデータを用いて,STDRは実行時において,改良あるいは類似した精度で大きな優位性を有することを示した。

Modeling the distribution of high dimensional data by a latent tree graphical model is a common approach in multiple scientific domains. A common task is to infer the underlying tree structure given only observations of the terminal nodes. Many algorithms for tree recovery are computationally intensive, which limits their applicability to trees of moderate size. For large trees, a common approach, termed divide-and-conquer, is to recover the tree structure in two steps. First, recover the structure separately for multiple randomly selected subsets of the terminal nodes. Second, merge the resulting subtrees to form a full tree. Here, we develop Spectral Top-Down Recovery (STDR), a divide-and-conquer approach for inference of large latent tree models. Unlike previous methods, STDR's partitioning step is non-random. Instead, it is based on the Fiedler vector of a suitable Laplacian matrix related to the observed nodes. We prove that under certain conditions this partitioning is consistent with the tree structure. This, in turn leads to a significantly simpler merging procedure of the small subtrees. We prove that STDR is statistically consistent, and bound the number of samples required to accurately recover the tree with high probability. Using simulated data from several common tree models in phylogenetics, we demonstrate that STDR has a significant advantage in terms of runtime, with improved or similar accuracy.
翻訳日:2021-03-01 13:58:38 公開日:2021-02-26
# 反復学習制御への後悔最小化アプローチ

A Regret Minimization Approach to Iterative Learning Control ( http://arxiv.org/abs/2102.13478v1 )

ライセンス: Link先を確認
Naman Agarwal, Elad Hazan, Anirudha Majumdar, Karan Singh(参考訳) 我々は,不確定な時間変動ダイナミクスが存在する場合,反復学習制御やモデルに基づく政策学習の設定を考える。 本稿では,従来の確率的不確実性仮定を最悪のケース後悔に置き換え,後悔を計画する新たなパフォーマンス指標を提案する。 非確率的制御の最近の進歩に基づき、ミスマッチや不確実性をモデル化する上でより堅牢な計画的後悔を最小化するための新しい反復アルゴリズムを設計する。 提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。

We consider the setting of iterative learning control, or model-based policy learning in the presence of uncertain, time-varying dynamics. In this setting, we propose a new performance metric, planning regret, which replaces the standard stochastic uncertainty assumptions with worst case regret. Based on recent advances in non-stochastic control, we design a new iterative algorithm for minimizing planning regret that is more robust to model mismatch and uncertainty. We provide theoretical and empirical evidence that the proposed algorithm outperforms existing methods on several benchmarks.
翻訳日:2021-03-01 13:58:20 公開日:2021-02-26
# ファイナンシャルレコメンデーションのための履歴強化協調フィルタリング

History-Augmented Collaborative Filtering for Financial Recommendations ( http://arxiv.org/abs/2102.13503v1 )

ライセンス: Link先を確認
Baptiste Barreau, Laurent Carlier(参考訳) 多くの企業、特に金融では、クライアントの行動が時間とともに劇的に変わる可能性があります。 したがって、そのような環境で使用されるレコメンダーシステムがこれらの変更に適応できることは非常に重要です。 本研究では,ユーザとアイテムの相互作用履歴を通じてユーザとアイテムの相互作用の時間的コンテキストをキャプチャし,動的に推奨する新たな協調フィルタリングアルゴリズムを提案する。 このアルゴリズムは金融業界を念頭に置いて設計されたもので、ユーザーとアイテムの動作の非定常性に取り組むカスタムニューラルネットワークアーキテクチャを使用している。 アルゴリズムの性能と特性は、BNP Paribas Corporate と Institutional Banking のプロプライエタリデータベースを引用するための G10 結合要求に関する一連の実験で監視される。

In many businesses, and particularly in finance, the behavior of a client might drastically change over time. It is consequently crucial for recommender systems used in such environments to be able to adapt to these changes. In this study, we propose a novel collaborative filtering algorithm that captures the temporal context of a user-item interaction through the users' and items' recent interaction histories to provide dynamic recommendations. The algorithm, designed with issues specific to the financial world in mind, uses a custom neural network architecture that tackles the non-stationarity of users' and items' behaviors. The performance and properties of the algorithm are monitored in a series of experiments on a G10 bond request for quotation proprietary database from BNP Paribas Corporate and Institutional Banking.
翻訳日:2021-03-01 13:58:11 公開日:2021-02-26
# ニューラルネットワークによる学習におけるスパース近似

Sparse approximation in learning via neural ODEs ( http://arxiv.org/abs/2102.13566v1 )

ライセンス: Link先を確認
Carlos Esteve Yag\"ue and Borjan Geshkovski(参考訳) 深層学習における連続時間, ニューラル常微分方程式(ニューラルODE)の視点を考察し, トレーニングにおける最終時間地平線の影響について検討する。 我々は、時間間隔における経験的リスクの積分と、l^1$-パラメータの正規化からなるコストに焦点を当てる。 ダイナミクス上の均質性仮定(ReLUアクティベーションの典型的)の下で、任意のグローバル最小化器は、最適パラメータが消滅するプラスの停止時間$T^*$が存在するという意味で、スパースであることを証明する。 さらに、ニューラルODE上の適切な補間仮定の下では、停止時間$T^\ast$と、停止時間における軌道のトレーニング誤差の定量的推定を行う。 後者は、スパースパラメータを持つ神経ODEフローの定量的近似特性を規定する。 現実的には、トレーニング問題における時間ホライゾンの短縮は、より浅い残留ニューラルネットワーク(ResNet)を考慮したものと解釈でき、最適パラメータはより短い時間地平線上に集中しているため、関連する情報を捨てることなく、トレーニングの計算コストを下げることができる。

We consider the continuous-time, neural ordinary differential equation (neural ODE) perspective of deep supervised learning, and study the impact of the final time horizon $T$ in training. We focus on a cost consisting of an integral of the empirical risk over the time interval, and $L^1$--parameter regularization. Under homogeneity assumptions on the dynamics (typical for ReLU activations), we prove that any global minimizer is sparse, in the sense that there exists a positive stopping time $T^*$ beyond which the optimal parameters vanish. Moreover, under appropriate interpolation assumptions on the neural ODE, we provide quantitative estimates of the stopping time $T^\ast$, and of the training error of the trajectories at the stopping time. The latter stipulates a quantitative approximation property of neural ODE flows with sparse parameters. In practical terms, a shorter time-horizon in the training problem can be interpreted as considering a shallower residual neural network (ResNet), and since the optimal parameters are concentrated over a shorter time horizon, such a consideration may lower the computational cost of training without discarding relevant information.
翻訳日:2021-03-01 13:57:58 公開日:2021-02-26
# シミュレーションDAGに注意! 付加雑音モデルにおける可変性

Beware of the Simulated DAG! Varsortability in Additive Noise Models ( http://arxiv.org/abs/2102.13647v1 )

ライセンス: Link先を確認
Alexander G. Reisach, Christof Seiler, Sebastian Weichwald(参考訳) 付加ノイズモデルは因果モデルの一種であり、各変数はその原因と独立したノイズの関数として定義される。 そのようなモデルでは、限界分散による変数の順序付けは因果順序を示すことができる。 限界分散による順序と因果順序との一致の尺度として変分可能性を導入する。 合成データにおける連続構造学習アルゴリズムの性能は,バラエティが如何に支配されているかを示す。 実世界のデータでは、変数ソータビリティは不可解でテスト不可能な仮定であり、高い変数ソータビリティの兆候は見つかっていない。 模擬添加ノイズモデルではバラツキが起こりやすいという認識を高めることを目指しています。 データのベンチマークにおいて,変数ソータビリティを明示的に利用し,変数ソータビリティを報告することを提唱するベースライン手法を提供する。

Additive noise models are a class of causal models in which each variable is defined as a function of its causes plus independent noise. In such models, the ordering of variables by marginal variances may be indicative of the causal order. We introduce varsortability as a measure of agreement between the ordering by marginal variance and the causal order. We show how varsortability dominates the performance of continuous structure learning algorithms on synthetic data. On real-world data, varsortability is an implausible and untestable assumption and we find no indication of high varsortability. We aim to raise awareness that varsortability easily occurs in simulated additive noise models. We provide a baseline method that explicitly exploits varsortability and advocate reporting varsortability in benchmarking data.
翻訳日:2021-03-01 13:57:36 公開日:2021-02-26
# モーメントを用いた確率勾配の一般化について

On the Generalization of Stochastic Gradient Descent with Momentum ( http://arxiv.org/abs/2102.13653v1 )

ライセンス: Link先を確認
Ali Ramezani-Kebrya, Ashish Khisti, Ben Liang(参考訳) 運動量に基づく手法は確率勾配勾配(SGD)とともに機械学習モデルを訓練する際に広く用いられているが、そのような手法の一般化誤差に関する理論的理解はほとんどない。 本研究では,標準重球運動量(SGDM)を持つSGDを複数回実行した場合,アルゴリズム安定性が一般化保証を確立することができない凸損失関数が存在することを示す。 次に、滑らかなリプシッツ損失関数に対して、初期運動量付きSGD(英語版)(SGDEM)という修正モーメントベースの更新規則を解析し、一般化誤差に上限があることを示す。 その結果,機械学習モデルがSGDEMの複数のエポックに対して一般化を保証するように訓練できることが示された。 最後に、強い凸損失関数の特別な場合、標準SGDMの複数のエポックが、SGDEMの特別な形式として、また一般化されるような運動量の範囲を見出す。 また、一般化の結果を拡張し、トレーニングステップの数、トレーニングセットのサイズ、および運動量パラメータの観点から、期待される真のリスクを上限として開発しています。 数値解析結果と理論境界の整合性および滑らかなリプシッツ損失関数に対するSGDEMの有効性を実験的に検証した。

While momentum-based methods, in conjunction with stochastic gradient descent (SGD), are widely used when training machine learning models, there is little theoretical understanding on the generalization error of such methods. In this work, we first show that there exists a convex loss function for which algorithmic stability fails to establish generalization guarantees when SGD with standard heavy-ball momentum (SGDM) is run for multiple epochs. Then, for smooth Lipschitz loss functions, we analyze a modified momentum-based update rule, i.e., SGD with early momentum (SGDEM), and show that it admits an upper-bound on the generalization error. Thus, our results show that machine learning models can be trained for multiple epochs of SGDEM with a guarantee for generalization. Finally, for the special case of strongly convex loss functions, we find a range of momentum such that multiple epochs of standard SGDM, as a special form of SGDEM, also generalizes. Extending our results on generalization, we also develop an upper-bound on the expected true risk, in terms of the number of training steps, the size of the training set, and the momentum parameter. Experimental evaluations verify the consistency between the numerical results and our theoretical bounds and the effectiveness of SGDEM for smooth Lipschitz loss functions.
翻訳日:2021-03-01 13:57:24 公開日:2021-02-26
# 対向画像を用いた学習型自律ステアリングのロバスト性向上

Improving Robustness of Learning-based Autonomous Steering Using Adversarial Images ( http://arxiv.org/abs/2102.13262v1 )

ライセンス: Link先を確認
Yu Shen, Laura Zheng, Manli Shu, Weizi Li, Tom Goldstein, Ming C. Lin(参考訳) 自動運転の安全のためには、さまざまな環境のさまざまな照明、天候、可視性条件下で運転できる必要があります。 これらの外部および環境要因は、センサーに関連する内部要因とともに、知覚データ処理に重大な課題を生じさせ、車両の意思決定と制御に影響を与える。 本研究では、自律運転のための画像入力における学習アルゴリズムw.r.tの品質変化の堅牢性を分析するためのフレームワークを導入することにより、この問題に対処する。 感度解析の結果を用いて、さらに「操縦学習」というタスクの全体的なパフォーマンスを向上させるアルゴリズムを提案します。 その結果、私たちのアプローチは学習成果を最大48%まで高めることができます。 本手法とデータ増強や対比訓練などの他の関連手法との比較検討により,自律走行におけるニューラルネットワークトレーニングの堅牢性と一般化を改善する方法として,アルゴリズムの有効性を確認した。

For safety of autonomous driving, vehicles need to be able to drive under various lighting, weather, and visibility conditions in different environments. These external and environmental factors, along with internal factors associated with sensors, can pose significant challenges to perceptual data processing, hence affecting the decision-making and control of the vehicle. In this work, we address this critical issue by introducing a framework for analyzing robustness of the learning algorithm w.r.t varying quality in the image input for autonomous driving. Using the results of sensitivity analysis, we further propose an algorithm to improve the overall performance of the task of "learning to steer". The results show that our approach is able to enhance the learning outcomes up to 48%. A comparative study drawn between our approach and other related techniques, such as data augmentation and adversarial training, confirms the effectiveness of our algorithm as a way to improve the robustness and generalization of neural network training for autonomous driving.
翻訳日:2021-03-01 13:56:59 公開日:2021-02-26
# 知識蒸留による光畳み込みニューラルネットワークの非線形性

Knowledge Distillation Circumvents Nonlinearity for Optical Convolutional Neural Networks ( http://arxiv.org/abs/2102.13323v1 )

ライセンス: Link先を確認
Jinlin Xiang, Shane Colburn, Arka Majumdar, Eli Shlizerman(参考訳) 近年、Convolutional Neural Networks(CNN)はユビキタス画像処理アプリケーションを可能にしています。 そのため、cnnはリアルタイムに高解像度のビジュアルストリームを処理するために高速ランタイム(フォワードプロパゲーション)を必要とする。 最先端のグラフィックスやテンソル処理ユニットでも、これは難しい作業です。 計算効率のボトルネックは、主に畳み込み層に発生する。 フーリエ領域での演算の実行は、畳み込みを要素ごとの乗算に変換するため、前方伝播を加速する有望な方法である。 さらに、この計算は光学式4fシステムを用いて、桁違いに高速に計算できる。 しかしながら、cnnの光学的実装と同様に、このスペクトルアプローチを用いる際の大きな課題は、cnnの性能が劇的に低下することなく、各畳み込み層間の非線形性を含むことである。 本稿では、スペクトルCNN線形カウンタ部(SCLC)ネットワークアーキテクチャを提案し、非線形性の必要性を回避するための知識蒸留(KD)アプローチを開発し、そのようなネットワークをうまく訓練する。 KDアプローチは、機械学習においてネットワークプルーニングの効果的なプロセスとして知られているが、非線形ネットワーク(教師)から線形ネットワーク(学生)へ知識を伝達するアプローチに適応する。 KDアプローチは、CNNの標準線形バージョンを簡単に上回るパフォーマンスを達成し、非線形ネットワークのパフォーマンスに近づくことができることを示しています。 提案した4f光リニアネットワークは,入力画像の分解能を高めることにより,(i)オブジェクト分類と(ii)セマンティックセグメンテーションという2つの基本的な画像処理タスクにおいて,同じ精度で非線形ネットワークよりも効率的に動作できることを示した。

In recent years, Convolutional Neural Networks (CNNs) have enabled ubiquitous image processing applications. As such, CNNs require fast runtime (forward propagation) to process high-resolution visual streams in real time. This is still a challenging task even with state-of-the-art graphics and tensor processing units. The bottleneck in computational efficiency primarily occurs in the convolutional layers. Performing operations in the Fourier domain is a promising way to accelerate forward propagation since it transforms convolutions into elementwise multiplications, which are considerably faster to compute for large kernels. Furthermore, such computation could be implemented using an optical 4f system with orders of magnitude faster operation. However, a major challenge in using this spectral approach, as well as in an optical implementation of CNNs, is the inclusion of a nonlinearity between each convolutional layer, without which CNN performance drops dramatically. Here, we propose a Spectral CNN Linear Counterpart (SCLC) network architecture and develop a Knowledge Distillation (KD) approach to circumvent the need for a nonlinearity and successfully train such networks. While the KD approach is known in machine learning as an effective process for network pruning, we adapt the approach to transfer the knowledge from a nonlinear network (teacher) to a linear counterpart (student). We show that the KD approach can achieve performance that easily surpasses the standard linear version of a CNN and could approach the performance of the nonlinear network. Our simulations show that the possibility of increasing the resolution of the input image allows our proposed 4f optical linear network to perform more efficiently than a nonlinear network with the same accuracy on two fundamental image processing tasks: (i) object classification and (ii) semantic segmentation.
翻訳日:2021-03-01 13:56:44 公開日:2021-02-26
# 殺さないことがあなたを堅牢にする(er): 毒物やバックドアに対する敵対的なトレーニング

What Doesn't Kill You Makes You Robust(er): Adversarial Training against Poisons and Backdoors ( http://arxiv.org/abs/2102.13624v1 )

ライセンス: Link先を確認
Jonas Geiping, Liam Fowl, Gowthami Somepalli, Micah Goldblum, Michael Moeller, Tom Goldstein(参考訳) データ中毒は、悪意のあるアクターがトレーニングデータを改ざんして推論時に結果を操作する脅威モデルです。 この脅威モデルに対するさまざまな防御策が提案されているが、それぞれに少なくとも1つの欠陥がある: 適応攻撃によって容易に克服される、テスト性能が著しく低下する、あるいはさまざまなデータ中毒脅威モデルに一般化できない、など。 敵対的訓練とそのバリエーションは、現在、(推論時間)敵対的攻撃に対する唯一の実証的に強い防御と見なされています。 本研究は、敵の訓練枠組みを拡張し、代わりに(訓練時間)中毒やバックドア攻撃を防御する。 本手法は, トレーニング中に毒を発生させ, トレーニングバッチに注入することにより, ネットワークを中毒の影響に敏感化する。 この防御は、適応攻撃に耐え、多様な脅威モデルに一般化し、以前の防御よりも優れた性能のトレードオフをもたらすことを示す。

Data poisoning is a threat model in which a malicious actor tampers with training data to manipulate outcomes at inference time. A variety of defenses against this threat model have been proposed, but each suffers from at least one of the following flaws: they are easily overcome by adaptive attacks, they severely reduce testing performance, or they cannot generalize to diverse data poisoning threat models. Adversarial training, and its variants, is currently considered the only empirically strong defense against (inference-time) adversarial attacks. In this work, we extend the adversarial training framework to instead defend against (training-time) poisoning and backdoor attacks. Our method desensitizes networks to the effects of poisoning by creating poisons during training and injecting them into training batches. We show that this defense withstands adaptive attacks, generalizes to diverse threat models, and incurs a better performance trade-off than previous defenses.
翻訳日:2021-03-01 13:56:15 公開日:2021-02-26
# モデルベース強化学習におけるハイパーパラメータ最適化の重要性について

On the Importance of Hyperparameter Optimization for Model-based Reinforcement Learning ( http://arxiv.org/abs/2102.13651v1 )

ライセンス: Link先を確認
Baohe Zhang, Raghu Rajan, Luis Pineda, Nathan Lambert, Andr\'e Biedenkapp, Kurtland Chua, Frank Hutter, Roberto Calandra(参考訳) モデルベース強化学習(MBRL)はデータ効率のよい制御を学習するための有望なフレームワークである。 MBRLアルゴリズムは、別々の動的モデリングとその後の計画アルゴリズムのためにかなり複雑になり、結果として数十のハイパーパラメータとアーキテクチャ上の選択を持つことが多い。 このため、MBRLは通常、新しい問題やドメインに適用する前に、重要な人間の専門知識を必要とします。 この問題を軽減するため,我々は自動ハイパーパラメータ最適化(hpo)を提案する。 我々は,この問題を自動化hpoによって効果的に解決できることを実証し,人間専門家に比べて大幅に性能が向上することを実証した。 さらに,複数のmbrlハイパーパラメータのチューニングが動的に行われることを示す。 トレーニング自体において、トレーニング全体のために固定された静的ハイパーパラメータを使用するよりも、パフォーマンスがさらに向上する。 最後に,我々の実験は,プランホライズンや学習率などの超パラメータの影響や,トレーニングの安定性や報酬に対する影響について,貴重な洞察を与えてくれる。

Model-based Reinforcement Learning (MBRL) is a promising framework for learning control in a data-efficient manner. MBRL algorithms can be fairly complex due to the separate dynamics modeling and the subsequent planning algorithm, and as a result, they often possess tens of hyperparameters and architectural choices. For this reason, MBRL typically requires significant human expertise before it can be applied to new problems and domains. To alleviate this problem, we propose to use automatic hyperparameter optimization (HPO). We demonstrate that this problem can be tackled effectively with automated HPO, which we demonstrate to yield significantly improved performance compared to human experts. In addition, we show that tuning of several MBRL hyperparameters dynamically, i.e. during the training itself, further improves the performance compared to using static hyperparameters which are kept fixed for the whole training. Finally, our experiments provide valuable insights into the effects of several hyperparameters, such as plan horizon or learning rate and their influence on the stability of training and resulting rewards.
翻訳日:2021-03-01 13:55:58 公開日:2021-02-26
# Moreau-Yosida $f$-divergences

Moreau-Yosida $f$-divergences ( http://arxiv.org/abs/2102.13416v1 )

ライセンス: Link先を確認
D\'avid Terj\'ek(参考訳) $f$-divergencesの変分表現は多くの機械学習アルゴリズムの中心であり、Lipschitzは近年注目されている。 Inspired by this, we generalize the so-called tight variational representation of $f$-divergences in the case of probability measures on compact metric spaces to be taken over the space of Lipschitz functions vanishing at an arbitrary base point, characterize functions achieving the supremum in the variational representation, propose a practical algorithm to calculate the tight convex conjugate of $f$-divergences compatible with automatic differentiation frameworks, define the Moreau-Yosida approximation of $f$-divergences with respect to the Wasserstein-$1$ metric, and derive the corresponding variational formulas, providing a generalization of a number of recent results, novel special cases of interest and a relaxation of the hard Lipschitz constraint. 理論結果の応用として,Moreau-Yosida $f$-GANを提案し,Kullback-Leibler, reverse Kullback-Leibler, $\chi^2$, reverse $\chi^2$, squared Hellinger, Jensen-Shannon, Jeffreys, Triangular discrimination, total variations divergences as GANs training on CIFAR-10, 競争結果と最適評論者の独創性の問題に対する簡単な解決法を提案する。

Variational representations of $f$-divergences are central to many machine learning algorithms, with Lipschitz constrained variants recently gaining attention. Inspired by this, we generalize the so-called tight variational representation of $f$-divergences in the case of probability measures on compact metric spaces to be taken over the space of Lipschitz functions vanishing at an arbitrary base point, characterize functions achieving the supremum in the variational representation, propose a practical algorithm to calculate the tight convex conjugate of $f$-divergences compatible with automatic differentiation frameworks, define the Moreau-Yosida approximation of $f$-divergences with respect to the Wasserstein-$1$ metric, and derive the corresponding variational formulas, providing a generalization of a number of recent results, novel special cases of interest and a relaxation of the hard Lipschitz constraint. As an application of our theoretical results, we propose the Moreau-Yosida $f$-GAN, providing an implementation of the variational formulas for the Kullback-Leibler, reverse Kullback-Leibler, $\chi^2$, reverse $\chi^2$, squared Hellinger, Jensen-Shannon, Jeffreys, triangular discrimination and total variation divergences as GANs trained on CIFAR-10, leading to competitive results and a simple solution to the problem of uniqueness of the optimal critic.
翻訳日:2021-03-01 13:55:43 公開日:2021-02-26
# docent: 大きなドキュメントコレクションから自己教師ありのエンティティ表現を学ぶ

DOCENT: Learning Self-Supervised Entity Representations from Large Document Collections ( http://arxiv.org/abs/2102.13247v1 )

ライセンス: Link先を確認
Yury Zemlyanskiy, Sudeep Gandhe, Ruining He, Bhargav Kanagal, Anirudh Ravula, Juraj Gottweis, Fei Sha and Ilya Eckstein(参考訳) 本稿では,大量のテキストからリッチな自己教師型エンティティ表現を学習する。 事前学習すると、これらのモデルは、ランク付けされた検索、知識ベース補完、質問応答など、複数のエンティティ中心のタスクに適用できる。 文内のローカルコンテキストのみに基づいて自己超越信号を抽出する他の方法とは異なり、コンテキストの概念を根本的に拡張し、エンティティに関連する任意のテキストを含める。 これにより、人間の監督なしに、複数のテキストソースからエンティティに関する有用な情報の多くを抽出できる、強力で高容量な表現の新たなクラスが可能になる。 我々は,従来のアプローチとは異なり,ユーザレビューからのMovieLensタグの予測や自然言語映画検索など,TV-Moviesドメインの下流タスクで実験的に比較した,単語やエンティティを共同で予測する戦略をいくつか提示する。 結果から証明されたように、私たちのモデルは、ほとんど、あるいは全く微調整せずに、競合ベースラインよりも優れており、非常に大きなコーパスにスケールできます。 最後に、データセットと事前トレーニング済みモデルを一般公開します。 これにはReviews2Movielens(ht tps://goo.gle/resear ch-docent 参照)、Amazonの映画レビュー(He and McAuley, 2016)の1BワードコーパスをMovieLensタグ(Harper and Konstan, 2016)にマッピングし、Reddit Movie Suggestions(https:// urikz.github.io/doce nt 参照)を自然言語クエリと対応するコミュニティレコメンデーションでマッピングする。

This paper explores learning rich self-supervised entity representations from large amounts of the associated text. Once pre-trained, these models become applicable to multiple entity-centric tasks such as ranked retrieval, knowledge base completion, question answering, and more. Unlike other methods that harvest self-supervision signals based merely on a local context within a sentence, we radically expand the notion of context to include any available text related to an entity. This enables a new class of powerful, high-capacity representations that can ultimately distill much of the useful information about an entity from multiple text sources, without any human supervision. We present several training strategies that, unlike prior approaches, learn to jointly predict words and entities -- strategies we compare experimentally on downstream tasks in the TV-Movies domain, such as MovieLens tag prediction from user reviews and natural language movie search. As evidenced by results, our models match or outperform competitive baselines, sometimes with little or no fine-tuning, and can scale to very large corpora. Finally, we make our datasets and pre-trained models publicly available. This includes Reviews2Movielens (see https://goo.gle/rese arch-docent ), mapping the up to 1B word corpus of Amazon movie reviews (He and McAuley, 2016) to MovieLens tags (Harper and Konstan, 2016), as well as Reddit Movie Suggestions (see https://urikz.github .io/docent ) with natural language queries and corresponding community recommendations.
翻訳日:2021-03-01 13:55:05 公開日:2021-02-26
# 語彙、非語彙、ターンテイク機能を用いた英語会話における性別と年齢のカテゴリの予測

Predicting gender and age categories in English conversations using lexical, non-lexical, and turn-taking features ( http://arxiv.org/abs/2102.13355v1 )

ライセンス: Link先を確認
Andreas Liesenfeld, G\'abor Parti, Yu-Yin Hsu, Chu-Ren Huang(参考訳) 本稿では,英英会話における性別と年齢のサリエンスと(ステレオ)典型性について検討し,語彙,フレーズ,ターンテイクの特徴に基づいて性別と年齢のカテゴリーを予測することを目的とした。 英英会話の約1億4400万語のコーパスであるspeakbncを調べ、性別と年齢のカテゴリーでラベル付けされた話者間の行動的差異を同定した。 言語使用とターンテイクのダイナミクスの違いについて検討し、カテゴリを分けたさまざまな特徴を同定する。 男性スピーカーのターンはタイプトークン比が高く、「eh」、「uh」、「em」などの最小粒子の明確な範囲が特徴である一方、女性スピーカーはますます長いターンを生成する傾向があります。 例えば、年齢層全体では、言葉を誓い、笑うことは若い話者の話しを特徴づけるが、古い話者はより散らかった言葉を生成する傾向がある。 次に,会話ごとの話者の性別や年齢を予測し,その特徴を分類タスクとして用いて,ダイアログデータから取り除かれた最小粒子のような非語彙的発話が,カテゴリの分類に寄与することを示す。

This paper examines gender and age salience and (stereo)typicality in British English talk with the aim to predict gender and age categories based on lexical, phrasal and turn-taking features. We examine the SpokenBNC, a corpus of around 11.4 million words of British English conversations and identify behavioural differences between speakers that are labelled for gender and age categories. We explore differences in language use and turn-taking dynamics and identify a range of characteristics that set the categories apart. We find that female speakers tend to produce more and slightly longer turns, while turns by male speakers feature a higher type-token ratio and a distinct range of minimal particles such as "eh", "uh" and "em". Across age groups, we observe, for instance, that swear words and laughter characterize young speakers' talk, while old speakers tend to produce more truncated words. We then use the observed characteristics to predict gender and age labels of speakers per conversation and per turn as a classification task, showing that non-lexical utterances such as minimal particles that are usually left out of dialog data can contribute to setting the categories apart.
翻訳日:2021-03-01 13:54:31 公開日:2021-02-26
# ギャンブルのコヒーレント集合の情報代数

Information algebras of coherent sets of gambles ( http://arxiv.org/abs/2102.13368v1 )

ライセンス: Link先を確認
Juerg Kohlas, Arianna Casanova, Marco Zaffalon(参考訳) 本稿では,情報代数学の代数構造にギャンブルのコヒーレントな集合を組み込むことができることを示す。 これは第一に、望ましくない代数的および論理的構造の新しい視点につながり、第二に、それは望ましくない、したがって不正確な確率を、同じ基礎構造を共有するコンピュータ科学の他の形式主義に接続する。 可能性空間の特別な場合を考慮して、ドメイン自由と、ギャンブルのコヒーレント集合の情報代数のラベル付きビューの両方を提示する。

In this paper, we show that coherent sets of gambles can be embedded into the algebraic structure of information algebra. This leads firstly, to a new perspective of the algebraic and logical structure of desirability and secondly, it connects desirability, hence imprecise probabilities, to other formalism in computer science sharing the same underlying structure. Both the domain free and the labeled view of the information algebra of coherent sets of gambles are presented, considering a special case of possibility space.
翻訳日:2021-03-01 13:53:48 公開日:2021-02-26
# ENIGMA-style Clause Selection Guidanceを改善する新しい手法

New Techniques that Improve ENIGMA-style Clause Selection Guidance ( http://arxiv.org/abs/2102.13564v1 )

ライセンス: Link先を確認
Martin Suda(参考訳) 飽和定理証明者における機械学習項選択指導の話題を再検討する。 最近ENIGMAシステムによって普及した中心的なアイデアは、以前に発見された証明に現れる節を認識するための分類器を学ぶことです。 その後の実行では、選択のためにポジティブに分類された節が優先される。 我々はこのアプローチのいくつかの改善を提案し,その妥当性を実験的に確認する。 実演では、帰納的ニューラルネットワークを用いて、その導出履歴と自動的に供給される理論公理の存在の有無に基づいて節を分類する。 ネットワークによって導かれる自動定理の証明器のヴァンパイアはリアルタイム評価のSMT-LIBの関連したサブセットの41%の改善を達成します。

We re-examine the topic of machine-learned clause selection guidance in saturation-based theorem provers. The central idea, recently popularized by the ENIGMA system, is to learn a classifier for recognizing clauses that appeared in previously discovered proofs. In subsequent runs, clauses classified positively are prioritized for selection. We propose several improvements to this approach and experimentally confirm their viability. For the demonstration, we use a Recursive Neural Network to classify clauses based on their derivation history and the presence or absence of automatically supplied theory axioms therein. The automatic theorem prover Vampire guided by the network achieves a 41% improvement on a relevant subset of SMT-LIB in a real time evaluation.
翻訳日:2021-03-01 13:53:38 公開日:2021-02-26
# 顔の経時的生成型adversarial network

Continuous Face Aging Generative Adversarial Networks ( http://arxiv.org/abs/2102.13318v1 )

ライセンス: Link先を確認
Seogkyu Jeon, Pilhyeon Lee, Kibeom Hong, Hyeran Byun(参考訳) 顔の老化は、入力画像の顔を指定された年齢に翻訳することを目的としたタスクです。 問題を単純化するため、以前の手法では、それぞれが10年からなる離散年齢群を生成できるのみに制限されていた。 その結果、翻訳結果の正確な年齢が不明であり、グループ内で異なる年齢の顔を得ることができない。 そこで本稿では,CFA-GAN (Continuous face aging generative adversarial Network) を提案する。 具体的には、連続老化を実現するため、画像特徴を2つの直交特徴:アイデンティティと年齢ベース特徴に分解することを提案する。 さらに,オリジナルと生成したアイデンティティ基底特徴のコサイン類似性を最大化する識別保存のための新しい損失関数を導入する。 MORPHの質的,定量的な評価により,本モデルが持つ現実的かつ連続的な老化能力を示し,既存モデルに対する優位性を検証した。 私たちの知る限りでは、この作業は継続的な目標年齢を扱う最初の試みです。

Face aging is the task aiming to translate the faces in input images to designated ages. To simplify the problem, previous methods have limited themselves only able to produce discrete age groups, each of which consists of ten years. Consequently, the exact ages of the translated results are unknown and it is unable to obtain the faces of different ages within groups. To this end, we propose the continuous face aging generative adversarial networks (CFA-GAN). Specifically, to make the continuous aging feasible, we propose to decompose image features into two orthogonal features: the identity and the age basis features. Moreover, we introduce the novel loss function for identity preservation which maximizes the cosine similarity between the original and the generated identity basis features. With the qualitative and quantitative evaluations on MORPH, we demonstrate the realistic and continuous aging ability of our model, validating its superiority against existing models. To the best of our knowledge, this work is the first attempt to handle continuous target ages.
翻訳日:2021-03-01 13:53:28 公開日:2021-02-26
# 顔認識のための自己監督学習のドメイン適応能力

Domain Adapting Ability of Self-Supervised Learning for Face Recognition ( http://arxiv.org/abs/2102.13319v1 )

ライセンス: Link先を確認
Chun-Hsien Lin and Bing-Fei Wu(参考訳) 深い畳み込みネットワークは顔認識タスクで優れたパフォーマンスを達成していますが、ドメインの相違の課題は現実世界のアプリケーションにまだ存在します。 トレーニングデータ(ソースドメイン)のドメインカバレッジの欠如は、テストシナリオ(ターゲットドメイン)で学習したモデルを退化させます。 顔認識タスクでは、2つのドメインのクラスは通常異なるので、ドメインに共有クラスが存在すると仮定する古典的なドメイン適応アプローチは、この問題に対する合理的な解決策ではないかもしれない。 本稿では,対象領域の被写体がより識別可能な埋め込み空間を学習するために,自己教師付き学習を採用する。 学習目標は、各画像とミラーの両方の領域への埋め込みの類似性を最大化することである。 実験は、以前の作品と比較してその競争力のある結果を示しています。 このようなパフォーマンスを達成できる理由を知るため、このアプローチが組込み学習にどのように影響するかをさらに議論する。

Although deep convolutional networks have achieved great performance in face recognition tasks, the challenge of domain discrepancy still exists in real world applications. Lack of domain coverage of training data (source domain) makes the learned models degenerate in a testing scenario (target domain). In face recognition tasks, classes in two domains are usually different, so classical domain adaptation approaches, assuming there are shared classes in domains, may not be reasonable solutions for this problem. In this paper, self-supervised learning is adopted to learn a better embedding space where the subjects in target domain are more distinguishable. The learning goal is maximizing the similarity between the embeddings of each image and its mirror in both domains. The experiments show its competitive results compared with prior works. To know the reason why it can achieve such performance, we further discuss how this approach affects the learning of embeddings.
翻訳日:2021-03-01 13:53:13 公開日:2021-02-26
# スタイルマッチングを用いた顔認識におけるドメインミスマッチの軽減

Mitigating Domain Mismatch in Face Recognition Using Style Matching ( http://arxiv.org/abs/2102.13327v1 )

ライセンス: Link先を確認
Chun-Hsien Lin and Bing-Fei Wu(参考訳) 公開ベンチマークでの優れたパフォーマンスにもかかわらず、顔認識はトレーニング(ソース)とテスト(ターゲット)データのドメインミスマッチによって依然として苦しむ。 さらに、これらのドメインは共有クラスではなく、ドメイン適応を複雑にする。 これはまた、低密度分離原理に厳密に従わないきめ細かい分類問題であるため、従来のドメイン適応アプローチはこれらの問題を解決しません。 本稿では,2つの手法を提案するスタイルミスマッチ問題として,顔認識におけるドメインミスマッチを定式化する。 まず,人間レベル判断を伴う領域判別器の設計を行い,訓練データに目標様画像をマイニングすることで,領域間隙を緩和する。 次に、バックボーンモデルの低レベル特徴マップからスタイル表現を抽出し、2つのドメインのスタイル分布をマッチングして共通のスタイル表現を求める。 検証とオープンセットおよびクローズドセット識別プロトコルの評価は、両方のメソッドが良好な改善をもたらし、組み合わせればパフォーマンスがより堅牢であることを示しています。 我々のアプローチは関連する作業と競合しており、その効果は実用的な応用で検証される。

Despite outstanding performance on public benchmarks, face recognition still suffers due to domain mismatch between training (source) and testing (target) data. Furthermore, these domains are not shared classes, which complicates domain adaptation. Since this is also a fine-grained classification problem which does not strictly follow the low-density separation principle, conventional domain adaptation approaches do not resolve these problems. In this paper, we formulate domain mismatch in face recognition as a style mismatch problem for which we propose two methods. First, we design a domain discriminator with human-level judgment to mine target-like images in the training data to mitigate the domain gap. Second, we extract style representations in low-level feature maps of the backbone model, and match the style distributions of the two domains to find a common style representation. Evaluations on verification and open-set and closed-set identification protocols show that both methods yield good improvements, and that performance is more robust if they are combined. Our approach is competitive with related work, and its effectiveness is verified in a practical application.
翻訳日:2021-03-01 13:52:58 公開日:2021-02-26
# Dual-MTGAN:画像間合成のための確率的・決定論的動き伝達

Dual-MTGAN: Stochastic and Deterministic Motion Transfer for Image-to-Video Synthesis ( http://arxiv.org/abs/2102.13329v1 )

ライセンス: Link先を確認
Fu-En Yang, Jing-Cheng Chang, Yuan-Hao Lee, Yu-Chiang Frank Wang(参考訳) コンテンツとモーションのバリエーションでビデオを生成することは、コンピュータビジョンで難しい作業です。 GANの最近の開発により、潜在表現から映像を生成することができるが、興味ある動きパターンの特定の内容の動画を制作するのは容易ではない。 本稿では,映像データと映像データを入力として利用し,コンテンツや動きの表現を学習するDual Motion Transfer GAN(Dual-MTGAN)を提案する。 我々のDual-MTGANは、決定論的モーショントランスファーと確率的モーションジェネレーションを実行することができる。 与えられた画像に基づいて、前者は入力内容を保存し、別のビデオシーケンスから観察されたモーションパターンを転送し、後者は入力画像に基づいて実行可能なが多様なモーションパターンを持つビデオを直接生成する。 提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。 定量的・定性的な結果から,このような条件付き映像対ビデオ課題に対するモデルの有効性と頑健性を確認した。

Generating videos with content and motion variations is a challenging task in computer vision. While the recent development of GAN allows video generation from latent representations, it is not easy to produce videos with particular content of motion patterns of interest. In this paper, we propose Dual Motion Transfer GAN (Dual-MTGAN), which takes image and video data as inputs while learning disentangled content and motion representations. Our Dual-MTGAN is able to perform deterministic motion transfer and stochastic motion generation. Based on a given image, the former preserves the input content and transfers motion patterns observed from another video sequence, and the latter directly produces videos with plausible yet diverse motion patterns based on the input image. The proposed model is trained in an end-to-end manner, without the need to utilize pre-defined motion features like pose or facial landmarks. Our quantitative and qualitative results would confirm the effectiveness and robustness of our model in addressing such conditioned image-to-video tasks.
翻訳日:2021-03-01 13:52:41 公開日:2021-02-26
# リレーショナル推論によるクロスモダリティマッピングのユニバーサルモデル

A Universal Model for Cross Modality Mapping by Relational Reasoning ( http://arxiv.org/abs/2102.13360v1 )

ライセンス: Link先を確認
Zun Li, Congyan Lang, Liqian Liang, Tao Wang, Songhe Feng, Jun Wu, and Yidong Li(参考訳) 2つの異なるモダリティから2つのインスタンスをマッチングすることを目的に、クロスモダリティマッピングはコンピュータビジョンコミュニティで注目を集めています。 既存のメソッドは通常、共通空間に埋め込まれたインスタンス機能のペア間の類似度尺度としてマッピング関数を定式化する。 しかし、我々は、単一のモダリティ(イントラリレーション)内のインスタンスと2つの異種インスタンス(インターリレーション)の間のインスタンス間の関係は、以前のアプローチでは不十分に検討されていることを観察する。 そこで我々は,グラフモデリングによる関係推論でマッピング関数を再定義し,また,相互関係を効率的に計算し,相互関係を普遍的に解決するGCNベースの関係推論ネットワーク(RR-Net)を提案する。 具体的には、まずイントラグラフとインターグラフという2種類のグラフを構築し、それぞれにイントラリレーションと相互関係をモデル化する。 その後、RR-Netはすべてのノード機能とエッジ機能を反復的に更新し、イントラリレーションとインターリレーションを同時に学習します。 最後にrr-netは、複数の異種インスタンスをリンクしてマッピング結果を推定するエッジ上の確率を出力する。 画像分類,ソーシャルレコメンデーション,および音声認識の3つの課題に対する広範囲な実験により,提案モデルの優越性と普遍性を明らかにした。

With the aim of matching a pair of instances from two different modalities, cross modality mapping has attracted growing attention in the computer vision community. Existing methods usually formulate the mapping function as the similarity measure between the pair of instance features, which are embedded to a common space. However, we observe that the relationships among the instances within a single modality (intra relations) and those between the pair of heterogeneous instances (inter relations) are insufficiently explored in previous approaches. Motivated by this, we redefine the mapping function with relational reasoning via graph modeling, and further propose a GCN-based Relational Reasoning Network (RR-Net) in which inter and intra relations are efficiently computed to universally resolve the cross modality mapping problem. Concretely, we first construct two kinds of graph, i.e., Intra Graph and Inter Graph, to respectively model intra relations and inter relations. Then RR-Net updates all the node features and edge features in an iterative manner for learning intra and inter relations simultaneously. Last, RR-Net outputs the probabilities over the edges which link a pair of heterogeneous instances to estimate the mapping results. Extensive experiments on three example tasks, i.e., image classification, social recommendation and sound recognition, clearly demonstrate the superiority and universality of our proposed model.
翻訳日:2021-03-01 13:52:22 公開日:2021-02-26
# ACDnet:フロー誘導特徴近似とメモリ集約に基づくリアルタイムエッジコンピューティングのための行動検出ネットワーク

ACDnet: An action detection network for real-time edge computing based on flow-guided feature approximation and memory aggregation ( http://arxiv.org/abs/2102.13493v1 )

ライセンス: Link先を確認
Yu Liu, Fan Yang and Dominique Ginhac(参考訳) 人間の行動を解釈するには、シーンの空間的および時間的コンテキストを理解する必要があります。 Convolutional Neural Network(CNN)に基づく最先端のアクションディテクタは、2流または3次元CNNアーキテクチャを採用することで顕著な成果を発揮しました。 しかしながら、これらの手法は通常、時空間情報を推論するシステムの複雑さのため、非リアルタイムの正ライン方式で機能する。 その結果、高い計算コストは、リソース制限のあるエッジデバイスで検出を行う必要があるサービスロボットや公共監視などの新興の現実世界のシナリオには適用されません。 本稿では,効率性と精度を両立したリアルタイムエッジコンピューティングをターゲットとしたコンパクトアクション検出ネットワークACDnetを提案する。 連続したビデオフレーム間の時間的コヒーレンスをインテリジェントに活用してCNNの機能を素朴に抽出するのではなく近似する。 また、過去のビデオフレームからのメモリ機能集約を統合して、現在の検出安定性を高め、時間とともに長い時間的手がかりを暗黙的にモデル化する。 パブリックベンチマークデータセット UCF-24 と JHMDB-21 で実施された実験は、SSD検出器と統合された ACDnet がリアルタイム(75 FPS)よりはるかに高い精度で検出できることを示した。 同時に70.92と49.53フレームのmAPの精度は、非常に重い構成を用いる他のトップパフォーマンス手法と比べても高い。 コードはhttps://github.com/d ginhac/ACDnetで入手できる。

Interpreting human actions requires understanding the spatial and temporal context of the scenes. State-of-the-art action detectors based on Convolutional Neural Network (CNN) have demonstrated remarkable results by adopting two-stream or 3D CNN architectures. However, these methods typically operate in a non-real-time, ofline fashion due to system complexity to reason spatio-temporal information. Consequently, their high computational cost is not compliant with emerging real-world scenarios such as service robots or public surveillance where detection needs to take place at resource-limited edge devices. In this paper, we propose ACDnet, a compact action detection network targeting real-time edge computing which addresses both efficiency and accuracy. It intelligently exploits the temporal coherence between successive video frames to approximate their CNN features rather than naively extracting them. It also integrates memory feature aggregation from past video frames to enhance current detection stability, implicitly modeling long temporal cues over time. Experiments conducted on the public benchmark datasets UCF-24 and JHMDB-21 demonstrate that ACDnet, when integrated with the SSD detector, can robustly achieve detection well above real-time (75 FPS). At the same time, it retains reasonable accuracy (70.92 and 49.53 frame mAP) compared to other top-performing methods using far heavier configurations. Codes will be available at https://github.com/d ginhac/ACDnet.
翻訳日:2021-03-01 13:51:57 公開日:2021-02-26
# 堅牢な放射線治療計画セグメント化のためのネストブロック自己アテンション

Nested-block self-attention for robust radiotherapy planning segmentation ( http://arxiv.org/abs/2102.13541v1 )

ライセンス: Link先を確認
Harini Veeraraghavan, Jue Jiang, Sharif Elguindi, Sean L. Berry, Ifeanyirochukwu Onochie, Aditya Apte, Laura Cervino, Joseph O. Deasy(参考訳) 頭頸部(HN)臓器のセグメンテーション(OAR)に対する深層畳み込みネットワークの研究は盛んに行われているが, 画像アーチファクトに対する堅牢性の欠如, CT上の軟組織コントラストの低下, 異常解剖の存在など, 定期的な臨床治療計画のための利用は限られている。 これらの課題を解決するために,任意の畳み込みネットワークと組み合わせることができる計算効率の高いネストブロック自己アテンション(NBSA)法を開発した。 固定空間領域のメモリブロック内で非局所計算を行うことで,計算効率を実現する。 コンテキスト依存は、双方向の注意の流れを引き起こす第2の注意層を通じて、ブロック間でラスタースキャン順序で情報を渡すことでキャプチャされる。 実現可能性を示すために,3つの異なるネットワークにアプローチを実装した。 200例のトレーニングの後、外部および内部機関のデータセットから得られた172個のテストスキャンを除外基準なしで、従来の測定値と臨床指標を使用して包括的な評価を実施しました。 NBSAは、最も効率的なCCA(criss-cross attention)法として同様の数の計算(15.7 gflops)を必要とし、脳幹(0.89対0.86)および耳下腺(0.86対0.84)に対して、CCAよりも著しく正確な分割を生成する。 NBSAのセグメンテーションは, 下顎下腺などの軟らかいコントラストの低い小臓器(表面ジス0.90)を含む, 複数の3D法に比べて変化が少なかった。

Although deep convolutional networks have been widely studied for head and neck (HN) organs at risk (OAR) segmentation, their use for routine clinical treatment planning is limited by a lack of robustness to imaging artifacts, low soft tissue contrast on CT, and the presence of abnormal anatomy. In order to address these challenges, we developed a computationally efficient nested block self-attention (NBSA) method that can be combined with any convolutional network. Our method achieves computational efficiency by performing non-local calculations within memory blocks of fixed spatial extent. Contextual dependencies are captured by passing information in a raster scan order between blocks, as well as through a second attention layer that causes bi-directional attention flow. We implemented our approach on three different networks to demonstrate feasibility. Following training using 200 cases, we performed comprehensive evaluations using conventional and clinical metrics on a separate set of 172 test scans sourced from external and internal institution datasets without any exclusion criteria. NBSA required a similar number of computations (15.7 gflops) as the most efficient criss-cross attention (CCA) method and generated significantly more accurate segmentations for brain stem (Dice of 0.89 vs. 0.86) and parotid glands (0.86 vs. 0.84) than CCA. NBSA's segmentations were less variable than multiple 3D methods, including for small organs with low soft-tissue contrast such as the submandibular glands (surface Dice of 0.90).
翻訳日:2021-03-01 13:51:36 公開日:2021-02-26
# 手術用視覚領域適応:MICCAI 2020 SurgVisDom Challengeの結果

Surgical Visual Domain Adaptation: Results from the MICCAI 2020 SurgVisDom Challenge ( http://arxiv.org/abs/2102.13644v1 )

ライセンス: Link先を確認
Aneeq Zia, Kiran Bhattacharyya, Xi Liu, Ziheng Wang, Satoshi Kondo, Emanuele Colleoni, Beatrice van Amsterdam, Razeen Hussain, Raabid Hussain, Lena Maier-Hein, Danail Stoyanov, Stefanie Speidel, and Anthony Jarc(参考訳) 外科データサイエンスは、コンテキスト認識アプリケーションを有効にすることで、最小限の侵襲手術に革命を起こしています。 しかし、コンテキスト認識モデルを開発するために必要な外科的データ(および健康データ)には多くの課題があります。 この研究は、医療画像コンピューティングとコンピュータ支援介入(MICCAI)2020カンファレンスでの内視鏡ビジョン(EndoVis)チャレンジの一環として発表され、データプライバシーの懸念を克服するために手術における視覚領域適応の可能性を模索しています。 特に,バーチャルリアリティ(vr)シミュレーションによるロボット支援手術における手術訓練の映像を活用し,臨床的な作業認識のためのアルゴリズムを開発することを提案する。 課題参加者によって開発された視覚的ドメイン適応を解決するためのさまざまなアプローチのパフォーマンスを紹介します。 提案したモデルでは,VRデータだけでは意味のある動作に基づく特徴を学習できなかったが,少量の臨床的データも利用可能になった場合,有意に改善した。 これらの結果をもとに,手術データ科学における視覚領域適応の課題について,有望な手法とさらなる取り組みを検討する。 また、チャレンジデータセットをhttps://www.synapse. org/surgvisdom2020で公開しています。

Surgical data science is revolutionizing minimally invasive surgery by enabling context-aware applications. However, many challenges exist around surgical data (and health data, more generally) needed to develop context-aware models. This work - presented as part of the Endoscopic Vision (EndoVis) challenge at the Medical Image Computing and Computer Assisted Intervention (MICCAI) 2020 conference - seeks to explore the potential for visual domain adaptation in surgery to overcome data privacy concerns. In particular, we propose to use video from virtual reality (VR) simulations of surgical exercises in robotic-assisted surgery to develop algorithms to recognize tasks in a clinical-like setting. We present the performance of the different approaches to solve visual domain adaptation developed by challenge participants. Our analysis shows that the presented models were unable to learn meaningful motion based features form VR data alone, but did significantly better when small amount of clinical-like data was also made available. Based on these results, we discuss promising methods and further work to address the problem of visual domain adaptation in surgical data science. We also release the challenge dataset publicly at https://www.synapse. org/surgvisdom2020.
翻訳日:2021-03-01 13:51:07 公開日:2021-02-26
# HCI+NLPシステムの設計と評価方法

Methods for the Design and Evaluation of HCI+NLP Systems ( http://arxiv.org/abs/2102.13461v1 )

ライセンス: Link先を確認
Hendrik Heuer, Daniel Buschek(参考訳) HCIとNLPは伝統的に異なる評価方法に焦点を当てている。 HCIは少数の人々を直接深く巻き込むが、NLPは伝統的に標準化されたベンチマーク評価に頼っている。 HCIとNLPの交差点で5つの方法論提案を行い、MLベースのNLPモデルという文脈で提示する。 私たちの目標は、それぞれの分野が互いに学べることを強調し、学際的な協力と両分野の進歩を促進することです。

HCI and NLP traditionally focus on different evaluation methods. While HCI involves a small number of people directly and deeply, NLP traditionally relies on standardized benchmark evaluations that involve a larger number of people indirectly. We present five methodological proposals at the intersection of HCI and NLP and situate them in the context of ML-based NLP models. Our goal is to foster interdisciplinary collaboration and progress in both fields by emphasizing what the fields can learn from each other.
翻訳日:2021-03-01 13:50:47 公開日:2021-02-26
# アイデンティティ初期化を用いたディープニューラルネットワークの層幅解釈

Layer-Wise Interpretation of Deep Neural Networks Using Identity Initialization ( http://arxiv.org/abs/2102.13333v1 )

ライセンス: Link先を確認
Shohei Kubota, Hideaki Hayashi, Tomohiro Hayase, Seiichi Uchida(参考訳) ニューラルネットワーク(NNs)の解釈可能性は、機械学習を用いた意思決定プロセスにおける透明性にとって困難だが不可欠なトピックである。 解釈可能性の欠如の理由の1つは、入力が各層内の異なる特徴空間にランダムに埋め込まれるランダムウェイト初期化である。 本稿では,アイデンティティ初期化(すなわちアイデンティティ行列を用いた初期化)に基づくNNのもっとも一般的なアーキテクチャである深層層パーセプトロンの解釈手法を提案する。 提案手法では,各隠れ層における分類と分類可能性に対する各ニューロンの寄与度を解析できる。 同一性初期化パーセプトロンの性質として、重み行列は学習後も同一性行列の近くに残される。 この特性により、各隠れ層への入力から特徴の変化を分類への寄与として扱うことができる。 さらに,クラス数に応じて各層に余分な次元を付加することにより,各層における認識精度の計算を可能にし,特徴抽出や分類などの独立したレイヤの役割を明らかにすることにより,各隠蔽層の出力を,分類やクラス可能性への寄与を示すコントリビューションマップに分割することができる。

The interpretability of neural networks (NNs) is a challenging but essential topic for transparency in the decision-making process using machine learning. One of the reasons for the lack of interpretability is random weight initialization, where the input is randomly embedded into a different feature space in each layer. In this paper, we propose an interpretation method for a deep multilayer perceptron, which is the most general architecture of NNs, based on identity initialization (namely, initialization using identity matrices). The proposed method allows us to analyze the contribution of each neuron to classification and class likelihood in each hidden layer. As a property of the identity-initialized perceptron, the weight matrices remain near the identity matrices even after learning. This property enables us to treat the change of features from the input to each hidden layer as the contribution to classification. Furthermore, we can separate the output of each hidden layer into a contribution map that depicts the contribution to classification and class likelihood, by adding extra dimensions to each layer according to the number of classes, thereby allowing the calculation of the recognition accuracy in each layer and thus revealing the roles of independent layers, such as feature extraction and classification.
翻訳日:2021-03-01 13:49:14 公開日:2021-02-26
# 多重カーネル学習のニューラル一般化

Neural Generalization of Multiple Kernel Learning ( http://arxiv.org/abs/2102.13337v1 )

ライセンス: Link先を確認
Ahamad Navid Ghanizadeh, Kamaledin Ghiasi-Shirazi, Reza Monsefi, Mohammadreza Qaraei(参考訳) マルチカーネル学習は、カーネルベースの手法でカーネル関数を学習する従来の方法である。 MKLアルゴリズムはカーネルメソッドの性能を向上させる。 しかし、これらの手法はディープラーニングモデルに比べて複雑さが低く、認識精度の点でこれらのモデルに劣る。 ディープラーニングモデルは、複数の層を通してデータに非線形変換を適用することで、複雑な関数を学習することができる。 本稿では,典型的なMKLアルゴリズムを線形活性化関数を持つ一層ニューラルネットワークとして解釈できることを示す。 本稿では,従来のマルチカーネル学習フレームワークを非線形アクティベーション関数を持つ多層ニューラルネットワークに拡張した,マルチカーネル学習(ngmkl)のニューラルネットワーク一般化を提案する。 本研究では,本手法がMKLアルゴリズムの複雑性を改善し,認識精度を高めることを示した。

Multiple Kernel Learning is a conventional way to learn the kernel function in kernel-based methods. MKL algorithms enhance the performance of kernel methods. However, these methods have a lower complexity compared to deep learning models and are inferior to these models in terms of recognition accuracy. Deep learning models can learn complex functions by applying nonlinear transformations to data through several layers. In this paper, we show that a typical MKL algorithm can be interpreted as a one-layer neural network with linear activation functions. By this interpretation, we propose a Neural Generalization of Multiple Kernel Learning (NGMKL), which extends the conventional multiple kernel learning framework to a multi-layer neural network with nonlinear activation functions. Our experiments on several benchmarks show that the proposed method improves the complexity of MKL algorithms and leads to higher recognition accuracy.
翻訳日:2021-03-01 13:48:55 公開日:2021-02-26
# 地域差分プライバシーとガウス混合モデルを用いた私的および実用的推奨

Private and Utility Enhanced Recommendations with Local Differential Privacy and Gaussian Mixture Model ( http://arxiv.org/abs/2102.13453v1 )

ライセンス: Link先を確認
Jeyamohan Neera, Xiaomin Chen, Nauman Aslam, Kezhi Wang and Zhan Shu(参考訳) 推奨システムは、ユーザーの行動および優遇データ(例えば)に大きく依存する。 正確な推薦を作り出す評価、好み)。 しかしながら、サービスプロバイダ(sp)が実施する非倫理的なデータ集約と分析プラクティスによって、ユーザはプライバシ上の懸念を経験する。 ローカル差動プライバシー(LDP)ベースの摂動メカニズムは、SPに送信する前にユーザー側のユーザーデータにノイズを追加します。 SPは摂動データを使用してレコメンデーションを行います。 LDPはユーザーのプライバシーをSPから保護しますが、予測精度が大幅に低下します。 この問題に対処するために,ガウス混合モデル (MoG) を用いた LDP ベースの行列分解法 (MF) を提案する。 LDP摂動機構であるBounded Laplace(BLP)は、摂動レーティングを所定の領域に収束させることでノイズの効果を制御する。 我々は、BLPが$\epsilon$ LDPを満たすのに十分なスケールパラメータの条件を導出する。 SPでは、MoGモデルは摂動レーティングに追加されるノイズを推定し、MFアルゴリズムは欠落レーティングを予測する。 提案手法は, LDPの原則に違反することなく, 推薦精度を向上する。 実世界の3つのデータセット、すなわちMovielens, Libimseti, Jesterで実施した経験的評価は, 強いプライバシー保証の下で予測精度を大幅に向上させることを示した。

Recommendation systems rely heavily on users behavioural and preferential data (e.g. ratings, likes) to produce accurate recommendations. However, users experience privacy concerns due to unethical data aggregation and analytical practices carried out by the Service Providers (SP). Local differential privacy (LDP) based perturbation mechanisms add noise to users data at user side before sending it to the SP. The SP then uses the perturbed data to perform recommendations. Although LDP protects the privacy of users from SP, it causes a substantial decline in predictive accuracy. To address this issue, we propose an LDP-based Matrix Factorization (MF) with a Gaussian Mixture Model (MoG). The LDP perturbation mechanism, Bounded Laplace (BLP), regulates the effect of noise by confining the perturbed ratings to a predetermined domain. We derive a sufficient condition of the scale parameter for BLP to satisfy $\epsilon$ LDP. At the SP, The MoG model estimates the noise added to perturbed ratings and the MF algorithm predicts missing ratings. Our proposed LDP based recommendation system improves the recommendation accuracy without violating LDP principles. The empirical evaluations carried out on three real world datasets, i.e., Movielens, Libimseti and Jester, demonstrate that our method offers a substantial increase in predictive accuracy under strong privacy guarantee.
翻訳日:2021-03-01 13:48:42 公開日:2021-02-26
# 低精度強化学習

Low-Precision Reinforcement Learning ( http://arxiv.org/abs/2102.13565v1 )

ライセンス: Link先を確認
Johan Bjorck, Xiangyu Chen, Christopher De Sa, Carla P. Gomes, Kilian Q. Weinberger(参考訳) 教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。 対照的に、この有望なアプローチは強化学習(RL)コミュニティ内でも同様に広く採用されているわけではない。 本稿では,最先端のsacエージェントとの連続制御について検討し,教師付き学習による低精度手法のna\"ive適応が失敗することを実証する。 提案する6つの修正は, すべて実装が容易であり, 基礎となるエージェントを変更せず, 数値安定性を劇的に向上させる。 得られた修正されたSACエージェントは、フル精度の報酬を一致させながら、低メモリおよび計算要件を有し、低精度RLの実現性を示す。

Low-precision training has become a popular approach to reduce computation time, memory footprint, and energy consumption in supervised learning. In contrast, this promising approach has not enjoyed similarly widespread adoption within the reinforcement learning (RL) community, in part because RL agents can be notoriously hard to train -- even in full precision. In this paper we consider continuous control with the state-of-the-art SAC agent and demonstrate that a na\"ive adaptation of low-precision methods from supervised learning fails. We propose a set of six modifications, all straightforward to implement, that leaves the underlying agent unchanged but improves its numerical stability dramatically. The resulting modified SAC agent has lower memory and compute requirements while matching full-precision rewards, thus demonstrating the feasibility of low-precision RL.
翻訳日:2021-03-01 13:48:21 公開日:2021-02-26
# 分類特徴の能動的選択

Active Selection of Classification Features ( http://arxiv.org/abs/2102.13636v1 )

ライセンス: Link先を確認
Thomas T. Kok and Rachel M. Brouwer and Rene M. Mandl and Hugo G. Schnack and Georg Krempl(参考訳) 一部のデータ分析アプリケーションは、説明変数が高価または退屈なデータセットで構成されているが、補助データは容易に利用可能であり、洞察に富んだトレーニングセットを構築するのに役立つ。 例えば、精神疾患に関する神経画像研究、特に高価なmri(mri)スキャンから派生した変数に基づいて診断・予後モデルを学ぶことは、しばしば大きなサンプルサイズを必要とする。 人口統計などの補助的データは、最も有益なMRIスキャンを持つ個人を含む小さなサンプルを選択するのに役立ちます。 アクティブな学習文献では、インスタンスまたはインスタンス機能ペアの選択に関する関連する問題設定で有望な結果にもかかわらず、この問題はまだ研究されていません。 したがって、我々は、分類特徴のアクティブ選択(ASCF)のこの補完的な問題を定式化する: モデルf: x-> yを学習する必要がある主要なタスクを与えられたとき、変数xの高価な集合とクラスラベルyの関係を説明/予測する。 そして、ASCFタスクは、これらのインスタンスを選択するために、容易に利用可能な選択変数zのセットを使用することで、高価な機能zを取得し、プライマリトレーニングセットにそれらを含めると、プライマリタスクのパフォーマンスを最も向上させる。 本研究では,2つの実用的手法を提案し,その性能を3つの実世界のベンチマークデータセットで評価する。 さらに,本研究では,mriデータを用いたシミュレーション実験に基づいて,精神疾患の脳画像研究の文脈において,mriスキャンを効率的に取得する手法について述べる。

Some data analysis applications comprise datasets, where explanatory variables are expensive or tedious to acquire, but auxiliary data are readily available and might help to construct an insightful training set. An example is neuroimaging research on mental disorders, specifically learning a diagnosis/prognosis model based on variables derived from expensive Magnetic Resonance Imaging (MRI) scans, which often requires large sample sizes. Auxiliary data, such as demographics, might help in selecting a smaller sample that comprises the individuals with the most informative MRI scans. In active learning literature, this problem has not yet been studied, despite promising results in related problem settings that concern the selection of instances or instance-feature pairs. Therefore, we formulate this complementary problem of Active Selection of Classification Features (ASCF): Given a primary task, which requires to learn a model f: x-> y to explain/predict the relationship between an expensive-to-acquire set of variables x and a class label y. Then, the ASCF-task is to use a set of readily available selection variables z to select these instances, that will improve the primary task's performance most when acquiring their expensive features z and including them to the primary training set. We propose two utility-based approaches for this problem, and evaluate their performance on three public real-world benchmark datasets. In addition, we illustrate the use of these approaches to efficiently acquire MRI scans in the context of neuroimaging research on mental disorders, based on a simulated study design with real MRI data.
翻訳日:2021-03-01 13:48:06 公開日:2021-02-26
# MPCとDDPGに基づくマルチエージェントパス計画

Multi-Agent Path Planning based on MPC and DDPG ( http://arxiv.org/abs/2102.13283v1 )

ライセンス: Link先を確認
Junxiao Xue and Xiangyan Kong and Bowei Dong and Mingliang Xu(参考訳) 混合静的および動的障害物回避の問題は、非常にダイナミックな環境での経路計画に不可欠です。 しかし、グリッドエッジによって形成される経路は、その方向が人工的に制約されているため、地形における真の最短経路よりも長い可能性がある。 既存の方法は動的障害にほとんど対処できません。 そこで本研究では,モデル予測制御(MPC)とDeep Deterministic Policy Gradient(DDPG)を組み合わせた新たなアルゴリズムを提案する。 まず, 動的障害物の軌跡予測に MPC アルゴリズムを適用した。 第二に、連続的なアクション空間を備えたDDPGは、ロボットの学習と自律的な意思決定機能を提供するように設計されている。 最後に、報酬関数を設定し、収束速度と精度を向上させる人工ポテンシャル場の概念を導入する。 航空母艦デッキや四角形などの不確定な環境でのシミュレーション実験にunity 3dを用いる。 その結果,本手法は,DQN(Deep Q Network)と比較して100単位,400〜450度削減することで,他の手法に比べて精度が7%~30%向上し,経路の長さと回転角が大幅に向上した。

The problem of mixed static and dynamic obstacle avoidance is essential for path planning in highly dynamic environment. However, the paths formed by grid edges can be longer than the true shortest paths in the terrain since their headings are artificially constrained. Existing methods can hardly deal with dynamic obstacles. To address this problem, we propose a new algorithm combining Model Predictive Control (MPC) with Deep Deterministic Policy Gradient (DDPG). Firstly, we apply the MPC algorithm to predict the trajectory of dynamic obstacles. Secondly, the DDPG with continuous action space is designed to provide learning and autonomous decision-making capability for robots. Finally, we introduce the idea of the Artificial Potential Field to set the reward function to improve convergence speed and accuracy. We employ Unity 3D to perform simulation experiments in highly uncertain environment such as aircraft carrier decks and squares. The results show that our method has made great improvement on accuracy by 7%-30% compared with the other methods, and on the length of the path and turning angle by reducing 100 units and 400-450 degrees compared with DQN (Deep Q Network), respectively.
翻訳日:2021-03-01 13:47:19 公開日:2021-02-26
# ロバストファインチューニングによるリモートセンシング画像検索と分類

Unifying Remote Sensing Image Retrieval and Classification with Robust Fine-tuning ( http://arxiv.org/abs/2102.13392v1 )

ライセンス: Link先を確認
Dimitri Gominski, Val\'erie Gouet-Brunet, Liming Chen(参考訳) 高分解能リモートセンシング画像解析の進歩は、ディープラーニングメソッドをトレーニングするための十分な注釈付きデータを収集することが困難であるため、さまざまな小さなデータセットと関連するデータセット固有の方法が発生します。 さらに、分類や検索といった典型的なタスクは、標準ベンチマークやトレーニングデータセットの体系的な評価を欠いているため、堅牢で一般化可能な科学的貢献の特定が困難である。 本研究では,縦型と斜型の両方の空中画像を含む,新しい大規模トレーニングおよびテストデータセットsf300を用いて,リモートセンシング画像検索と分類を統合することを目的とした。 また、グローバルディスクリプタの新たな対向微調整手法を提案します。 本フレームワークは,imagenetで事前学習されたベースラインと比較して,9つのデータセットにおける検索と分類のパフォーマンス向上を体系的に達成していることを示す。

Advances in high resolution remote sensing image analysis are currently hampered by the difficulty of gathering enough annotated data for training deep learning methods, giving rise to a variety of small datasets and associated dataset-specific methods. Moreover, typical tasks such as classification and retrieval lack a systematic evaluation on standard benchmarks and training datasets, which make it hard to identify durable and generalizable scientific contributions. We aim at unifying remote sensing image retrieval and classification with a new large-scale training and testing dataset, SF300, including both vertical and oblique aerial images and made available to the research community, and an associated fine-tuning method. We additionally propose a new adversarial fine-tuning method for global descriptors. We show that our framework systematically achieves a boost of retrieval and classification performance on nine different datasets compared to an ImageNet pretrained baseline, with currently no other method to compare to.
翻訳日:2021-03-01 13:46:46 公開日:2021-02-26
# テクスチャアウェアビデオフレーム補間

Texture-aware Video Frame Interpolation ( http://arxiv.org/abs/2102.13520v1 )

ライセンス: Link先を確認
Duolikun Danier and David Bull(参考訳) 時間的補間は、ビデオ圧縮の強力なツールになる可能性がある。 既存のフレーム補間法では,映像テクスチャの識別は行われず,広い範囲の映像コンテンツを補間できる単一汎用モデルが一般的に用いられる。 しかし, 映像テクスチャ解析と合成に関する過去の研究は, 異なるテクスチャが全く異なる動作特性を示し, 3つのクラス(静的, 動的連続, 動的離散)に分けられることを示した。 本研究では,映像テクスチャーが映像フレーム補間に与える影響について検討し,補間アルゴリズムを付与し,異なるテクスチャーに対して別々のモデルを訓練する新しい枠組みを提案する。 本研究は,映像テクスチャがフレーム補間モデルの性能に有意な影響を与えていることを示し,汎用的な動作を学習する単一モデルを訓練する代わりに,これらのテクスチャクラスに特化して個別のモデルを持つことが有用である。 実験結果から,本フレームワークを用いて微調整したモデルでは,PSNRが平均0.3dB向上することがわかった。

Temporal interpolation has the potential to be a powerful tool for video compression. Existing methods for frame interpolation do not discriminate between video textures and generally invoke a single general model capable of interpolating a wide range of video content. However, past work on video texture analysis and synthesis has shown that different textures exhibit vastly different motion characteristics and they can be divided into three classes (static, dynamic continuous and dynamic discrete). In this work, we study the impact of video textures on video frame interpolation, and propose a novel framework where, given an interpolation algorithm, separate models are trained on different textures. Our study shows that video texture has significant impact on the performance of frame interpolation models and it is beneficial to have separate models specifically adapted to these texture classes, instead of training a single model that tries to learn generic motion. Our results demonstrate that models fine-tuned using our framework achieve, on average, a 0.3dB gain in PSNR on the test set used.
翻訳日:2021-03-01 13:46:31 公開日:2021-02-26
# 次に行くべき場所:歩行者間のナビゲーションのためのサブゴールレコメンデーションポリシーを学ぶ

Where to go next: Learning a Subgoal Recommendation Policy for Navigation Among Pedestrians ( http://arxiv.org/abs/2102.13073v2 )

ライセンス: Link先を確認
Bruno Brito and Michael Everett and Jonathan P. How and Javier Alonso-Mora(参考訳) 他のロボットや人間と共有された環境でのロボットナビゲーションは、周囲のエージェントの意図を直接観察できず、環境条件が絶えず変化しているため、挑戦的です。 モデル予測制御(mpc)のような局所軌道最適化手法は、これらの変更に対処することができるが、混み合ったシナリオでは簡単には得られないグローバルガイダンスを必要とする。 本稿では,地域プランナーに長期指導を提供するインタラクション対応政策であるDeep Reinforcement Learning (RL) を通じて学習することを提案する。 特に,協調エージェントと非協力エージェントとのシミュレーションでは,深層ネットワークを訓練し,mpcプランナーのサブゴールを推薦する。 推奨のサブゴールは、ロボットが目標に向かって前進するのに役立ち、他のエージェントとの相互作用が期待されている。 推奨サブゴールに基づいて、MPCプランナーは、そのキノダイナミックおよび衝突回避制約を満たすロボットの入力を最適化します。 本手法は,従来のMPCフレームワークと比較して衝突回数,および協調的,競争的,混合的マルチエージェントシナリオにおける深部RL法と比較して,走行時間および衝突回数の両面において,ナビゲーション性能を大幅に向上させることが示された。

Robotic navigation in environments shared with other robots or humans remains challenging because the intentions of the surrounding agents are not directly observable and the environment conditions are continuously changing. Local trajectory optimization methods, such as model predictive control (MPC), can deal with those changes but require global guidance, which is not trivial to obtain in crowded scenarios. This paper proposes to learn, via deep Reinforcement Learning (RL), an interaction-aware policy that provides long-term guidance to the local planner. In particular, in simulations with cooperative and non-cooperative agents, we train a deep network to recommend a subgoal for the MPC planner. The recommended subgoal is expected to help the robot in making progress towards its goal and accounts for the expected interaction with other agents. Based on the recommended subgoal, the MPC planner then optimizes the inputs for the robot satisfying its kinodynamic and collision avoidance constraints. Our approach is shown to substantially improve the navigation performance in terms of number of collisions as compared to prior MPC frameworks, and in terms of both travel time and number of collisions compared to deep RL methods in cooperative, competitive and mixed multiagent scenarios.
翻訳日:2021-03-01 13:46:12 公開日:2021-02-26
# 一般化変分不等式に対する外挿を伴う高速巡回座標双対平均化

Fast Cyclic Coordinate Dual Averaging with Extrapolation for Generalized Variational Inequalities ( http://arxiv.org/abs/2102.13244v1 )

ライセンス: Link先を確認
Chaobing Song and Jelena Diakonikolas(参考訳) 一般化された変分不等式問題に対する extRapolation (CODER) を用いた \emph{Cyclic cOordinate Dual avEraging 法を提案する。 このような問題はかなり一般的であり、特別なケースとしてコンポジット凸最小化と最小値最適化が含まれる。 CODERは、収束速度がブロック数に依存しない最初の循環ブロック座標法であり、循環座標法と何年も開いていたランダム化法との間の大きなギャップを埋めるものである。 さらに、CODERは単調性およびリプシッツ連続性仮定のみの下で一般化された変分不等式問題を解くための巡回座標法に対する最初の理論的保証を提供する。 ブロック数への依存を除去するために、CODERの分析は、一般的に使用される座標方向のリプシッツ条件ではなく、マハラノビスノルムに関する新しいリプシッツ条件に基づいており、一般的な変動不等式に適用するために、CODERは、原始双対法における最近の発展に触発された外挿戦略を利用します。 我々の理論結果は,CODERと他の座標法との競合性能を示す数値実験によって補完される。

We propose the \emph{Cyclic cOordinate Dual avEraging with extRapolation (CODER)} method for generalized variational inequality problems. Such problems are fairly general and include composite convex minimization and min-max optimization as special cases. CODER is the first cyclic block coordinate method whose convergence rate is independent of the number of blocks, which fills the significant gap between cyclic coordinate methods and randomized ones that remained open for many years. Moreover, CODER provides the first theoretical guarantee for cyclic coordinate methods for solving generalized variational inequality problems under only monotonicity and Lipschitz continuity assumptions. To remove the dependence on the number of blocks, the analysis of CODER is based on a novel Lipschitz condition with respect to a Mahalanobis norm rather than the commonly used coordinate-wise Lipschitz condition; to be applicable to general variational inequalities, CODER leverages an extrapolation strategy inspired by the recent developments in primal-dual methods. Our theoretical results are complemented by numerical experiments, which demonstrate competitive performance of CODER compared to other coordinate methods.
翻訳日:2021-03-01 13:45:12 公開日:2021-02-26
# 統合型および自動型学習システムにおけるサイバーセキュリティの脅威

Cybersecurity Threats in Connected and Automated Vehicles based Federated Learning Systems ( http://arxiv.org/abs/2102.13256v1 )

ライセンス: Link先を確認
Ranwa Al Mallah, Godwin Badu-Marfo, Bilal Farooq(参考訳) Federated Learning (FL) は、ローカルデータをプライベートに保持する分散型エンティティにまたがるアルゴリズムのトレーニングを目的とした機械学習技術である。 ワイヤレスモバイルネットワークは、他の固定またはモバイルユーザーと通信することができます。 道路交通ネットワークは、接続された自動車両(cav)が通信エンティティを表す無線移動ネットワークのインフラストラクチャベースの構成を表す。 無線モバイルネットワーク設定でFLを適用すると、従来の固定ネットワークとは大きく異なるモバイル環境において新たな脅威が発生する。 この脅威は、無線媒体の本質的な特性によるものであり、高いノード移動率や急速に変化するトポロジーなどの車両ネットワークの特性に起因する。 ほとんどのサイバー防御技術は、信頼性の高い接続ネットワークに依存します。 本稿では、RSUで進行中のFLプロセスをターゲットにした偽情報攻撃について検討する。 我々は、車両ネットワークにおけるグローバルモデルのトレーニングを妨害するために、悪意あるCAVによる攻撃戦略を多数特定した。 その結果,攻撃は収束時間を短縮し,モデルの精度を低下させることができた。 我々の攻撃がfl防衛戦略を第一形態にバイパスすることを示し、将来の道路網の無線移動環境において、新たな防毒防御機構の必要性を強調する。

Federated learning (FL) is a machine learning technique that aims at training an algorithm across decentralized entities holding their local data private. Wireless mobile networks allow users to communicate with other fixed or mobile users. The road traffic network represents an infrastructure-based configuration of a wireless mobile network where the Connected and Automated Vehicles (CAV) represent the communicating entities. Applying FL in a wireless mobile network setting gives rise to a new threat in the mobile environment that is very different from the traditional fixed networks. The threat is due to the intrinsic characteristics of the wireless medium and is caused by the characteristics of the vehicular networks such as high node-mobility and rapidly changing topology. Most cyber defense techniques depend on highly reliable and connected networks. This paper explores falsified information attacks, which target the FL process that is ongoing at the RSU. We identified a number of attack strategies conducted by the malicious CAVs to disrupt the training of the global model in vehicular networks. We show that the attacks were able to increase the convergence time and decrease the accuracy the model. We demonstrate that our attacks bypass FL defense strategies in their primary form and highlight the need for novel poisoning resilience defense mechanisms in the wireless mobile setting of the future road networks.
翻訳日:2021-03-01 13:44:54 公開日:2021-02-26
# 深層強化学習とオンライン計画の統合による群集内ロボットナビゲーション

Robot Navigation in a Crowd by Integrating Deep Reinforcement Learning and Online Planning ( http://arxiv.org/abs/2102.13265v1 )

ライセンス: Link先を確認
Zhiqian Zhou, Pengming Zhu, Zhiwen Zeng, Junhao Xiao, Huimin Lu, Zongtan Zhou(参考訳) これは、群衆の中で時間効率と衝突のない道を移動するモバイルロボットにとって、まだオープンで挑戦的な問題です。 主な課題は、ロボットが群衆を理解して、前向きで前向きな行動を実行することを必要とする、複雑で洗練された相互作用メカニズムである。 深層強化学習はこの問題に対する有望な解決策である。 しかし,従来の学習手法は計算処理の負担が大きい。 これらの問題に対処するために,グラフに基づく深層強化学習手法であるSG-DQNを提案する。 (i) 群集ロボット状態に対する効率的なグラフ表現を抽出するためのソーシャルアテンション機構を導入し, (ii) 学習した深層Qネットワーク(DQN) を用いて生状態の粗面q値を直接評価し, (iii) 将来軌道のオンライン計画を通じて粗面q値の洗練を行う。 実験結果から,ロボットは群集の理解を深め,群集ナビゲーションタスクにおいて0.99以上の成功率を達成できることが示唆された。 従来の最先端アルゴリズムと比較すると,提案アルゴリズムは計算コストの半減を必要とせず,同等の性能を実現している。

It is still an open and challenging problem for mobile robots navigating along time-efficient and collision-free paths in a crowd. The main challenge comes from the complex and sophisticated interaction mechanism, which requires the robot to understand the crowd and perform proactive and foresighted behaviors. Deep reinforcement learning is a promising solution to this problem. However, most previous learning methods incur a tremendous computational burden. To address these problems, we propose a graph-based deep reinforcement learning method, SG-DQN, that (i) introduces a social attention mechanism to extract an efficient graph representation for the crowd-robot state; (ii) directly evaluates the coarse q-values of the raw state with a learned dueling deep Q network(DQN); and then (iii) refines the coarse q-values via online planning on possible future trajectories. The experimental results indicate that our model can help the robot better understand the crowd and achieve a high success rate of more than 0.99 in the crowd navigation task. Compared against previous state-of-the-art algorithms, our algorithm achieves an equivalent, if not better, performance while requiring less than half of the computational cost.
翻訳日:2021-03-01 13:44:33 公開日:2021-02-26
# 職業カーネルヒルベルト空間と非局所作用素のスペクトル解析

Occupation Kernel Hilbert Spaces and the Spectral Analysis of Nonlocal Operators ( http://arxiv.org/abs/2102.13266v1 )

ライセンス: Link先を確認
Joel A. Rosenfeld, Benjamin Russo, Xiuying Li(参考訳) この写本は、実関数や複素関数ではなく、信号の集合上で動作する、職業カーネルヒルベルト空間(OKHS)と呼ばれる関数の空間を紹介します。 この定義をサポートするために、再生カーネルヒルベルト空間(RKHS)を考慮し、OKHSの明示的なクラスが与えられる。 この空間は、分数次リウヴィル作用素のような非局所作用素の定義と対応する分数次力学系に対するスペクトル分解法を可能にする。 この写本では、分数階のDMDルーチンが提示され、有限ランク表現の詳細が与えられる。 重要なことは、OKHSの定式化による理論的内容の追加にもかかわらず、結果の計算はRKHS上の整数順序系の占有カーネルDMD法とわずかに異なるだけである。

This manuscript introduces a space of functions, termed occupation kernel Hilbert space (OKHS), that operate on collections of signals rather than real or complex functions. To support this new definition, an explicit class of OKHSs is given through the consideration of a reproducing kernel Hilbert space (RKHS). This space enables the definition of nonlocal operators, such as fractional order Liouville operators, as well as spectral decomposition methods for corresponding fractional order dynamical systems. In this manuscript, a fractional order DMD routine is presented, and the details of the finite rank representations are given. Significantly, despite the added theoretical content through the OKHS formulation, the resultant computations only differ slightly from that of occupation kernel DMD methods for integer order systems posed over RKHSs.
翻訳日:2021-03-01 13:44:07 公開日:2021-02-26
# 世代別スレートレコメンデーションの変動制御と評価

Variation Control and Evaluation for Generative SlateRecommendations ( http://arxiv.org/abs/2102.13302v1 )

ライセンス: Link先を確認
Shuchang Liu, Fei Sun, Yingqiang Ge, Changhua Pei, Yongfeng Zhang(参考訳) slateレコメンデーションは、各項目を個別にランク付けする代わりに、項目全体のリストを生成し、リスト内の位置バイアスと項目関係をより良くモデル化する。 膨大なスレートの組合せ空間に対処するため、近年の研究では、スレート分布を直接モデル化できる生成的解を検討している。 しかし、そのようなアプローチは、コンピュータビジョンにおける効果が証明されているにもかかわらず、レコメンダーシステムにおけるトレードオフジレンマに苦しんでいることを我々は観察する:再構築に焦点を当てるとき、彼らは簡単にデータをオーバーフィットし、満足のいくレコメンデーションを生成しません。 本稿では,スレート変動測定値を用いた精度に基づく評価を強化し,生成モデルの確率的挙動を推定する。 ジレンマの2つの望ましくない極端なケースの1つに到達する代わりに、有効な生成解は、その中間の狭い「肘」領域に存在する。 また, 項目摂動はスレート変動を強制し, 生成したスレートの過度な集中を緩和し, 「肘」 性能を到達し易い領域に拡張することを示した。 さらに、モデルが生成前に摂動を適用できるように、ピボット選択フェーズを生成プロセスから分離することを提案する。 実験により、この単純な修正は、後世代の摂動法と比較して、同じレベルの精度でより優れたばらつきをもたらすことが示された。

Slate recommendation generates a list of items as a whole instead of ranking each item individually, so as to better model the intra-list positional biases and item relations. In order to deal with the enormous combinatorial space of slates, recent work considers a generative solution so that a slate distribution can be directly modeled. However, we observe that such approaches -- despite their proved effectiveness in computer vision -- suffer from a trade-off dilemma in recommender systems: when focusing on reconstruction, they easily over-fit the data and hardly generate satisfactory recommendations; on the other hand, when focusing on satisfying the user interests, they get trapped in a few items and fail to cover the item variation in slates. In this paper, we propose to enhance the accuracy-based evaluation with slate variation metrics to estimate the stochastic behavior of generative models. We illustrate that instead of reaching to one of the two undesirable extreme cases in the dilemma, a valid generative solution resides in a narrow "elbow" region in between. And we show that item perturbation can enforce slate variation and mitigate the over-concentration of generated slates, which expand the "elbow" performance to an easy-to-find region. We further propose to separate a pivot selection phase from the generation process so that the model can apply perturbation before generation. Empirical results show that this simple modification can provide even better variance with the same level of accuracy compared to post-generation perturbation methods.
翻訳日:2021-03-01 13:43:50 公開日:2021-02-26
# IoTMalware: ディープニューラルネットワークとブロックチェーン技術に基づくAndroid IoTマルウェア検出

IoTMalware: Android IoT Malware Detection based on Deep Neural Network and Blockchain Technology ( http://arxiv.org/abs/2102.13376v1 )

ライセンス: Link先を確認
Rajesh Kumar, WenYong Wang, Jay Kumar, Zakria, Ting Yang, Waqar Ali and Abubackar Sharif(参考訳) モノのインターネット(iot)は、医療、スマートシティ、スマート環境、安全性、リモートセンシングなど、日常生活のあらゆる場面でエキサイティングなアプリケーションを導入することで、この世界に革命をもたらしています。 本稿では,Android IoTデバイスのセキュリティを高めるために,ブロックチェーンとディープラーニングモデルに基づく新たなフレームワークを提案する。 さらに,我々のフレームワークは,リアルタイムな環境下でマルウェア活動を見つけることができる。 提案するディープラーニングモデルは、すでにブロックチェーン分散台帳に格納されているマルウェアや良性アプリから抽出されたさまざまな静的および動的特徴を分析する。 多層ディープラーニングモデルは、前のデータを解析していくつかのステップに従うことで決定する。 まず、マルウェア機能を複数のレベルクラスタに分割する。 次に、マルウェア機能セットまたはクラスタごとに独自のディープラーニングモデルを選択します。 最後に、すべてのクラスタレベルから生成された結果を組み合わせて意思決定を行います。 さらに、決定とマルチレベルクラスタリングデータはブロックチェーンに格納され、独自のデータ分散のために、すべての特殊なクラスタをトレーニングするためにさらに使用できる。 また、カスタマイズされたスマートコントラクトは、ブロックチェーンフレームワークを通じて偽りのアプリケーションを検出するように設計されている。 smart contractは、ネットワーク上のandroidアプリのアップロードとダウンロードのプロセス中に悪意のあるアプリケーションを検証します。 そこで,提案フレームワークは,異種iotデバイスにおけるマルウェア検出に関するランタイムセキュリティ機能の柔軟性を提供する。 最後に、スマートコントラクトは、有害なAndroidアプリケーションのアップロードとダウンロードを承認または拒否するのに役立つ。

The Internet of Things (IoT) has been revolutionizing this world by introducing exciting applications almost in all walks of daily life, such as healthcare, smart cities, smart environments, safety, remote sensing, and many more. This paper proposes a new framework based on the blockchain and deep learning model to provide more security for Android IoT devices. Moreover, our framework is capable to find the malware activities in a real-time environment. The proposed deep learning model analyzes various static and dynamic features extracted from thousands of feature of malware and benign apps that are already stored in blockchain distributed ledger. The multi-layer deep learning model makes decisions by analyzing the previous data and follow some steps. Firstly, it divides the malware feature into multiple level clusters. Secondly, it chooses a unique deep learning model for each malware feature set or cluster. Finally, it produces the decision by combining the results generated from all cluster levels. Furthermore, the decisions and multiple-level clustering data are stored in a blockchain that can be further used to train every specialized cluster for unique data distribution. Also, a customized smart contract is designed to detect deceptive applications through the blockchain framework. The smart contract verifies the malicious application both during the uploading and downloading process of Android apps on the network. Consequently, the proposed framework provides flexibility to features for run-time security regarding malware detection on heterogeneous IoT devices. Finally, the smart contract helps to approve or deny to uploading and downloading harmful Android applications.
翻訳日:2021-03-01 13:43:24 公開日:2021-02-26
# FjORD: 順序付きドロップアウトによる異種目標下での公正かつ正確なフェデレーション学習

FjORD: Fair and Accurate Federated Learning under heterogeneous targets with Ordered Dropout ( http://arxiv.org/abs/2102.13451v1 )

ライセンス: Link先を確認
Samuel Horvath, Stefanos Laskaridis, Mario Almeida, Ilias Leondiadis, Stylianos I. Venieris and Nicholas D. Lane(参考訳) Federated Learning(FL)は、ビジョンからキーボードの予測まで、さまざまなMLタスクで大きな牽引力を得ています。 大規模な展開では、クライアントの不均一性は事実であり、公平性、トレーニングパフォーマンス、正確性の主な問題となっています。 統計的データ不均一性に取り組むためにかなりの努力が行われているが、システム不均質性と呼ばれるクライアントの処理能力とネットワークの帯域幅の多様性は、ほとんど未調査のままである。 現在のソリューションでは、利用可能なデバイスの大部分を無視したり、モデルのキャパシティに統一的な制限を設定したりしている。 本研究では,ニューラルネットワークにおける知識の順序付きネスト表現を実現する機構であるOrdered Dropoutを導入し,リトレーニングを必要とせずに低フットプリントサブモデルの抽出を可能にする。 さらに、線形マップの場合、Ordered Dropout は SVD と同等であることを示します。 我々は、この手法と自己蒸留手法を、FjORDと呼ばれるフレームワークでFLの領域で採用する。 FjORDは、モデル幅をクライアントの機能に合わせることで、クライアントシステムの不均一性の問題を軽減する。 CNNとRNNの両方の多様なモダリティに対する広範な評価は、FjORDがそのネスト構造を維持しながら、常に最先端のベースラインよりも大幅なパフォーマンス向上につながることを示している。

Federated Learning (FL) has been gaining significant traction across different ML tasks, ranging from vision to keyboard predictions. In large-scale deployments, client heterogeneity is a fact, and constitutes a primary problem for fairness, training performance and accuracy. Although significant efforts have been made into tackling statistical data heterogeneity, the diversity in the processing capabilities and network bandwidth of clients, termed as system heterogeneity, has remained largely unexplored. Current solutions either disregard a large portion of available devices or set a uniform limit on the model's capacity, restricted by the least capable participants. In this work, we introduce Ordered Dropout, a mechanism that achieves an ordered, nested representation of knowledge in Neural Networks and enables the extraction of lower footprint submodels without the need of retraining. We further show that for linear maps our Ordered Dropout is equivalent to SVD. We employ this technique, along with a self-distillation methodology, in the realm of FL in a framework called FjORD. FjORD alleviates the problem of client system heterogeneity by tailoring the model width to the client's capabilities. Extensive evaluation on both CNNs and RNNs across diverse modalities shows that FjORD consistently leads to significant performance gains over state-of-the-art baselines, while maintaining its nested structure.
翻訳日:2021-03-01 13:43:04 公開日:2021-02-26
# Node Proximityは必要なもの - 統一された構造と位置のノードとグラフの埋め込み

Node Proximity Is All You Need: Unified Structural and Positional Node and Graph Embedding ( http://arxiv.org/abs/2102.13582v1 )

ライセンス: Link先を確認
Jing Zhu, Xingyu Lu, Mark Heimann, Danai Koutra(参考訳) ほとんどのネットワーク組込み技術はネットワーク内のノードの相対的な位置をモデル化するが、最近では特定のノードとの距離に関係なく、ノードの役割等価性をモデル化する構造的組込みに多大な関心が寄せられている。 我々は、ノード近接スコアを計算するための確立された手法を利用する、構造的および位置的ノード埋め込みを計算するための近接ベース統合フレームワークであるPhUSIONを提案する。 文献における論争点を明確にし、PhUsionのどのステップが異なる種類の埋め込みを生み出し、どちらのステップが両方で使用できるかを示す。 さらに,PhUSIONノードの埋め込みを集約することにより,従来のグラフ特徴学習やカーネル手法で失われた情報をモデル化するグラフレベルの特徴を得る。 10以上のデータセット、4つのタスク、35のメソッドを用いた包括的実証研究で、組み込みによるノードおよびグラフレベルの機械学習の設計選択を体系的に明らかにした。

While most network embedding techniques model the relative positions of nodes in a network, recently there has been significant interest in structural embeddings that model node role equivalences, irrespective of their distances to any specific nodes. We present PhUSION, a proximity-based unified framework for computing structural and positional node embeddings, which leverages well-established methods for calculating node proximity scores. Clarifying a point of contention in the literature, we show which step of PhUSION produces the different kinds of embeddings and what steps can be used by both. Moreover, by aggregating the PhUSION node embeddings, we obtain graph-level features that model information lost by previous graph feature learning and kernel methods. In a comprehensive empirical study with over 10 datasets, 4 tasks, and 35 methods, we systematically reveal successful design choices for node and graph-level machine learning with embeddings.
翻訳日:2021-03-01 13:41:44 公開日:2021-02-26
# ループ閉鎖とグローバル最適化を備えたパノラマ環状SLAM

Panoramic annular SLAM with loop closure and global optimization ( http://arxiv.org/abs/2102.13400v1 )

ライセンス: Link先を確認
Hao Chen, Weijian Hu, Kailun Yang, Jian Bai, Kaiwei Wang(参考訳) 本論文では、ループ閉鎖とグローバル最適化を備えた単眼パノラマ環状視覚SLAMシステムであるPA-SLAMを提案する。 追跡フロントエンドにはハイブリッドポイント選択戦略が展開されており、キーポイントの繰り返し可能性を確保し、バグオブワードアプローチに基づいたループクロージャ検出を可能にする。 各検出されたループ候補を幾何学的に検証し、$sim(3)$相対ポーズ制約を推定して、バックエンドでポーズグラフ最適化およびグローバルバンドル調整を行う。 実世界のデータセットに関する総合的な実験により、ハイブリッドポイント選択戦略は信頼性の高いループクロージャ検出を可能にし、累積誤差とスケールドリフトはグローバル最適化によって大幅に低減され、PA-SLAMは高い堅牢性と効率を維持しながら最先端の精度に達することが示されている。

In this paper, we propose PA-SLAM, a monocular panoramic annular visual SLAM system with loop closure and global optimization. A hybrid point selection strategy is put forward in the tracking front-end, which ensures repeatability of keypoints and enables loop closure detection based on the bag-of-words approach. Every detected loop candidate is verified geometrically and the $Sim(3)$ relative pose constraint is estimated to perform pose graph optimization and global bundle adjustment in the back-end. A comprehensive set of experiments on real-world datasets demonstrates that the hybrid point selection strategy allows reliable loop closure detection, and the accumulated error and scale drift have been significantly reduced via global optimization, enabling PA-SLAM to reach state-of-the-art accuracy while maintaining high robustness and efficiency.
翻訳日:2021-03-01 13:41:28 公開日:2021-02-26
# 深層信念ネットワークを用いた水中音響通信受信装置

Underwater Acoustic Communication Receiver Using Deep Belief Network ( http://arxiv.org/abs/2102.13397v1 )

ライセンス: Link先を確認
Abigail Lee-Leon, Chau Yuen, Dorien Herremans(参考訳) 水中環境はコミュニケーションのための挑戦的なチャネルを生み出す。 本論文では,ドップラー効果とマルチパス伝播による信号歪みに対抗するために,Deep Belief Network (DBN) という機械学習手法を探索し,新しい受信機システムを設計する。 シミュレーション実験と海上実験の両方において,提案システムの性能評価を行った。 提案する受信システムは、dbnに基づく非ノイズ化と受信信号の分類からなる。 まず、受信した信号をフレームに分割し、それぞれのフレームを新しいピクセル化アルゴリズムで個別に前処理する。 そして、DBNに基づくノイズ除去アルゴリズムを用いて、これらのフレームから特徴を抽出し、受信した信号を再構成する。 最後に、DBNに基づく再構成信号の分類が行われる。 提案されたDBNベースのレシーバーシステムは、ドップラー効果およびマルチパス伝播に影響されるチャネルでのより良いパフォーマンスを示し、ビットエラーレート(BER)で13.2dBの性能向上を実現している。

Underwater environments create a challenging channel for communications. In this paper, we design a novel receiver system by exploring the machine learning technique--Deep Belief Network (DBN)-- to combat the signal distortion caused by the Doppler effect and multi-path propagation. We evaluate the performance of the proposed receiver system in both simulation experiments and sea trials. Our proposed receiver system comprises of DBN based de-noising and classification of the received signal. First, the received signal is segmented into frames before the each of these frames is individually pre-processed using a novel pixelization algorithm. Then, using the DBN based de-noising algorithm, features are extracted from these frames and used to reconstruct the received signal. Finally, DBN based classification of the reconstructed signal occurs. Our proposed DBN based receiver system does show better performance in channels influenced by the Doppler effect and multi-path propagation with a performance improvement of 13.2dB at $10^{-3}$ Bit Error Rate (BER).
翻訳日:2021-03-01 13:41:12 公開日:2021-02-26
# 2020年個人化音声トリガチャレンジのためのNPUシステム

The NPU System for the 2020 Personalized Voice Trigger Challenge ( http://arxiv.org/abs/2102.13552v1 )

ライセンス: Link先を確認
Jingyong Hou, Li Zhang, Yihui Fu, Qing Wang, Zhanheng Yang, Qijie Shao, Lei Xie(参考訳) 本稿は、NPUチームが2020年のパーソナライズされた音声トリガーチャレンジのために開発したシステムについて述べる。 提案システムは,kws(small footprint keyword spotting)システムとsv(speaker verification)システムという,2つの独立した学習サブシステムで構成されている。 KWSシステムでは、覚醒単語(WuW)を検出するために、MDTC(Multi-scale dilated temporal convolutional)ネットワークを提案する。 SVシステムについては、ここで何かを書きましょう。 KWSは、音声発話がWuWを含むかどうかの後方確率を予測し、同時にWuWの位置を推定する。 WuWの後方確率が予め定義されたしきい値に達すると、トリガセグメントの識別情報がSVシステムによって決定される。 評価データセットでは,近接発話と遠距離作業において0.081と0.091の検出コストがそれぞれ得られた。

This paper describes the system developed by the NPU team for the 2020 personalized voice trigger challenge. Our submitted system consists of two independently trained subsystems: a small footprint keyword spotting (KWS) system and a speaker verification (SV) system. For the KWS system, a multi-scale dilated temporal convolutional (MDTC) network is proposed to detect wake-up word (WuW). For SV system, Write something here. The KWS predicts posterior probabilities of whether an audio utterance contains WuW and estimates the location of WuW at the same time. When the posterior probability ofWuW reaches a predefined threshold, the identity information of triggered segment is determined by the SV system. On evaluation dataset, our submitted system obtains detection costs of 0.081and 0.091 in close talking and far-field tasks, respectively.
翻訳日:2021-03-01 13:40:55 公開日:2021-02-26
# 非平滑凸有限要素の一次二重加速二重平均化による分散低減

Variance Reduction via Primal-Dual Accelerated Dual Averaging for Nonsmooth Convex Finite-Sums ( http://arxiv.org/abs/2102.13643v1 )

ライセンス: Link先を確認
Chaobing Song, Stephen J. Wright and Jelena Diakonikolas(参考訳) 我々は、サポートベクターマシンと最小絶対偏差を含む、機械学習アプリケーションで広く現れる構造化された非平滑凸有限和最適化を研究します。 この問題の原始的双対定式化のために、プリマル双対加速双対平均化 (\vrpda)} による \emph{Variance Reduction と呼ばれる新しいアルゴリズムを提案する。 nonsmooth と general convex の設定では、\vrpda~ は全複雑性 $o(nd\log\min \{1/\epsilon, n\} + d/\epsilon )$ を持ち、ここでは$n$ はサンプル数、$d$ は原始変数の次元、$\epsilon$ は所望の精度を表す。 非滑らかかつ強凸設定において、 \vrpda~ の全体的な複雑性は、主双対ギャップと反復と最適解の間の距離の両方の観点から $O(nd\log\min\{1/\epsilon, n\} + d/\sqrt{\epsilon})$ となる。 これらの結果はいずれも、非スムースおよび一般凸集合に対して$o(nd\log \min\{1/\epsilon, n\} + \sqrt{n}d/\epsilon)$、より単純かつ強い凸設定に対して$o(nd\log \min\{1/\epsilon, n\} + \sqrt{n}d/\sqrt{\epsilon})$である。 さらに、両方の複素性は、我々が考える特定の(共通な)構造を持たない一般凸有限和に対する \emph{lower} 境界よりも優れている。 我々の理論結果は数値実験によって支持され、最新技術と比較された \vrpda の競合性能を確認した。

We study structured nonsmooth convex finite-sum optimization that appears widely in machine learning applications, including support vector machines and least absolute deviation. For the primal-dual formulation of this problem, we propose a novel algorithm called \emph{Variance Reduction via Primal-Dual Accelerated Dual Averaging (\vrpda)}. In the nonsmooth and general convex setting, \vrpda~has the overall complexity $O(nd\log\min \{1/\epsilon, n\} + d/\epsilon )$ in terms of the primal-dual gap, where $n$ denotes the number of samples, $d$ the dimension of the primal variables, and $\epsilon$ the desired accuracy. In the nonsmooth and strongly convex setting, the overall complexity of \vrpda~becomes $O(nd\log\min\{1/\epsilon, n\} + d/\sqrt{\epsilon})$ in terms of both the primal-dual gap and the distance between iterate and optimal solution. Both these results for \vrpda~improve significantly on state-of-the-art complexity estimates, which are $O(nd\log \min\{1/\epsilon, n\} + \sqrt{n}d/\epsilon)$ for the nonsmooth and general convex setting and $O(nd\log \min\{1/\epsilon, n\} + \sqrt{n}d/\sqrt{\epsilon})$ for the nonsmooth and strongly convex setting, in a much more simple and straightforward way. Moreover, both complexities are better than \emph{lower} bounds for general convex finite sums that lack the particular (common) structure that we consider. Our theoretical results are supported by numerical experiments, which confirm the competitive performance of \vrpda~compared to state-of-the-art.
翻訳日:2021-03-01 13:40:42 公開日:2021-02-26
# オーバーザエア計算によるフェデレーションエッジ学習

Federated Edge Learning with Misaligned Over-The-Air Computation ( http://arxiv.org/abs/2102.13604v1 )

ライセンス: Link先を確認
Yulin Shao, Deniz Gunduz, Soung Chang Liew(参考訳) オーバーザエア計算(OAC)は、フェデレーションエッジラーニングのアップリンクで高速なモデル集約を実現する有望な技術です。 しかし、OACは正確なチャネルゲインプリコーディングとエッジデバイス間の厳密な同期に依存しており、実際は困難である。 このように、残存チャネルゲインミスマッチと非同期の存在下で最大の可能性(ML)推定器を設計する方法は、オープンな問題です。 このギャップを埋めるために,フェデレートエッジ学習におけるoacの不整合問題を定式化し,不整合信号と重なり信号からのサンプルの過サンプル化と独立化のために,ホワイトドマッチフィルタとサンプリングスキームを導入する。 ホワイト化されたサンプル、合計積ML推定器および整列サンプル推定器は、送信されたシンボルの算術的合計を推定するために考案される。 特に,和積ML推定器の計算複雑性はパケット長が線形であるため,従来のML推定器よりも著しく低い。 ノイズパワースペクトル密度比(EsN0)に対するシンボル当たりの平均受信エネルギーに対する試験精度の過大なシミュレーションは、1)低EsN0系では、位相不整合が不要である場合、整列サンプル推定器が優れた試験精度を達成できる。 対照的に、ML推定器は、推定過程における誤差伝搬とノイズ増強のためにうまく機能しない。 2)高EsN0方式では,位相ずれの重大さにかかわらず,ML推定器は最適学習性能が得られる。 一方、アライメントサンプル推定器は位相不整合によるテスト精度の低下に悩まされる。

Over-the-air computation (OAC) is a promising technique to realize fast model aggregation in the uplink of federated edge learning. OAC, however, hinges on accurate channel-gain precoding and strict synchronization among the edge devices, which are challenging in practice. As such, how to design the maximum likelihood (ML) estimator in the presence of residual channel-gain mismatch and asynchronies is an open problem. To fill this gap, this paper formulates the problem of misaligned OAC for federated edge learning and puts forth a whitened matched filtering and sampling scheme to obtain oversampled, but independent, samples from the misaligned and overlapped signals. Given the whitened samples, a sum-product ML estimator and an aligned-sample estimator are devised to estimate the arithmetic sum of the transmitted symbols. In particular, the computational complexity of our sum-product ML estimator is linear in the packet length and hence is significantly lower than the conventional ML estimator. Extensive simulations on the test accuracy versus the average received energy per symbol to noise power spectral density ratio (EsN0) yield two main results: 1) In the low EsN0 regime, the aligned-sample estimator can achieve superior test accuracy provided that the phase misalignment is non-severe. In contrast, the ML estimator does not work well due to the error propagation and noise enhancement in the estimation process. 2) In the high EsN0 regime, the ML estimator attains the optimal learning performance regardless of the severity of phase misalignment. On the other hand, the aligned-sample estimator suffers from a test-accuracy loss caused by phase misalignment.
翻訳日:2021-03-01 13:39:49 公開日:2021-02-26
# (参考訳) CLIPを用いたビデオ検索のためのStraightforwardフレームワーク [全文訳有]

A Straightforward Framework For Video Retrieval Using CLIP ( http://arxiv.org/abs/2102.12443v2 )

ライセンス: CC BY 4.0
Jes\'us Andr\'es Portillo-Quintero, Jos\'e Carlos Ortiz-Bayliss, Hugo Terashima-Mar\'in(参考訳) ビデオ検索は、テキストクエリがビデオとマッチする、あるいはその逆を行う、難しいタスクである。 このような問題に対処する既存のアプローチのほとんどは、ユーザによるアノテーションに依存しています。 単純だが、このアプローチは実際には必ずしも実現可能ではない。 本稿では,このアノテーションを必要とせず,映像表現を得るための言語画像モデルである clip の応用について検討する。 このモデルは、画像とテキストを比較できる共通空間を学ぶために明示的に訓練された。 本論文では,MSR-VTT および MSVD ベンチマークを用いて,その適用範囲をビデオに拡張した。

Video Retrieval is a challenging task where a text query is matched to a video or vice versa. Most of the existing approaches for addressing such a problem rely on annotations made by the users. Although simple, this approach is not always feasible in practice. In this work, we explore the application of the language-image model, CLIP, to obtain video representations without the need for said annotations. This model was explicitly trained to learn a common space where images and text can be compared. Using various techniques described in this document, we extended its application to videos, obtaining state-of-the-art results on the MSR-VTT and MSVD benchmarks.
翻訳日:2021-03-01 13:03:36 公開日:2021-02-26
# (参考訳) 複数のカーネルによる分散オンライン学習 [全文訳有]

Distributed Online Learning with Multiple Kernels ( http://arxiv.org/abs/2102.12733v2 )

ライセンス: CC BY 4.0
Jeongmin Chae and Songnam Hong(参考訳) 我々は、学習者のネットワーク上の非線形関数を完全に分散的に学習する問題を検討する。 オンライン学習は、すべての学習者がローカルで連続的なストリーミングデータを受け取ると仮定されます。 この学習モデルは、完全に分散したオンライン学習(または完全に分散したオンライン連合学習)と呼ばれる。 本モデルでは,複数のカーネルを持つ新しい学習フレームワークを提案し,DOMKLと命名した。 提案するdomklは,乗算器のオンライン交互方向法と分散ヘッジアルゴリズムの原理を応用して考案された。 T 時間スロット上の DOMKL が最適のサブリニア後悔を達成できることを理論的に証明し、ネットワーク内のすべての学習者が、後視における最高の関数とギャップが減少する共通関数を学習できることを暗示する。 分析の結果、domklは最先端の集中型アプローチと同じ漸近的なパフォーマンスを生み出しながら、ローカルデータをエッジ学習者に保持していることが明らかとなった。 実データを用いた数値実験により,オンライン回帰および時系列予測タスクにおける提案のdomklの有効性を実証する。

We consider the problem of learning a nonlinear function over a network of learners in a fully decentralized fashion. Online learning is additionally assumed, where every learner receives continuous streaming data locally. This learning model is called a fully distributed online learning (or a fully decentralized online federated learning). For this model, we propose a novel learning framework with multiple kernels, which is named DOMKL. The proposed DOMKL is devised by harnessing the principles of an online alternating direction method of multipliers and a distributed Hedge algorithm. We theoretically prove that DOMKL over T time slots can achieve an optimal sublinear regret, implying that every learner in the network can learn a common function which has a diminishing gap from the best function in hindsight. Our analysis also reveals that DOMKL yields the same asymptotic performance of the state-of-the-art centralized approach while keeping local data at edge learners. Via numerical tests with real datasets, we demonstrate the effectiveness of the proposed DOMKL on various online regression and time-series prediction tasks.
翻訳日:2021-03-01 12:53:37 公開日:2021-02-26
# グラフニューラルネットワークにおける確率的集約

Stochastic Aggregation in Graph Neural Networks ( http://arxiv.org/abs/2102.12648v2 )

ライセンス: Link先を確認
Yuanqing Wang, Theofanis Karaletsos(参考訳) グラフニューラルネットワーク(gnns)は、サブオプティマイティブなアグリゲーション機構の結果、過剰なスムーシングや限定的な識別力を含む病状を示す。 本稿では、GNNsにおける確率集約(STAG)のための統一フレームワークについて述べる。そこでは、近隣からの集約プロセスにノイズが(適応的に)注入され、ノード埋め込みを形成する。 我々は,上述の2つの問題をほとんどオーバーヘッドなく,stagモデルで解決する理論的議論を行う。 また,固定ノイズモデルに加えて,stagモデルの確率的バージョンと雑音の後方学習のための変分推論フレームワークを提案する。 我々はオーバースムーシングとマルチセットアグリゲーション制限を明確にターゲットとした説明実験を行う。 さらに、STAGは、共通励起および分子グラフベンチマークデータセットにおける競合性能によって示されるGNNの一般性能を向上させる。

Graph neural networks (GNNs) manifest pathologies including over-smoothing and limited discriminating power as a result of suboptimally expressive aggregating mechanisms. We herein present a unifying framework for stochastic aggregation (STAG) in GNNs, where noise is (adaptively) injected into the aggregation process from the neighborhood to form node embeddings. We provide theoretical arguments that STAG models, with little overhead, remedy both of the aforementioned problems. In addition to fixed-noise models, we also propose probabilistic versions of STAG models and a variational inference framework to learn the noise posterior. We conduct illustrative experiments clearly targeting oversmoothing and multiset aggregation limitations. Furthermore, STAG enhances general performance of GNNs demonstrated by competitive performance in common citation and molecule graph benchmark datasets.
翻訳日:2021-03-01 11:37:16 公開日:2021-02-26
# CelebA-Spoof Challenge 2020: Face Anti-Spoofing: Methods and Results

CelebA-Spoof Challenge 2020 on Face Anti-Spoofing: Methods and Results ( http://arxiv.org/abs/2102.12642v2 )

ライセンス: Link先を確認
Yuanhan Zhang, Zhenfei Yin, Jing Shao, Ziwei Liu, Shuo Yang, Yuanjun Xiong, Wei Xia, Yan Xu, Man Luo, Jian Liu, Jianshu Li, Zhijun Chen, Mingyu Guo, Hui Li, Junfu Liu, Pengfei Gao, Tianqi Hong, Hao Han, Shijie Liu, Xinhua Chen, Di Qiu, Cheng Zhen, Dashuang Liang, Yufeng Jin, Zhanlong Hao(参考訳) 顔とのインタラクションシステムが普及するにつれ、これらのシステムのセキュリティと信頼性は重要な問題となり、かなりの研究が費やされる。 その中で、顔のアンチスプーフィングは重要な領域として現れ、その目的は提示された顔が生きているかどうかを特定することです。 近年,10,177名の被験者の625,537枚の写真からなる大規模な顔反スプーフデータセットCelebA-Spoofが公開された。 これは、データと被写体の数において、最大の対スプーフィングデータセットである。 本稿では,celeba-spoof データセットを用いた celeba-spoof challenge 2020 on face antispoofing の手法と結果について報告する。 モデル評価は隠れたテストセット上でオンラインで実施する。 大会には合計134人が参加し、19チームが有効な応募を行った。 上位のソリューションを分析し、今後の作業指示についていくつかの議論を行います。

As facial interaction systems are prevalently deployed, security and reliability of these systems become a critical issue, with substantial research efforts devoted. Among them, face anti-spoofing emerges as an important area, whose objective is to identify whether a presented face is live or spoof. Recently, a large-scale face anti-spoofing dataset, CelebA-Spoof which comprised of 625,537 pictures of 10,177 subjects has been released. It is the largest face anti-spoofing dataset in terms of the numbers of the data and the subjects. This paper reports methods and results in the CelebA-Spoof Challenge 2020 on Face AntiSpoofing which employs the CelebA-Spoof dataset. The model evaluation is conducted online on the hidden test set. A total of 134 participants registered for the competition, and 19 teams made valid submissions. We will analyze the top ranked solutions and present some discussion on future work directions.
翻訳日:2021-03-01 11:37:03 公開日:2021-02-26
# 意味セグメンテーションにおける教師なし領域適応のための空間的特徴間のコサイン類似性最大化

Maximizing Cosine Similarity Between Spatial Features for Unsupervised Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2102.13002v2 )

ライセンス: Link先を確認
Inseop Chung, Daesik Kim, Nojun Kwak(参考訳) 本論文では,ソースとターゲットドメインのコサイン類似性を特徴レベルで最大化することにより,セマンティックセグメンテーションにおける非監視領域適応の問題に取り組む新しい手法を提案する。 セグメンテーションネットワークは、主に特徴抽出器と分類ヘッドの2つの部分から構成される。 2つのドメインが機能レベルで小さなドメイン間隙を持つようにできれば、分類ヘッドで小さなドメイン間差異も生まれると期待しています。 提案手法では,ソース特徴マップとターゲット特徴マップのコサイン類似度行列を計算し,しきい値を超える要素を最大化し,最も類似したソース特徴と高い類似度を持つように目標特徴を導出する。 さらに,ソースドメインの最新の特徴を格納するクラス毎のソース特徴辞書を用いて,コサイン類似度行列の計算時に一致しない問題を防止し,対象特徴と各種画像からの各種ソース特徴を比較した。 広範な実験を通じて,2つの監視されていないドメイン適応タスク(GTA5$\to$ Cityscaspes と SYNTHIA$\to$ Cityscapes)において,この手法がパフォーマンスを向上することを確認した。

We propose a novel method that tackles the problem of unsupervised domain adaptation for semantic segmentation by maximizing the cosine similarity between the source and the target domain at the feature level. A segmentation network mainly consists of two parts, a feature extractor and a classification head. We expect that if we can make the two domains have small domain gap at the feature level, they would also have small domain discrepancy at the classification head. Our method computes a cosine similarity matrix between the source feature map and the target feature map, then we maximize the elements exceeding a threshold to guide the target features to have high similarity with the most similar source feature. Moreover, we use a class-wise source feature dictionary which stores the latest features of the source domain to prevent the unmatching problem when computing the cosine similarity matrix and be able to compare a target feature with various source features from various images. Through extensive experiments, we verify that our method gains performance on two unsupervised domain adaptation tasks (GTA5$\to$ Cityscaspes and SYNTHIA$\to$ Cityscapes).
翻訳日:2021-03-01 11:36:47 公開日:2021-02-26
# プライバシーを過大評価するな - 個人学習のための勾配埋め込み摂動

Do Not Let Privacy Overbill Utility: Gradient Embedding Perturbation for Private Learning ( http://arxiv.org/abs/2102.12677v2 )

ライセンス: Link先を確認
Da Yu, Huishuai Zhang, Wei Chen, Tie-Yan Liu(参考訳) トレーニングデータに関するモデルのプライバシー漏洩は、差分プライバシーメカニズムにバインドすることができる。 しかし、有意義なプライバシパラメータに対しては、モデルが多数のトレーニング可能なパラメータを含む場合、微分プライベートモデルによってユーティリティが大幅に劣化する。 本稿では,偏微分プライベート深層モデルの精度向上のためのアルゴリズムであるemph{Gradient Embedding Perturbation (GEP)を提案する。 具体的には、各勾配降下ステップにおいて、GEP は個々のプライベート勾配を非感度アンカー部分空間に投影し、低次元勾配埋め込みと小さなノルム勾配を生成する。 そして、GEPはプライバシー予算に応じて、低次元の埋め込みと残留勾配を別々に摂動する。 このような分解は、小さな摂動分散を許容し、プライベートラーニングの次元障壁を壊すのに大いに役立つ。 GEPでは、合理的な計算コストと深いモデルのための控えめなプライバシー保証で、適切な精度を実現します。 特に、プライバシー境界 $\epsilon=8$ で、CIFAR10 で $74.9\%$ テスト精度を達成し、SVHN で $95.1\%$ テスト精度を達成し、既存の結果を大幅に改善します。

The privacy leakage of the model about the training data can be bounded in the differential privacy mechanism. However, for meaningful privacy parameters, a differentially private model degrades the utility drastically when the model comprises a large number of trainable parameters. In this paper, we propose an algorithm \emph{Gradient Embedding Perturbation (GEP)} towards training differentially private deep models with decent accuracy. Specifically, in each gradient descent step, GEP first projects individual private gradient into a non-sensitive anchor subspace, producing a low-dimensional gradient embedding and a small-norm residual gradient. Then, GEP perturbs the low-dimensional embedding and the residual gradient separately according to the privacy budget. Such a decomposition permits a small perturbation variance, which greatly helps to break the dimensional barrier of private learning. With GEP, we achieve decent accuracy with reasonable computational cost and modest privacy guarantee for deep models. Especially, with privacy bound $\epsilon=8$, we achieve $74.9\%$ test accuracy on CIFAR10 and $95.1\%$ test accuracy on SVHN, significantly improving over existing results.
翻訳日:2021-03-01 11:36:25 公開日:2021-02-26