このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210320となっている論文です。

PDF登録状況(公開日: 20210320)

TitleAuthorsAbstract論文公表日・翻訳日
# より良い精度・効率トレードオフを目指して--分業と共同訓練

Towards Better Accuracy-efficiency Trade-offs: Divide and Co-training ( http://arxiv.org/abs/2011.14660v3 )

ライセンス: Link先を確認
Shuai Zhao, Liguang Zhou, Wenxiao Wang, Deng Cai, Tin Lun Lam, Yangsheng Xu(参考訳) ニューラルネットワークの幅は、幅を増やすことが必ずモデルの容量を増加させるため、重要となる。 しかし、ネットワークの性能は幅とともに線形に改善されず、すぐに飽和する。 この場合、ネットワーク(アンサンブル)の増加は、幅を純粋に増やすよりも、精度と効率のトレードオフを達成できると論じる。 それを証明するために、1つの大きなネットワークはそのパラメータと正規化コンポーネントに関していくつかの小さなネットワークに分割される。 これらの小さなネットワークはそれぞれ、元のパラメータのほんの一部しか持たない。 次に、これらの小さなネットワークを訓練し、その多様性を高めるために、同じデータのさまざまなビューを見るようにします。 このコトレーニングプロセスの間、ネットワークは互いに学習することもできます。 結果として、小さなネットワークは、パラメータやFLOPがほとんどあるいは全くない大きなネットワークよりも、より良いアンサンブル性能が得られる。 小さなネットワークは、異なるデバイス上で同時実行することで、大きなネットワークよりも高速な推論速度を実現することもできる。 8つの異なるニューラルアーキテクチャによる共通ベンチマークによる議論を,広範な実験によって検証した。 コードは \url{https://github.com/m zhaoshuai/divide-and -co-training} で入手できる。

The width of a neural network matters since increasing the width will necessarily increase the model capacity. However, the performance of a network does not improve linearly with the width and soon gets saturated. In this case, we argue that increasing the number of networks (ensemble) can achieve better accuracy-efficiency trade-offs than purely increasing the width. To prove it, one large network is divided into several small ones regarding its parameters and regularization components. Each of these small networks has a fraction of the original one's parameters. We then train these small networks together and make them see various views of the same data to increase their diversity. During this co-training process, networks can also learn from each other. As a result, small networks can achieve better ensemble performance than the large one with few or no extra parameters or FLOPs. Small networks can also achieve faster inference speed than the large one by concurrent running on different devices. We validate our argument with 8 different neural architectures on common benchmarks through extensive experiments. The code is available at \url{https://github.com/m zhaoshuai/Divide-and -Co-training}.
翻訳日:2021-06-06 14:47:15 公開日:2021-03-20
# ロングテール視覚認識のためのディペンタングリングラベル分布

Disentangling Label Distribution for Long-tailed Visual Recognition ( http://arxiv.org/abs/2012.00321v2 )

ライセンス: Link先を確認
Youngkyu Hong, Seungju Han, Kwanghee Choi, Seokjun Seo, Beomsu Kim, Buru Chang(参考訳) ロングテールビジュアル認識の現在の評価プロトコルは、ロングテールソースラベル分布の分類モデルを訓練し、その均一なターゲットラベル分布の性能を評価する。 このようなプロトコルは、ターゲットも長い尾を持つ可能性があるため、疑わしい実用性を持っている。 そこで,対象とソースのラベル分布が異なるラベルシフト問題として,ロングテール視覚認識を定式化する。 ラベルシフト問題に対処する上で重要なハードルのひとつは、ソースラベル分布とモデル予測との絡み合いである。 本稿では,モデル予測からソースラベルの分布を分離することに焦点を当てる。 まず,クロスエントロピー損失とソフトマックス関数で訓練されたモデル予測を後処理することで,対象ラベル分布にマッチする単純なベースライン手法を提案する。 この方法はベンチマークデータセットの最先端手法を超越するが、トレーニングフェーズのモデル予測からソースラベルの分布を直接切り離すことにより、さらに改善することができる。 そこで本稿では,Donsker-Varadhan表現の最適境界に基づく新しい手法であるLAbel Distribution DisEntangling (LADE)損失を提案する。 LADEは、CIFAR-100-LT、Places-LT、ImageNet-LT、iNaturalist 2018などのベンチマークデータセットで最先端のパフォーマンスを実現している。 さらに, LADEは, 様々なシフト対象ラベル分布の既存手法よりも優れた性能を示し, 提案手法の適応性を示した。

The current evaluation protocol of long-tailed visual recognition trains the classification model on the long-tailed source label distribution and evaluates its performance on the uniform target label distribution. Such protocol has questionable practicality since the target may also be long-tailed. Therefore, we formulate long-tailed visual recognition as a label shift problem where the target and source label distributions are different. One of the significant hurdles in dealing with the label shift problem is the entanglement between the source label distribution and the model prediction. In this paper, we focus on disentangling the source label distribution from the model prediction. We first introduce a simple but overlooked baseline method that matches the target label distribution by post-processing the model prediction trained by the cross-entropy loss and the Softmax function. Although this method surpasses state-of-the-art methods on benchmark datasets, it can be further improved by directly disentangling the source label distribution from the model prediction in the training phase. Thus, we propose a novel method, LAbel distribution DisEntangling (LADE) loss based on the optimal bound of Donsker-Varadhan representation. LADE achieves state-of-the-art performance on benchmark datasets such as CIFAR-100-LT, Places-LT, ImageNet-LT, and iNaturalist 2018. Moreover, LADE outperforms existing methods on various shifted target label distributions, showing the general adaptability of our proposed method.
翻訳日:2021-05-30 20:02:36 公開日:2021-03-20
# コントラスト損失の挙動を理解する

Understanding the Behaviour of Contrastive Loss ( http://arxiv.org/abs/2012.09740v2 )

ライセンス: Link先を確認
Feng Wang, Huaping Liu(参考訳) 教師なしのコントラスト学習は顕著な成功を収め、対照的な損失のメカニズムは研究されていない。 本稿では、教師なしの対照的な損失の挙動の理解に焦点を当てる。 対照的な損失は硬度認識損失関数であり、温度は硬度負のサンプルに対するペナルティの強度を制御する。 前回の研究では、一様性はコントラスト学習の重要な特性であることが示された。 我々は一様度と温度の相関関係を構築する。 しかし,一様性への過度な追及は,意味論的に類似したサンプルに対して,コントラスト損失が寛容にならないようにし,意味構造を損なう可能性があり,下流タスクに有用な特徴の形成に有害であることを示した。 これはインスタンス識別目的の固有の欠陥によって引き起こされる。 具体的には、インスタンス識別の目的は、すべての異なるインスタンスを分離し、サンプル間の基盤となる関係を無視しようとする。 意味的に一貫性のあるサンプルを分割すると、一般的なダウンストリームタスクに事前情報を取得する効果はない。 よく設計されたコントラスト損失は、意味的に類似したサンプルの近接性に対するある程度の耐性を持つべきである。 したがって, コントラスト損失は一様性トレランスジレンマに適合し, 温度選択が良好であれば, これら2つの特性を適切に妥協し, 分離可能な特徴を学習し, セマンティックに類似したサンプルに寛容であり, 特性特性と下流性能を改善することができる。

Unsupervised contrastive learning has achieved outstanding success, while the mechanism of contrastive loss has been less studied. In this paper, we concentrate on the understanding of the behaviours of unsupervised contrastive loss. We will show that the contrastive loss is a hardness-aware loss function, and the temperature {\tau} controls the strength of penalties on hard negative samples. The previous study has shown that uniformity is a key property of contrastive learning. We build relations between the uniformity and the temperature {\tau} . We will show that uniformity helps the contrastive learning to learn separable features, however excessive pursuit to the uniformity makes the contrastive loss not tolerant to semantically similar samples, which may break the underlying semantic structure and be harmful to the formation of features useful for downstream tasks. This is caused by the inherent defect of the instance discrimination objective. Specifically, instance discrimination objective tries to push all different instances apart, ignoring the underlying relations between samples. Pushing semantically consistent samples apart has no positive effect for acquiring a prior informative to general downstream tasks. A well-designed contrastive loss should have some extents of tolerance to the closeness of semantically similar samples. Therefore, we find that the contrastive loss meets a uniformity-tolerance dilemma, and a good choice of temperature can compromise these two properties properly to both learn separable features and tolerant to semantically similar samples, improving the feature qualities and the downstream performances.
翻訳日:2021-05-07 05:16:10 公開日:2021-03-20
# (参考訳) 画像と人工知能による中枢性血清型網膜症検出の最近の進歩 [全文訳有]

Recent Developments in Detection of Central Serous Retinopathy through Imaging and Artificial Intelligence Techniques A Review ( http://arxiv.org/abs/2012.10961v3 )

ライセンス: CC BY 4.0
Syed Ale Hassan, Shahzad Akbar(参考訳) CSR(Central Serous Retinopathy)は、世界中の多くの人々に盲目と視力喪失を引き起こす重要な疾患である。 この疾患は中枢性毛様脈絡膜症(csc)として知られているが、これは網膜の背後にある水分の蓄積によるものである。 早期にcsrを検出することで、人間の目の障害を回避できる予防措置を講じることができる。 伝統的に、CSRを観測するためにいくつかの手動検出法が開発されたが、それらは不正確で信頼性がなく、時間を要することが証明された。 その結果、研究コミュニティはCSR検出の自動化ソリューションを模索した。 21世紀に近代技術が出現すると、人工知能(AI)技術は、自動CSR検出を含む多くの研究分野で非常に人気がある。 本稿では,様々な先進技術と研究の総合的なレビューを行い,このシナリオにおける自動CSR検出に寄与する。 さらに、オプティカルコヒーレンストモグラフィ(oct)やファンドスイメージングから、aiベースの機械学習やディープラーニングといった、より最近のアプローチまで、多くの古典的なイメージング手法の利点と限界についても論じている。 研究の目的は、OCT画像を用いた自動CSR検出を効率的に達成した多くの人工知能(AI)アルゴリズムを分析し比較することである。 さらに、CSRの評価と精度のために提案された様々な網膜データセットと戦略について述べる。 最後に,最新のdeep learning (dl)分類器は,csrの高精度,高速,信頼性の高い検出を行っていると結論づけた。

The Central Serous Retinopathy (CSR) is a major significant disease responsible for causing blindness and vision loss among numerous people across the globe. This disease is also known as the Central Serous Chorioretinopathy (CSC) occurs due to the accumulation of watery fluids behind the retina. The detection of CSR at an early stage allows taking preventive measures to avert any impairment to the human eye. Traditionally, several manual detection methods were developed for observing CSR, but they were proven to be inaccurate, unreliable, and time-consuming. Consequently, the research community embarked on seeking automated solutions for CSR detection. With the advent of modern technology in the 21st century, Artificial Intelligence (AI) techniques are immensely popular in numerous research fields including the automated CSR detection. This paper offers a comprehensive review of various advanced technologies and researches, contributing to the automated CSR detection in this scenario. Additionally, it discusses the benefits and limitations of many classical imaging methods ranging from Optical Coherence Tomography (OCT) and the Fundus imaging, to more recent approaches like AI based Machine/Deep Learning techniques. Study primary objective is to analyze and compare many Artificial Intelligence (AI) algorithms that have efficiently achieved automated CSR detection using OCT imaging. Furthermore, it describes various retinal datasets and strategies proposed for CSR assessment and accuracy. Finally, it is concluded that the most recent Deep Learning (DL) classifiers are performing accurate, fast, and reliable detection of CSR.
翻訳日:2021-05-01 06:32:35 公開日:2021-03-20
# ロボットマニピュレーションのための自然言語命令をコンピュータプログラムに翻訳する

Translating Natural Language Instructions to Computer Programs for Robot Manipulation ( http://arxiv.org/abs/2012.13695v2 )

ライセンス: Link先を確認
Sagar Gubbi Venkatesh and Raviteja Upadrashta and Bharadwaj Amrutur(参考訳) 人間と一緒に働くロボットにとって、自然言語で指示を理解することが非常に望ましい。 既存の言語条件付き模倣学習モデルは、画像観察と命令テキストからアクチュエータコマンドを直接予測する。 アクチュエータコマンドを直接予測するのではなく,オブジェクト検出器の出力にアクセスしてシーンをクエリするPython関数に自然言語命令を変換し,ロボットが特定のタスクを実行するように制御する。 これにより、ロボットに命令を演算する際に制約解決器のような非微分可能モジュールを使用することができる。 さらに、この設定のラベルは、遠隔操作のデモンストレーションよりも専門家の意図を捉えた、はるかに情報的なコンピュータプログラムである。 提案手法は,ロボットの行動を直接予測するためにニューラルネットワークを訓練するよりも優れた性能を示す。

It is highly desirable for robots that work alongside humans to be able to understand instructions in natural language. Existing language conditioned imitation learning models directly predict the actuator commands from the image observation and the instruction text. Rather than directly predicting actuator commands, we propose translating the natural language instruction to a Python function which queries the scene by accessing the output of the object detector and controls the robot to perform the specified task. This enables the use of non-differentiable modules such as a constraint solver when computing commands to the robot. Moreover, the labels in this setup are significantly more informative computer programs that capture the intent of the expert rather than teleoperated demonstrations. We show that the proposed method performs better than training a neural network to directly predict the robot actions.
翻訳日:2021-04-25 01:12:30 公開日:2021-03-20
# データ駆動型ガウス過程による構造物の空力解析

Data-driven Aerodynamic Analysis of Structures using Gaussian Processes ( http://arxiv.org/abs/2103.13877v1 )

ライセンス: Link先を確認
Igor Kavrakov, Allan McRobie and Guido Morgenthal(参考訳) 風洞試験と構造物の健康モニタリングの間に収集された大量のデータは、風力の再現のための機械学習手法の使用を促す。 これらの力は橋などのライフライン構造の設計とライフサイクル評価の両方に重要である。 本稿では,橋梁に作用する非線形自己励振力の,データ駆動型ガウス過程非線形有限インパルス応答(gp-nfir)モデルを提案する。 非次元形状で構築されたモデルは、ラッジされた外因性入力として攻撃の効果的な風角を取り、空力の確率分布を出力する。 入力を出力にマッピングする非線形潜在関数はGP回帰によってモデル化される。 したがって、モデルは非パラメトリックであり、従って潜在関数の構造を事前設定することを避けることができる。 トレーニング入力は、垂直変位と回転変位からなる帯域制限ランダム調和運動として設計されている。 トレーニングが完了すると、所定の入力運動と結合された空気弾性解析の両方の空気力学力を予測できる。 提示された概念は, 自励力とフラッター速度を予測して, 平板解析線形解に対して初めて検証された。 最後に、このフレームワークをCFD(Computational Fluid Dynamics)データに基づいて、合理化およびブラフブリッジデッキに適用する。 ここでは, モデルによる非線形空力力予測能力, 臨界フラッター限界, フラッター後挙動を強調する。 提案フレームワークのさらなる応用は,細線状構造物の設計とオンラインリアルタイム監視に期待できる。

An abundant amount of data gathered during wind tunnel testing and health monitoring of structures inspires the use of machine learning methods to replicate the wind forces. These forces are critical for both the design and life-cycle assessment of lifeline structures such as bridges. This paper presents a data-driven Gaussian Process-Nonlinear Finite Impulse Response (GP-NFIR) model of the nonlinear self-excited forces acting on bridges. Constructed in a nondimensional form, the model takes the effective wind angle of attack as lagged exogenous input and outputs a probability distribution of the aerodynamic forces. The nonlinear latent function, mapping the input to the output, is modeled by a GP regression. Consequently, the model is nonparametric, and as such, it avoids setting up the latent function's structure a priori. The training input is designed as band-limited random harmonic motion that consists of vertical and rotational displacements. Once trained, the model can predict the aerodynamic forces for both prescribed input motion and coupled aeroelastic analysis. The presented concept is first verified for a flat plate's analytical, linear solution by predicting the self-excited forces and flutter velocity. Finally, the framework is applied to a streamlined and bluff bridge deck based on Computational Fluid Dynamics (CFD) data. Here, the model's ability to predict nonlinear aerodynamic forces, critical flutter limit, and post-flutter behavior are highlighted. Further applications of the presented framework are foreseen in the design and online real-time monitoring of slender line-like structures.
翻訳日:2021-04-05 01:07:32 公開日:2021-03-20
# 近接センシング画像を用いた都市土地利用分析:調査

Urban land-use analysis using proximate sensing imagery: a survey ( http://arxiv.org/abs/2101.04827v2 )

ライセンス: Link先を確認
Zhinan Qiao, Xiaohui Yuan(参考訳) 都市部は、人間の活動と密接に関連し、形を変える複雑な機能システムである。 グローバルポジショニングシステム(gps)を備えたオンライン地理情報共有プラットフォームとモバイルデバイスの伝播は、都市目標と近距離で地上または地上で撮影された近距離センシング画像を大きく広めている。 都市土地利用分析における地域データの必要性に対処する上で, 近接センシング画像を活用した研究が大きな可能性を示している。 本稿では,土地利用分析を支援するために,近接センシングによる最先端の手法と公開データセットをレビューし,要約する。 モデルのトレーニングと多様なデータセットの統合を支援する例として,いくつかの研究課題を明らかにする。 都市の土地利用研究において,近接センシング画像を用いた既存手法が直面する課題,戦略,機会について考察した。

Urban regions are complicated functional systems that are closely associated with and reshaped by human activities. The propagation of online geographic information-sharing platforms and mobile devices equipped with Global Positioning System (GPS) greatly proliferates proximate sensing images taken near or on the ground at a close distance to urban targets. Studies leveraging proximate sensing imagery have demonstrated great potential to address the need for local data in urban land-use analysis. This paper reviews and summarizes the state-of-the-art methods and publicly available datasets from proximate sensing to support land-use analysis. We identify several research problems in the perspective of examples to support training of models and means of integrating diverse data sets. Our discussions highlight the challenges, strategies, and opportunities faced by the existing methods using proximate sensing imagery in urban land-use studies.
翻訳日:2021-03-30 07:54:00 公開日:2021-03-20
# (参考訳) 正規分布変換に基づく3DMNDT:3Dマルチビュー登録法 [全文訳有]

3DMNDT:3D multi-view registration method based on the normal distributions transform ( http://arxiv.org/abs/2103.11084v1 )

ライセンス: CC BY 4.0
Jihua Zhu and Di Wang and Jiaxi Mu and Huimin Lu and Zhiqiang Tian and Zhongyu Li(参考訳) 正規分布変換(NDT)は点集合登録に有効なパラダイムである。 この方法はもともとペア登録のために設計されており、マルチビュー登録に適用すると大きな困難に直面する。 NDTフレームワークでは,正規分布変換(DMNDT)に基づく3次元マルチビュー登録法を提案し,K平均クラスタリングとリー代数ソルバを統合し,マルチビュー登録を実現する。 より具体的には、マルチビュー登録は最大確率推定の問題にキャストされる。 そして、k-meansアルゴリズムを用いて、すべてのデータポイントを異なるクラスタに分割し、正規分布を計算し、各クラスタ内のデータポイントを測定する確率を局所的にモデル化する。 その後、NDTに基づく確率関数により登録問題を定式化する。 この度数関数を最大化するために、各剛変換を順次最適化するリー代数ソルバを開発した。 提案手法は,所望の登録結果が得られるまでデータポイントクラスタリング,ndt計算,ラピッド最大化を交互に実装する。 ベンチマークデータセットで実験を行った結果,提案手法がマルチビュー登録の最先端性能を達成できることが判明した。

The normal distributions transform (NDT) is an effective paradigm for the point set registration. This method is originally designed for pair-wise registration and it will suffer from great challenges when applied to multi-view registration. Under the NDT framework, this paper proposes a novel multi-view registration method, named 3D multi-view registration based on the normal distributions transform (3DMNDT), which integrates the K-means clustering and Lie algebra solver to achieve multi-view registration. More specifically, the multi-view registration is cast into the problem of maximum likelihood estimation. Then, the K-means algorithm is utilized to divide all data points into different clusters, where a normal distribution is computed to locally models the probability of measuring a data point in each cluster. Subsequently, the registration problem is formulated by the NDT-based likelihood function. To maximize this likelihood function, the Lie algebra solver is developed to sequentially optimize each rigid transformation. The proposed method alternately implements data point clustering, NDT computing, and likelihood maximization until desired registration results are obtained. Experimental results tested on benchmark data sets illustrate that the proposed method can achieve state-of-the-art performance for multi-view registration.
翻訳日:2021-03-26 05:25:03 公開日:2021-03-20
# (参考訳) 依存グラフから文字列への統計機械翻訳

Dependency Graph-to-String Statistical Machine Translation ( http://arxiv.org/abs/2103.11089v1 )

ライセンス: CC BY 4.0
Liangyou Li and Andy Way and Qun Liu(参考訳) 本稿では,ソースグラフを対象文字列に変換するグラフベース翻訳モデルを提案する。 ソースグラフは、非構文句が接続されるように、追加リンクを持つ依存木から構築される。 句に基づくモデルに着想を得て,まず,グラフを不一致部分グラフの列に分割し,ビーム探索を用いて左から右への部分グラフ翻訳を合成して翻訳を生成する翻訳モデルを提案する。 しかし、句ベースのモデルと同様に、このモデルは句の並べ替えに弱い。 そこで我々は,再帰的翻訳規則を学習する同期ノード置換文法に基づくモデルについても紹介する。 我々は、ソースグラフを効率的に解析できるように、異なる制約を持つモデルの2つの実装を提供する。 中国語とドイツ語の実験により、我々のグラフベースのモデルは、対応するシーケンスベースとツリーベースベースラインよりもはるかに優れていることが示された。

We present graph-based translation models which translate source graphs into target strings. Source graphs are constructed from dependency trees with extra links so that non-syntactic phrases are connected. Inspired by phrase-based models, we first introduce a translation model which segments a graph into a sequence of disjoint subgraphs and generates a translation by combining subgraph translations left-to-right using beam search. However, similar to phrase-based models, this model is weak at phrase reordering. Therefore, we further introduce a model based on a synchronous node replacement grammar which learns recursive translation rules. We provide two implementations of the model with different restrictions so that source graphs can be parsed efficiently. Experiments on Chinese--English and German--English show that our graph-based models are significantly better than corresponding sequence- and tree-based baselines.
翻訳日:2021-03-26 05:03:46 公開日:2021-03-20
# (参考訳) 生成的対向ネットワークの学習における高周波成分の有用性 [全文訳有]

Are High-Frequency Components Beneficial for Training of Generative Adversarial Networks ( http://arxiv.org/abs/2103.11093v1 )

ライセンス: CC BY 4.0
Ziqiang Li, Pengfei Xia, Xue Rui, Yanghui Hu, Bin Li(参考訳) GAN(Generative Adversarial Networks)の進歩は、実際の画像と視覚的に区別できない現実的な画像を生成する能力を持つ。 しかし、近年の研究では、生成画像と実画像が高周波で有意な差があることが示されている。 さらに、人間の目に見えない高周波成分はcnnの決定に影響を与え、そのロバスト性に関連している。 同様に、判別器が高周波差に敏感かどうかが問題となるため、低周波成分への発電機の取付け能力の低下が問題となる。 本稿では,gansにおける識別器は,人間が区別できないような高周波差に敏感であり,画像の高周波成分がganの訓練に寄与しないことを示す。 そこで本研究では,高周波数コンフュージョン(HFC)と高周波数フィルタ(HFF)の2つの前処理手法を提案する。 提案手法は汎用的であり,ほとんどの既存の GAN フレームワークに対して,コストのごく一部で容易に適用可能である。 提案手法の高度な性能は,複数の損失関数,ネットワークアーキテクチャ,データセット上で検証される。

Advancements in Generative Adversarial Networks (GANs) have the ability to generate realistic images that are visually indistinguishable from real images. However, recent studies of the image spectrum have demonstrated that generated and real images share significant differences at high frequency. Furthermore, the high-frequency components invisible to human eyes affect the decision of CNNs and are related to the robustness of it. Similarly, whether the discriminator will be sensitive to the high-frequency differences, thus reducing the fitting ability of the generator to the low-frequency components is an open problem. In this paper, we demonstrate that the discriminator in GANs is sensitive to such high-frequency differences that can not be distinguished by humans and the high-frequency components of images are not conducive to the training of GANs. Based on these, we propose two preprocessing methods eliminating high-frequency differences in GANs training: High-Frequency Confusion (HFC) and High-Frequency Filter (HFF). The proposed methods are general and can be easily applied to most existing GANs frameworks with a fraction of the cost. The advanced performance of the proposed method is verified on multiple loss functions, network architectures, and datasets.
翻訳日:2021-03-26 05:02:53 公開日:2021-03-20
# (参考訳) MCMCサンプリングによる低域通過における部分空間近似とサブセット選択について [全文訳有]

On Subspace Approximation and Subset Selection in Fewer Passes by MCMC Sampling ( http://arxiv.org/abs/2103.11107v1 )

ライセンス: CC BY 4.0
Amit Deshpande and Rameshwar Pratap(参考訳) 我々は、$\ell_{p}$ 部分空間近似に対する部分集合選択の問題、すなわち$d$次元の$n$ポイントが与えられたとき、そのスパンが$(1+\epsilon)$ 最高の$k$次元部分空間への近似が、この部分空間へのすべての点の距離の合計の$p$-次元パワーの和を最小化するような、与えられた点の小さい代表部分集合を選ぶ必要がある。 サンプリングベースのサブセット選択技術は、データに複数のパスを持つ適応的なサンプリングイテレーションを必要とする。 行列スケッチ技術は、単パス$(1+\epsilon)$ approximation for $\ell_{p}$ subspace approximationを与えるが、サブセット選択のために追加のパスを必要とする。 本研究では,アダプティブサンプリングに基づいて,前回のサブセット選択アルゴリズムで要求されるパス数を削減するMCMCアルゴリズムを提案する。 p=2$の場合、アルゴリズムは2ドルのパスでほぼ最適サイズのサブセット選択を与えるが、以前の作業で必要とされるパス数は$k$に依存する。 このアルゴリズムは、最適な部分空間に対して$(1+\epsilon)$近似を与える$\mathrm{poly}(k/\epsilon)$のサブセットを選択する。 アルゴリズムの実行時間は$nd + d~\mathrm{poly}(k/\epsilon)$である。 我々は,データセットに異常値が存在する場合に結果を拡張し,それと同じ2パスアルゴリズムを提案する。 我々のアイデアはまた、$\ell_{p}$部分空間近似と部分集合選択のための適応サンプリングアルゴリズムが要求するパス数を$p \geq 2$で減らすように拡張しています。

We consider the problem of subset selection for $\ell_{p}$ subspace approximation, i.e., given $n$ points in $d$ dimensions, we need to pick a small, representative subset of the given points such that its span gives $(1+\epsilon)$ approximation to the best $k$-dimensional subspace that minimizes the sum of $p$-th powers of distances of all the points to this subspace. Sampling-based subset selection techniques require adaptive sampling iterations with multiple passes over the data. Matrix sketching techniques give a single-pass $(1+\epsilon)$ approximation for $\ell_{p}$ subspace approximation but require additional passes for subset selection. In this work, we propose an MCMC algorithm to reduce the number of passes required by previous subset selection algorithms based on adaptive sampling. For $p=2$, our algorithm gives subset selection of nearly optimal size in only $2$ passes, whereas the number of passes required in previous work depend on $k$. Our algorithm picks a subset of size $\mathrm{poly}(k/\epsilon)$ that gives $(1+\epsilon)$ approximation to the optimal subspace. The running time of the algorithm is $nd + d~\mathrm{poly}(k/\epsilon)$. We extend our results to the case when outliers are present in the datasets, and suggest a two pass algorithm for the same. Our ideas also extend to give a reduction in the number of passes required by adaptive sampling algorithms for $\ell_{p}$ subspace approximation and subset selection, for $p \geq 2$.
翻訳日:2021-03-26 04:46:25 公開日:2021-03-20
# (参考訳) 画像意味セグメンテーションのための新しいアップサンプリングとコンテキスト畳み込み [全文訳有]

A Novel Upsampling and Context Convolution for Image Semantic Segmentation ( http://arxiv.org/abs/2103.11110v1 )

ライセンス: CC BY 4.0
Khwaja Monib Sediqi, and Hyo Jong Lee(参考訳) セマンティックセグメンテーション(セマンティックセグメンテーション、Semantic segmentation)は、画像のピクセル単位での分類であり、ロボットビジョンと自動運転産業における重要性の高まりから、コンピュータビジョンにおける基本的なトピックである。 オブジェクト境界、カテゴリ、ロケーションなど、シーン内のオブジェクトに関する豊富な情報を提供する。 最近のセマンティックセグメンテーション法では、深層畳み込みニューラルネットワークを用いたエンコーダデコーダ構造を用いることが多い。 エンコーダ部は、複数のフィルタとプーリング操作を用いて画像の特徴を抽出する一方、デコーダ部は、エンコーダの低解像度特徴マップを、画素単位で予測するための完全な入力解像度特徴マップに徐々に復元する。 しかし、セマンティクスセグメンテーションのためのエンコーダ・デコーダ変種は、プール操作やstrideとの畳み込みによって引き起こされる厳しい空間的情報損失を被り、シーンの文脈を考慮しない。 本稿では,ネットワーク内の画像の空間情報を効果的に保存するためのガイド付きフィルタリングに基づく高密度アップサンプリング畳み込み手法を提案する。 さらに,シーン内の大規模オブジェクトを包含するだけでなく,厳密なオブジェクト境界線を包含する新しい局所コンテキスト畳み込み手法を提案する。 ベンチマークデータセットの理論的解析と実験結果から,本手法の有効性を検証した。 定性的に、我々の手法は、現在の優れた手法を超える精度でオブジェクトの境界を規定する。 ADE20KとPascal-Contextのベンチマークデータセットでは,それぞれ82.86%,81.62%の画素精度を記録した。 最先端手法と比較して,提案手法は有望な改善をもたらす。

Semantic segmentation, which refers to pixel-wise classification of an image, is a fundamental topic in computer vision owing to its growing importance in robot vision and autonomous driving industries. It provides rich information about objects in the scene such as object boundary, category, and location. Recent methods for semantic segmentation often employ an encoder-decoder structure using deep convolutional neural networks. The encoder part extracts feature of the image using several filters and pooling operations, whereas the decoder part gradually recovers the low-resolution feature maps of the encoder into a full input resolution feature map for pixel-wise prediction. However, the encoder-decoder variants for semantic segmentation suffer from severe spatial information loss, caused by pooling operations or convolutions with stride, and does not consider the context in the scene. In this paper, we propose a dense upsampling convolution method based on guided filtering to effectively preserve the spatial information of the image in the network. We further propose a novel local context convolution method that not only covers larger-scale objects in the scene but covers them densely for precise object boundary delineation. Theoretical analyses and experimental results on several benchmark datasets verify the effectiveness of our method. Qualitatively, our approach delineates object boundaries at a level of accuracy that is beyond the current excellent methods. Quantitatively, we report a new record of 82.86% and 81.62% of pixel accuracy on ADE20K and Pascal-Context benchmark datasets, respectively. In comparison with the state-of-the-art methods, the proposed method offers promising improvements.
翻訳日:2021-03-26 04:26:46 公開日:2021-03-20
# (参考訳) Masked GAN遅延符号最適化による高分解能顔編集 [全文訳有]

High Resolution Face Editing with Masked GAN Latent Code Optimization ( http://arxiv.org/abs/2103.11135v1 )

ライセンス: CC BY 4.0
Martin Pernu\v{s}, Vitomir \v{S}truc, Simon Dobri\v{s}ek(参考訳) 顔編集は、顔画像の特定の特徴を編集することを目的としたコンピュータビジョンコミュニティで人気のある研究トピックである。 最近の提案手法は、条件付きエンコーダ・デコーダ生成逆ネットワーク(gan)をエンドツーエンドで訓練するか、事前訓練されたバニラgan生成モデルの潜在空間での演算を定義するかに基づいている。 しかし、これらの手法はある程度の視覚的劣化を示し、編集画像の絡み合い特性を欠いている。 さらに、通常は低解像度で動作します。 本稿では空間的および意味的制約を伴うgan埋め込み最適化手法を提案する。 顔データセットで事前トレーニングされたganの潜在コードを最適化して、画像の固定領域を埋め込むとともに、顔解析と属性分類ネットワークを用いて、塗装された領域に制約を課す。 潜在コード最適化により、ganモデルによって定義された画像確率分布に従う結果に制約を与える。 このようなフレームワークを用いて、高品質な顔編集を行う。 導入された空間的制約により、編集された画像は他の方法よりも所望の表情属性と残りの画像との連接度が高い。 このアプローチは、3つのデータセットの実験で検証され、4つの最先端アプローチと比較される。 その結果, 提案手法は, 前例のない画質で複数の顔属性に対して顔画像の編集が可能であり, 望ましくない変動要因を否定できることがわかった。 コードは利用可能になる。

Face editing is a popular research topic in the computer vision community that aims to edit a specific characteristic of a face image. Recent proposed methods are based on either training a conditional encoder-decoder Generative Adversarial Network (GAN) in an end-to-end fashion or on defining an operation in the latent space of a pre-trained vanilla GAN generator model. However, these methods exhibit a certain degree of visual degradation and lack disentanglement properties in the edited images. Moreover, they usually operate on lower image resolution. In this paper, we propose a GAN embedding optimization procedure with spatial and semantic constraints. We optimize a latent code of a GAN, pre-trained on face dataset, to embed a fixed region of the image, while imposing constraints on the inpainted regions with face parsing and attribute classification networks. By latent code optimization, we constrain the result to follow an image probability distribution, as defined by the GAN model. We use such framework to produce high image quality face edits. Due to the spatial constraints introduced, the edited images exhibit higher degree of disentanglement between the desired facial attributes and the rest of the image than other methods. The approach is validated in experiments on three datasets and in comparison with four state-of-the-art approaches. The results demonstrate that the proposed approach is able to edit face images with respect to several facial attributes with unprecedented image quality, while disentangling the undesired factors of variation. Code will be made available.
翻訳日:2021-03-26 04:08:11 公開日:2021-03-20
# (参考訳) mogface: 顔検出器のスケール拡張を再考する [全文訳有]

MogFace: Rethinking Scale Augmentation on the Face Detector ( http://arxiv.org/abs/2103.11139v1 )

ライセンス: CC BY 4.0
Yang Liu, Fei Wang, Jiankang Deng, Baigui Sun, Hao Li(参考訳) 顔検出器は、しばしば極端なスケールのばらつきに直面する。 有名なソリューションは、マルチスケールトレーニング、データアンカーサンプリング、ランダムな作物戦略である。 本稿では,画像の前景情報や背景情報,スケール情報など,過去のソリューションとの違いを調べることで,超大規模分散問題を解決するための2つの重要な要素を示す。 しかし、現在の優れた解は、後者を効果的に吸収することを怠りながら、以前の情報のみを活用できる。 計測器がスケール情報を効率的に利用するのを助けるために,検出器の性能とトレーニングデータのスケール分布の関係を分析する。 そこで本研究では,これらの2つの情報を効率的に同時に同化できるSSE(Selective Scale Enhancement)戦略を提案する。 最後に,AFW,PASCALフェイス,FDDB,Wider Faceデータセットなど,すべての一般的な顔検出ベンチマークにおける最先端検出性能を実現する。 我々の結果は、Wider Faceデータセットで6つのチャンピオンを達成したことに注意してください。

Face detector frequently confronts extreme scale variance challenge. The famous solutions are Multi-scale training, Data-anchor-sampling and Random crop strategy. In this paper, we indicate 2 significant elements to resolve extreme scale variance problem by investigating the difference among the previous solutions, including the fore-ground and back-ground information of an image and the scale information. However, current excellent solutions can only utilize the former information while neglecting to absorb the latter one effectively. In order to help the detector utilize the scale information efficiently, we analyze the relationship between the detector performance and the scale distribution of the training data. Based on this analysis, we propose a Selective Scale Enhancement (SSE) strategy which can assimilate these two information efficiently and simultaneously. Finally, our method achieves state-of-the-art detection performance on all common face detection benchmarks, including AFW, PASCAL face, FDDB and Wider Face datasets. Note that our result achieves six champions on the Wider Face dataset.
翻訳日:2021-03-26 03:34:26 公開日:2021-03-20
# (参考訳) コントラスト領域ランダム化操作のための教師なし特徴学習 [全文訳有]

Unsupervised Feature Learning for Manipulation with Contrastive Domain Randomization ( http://arxiv.org/abs/2103.11144v1 )

ライセンス: CC BY 4.0
Carmel Rabinovitz, Niko Grupen and Aviv Tamar(参考訳) 視覚入力による操作のようなロボットタスクは、例えばオブジェクトの位置や構成など、シーンの物理的特性をキャプチャするイメージ機能を必要とする。 近年,シミュレーションや自己教師付きロボットインタラクションから,そのような特徴を教師なしで学ぶことが提案されている。高レベルな物理的特性は現代の物理シミュレータによってよく捉えられ,視覚入力からの表現は現実世界にうまく移される可能性がある。 特に,ノイズコントラスト推定に基づく学習方法は有望な結果を示している。 テクスチャや照明など無関係な視覚特性に不変な学習特徴を学習するために, 領域ランダム化(DR)が提案された。 しかし,本研究では,特徴量と関連性・関連性の両方の視覚特性の相互関係を最大化するため,対照的な推定に基づく教師なし学習へのDRの適用が相違を助長しないことを示す。 本研究では,視覚特性のシミュレーションによるランダム化を制御できることを生かして,コントラスト損失の簡単な修正を提案する。 我々のアプローチは、厳密なオブジェクトと非厳密なオブジェクトの両方を用いることで、視覚領域の変化に対してはるかに堅牢な物理的特徴を学習する。

Robotic tasks such as manipulation with visual inputs require image features that capture the physical properties of the scene, e.g., the position and configuration of objects. Recently, it has been suggested to learn such features in an unsupervised manner from simulated, self-supervised, robot interaction; the idea being that high-level physical properties are well captured by modern physical simulators, and their representation from visual inputs may transfer well to the real world. In particular, learning methods based on noise contrastive estimation have shown promising results. To robustify the simulation-to-real transfer, domain randomization (DR) was suggested for learning features that are invariant to irrelevant visual properties such as textures or lighting. In this work, however, we show that a naive application of DR to unsupervised learning based on contrastive estimation does not promote invariance, as the loss function maximizes mutual information between the features and both the relevant and irrelevant visual properties. We propose a simple modification of the contrastive loss to fix this, exploiting the fact that we can control the simulated randomization of visual properties. Our approach learns physical features that are significantly more robust to visual domain variation, as we demonstrate using both rigid and non-rigid objects.
翻訳日:2021-03-26 03:22:20 公開日:2021-03-20
# (参考訳) テスト時間に過度に保護されたトレーニング環境:モデルが自身のトレーニングに貢献できるように [全文訳有]

Overprotective Training Environments Fall Short at Testing Time: Let Models Contribute to Their Own Training ( http://arxiv.org/abs/2103.11145v1 )

ライセンス: CC BY 4.0
Alberto Testoni, Raffaella Bernardi(参考訳) 重要な進歩にもかかわらず、会話システムはしばしば人間にとって不自然に聞こえる対話を生成する。 エージェントは制御された"lab"設定で訓練されるが、"wild"でテストされる。 訓練中は、人間の対話履歴から発話を生成することを学ぶ。 一方、テスト中は互いに対話し合わなければならないため、ノイズの多いデータを扱う必要がある。 本稿では,人間と機械による対話のサンプルを含む混合バッチを用いてモデルを訓練することで,このギャップを埋めることを提案する。 提案手法の有効性を評価する。

Despite important progress, conversational systems often generate dialogues that sound unnatural to humans. We conjecture that the reason lies in their different training and testing conditions: agents are trained in a controlled "lab" setting but tested in the "wild". During training, they learn to generate an utterance given the human dialogue history. On the other hand, during testing, they must interact with each other, and hence deal with noisy data. We propose to fill this gap by training the model with mixed batches containing both samples of human and machine-generated dialogues. We assess the validity of the proposed method on
翻訳日:2021-03-26 03:01:21 公開日:2021-03-20
# (参考訳) タスク成功と対話品質の相互作用:タスク指向視覚対話における深い評価 [全文訳有]

The Interplay of Task Success and Dialogue Quality: An in-depth Evaluation in Task-Oriented Visual Dialogues ( http://arxiv.org/abs/2103.11151v1 )

ライセンス: CC BY 4.0
Alberto Testoni, Raffaella Bernardi(参考訳) 参照対話推測ゲーム上でモデルをトレーニングする場合、最善のモデルは、通常、そのタスク成功に基づいて選択される。 提案手法では,言語能力の習得には推測作業よりも長い時間がかかるため,この選択はモデルが言語的にリッチな対話を生成するための学習を妨げていることを示す。 異なるゲームをプレイするモデル(GuessWhat, GuessWhich, Mutual Friends)を比較することで、この違いはモデルとタスクに依存しないことを示している。 より優れた言語品質がタスクの成功につながるかどうかを調査する。 推測では、学習セットで頻繁に発生しない単語をグラウンド、エンコード、デコードすることを学ぶと、モデルによって精度が向上することを示している。

When training a model on referential dialogue guessing games, the best model is usually chosen based on its task success. We show that in the popular end-to-end approach, this choice prevents the model from learning to generate linguistically richer dialogues, since the acquisition of language proficiency takes longer than learning the guessing task. By comparing models playing different games (GuessWhat, GuessWhich, and Mutual Friends), we show that this discrepancy is model- and task-agnostic. We investigate whether and when better language quality could lead to higher task success. We show that in GuessWhat, models could increase their accuracy if they learn to ground, encode, and decode also words that do not occur frequently in the training set.
翻訳日:2021-03-26 02:53:57 公開日:2021-03-20
# (参考訳) 臨床現場におけるドメインの一般化に関する実証的枠組み [全文訳有]

An Empirical Framework for Domain Generalization in Clinical Settings ( http://arxiv.org/abs/2103.11163v1 )

ライセンス: CC BY 4.0
Haoran Zhang, Natalie Dullerud, Laleh Seyyed-Kalantari, Quaid Morris, Shalmali Joshi, Marzyeh Ghassemi(参考訳) 臨床機械学習モデルは、トレーニング中に見られないデータセット、例えば新しい病院や人口において、著しく低下したパフォーマンスを経験する。 領域一般化の最近の発展は、環境間の不変性を学習するモデルを作成することによって、この問題に対する有望な解決策を提供する。 本研究では,多地点臨床時系列および医用画像データを用いた8つの領域一般化法の性能評価を行った。 我々は,既存の非医療ベンチマークよりもストレステストを行うために,合成的かつ現実的なドメインシフトとサンプリングバイアスを誘導するフレームワークを提案する。 我々は,現在の領域一般化手法は,一般画像データセットの先行研究と並行して,実世界医用画像データにおける経験的リスク最小化よりも,分散性能が著しく向上していないことを見出した。 しかし、臨床時系列データにおける現実的な誘導シフトシナリオのサブセットは、限られた性能向上を示す。 これらのシナリオを詳細に特徴付けし,臨床領域におけるドメイン一般化のためのベストプラクティスを推奨する。

Clinical machine learning models experience significantly degraded performance in datasets not seen during training, e.g., new hospitals or populations. Recent developments in domain generalization offer a promising solution to this problem by creating models that learn invariances across environments. In this work, we benchmark the performance of eight domain generalization methods on multi-site clinical time series and medical imaging data. We introduce a framework to induce synthetic but realistic domain shifts and sampling bias to stress-test these methods over existing non-healthcare benchmarks. We find that current domain generalization methods do not achieve significant gains in out-of-distribution performance over empirical risk minimization on real-world medical imaging data, in line with prior work on general imaging datasets. However, a subset of realistic induced-shift scenarios in clinical time series data exhibit limited performance gains. We characterize these scenarios in detail, and recommend best practices for domain generalization in the clinical setting.
翻訳日:2021-03-25 13:36:33 公開日:2021-03-20
# (参考訳) 分類器は秘密裏にマルチソースドメイン適応を補うことができる [全文訳有]

Your Classifier can Secretly Suffice Multi-Source Domain Adaptation ( http://arxiv.org/abs/2103.11169v1 )

ライセンス: CC0 1.0
Naveen Venkat, Jogendra Nath Kundu, Durgesh Kumar Singh, Ambareesh Revanur, R. Venkatesh Babu(参考訳) マルチソースドメイン適応(MSDA)は、複数のラベル付きソースドメインから未ラベルのターゲットドメインへのタスク知識の移行をドメインシフトの下で処理する。 既存の手法はこの領域シフトを補助分布アライメントの目的を用いて最小化することを目的としている。 本研究では,ラベル管理下のドメインを暗黙的に整列させる深層モデルについて,MSDAに対して異なる視点を示す。 そこで我々は,適応のために追加の訓練目的を使わずに暗黙のアライメントを活用することを目指している。 この目的のために、擬似ラベルを対象とするサンプルを用いて、擬似ラベルの分類契約(Self-supervised Implicit Alignment (SImpAl)と呼ばれるプロセス)を実施する。 SImpAlは、ソースドメイン間のカテゴリシフトでも容易に機能する。 さらに,学習収束を決定するための手がかりとして分類器合意を提案し,その結果,簡単な学習アルゴリズムが得られた。 5つのベンチマークでアプローチを徹底的に評価し、アプローチの各コンポーネントに関する詳細な洞察を提供します。

Multi-Source Domain Adaptation (MSDA) deals with the transfer of task knowledge from multiple labeled source domains to an unlabeled target domain, under a domain-shift. Existing methods aim to minimize this domain-shift using auxiliary distribution alignment objectives. In this work, we present a different perspective to MSDA wherein deep models are observed to implicitly align the domains under label supervision. Thus, we aim to utilize implicit alignment without additional training objectives to perform adaptation. To this end, we use pseudo-labeled target samples and enforce a classifier agreement on the pseudo-labels, a process called Self-supervised Implicit Alignment (SImpAl). We find that SImpAl readily works even under category-shift among the source domains. Further, we propose classifier agreement as a cue to determine the training convergence, resulting in a simple training algorithm. We provide a thorough evaluation of our approach on five benchmarks, along with detailed insights into each component of our approach.
翻訳日:2021-03-25 13:06:23 公開日:2021-03-20
# (参考訳) 熱源配置の温度場予測のためのディープニューラルネットワークサロゲートモデリングベンチマーク

A Deep Neural Network Surrogate Modeling Benchmark for Temperature Field Prediction of Heat Source Layout ( http://arxiv.org/abs/2103.11177v1 )

ライセンス: CC BY 4.0
Xianqi Chen (1 and 2), Xiaoyu Zhao (2), Zhiqiang Gong (2), Jun Zhang (2), Weien Zhou (2), Xiaoqian Chen (2), Wen Yao (2) ((1) College of Aerospace Science and Engineering, National University of Defense Technology, (2) National Innovation Institute of Defense Technology, Chinese Academy of Military Science)(参考訳) 熱的問題は、特に高機能密度製品における熱源成分のレイアウト設計において非常に重要である。 熱分析は一般に複雑なシミュレーションを必要としており、異なるスキームを反復的に評価することにより、レイアウトの最適化に不適切な計算負荷をもたらす。 surrogate modelingは計算の複雑さを軽減する効果的な方法である。 しかし、複素熱源配置(HSL)入力を持つ温度場予測(TFP)は、超高次元非線形回帰問題であり、従来の回帰モデルでは大きな困難をもたらす。 ディープニューラルネットワーク(DNN)回帰法は、その優れた近似性能を実現するための実現可能な方法である。 しかし、物理制約のあるレイアウト空間におけるサンプルの多様性と均一性のためのデータ準備と、レイアウトデザイナーとDNNの専門家の両方の努力を必要とする適切なDNNモデル選択と訓練の両方において大きな課題に直面している。 本稿では,このクロスドメイン研究を進めるために,dnnベースのhsl-tfpサロゲートモデリングタスクベンチマークを提案する。 工学の適用性を考慮して,サンプル生成,データセット評価,DNNモデル,サロゲート性能指標を徹底的に検討した。 10種類の最先端DNNモデルを用いて実験を行う。 DNNに基づくHSL-TFPタスクにおけるベースライン結果の詳細な議論と今後の展望について分析する。

Thermal issue is of great importance during layout design of heat source components in systems engineering, especially for high functional-density products. Thermal analysis generally needs complex simulation, which leads to an unaffordable computational burden to layout optimization as it iteratively evaluates different schemes. Surrogate modeling is an effective way to alleviate computation complexity. However, temperature field prediction (TFP) with complex heat source layout (HSL) input is an ultra-high dimensional nonlinear regression problem, which brings great difficulty to traditional regression models. The Deep neural network (DNN) regression method is a feasible way for its good approximation performance. However, it faces great challenges in both data preparation for sample diversity and uniformity in the layout space with physical constraints, and proper DNN model selection and training for good generality, which necessitates efforts of both layout designer and DNN experts. To advance this cross-domain research, this paper proposes a DNN based HSL-TFP surrogate modeling task benchmark. With consideration for engineering applicability, sample generation, dataset evaluation, DNN model, and surrogate performance metrics, are thoroughly studied. Experiments are conducted with ten representative state-of-the-art DNN models. Detailed discussion on baseline results is provided and future prospects are analyzed for DNN based HSL-TFP tasks.
翻訳日:2021-03-25 12:48:57 公開日:2021-03-20
# (参考訳) 3m:マルチアップダウンモデルにおけるマルチモダリティ機能を用いたマルチスタイル画像キャプション生成 [全文訳有]

3M: Multi-style image caption generation using Multi-modality features under Multi-UPDOWN model ( http://arxiv.org/abs/2103.11186v1 )

ライセンス: CC BY 4.0
Chengxi Li and Brent Harrison(参考訳) 本稿では,DenseCap が生成したマルチモーダル画像特徴,ResNeXt 特徴,テキスト特徴を用いたスタイリッシュな画像キャプションのためのマルチスタイル生成モデルを構築する。 マルチモーダル特徴を符号化し,それをキャプションにデコードするマルチUPDOWNキャプションモデルである3Mモデルを提案する。 本研究では, ペルソナリティ・キャプションSデータセットとFlickrStyle10Kデータセットの2つのデータセットにおいて, 人型キャプション生成におけるモデルの有効性を示す。 我々は,BLEU,ROUGE-L,CIDEr, SPICEなど,さまざまな自動NLP測定値に対する最先端のベースラインを比較した。 また,3Mモデルを用いて異なるキャプションを生成するための定性的研究も行われている。

In this paper, we build a multi-style generative model for stylish image captioning which uses multi-modality image features, ResNeXt features and text features generated by DenseCap. We propose the 3M model, a Multi-UPDOWN caption model that encodes multi-modality features and decode them to captions. We demonstrate the effectiveness of our model on generating human-like captions by examining its performance on two datasets, the PERSONALITY-CAPTIONS dataset and the FlickrStyle10K dataset. We compare against a variety of state-of-the-art baselines on various automatic NLP metrics such as BLEU, ROUGE-L, CIDEr, SPICE, etc. A qualitative study has also been done to verify our 3M model can be used for generating different stylized captions.
翻訳日:2021-03-25 11:17:50 公開日:2021-03-20
# (参考訳) ワクチン開発のためのSARS-CoV-2 B細胞エピトープ予測の不確実性評価 [全文訳有]

Uncertainty Estimation in SARS-CoV-2 B-cell Epitope Prediction for Vaccine Development ( http://arxiv.org/abs/2103.11214v1 )

ライセンス: CC0 1.0
Bhargab Ghoshal, Biraja Ghoshal, Stephen Swift, Allan Tucker(参考訳) b細胞エピトープはb細胞を刺激する重要な役割を担い、一次免疫応答を誘発し、抗体産生と記憶細胞の形態における長期免疫の確立をもたらす。 したがって、適切な線形B細胞エピトープ領域を正確に予測できることは、新しいタンパク質ベースのワクチンの開発の道を開くことになる。 予測にどの程度の自信があるかを知ることは、臨床医のこの技術に対する信頼を得るためにも不可欠である。 本稿では,mc-dropweightsを用いた変分ベイズ推定を近似し,免疫エピトープデータベースのデータを用いてエピトープ領域を推定する深層学習における不確実性推定法を提案する。 これをSARS-CoV-2に適用することで、標準的な方法よりも確実にB細胞エピトープを予測することができる。 これにより、Covid-19に対する安全で効果的なワクチン候補を特定できる。

B-cell epitopes play a key role in stimulating B-cells, triggering the primary immune response which results in antibody production as well as the establishment of long-term immunity in the form of memory cells. Consequently, being able to accurately predict appropriate linear B-cell epitope regions would pave the way for the development of new protein-based vaccines. Knowing how much confidence there is in a prediction is also essential for gaining clinicians' trust in the technology. In this article, we propose a calibrated uncertainty estimation in deep learning to approximate variational Bayesian inference using MC-DropWeights to predict epitope regions using the data from the immune epitope database. Having applied this onto SARS-CoV-2, it can more reliably predict B-cell epitopes than standard methods. This will be able to identify safe and effective vaccine candidates against Covid-19.
翻訳日:2021-03-25 11:07:45 公開日:2021-03-20
# (参考訳) CMMNとDCRの有効性と有用性の評価 [全文訳有]

Evaluating Perceived Usefulness and Ease of Use of CMMN and DCR ( http://arxiv.org/abs/2103.11218v1 )

ライセンス: CC BY 4.0
Amin Jalali(参考訳) ケース管理は徐々に進化し、知識集約型ビジネスプロセス管理をサポートし、宣言、動的条件応答(dcr)、ケース管理モデルと表記法(cmmn)といった異なるモデリング言語を開発してきた。 ユーザが受け入れて使用しなければ、言語は死にます – 絶滅した人間の言語と同じように。 したがって、ユーザーがいかに言語を知覚し、改善の必要性を判断するかを評価することが重要である。 プロセスデザイナがDeclareとDCRをどのように認識しているかを調査する研究もあるが、CMMNをどのように知覚するかは研究されていない。 そこで本研究では,プロセスデザイナがCMMNとDCRの有用性と使いやすさを技術アクセプタンスモデルに基づいて認識する方法について検討した。 DCRは、研究結果を以前のものと比較するために含まれている。 この研究は、これらの言語を8週間にわたってマスターレベルの学生に教育することで行われ、バイアスを減らすために課題に対するフィードバックを与える。 学生の知覚は、試験の最終練習に対するフィードバックの前後のアンケートによって収集される。 結果として、十分に訓練されたにもかかわらず、参加者の知覚がフィードバックを受けてどのように変化するかが示される。 応答の信頼性は cronbach の alpha を用いてテストされ、両言語は有用性と使いやすさの両方において許容できるレベルであることが示された。

Case Management has been gradually evolving to support Knowledge-intensive business process management, which resulted in developing different modeling languages, e.g., Declare, Dynamic Condition Response (DCR), and Case Management Model and Notation (CMMN). A language will die if users do not accept and use it in practice - similar to extinct human languages. Thus, it is important to evaluate how users perceive languages to determine if there is a need for improvement. Although some studies have investigated how the process designers perceived Declare and DCR, there is a lack of research on how they perceive CMMN. Therefore, this study investigates how the process designers perceive the usefulness and ease of use of CMMN and DCR based on the Technology Acceptance Model. DCR is included to enable comparing the study result with previous ones. The study is performed by educating master level students with these languages over eight weeks by giving feedback on their assignments to reduce perceptions biases. The students' perceptions are collected through questionnaires before and after sending feedback on their final practice in the exam. Thus, the result shows how the perception of participants can change by receiving feedback - despite being well trained. The reliability of responses is tested using Cronbach's alpha, and the result indicates that both languages have an acceptable level for both perceived usefulness and ease of use.
翻訳日:2021-03-25 10:59:01 公開日:2021-03-20
# (参考訳) 記号解析を用いた時系列データのマルコフモデリング

Markov Modeling of Time-Series Data using Symbolic Analysis ( http://arxiv.org/abs/2103.11238v1 )

ライセンス: CC BY 4.0
Devesh K. Jha(参考訳) マルコフモデルは、統計学習アプリケーションのためのシーケンシャルデータの時間パターンを捉えるためにしばしば用いられる。 隠れマルコフモデリングに基づく学習メカニズムは文献でよく研究されているが、記号力学にインスパイアされたアプローチを解析する。 この傘の下では、マルコフの時系列データのモデリングは2つの主要なステップから成り、連続的な属性の離散化と、離散化されたシーケンスの時間記憶の大きさを推定する。 これら2つのステップは、離散空間における時系列データの正確かつ簡潔な表現に不可欠である。 離散化は、結果の離散化シーケンスの情報内容を管理する。 一方、シンボルシーケンスのメモリ推定は、離散化されたデータの予測パターンを抽出するのに役立ちます。 離散マルコフ過程としての信号表現の有効性はどちらのステップにも依存する。 本稿では,離散確率過程における離散化とメモリ推定の異なる手法について概説する。 特に、離散確率過程における離散化と順序推定の個々の問題に焦点を当てる。 本稿では,情報理論と統計学習の概念を用いた力学系理論の分割と順序推定に関する文献からの結果を紹介する。 また,データ解析のシンボリックフレームワークを用いて,機械学習や統計学習に有用な,関連する問題定式化についても述べる。 提案手法を用いたジェットタービンエンジンのリーン予混合燃焼における複素熱音響不安定現象の統計的解析結果について述べる。

Markov models are often used to capture the temporal patterns of sequential data for statistical learning applications. While the Hidden Markov modeling-based learning mechanisms are well studied in literature, we analyze a symbolic-dynamics inspired approach. Under this umbrella, Markov modeling of time-series data consists of two major steps -- discretization of continuous attributes followed by estimating the size of temporal memory of the discretized sequence. These two steps are critical for the accurate and concise representation of time-series data in the discrete space. Discretization governs the information content of the resultant discretized sequence. On the other hand, memory estimation of the symbolic sequence helps to extract the predictive patterns in the discretized data. Clearly, the effectiveness of signal representation as a discrete Markov process depends on both these steps. In this paper, we will review the different techniques for discretization and memory estimation for discrete stochastic processes. In particular, we will focus on the individual problems of discretization and order estimation for discrete stochastic process. We will present some results from literature on partitioning from dynamical systems theory and order estimation using concepts of information theory and statistical learning. The paper also presents some related problem formulations which will be useful for machine learning and statistical learning application using the symbolic framework of data analysis. We present some results of statistical analysis of a complex thermoacoustic instability phenomenon during lean-premixed combustion in jet-turbine engines using the proposed Markov modeling method.
翻訳日:2021-03-25 10:47:02 公開日:2021-03-20
# (参考訳) コーヒー栽培におけるさび・葉の検知と定量化のための人工知能 [全文訳有]

Artificial intelligence for detection and quantification of rust and leaf miner in coffee crop ( http://arxiv.org/abs/2103.11241v1 )

ライセンス: CC BY 4.0
Alvaro Leandro Cavalcante Carneiro, Lucas Brito Silva, Marisa Silveira Almeida Renaud Faulin(参考訳) 害虫と病害防除は、これらの薬剤による被害が毎年大きな経済損失の原因となるため、農業において重要な役割を担っている。 この仮定に基づいて、コーヒー葉(Coffea arabica)のラスト(Hemileia vastatrix)と葉のマイナ(Leucoptera coffeella)を検出し、モデル推論のための高レベルインターフェースとしてモバイルアプリケーションを用いて病気の重症度を定量化するアルゴリズムを作成する。 我々は、異なる畳み込みニューラルネットワークアーキテクチャを用いて、OpenCVライブラリ、k-means、RGBと定量化の値、AFSoftソフトウェアという3つの処理に加えて、分散の分析を行い、3つの方法を比較した。 その結果, 検出精度は81,5%であり, コーヒー葉の重症度を定量化するための処理には統計的に有意な差はなく, 計算コストの少ない方法を提案した。 このアプリケーションは、訓練されたモデルとともに、異なる画像条件や感染段階の害虫や病気を検出し、病気の感染ステージを推定することができる。

Pest and disease control plays a key role in agriculture since the damage caused by these agents are responsible for a huge economic loss every year. Based on this assumption, we create an algorithm capable of detecting rust (Hemileia vastatrix) and leaf miner (Leucoptera coffeella) in coffee leaves (Coffea arabica) and quantify disease severity using a mobile application as a high-level interface for the model inferences. We used different convolutional neural network architectures to create the object detector, besides the OpenCV library, k-means, and three treatments: the RGB and value to quantification, and the AFSoft software, in addition to the analysis of variance, where we compare the three methods. The results show an average precision of 81,5% in the detection and that there was no significant statistical difference between treatments to quantify the severity of coffee leaves, proposing a computationally less costly method. The application, together with the trained model, can detect the pest and disease over different image conditions and infection stages and also estimate the disease infection stage.
翻訳日:2021-03-25 10:45:56 公開日:2021-03-20
# (参考訳) SELM: 機械学習モデルのソフトウェア工学 [全文訳有]

SELM: Software Engineering of Machine Learning Models ( http://arxiv.org/abs/2103.11249v1 )

ライセンス: CC BY 4.0
Nafiseh Jafari, Mohammad Reza Besharati, Mohammad Izadi, Maryam Hourali(参考訳) あらゆる機械学習モデルの柱の1つは、その概念である。 ソフトウェアエンジニアリングを使用することで、これらの概念を設計し、開発と拡張が可能になります。 本稿では,機械学習モデルのソフトウェア工学のためのSELMフレームワークについて述べる。 そして、この枠組みをケーススタディを通じて評価する。 SELMフレームワークを使うことで、機械学習プロセスの効率を改善し、より少ない処理ハードウェアリソースとより少ないトレーニングデータセットで学習の精度を高めることができる。 この問題は、機械学習に対する学際的アプローチの重要性を強調している。 そこで本稿では,機械学習に関する学際的チームの提案について述べる。

One of the pillars of any machine learning model is its concepts. Using software engineering, we can engineer these concepts and then develop and expand them. In this article, we present a SELM framework for Software Engineering of machine Learning Models. We then evaluate this framework through a case study. Using the SELM framework, we can improve a machine learning process efficiency and provide more accuracy in learning with less processing hardware resources and a smaller training dataset. This issue highlights the importance of an interdisciplinary approach to machine learning. Therefore, in this article, we have provided interdisciplinary teams' proposals for machine learning.
翻訳日:2021-03-25 10:33:20 公開日:2021-03-20
# (参考訳) 解釈可能な機械学習:基本原理と10大課題

Interpretable Machine Learning: Fundamental Principles and 10 Grand Challenges ( http://arxiv.org/abs/2103.11251v1 )

ライセンス: CC BY-SA 4.0
Cynthia Rudin, Chaofan Chen, Zhi Chen, Haiyang Huang, Lesia Semenova, and Chudi Zhong(参考訳) 機械学習(ML)の解釈可能性は、高い利害決定とトラブルシューティングに不可欠である。 本研究は,MLを解釈するための基本原則を提供し,この重要なトピックの重要性を薄める共通の誤解を解消する。 また、解釈可能な機械学習における10の技術的課題領域を特定し、各問題の履歴と背景を提供する。 これらの問題のいくつかは古典的に重要な問題であり、近年で発生した問題もある。 These problems are: (1) Optimizing sparse logical models such as decision trees; (2) Optimization of scoring systems; (3) Placing constraints into generalized additive models to encourage sparsity and better interpretability; (4) Modern case-based reasoning, including neural networks and matching for causal inference; (5) Complete supervised disentanglement of neural networks; (6) Complete or even partial unsupervised disentanglement of neural networks; (7) Dimensionality reduction for data visualization; (8) Machine learning models that can incorporate physics and other generative or causal constraints; (9) Characterization of the "Rashomon set" of good models; and (10) Interpretable reinforcement learning. この調査は、解釈可能な機械学習に興味を持つ統計学者やコンピュータ科学者の出発点として適している。

Interpretability in machine learning (ML) is crucial for high stakes decisions and troubleshooting. In this work, we provide fundamental principles for interpretable ML, and dispel common misunderstandings that dilute the importance of this crucial topic. We also identify 10 technical challenge areas in interpretable machine learning and provide history and background on each problem. Some of these problems are classically important, and some are recent problems that have arisen in the last few years. These problems are: (1) Optimizing sparse logical models such as decision trees; (2) Optimization of scoring systems; (3) Placing constraints into generalized additive models to encourage sparsity and better interpretability; (4) Modern case-based reasoning, including neural networks and matching for causal inference; (5) Complete supervised disentanglement of neural networks; (6) Complete or even partial unsupervised disentanglement of neural networks; (7) Dimensionality reduction for data visualization; (8) Machine learning models that can incorporate physics and other generative or causal constraints; (9) Characterization of the "Rashomon set" of good models; and (10) Interpretable reinforcement learning. This survey is suitable as a starting point for statisticians and computer scientists interested in working in interpretable machine learning.
翻訳日:2021-03-25 10:30:34 公開日:2021-03-20
# メタHDR:HDR画像再構成のためのモデル非依存メタラーニング

MetaHDR: Model-Agnostic Meta-Learning for HDR Image Reconstruction ( http://arxiv.org/abs/2103.12545v1 )

ライセンス: Link先を確認
Edwin Pan, Anthony Vento(参考訳) ダイナミックレンジの高いシーンを撮影することは、人間の視覚系に見られるような画像の再現に不可欠である。 低ダイナミックレンジ画像から高ダイナミックレンジ画像への変換のためのデータ駆動型ディープラーニング手法の開発は進展しているが、既存の手法はすべての変換が同じ非線形マッピングによって管理されるという仮定によって制限されている。 この問題を解決するために,既存のHDRデータセットを用いたLDR-to-HDR変換問題にメタラーニングを適用した「HDR画像再構成のためのモデル非依存メタラーニング(MetaHDR)」を提案する。 我々の重要な特徴は、LDR-to-HDR変換シーンを、共通LDR-to-HDR変換タスク分布から独立にサンプリングしたタスクとして再解釈することである。 当然、メタ学習フレームワークを使ってメタパラメータの集合を学習し、すべてのLDR-to-HDR変換タスク間で一貫性のある共通構造をキャプチャする。 最後に,メタHDRを用いた実験を行い,LDR-to-HDR画像変換に挑戦する能力を示す。 コードと事前訓練されたモデルはhttps://github.com/e dwin-pan/MetaHDR.com で入手できる。

Capturing scenes with a high dynamic range is crucial to reproducing images that appear similar to those seen by the human visual system. Despite progress in developing data-driven deep learning approaches for converting low dynamic range images to high dynamic range images, existing approaches are limited by the assumption that all conversions are governed by the same nonlinear mapping. To address this problem, we propose "Model-Agnostic Meta-Learning for HDR Image Reconstruction" (MetaHDR), which applies meta-learning to the LDR-to-HDR conversion problem using existing HDR datasets. Our key novelty is the reinterpretation of LDR-to-HDR conversion scenes as independently sampled tasks from a common LDR-to-HDR conversion task distribution. Naturally, we use a meta-learning framework that learns a set of meta-parameters which capture the common structure consistent across all LDR-to-HDR conversion tasks. Finally, we perform experimentation with MetaHDR to demonstrate its capacity to tackle challenging LDR-to-HDR image conversions. Code and pretrained models are available at https://github.com/e dwin-pan/MetaHDR.
翻訳日:2021-03-24 14:12:01 公開日:2021-03-20
# MonteFloor: 正確な大規模フロアプランを再構築するためのMCTSの拡張

MonteFloor: Extending MCTS for Reconstructing Accurate Large-Scale Floor Plans ( http://arxiv.org/abs/2103.11161v1 )

ライセンス: Link先を確認
Sinisa Stekovic, Mahdi Rad, Friedrich Fraundorfer, Vincent Lepetit(参考訳) うるさい3次元点雲からフロアプランを再構成する新しい手法を提案する。 我々の主な貢献はモンテカルロ木探索 (MCTS) アルゴリズムに依存する原理的アプローチであり、問題の複雑さにもかかわらず最適な目的関数を効率的に最大化する。 以前の作業と同様に、最初にインプットポイントクラウドをトップビューに投影し、密度マップを作成し、部屋の提案を抽出します。 提案手法は,これらの部屋の多角形形状を共同で選択・最適化して密度マップに適合させ,大規模な複雑なシーンにおいても正確なベクトル化フロアマップを出力する。 そこで我々は,ゲーム遊びを学習するためのアルゴリズムであるmctsを用いて,深層ネットワークで予測される適合度と密度マップを組み合わせた目的関数を最大化し,部屋形状の用語を正則化することにより,部屋提案を選択する。 また,部屋の提案の形状を調節する改良段階をMCTSに導入する。 本稿では,これらの提案の多角形を描画する新しい微分可能な手法を提案する。 我々は,最近のStructured3DとFloor-SPデータセットについて,フロアプランの構成に厳しい制約や仮定を課すことなく,現状よりも大幅に改善されていることを示す。

We propose a novel method for reconstructing floor plans from noisy 3D point clouds. Our main contribution is a principled approach that relies on the Monte Carlo Tree Search (MCTS) algorithm to maximize a suitable objective function efficiently despite the complexity of the problem. Like previous work, we first project the input point cloud to a top view to create a density map and extract room proposals from it. Our method selects and optimizes the polygonal shapes of these room proposals jointly to fit the density map and outputs an accurate vectorized floor map even for large complex scenes. To do this, we adapted MCTS, an algorithm originally designed to learn to play games, to select the room proposals by maximizing an objective function combining the fitness with the density map as predicted by a deep network and regularizing terms on the room shapes. We also introduce a refinement step to MCTS that adjusts the shape of the room proposals. For this step, we propose a novel differentiable method for rendering the polygonal shapes of these proposals. We evaluate our method on the recent and challenging Structured3D and Floor-SP datasets and show a significant improvement over the state-of-the-art, without imposing any hard constraints nor assumptions on the floor plan configurations.
翻訳日:2021-03-23 15:04:25 公開日:2021-03-20
# 教師なしアクションセグメンテーションのための時間重み付き階層クラスタリング

Temporally-Weighted Hierarchical Clustering for Unsupervised Action Segmentation ( http://arxiv.org/abs/2103.11264v1 )

ライセンス: Link先を確認
M. Saquib Sarfraz, Naila Murray, Vivek Sharma, Ali Diba, Luc Van Gool, Rainer Stiefelhagen(参考訳) アクションセグメンテーション(action segmentation)とは、ビデオにおける意味的に一貫した視覚概念の境界を推測することであり、多くのビデオ理解タスクにおいて重要な要件である。 これと他のビデオ理解タスクのために、監督されたアプローチはパフォーマンスを奨励するが、フレームレベルの詳細なアノテーションを必要とする。 ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。 提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。 我々の主な発見は、時間進行を考慮し、1-nearestの隣のグラフでビデオを表現することで、各クラスタがビデオ内の何らかのアクションを表現できる、意味的かつ時間的に一貫したフレームのクラスタを形成するのに十分であるということです。 さらに、アクションセグメンテーションのための強力な教師なしベースラインを確立し、5つの挑戦的アクションセグメンテーションデータセット上の教師なしメソッドよりも優れたパフォーマンス改善を示す。 また,これら4つのデータセットにおいて,弱教師付きメソッドを大きなマージンで上回る手法を提案する。 興味深いことに、これらのデータセットで結果を報告した多くの完全教師付き手法よりも優れた結果が得られる。 私たちのコードはhttps://github.com/s sarfraz/FINCH-Cluste ring/tree/master/TW- FINCHで利用可能です。

Action segmentation refers to inferring boundaries of semantically consistent visual concepts in videos and is an important requirement for many video understanding tasks. For this and other video understanding tasks, supervised approaches have achieved encouraging performance but require a high volume of detailed frame-level annotations. We present a fully automatic and unsupervised approach for segmenting actions in a video that does not require any training. Our proposal is an effective temporally-weighted hierarchical clustering algorithm that can group semantically consistent frames of the video. Our main finding is that representing a video with a 1-nearest neighbor graph by taking into account the time progression is sufficient to form semantically and temporally consistent clusters of frames where each cluster may represent some action in the video. Additionally, we establish strong unsupervised baselines for action segmentation and show significant performance improvements over published unsupervised methods on five challenging action segmentation datasets. Our approach also outperforms weakly-supervised methods by large margins on 4 of these datasets. Interestingly, we also achieve better results than many fully-supervised methods that have reported results on these datasets. Our code is available at https://github.com/s sarfraz/FINCH-Cluste ring/tree/master/TW- FINCH
翻訳日:2021-03-23 15:04:06 公開日:2021-03-20
# 条件付き生成逆数ネットワークから高画質画像を生成するための効率的なサブサンプリング

Efficient Subsampling for Generating High-Quality Images from Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2103.11166v1 )

ライセンス: Link先を確認
Xin Ding, Yongwei Wang, Z. Jane Wang, William J. Welch(参考訳) 画像品質を改善するために, GAN(unconditional generative adversarial Network)のサブサンプリングを行った。 しかし、これらの手法は高いトレーニングコスト(例えば、ストレージスペース、パラメータチューニング)を必要とすることが多く、条件付きGANや連続条件付きGAN(CcGAN)のような条件付きGANのサブサンプリングには非効率または適用不可能である。 本稿では,条件付きソフトプラス損失(cDRE-F-cSP)を有する特徴空間における条件密度比推定法を提案する。 CDRE-F-cSPを用いて、特殊設計されたResNet-34またはスパースオートエンコーダによって学習された特徴空間における新しい条件付きソフトプラス(cSP)損失に基づいて、画像の条件密度比を推定する。 そこで,提案したcSP損失を学習した条件密度比モデルの誤差境界を導出する。 最後に、クラス条件GANとCcGANの両方を効率的にサブサンプル化できる、cDRE-F-cSP+RSと呼ばれる拒絶サンプリング方式を提案する。 また、ラベルの一貫性を高めるため、CcGAN向けに追加のフィルタリング方式も開発されている。 CIFAR-10とTiny-ImageNetデータセットの実験により、cDRE-F-cSP+RSはBigGANのFID内およびFIDスコアを大幅に改善できることが示された。 RC-49とUTKFaceデータセットの実験では、cDRE-F-cSP+RSはCcGANのFID、多様性、ラベルスコアも改善されている。 さらに、cDRE-F-cSP+RSの高効率性を示すために、最先端の非条件サブサンプリング法(DRE-F-SP+RS)と比較する。 cdre-f-csp+rs は cifar-10 と utkface に費やされるトレーニングコストの約 \textbf{10}\% と \textbf{1.7}\% しか必要としない。

Subsampling unconditional generative adversarial networks (GANs) to improve the overall image quality has been studied recently. However, these methods often require high training costs (e.g., storage space, parameter tuning) and may be inefficient or even inapplicable for subsampling conditional GANs, such as class-conditional GANs and continuous conditional GANs (CcGANs), when the condition has many distinct values. In this paper, we propose an efficient method called conditional density ratio estimation in feature space with conditional Softplus loss (cDRE-F-cSP). With cDRE-F-cSP, we estimate an image's conditional density ratio based on a novel conditional Softplus (cSP) loss in the feature space learned by a specially designed ResNet-34 or sparse autoencoder. We then derive the error bound of a conditional density ratio model trained with the proposed cSP loss. Finally, we propose a rejection sampling scheme, termed cDRE-F-cSP+RS, which can subsample both class-conditional GANs and CcGANs efficiently. An extra filtering scheme is also developed for CcGANs to increase the label consistency. Experiments on CIFAR-10 and Tiny-ImageNet datasets show that cDRE-F-cSP+RS can substantially improve the Intra-FID and FID scores of BigGAN. Experiments on RC-49 and UTKFace datasets demonstrate that cDRE-F-cSP+RS also improves Intra-FID, Diversity, and Label Score of CcGANs. Moreover, to show the high efficiency of cDRE-F-cSP+RS, we compare it with the state-of-the-art unconditional subsampling method (i.e., DRE-F-SP+RS). With comparable or even better performance, cDRE-F-cSP+RS only requires about \textbf{10}\% and \textbf{1.7}\% of the training costs spent respectively on CIFAR-10 and UTKFace by DRE-F-SP+RS.
翻訳日:2021-03-23 15:02:48 公開日:2021-03-20
# 説明可能な自然言語処理のための局所解釈:調査

Local Interpretations for Explainable Natural Language Processing: A Survey ( http://arxiv.org/abs/2103.11072v1 )

ライセンス: Link先を確認
Siwen Luo and Hamish Ivison and Caren Han and Josiah Poon(参考訳) 過去10年間で深層学習技術が様々な分野に普及するにつれて、ブラックボックスモデルの不透明性に対する不満が高まり、ディープラーニングモデルの透明性に焦点が当てられるようになった。 本研究は,自然言語処理(nlp)タスクのための深層ニューラルネットワークの解釈性を改善するために,機械翻訳や感情分析を含む様々な手法を検討する。 本稿では,「textit{interpretability}」という用語の定義とその研究開始時の諸側面について包括的に議論する。 本調査で収集・要約した手法は,局所的な解釈にのみ関連しており,1)関連入力特徴によるモデル予測の説明,2)自然言語による説明,3)モデルと単語表現の隠れた状態の探索,の3つのカテゴリに分類される。

As the use of deep learning techniques has grown across various fields over the past decade, complaints about the opaqueness of the black-box models have increased, resulting in an increased focus on transparency in deep learning models. This work investigates various methods to improve the interpretability of deep neural networks for natural language processing (NLP) tasks, including machine translation and sentiment analysis. We provide a comprehensive discussion on the definition of the term \textit{interpretability} and its various aspects at the beginning of this work. The methods collected and summarised in this survey are only associated with local interpretation and are divided into three categories: 1) explaining the model's predictions through related input features; 2) explaining through natural language explanation; 3) probing the hidden states of models and word representations.
翻訳日:2021-03-23 15:01:44 公開日:2021-03-20
# 行動認識のための効率的な時空間文脈モデリング

Efficient Spatialtemporal Context Modeling for Action Recognition ( http://arxiv.org/abs/2103.11190v1 )

ライセンス: Link先を確認
Congqi Cao, Yue Lu, Yifan Zhang, Dongmei Jiang and Yanning Zhang(参考訳) 文脈情報は行動認識において重要な役割を果たす。 ローカル操作は、長距離間隔の2つの要素間の関係をモデル化するのが困難である。 しかしながら、任意の2点間の文脈情報を直接モデル化することは、特に時間次元が増すアクション認識において、計算とメモリに大きなコストをもたらす。 セグメンテーションタスクで使用される2Dクリッスクロスアテンションからインスピレーションを得て,アクション認識のためのビデオ中の高密度長範囲時空間情報をモデル化するための3Dクリッスクロスアテンション(RCCA-3D)モジュールを提案する。 グローバルコンテキストはスパース関係マップに分解される。 水平方向,垂直方向,深さの各時間における同一線上の点間の関係をモデル化し,3次元クリスクロス構造を形成し,同じ操作をリカレント機構で再現し,ライン内の点間の関係を最終的に時空間全体へ伝達する。 非局所的な手法と比較して、RCCA-3DモジュールはビデオコンテキストモデリングにおいてパラメータとFLOPの数を25%と11%削減する。 RCCA-3Dと最近の2つの行動認識ネットワークの性能を3つのデータセットで評価し、アーキテクチャを徹底的に分析し、関係マップを分解・融合する最良の方法を得る。 他の最先端手法との比較により,本モデルの有効性と有効性を示す。

Contextual information plays an important role in action recognition. Local operations have difficulty to model the relation between two elements with a long-distance interval. However, directly modeling the contextual information between any two points brings huge cost in computation and memory, especially for action recognition, where there is an additional temporal dimension. Inspired from 2D criss-cross attention used in segmentation task, we propose a recurrent 3D criss-cross attention (RCCA-3D) module to model the dense long-range spatiotemporal contextual information in video for action recognition. The global context is factorized into sparse relation maps. We model the relationship between points in the same line along the direction of horizon, vertical and depth at each time, which forms a 3D criss-cross structure, and duplicate the same operation with recurrent mechanism to transmit the relation between points in a line to a plane finally to the whole spatiotemporal space. Compared with the non-local method, the proposed RCCA-3D module reduces the number of parameters and FLOPs by 25% and 11% for video context modeling. We evaluate the performance of RCCA-3D with two latest action recognition networks on three datasets and make a thorough analysis of the architecture, obtaining the best way to factorize and fuse the relation maps. Comparisons with other state-of-the-art methods demonstrate the effectiveness and efficiency of our model.
翻訳日:2021-03-23 14:59:53 公開日:2021-03-20
# 確率的制約満足度によるエンティティ関係抽出のためのラベルなしデータの活用

Leveraging Unlabeled Data for Entity-Relation Extraction through Probabilistic Constraint Satisfaction ( http://arxiv.org/abs/2103.11062v1 )

ライセンス: Link先を確認
Kareem Ahmed, Eric Wang, Guy Van den Broeck, Kai-Wei Chang(参考訳) 記号的ドメイン知識の存在下でのエンティティ関係抽出の問題について検討する。 このような知識は、関係とその許容可能な議論を定義するオントロジーの形式を取る。 それまでのアプローチでは、自己学習や論理的表現の正確な意味を失う近似を通じて、これらの知識を学習アプローチに統合しようとしていた。 対照的に,本手法では,可能なすべての状態の確率分布を維持しながら論理文の正確な意味を捉え,制約違反を最小限にする解にモデルを導く意味損失を用いる。 低データ体制に焦点をあてて、セマンティックな損失がベースラインをはるかに上回ることを示す。

We study the problem of entity-relation extraction in the presence of symbolic domain knowledge. Such knowledge takes the form of an ontology defining relations and their permissible arguments. Previous approaches set out to integrate such knowledge in their learning approaches either through self-training, or through approximations that lose the precise meaning of the logical expressions. By contrast, our approach employs semantic loss which captures the precise meaning of a logical sentence through maintaining a probability distribution over all possible states, and guiding the model to solutions which minimize any constraint violations. With a focus on low-data regimes, we show that semantic loss outperforms the baselines by a wide margin.
翻訳日:2021-03-23 14:57:39 公開日:2021-03-20
# ニューラルネットワーク翻訳のためのトークンワイズカリキュラム学習

Token-wise Curriculum Learning for Neural Machine Translation ( http://arxiv.org/abs/2103.11088v1 )

ライセンス: Link先を確認
Chen Liang, Haoming Jiang, Xiaodong Liu, Pengcheng He, Weizhu Chen, Jianfeng Gao and Tuo Zhao(参考訳) ニューラルネットワーク翻訳(NMT)への既存のカリキュラム学習アプローチでは、初期のトレーニング段階でトレーニングデータから十分な量の"簡単"サンプルをサンプリングする必要がある。 これは、トレーニングデータの量が限られている低リソース言語では、必ずしも達成できない。 このような制限に対処するために,簡単なサンプルを十分に生成するトークン単位のカリキュラム学習手法を提案する。 具体的には、訓練の初期段階において、各目標文の先頭部分から短いサブシーケンスを予測することを学習し、訓練が進むにつれて徐々にサブシーケンスが拡大される。 このような新しいカリキュラム設計は、翻訳エラーの累積効果にインスパイアされており、後者のトークンは初期よりも予測が難しい。 大規模な実験により、我々のアプローチは5つの言語対、特に低リソース言語において、一貫してベースラインを上回ります。 このアプローチと文レベルの手法を組み合わせることで、高リソース言語のパフォーマンスがさらに向上します。

Existing curriculum learning approaches to Neural Machine Translation (NMT) require sampling sufficient amounts of "easy" samples from training data at the early training stage. This is not always achievable for low-resource languages where the amount of training data is limited. To address such limitation, we propose a novel token-wise curriculum learning approach that creates sufficient amounts of easy samples. Specifically, the model learns to predict a short sub-sequence from the beginning part of each target sentence at the early stage of training, and then the sub-sequence is gradually expanded as the training progresses. Such a new curriculum design is inspired by the cumulative effect of translation errors, which makes the latter tokens more difficult to predict than the beginning ones. Extensive experiments show that our approach can consistently outperform baselines on 5 language pairs, especially for low-resource languages. Combining our approach with sentence-level methods further improves the performance on high-resource languages.
翻訳日:2021-03-23 14:57:29 公開日:2021-03-20
# 読解のための自己教師付きテスト時間学習

Self-Supervised Test-Time Learning for Reading Comprehension ( http://arxiv.org/abs/2103.11263v1 )

ライセンス: Link先を確認
Pratyay Banerjee, Tejas Gokhale, Chitta Baral(参考訳) 教師なし質問応答に関する最近の研究は、モデルが手続き的に生成された質問応答ペアで訓練でき、教師付き手法と競争できることを示した。 本稿では,教師なし読解の課題を考察し,<textit{context-question-ans wer>三重項を含む大規模人間主導データセットの学習を必要とせず,与えられた文脈(テキストパス)で「テスト時学習」(ttl)を行う手法を提案する。 この方法は、単一のテストコンテキスト上で直接動作し、自己スーパービジョンを使用して、合成された質問応答対のモデルを訓練し、このコンテキストに対して見知らぬ人間による質問に対する回答を推論する。 本手法は,完全教師付き手法と競合する精度を実現し,現在の教師なし手法を著しく上回っている。 より小さなモデルを用いたTTL法は、教師なし読解における現在の最先端技術と競合する。

Recent work on unsupervised question answering has shown that models can be trained with procedurally generated question-answer pairs and can achieve performance competitive with supervised methods. In this work, we consider the task of unsupervised reading comprehension and present a method that performs "test-time learning" (TTL) on a given context (text passage), without requiring training on large-scale human-authored datasets containing \textit{context-question-ans wer} triplets. This method operates directly on a single test context, uses self-supervision to train models on synthetically generated question-answer pairs, and then infers answers to unseen human-authored questions for this context. Our method achieves accuracies competitive with fully supervised methods and significantly outperforms current unsupervised methods. TTL methods with a smaller model are also competitive with the current state-of-the-art in unsupervised reading comprehension.
翻訳日:2021-03-23 14:57:14 公開日:2021-03-20
# サブグラフ情報ボトルネックによる予測サブ構造認識

Recognizing Predictive Substructures with Subgraph Information Bottleneck ( http://arxiv.org/abs/2103.11155v1 )

ライセンス: Link先を確認
Junchi Yu, Tingyang Xu, Yu Rong, Yatao Bian, Junzhou Huang, Ran He(参考訳) グラフ畳み込みネットワーク(GCN)の出現は、グラフ学習の進歩を大幅に加速させた。 しかし、グラフデータのノイズと冗長性、予測結果の解釈の欠如という2つの障害要因は、GCNのさらなる発展を妨げる。 一つの解決策は、予測可能で圧縮されたサブグラフを認識して、ノイズと冗長性を取り除き、グラフの解釈可能な部分を取得することである。 このサブグラフの設定は、グラフ構造化データやGCNでは研究されていない情報ボトルネック(IB)原理と似ている。 IB原則に着想を得て,そのサブグラフを識別する新たなサブグラフ情報ボトルネック(SIB)フレームワーク IB-subgraph を提案する。 しかし、相互情報の抽出性やグラフデータの離散的性質は、SIBの目的を最適化することが難しいと悪名高い。 そこで本研究では,不規則グラフに対する相互情報推定器と組み合わせた二段階最適化手法を提案する。 さらに,安定化のための接続損失のある部分グラフ選択のための連続緩和を提案する。 IB-サブグラフの相互情報に対する推定手法の誤差境界とノイズ不変特性を理論的に証明する。 グラフ学習と大規模ポイントクラウドタスクに関する広範な実験は、ib-subgraphの優れた特性を示している。

The emergence of Graph Convolutional Network (GCN) has greatly boosted the progress of graph learning. However, two disturbing factors, noise and redundancy in graph data, and lack of interpretation for prediction results, impede further development of GCN. One solution is to recognize a predictive yet compressed subgraph to get rid of the noise and redundancy and obtain the interpretable part of the graph. This setting of subgraph is similar to the information bottleneck (IB) principle, which is less studied on graph-structured data and GCN. Inspired by the IB principle, we propose a novel subgraph information bottleneck (SIB) framework to recognize such subgraphs, named IB-subgraph. However, the intractability of mutual information and the discrete nature of graph data makes the objective of SIB notoriously hard to optimize. To this end, we introduce a bilevel optimization scheme coupled with a mutual information estimator for irregular graphs. Moreover, we propose a continuous relaxation for subgraph selection with a connectivity loss for stabilization. We further theoretically prove the error bound of our estimation scheme for mutual information and the noise-invariant nature of IB-subgraph. Extensive experiments on graph learning and large-scale point cloud tasks demonstrate the superior property of IB-subgraph.
翻訳日:2021-03-23 14:56:32 公開日:2021-03-20
# 凸損失の強いプロジェクションフリー分散オンライン学習

Projection-free Distributed Online Learning with Strongly Convex Losses ( http://arxiv.org/abs/2103.11102v1 )

ライセンス: Link先を確認
Yuanyu Wan, Guanghui Wang, Lijun Zhang(参考訳) 複雑な制約で分散オンライン学習問題を効率的に解くため、従来の研究では、複数の分散プロジェクションフリーアルゴリズムが提案されている。 最先端のものは$O({T}^{3/4})$ regret bound with $O(\sqrt{T})$ communication complexityを達成する。 本稿では,損失関数の強い凸性を利用して,後悔の束縛とコミュニケーションの複雑さを改善する。 具体的には、まず、強い凸損失関数に対する分散プロジェクションフリーアルゴリズムを提案し、このアルゴリズムは、$O(T^{2/3}\log T)$と$O(T^{1/3})$の通信複雑性がより小さいことを後悔する。 さらに,損失関数が強い凸である場合でも,$c$通信ラウンドを持つ分散オンラインアルゴリズムの後悔は$\omega(t/c)$という低い限界を持つことを実証する。 この下限は、我々のアルゴリズムの$O(T^{1/3})$通信複雑性が、多対数因子に束縛された$O(T^{2/3}\log T)$後悔を得るのにほぼ最適であることを意味する。 最後に,アルゴリズムを帯域設定に拡張し,同様の理論的保証を得る。

To efficiently solve distributed online learning problems with complicated constraints, previous studies have proposed several distributed projection-free algorithms. The state-of-the-art one achieves the $O({T}^{3/4})$ regret bound with $O(\sqrt{T})$ communication complexity. In this paper, we further exploit the strong convexity of loss functions to improve the regret bound and communication complexity. Specifically, we first propose a distributed projection-free algorithm for strongly convex loss functions, which enjoys a better regret bound of $O(T^{2/3}\log T)$ with smaller communication complexity of $O(T^{1/3})$. Furthermore, we demonstrate that the regret of distributed online algorithms with $C$ communication rounds has a lower bound of $\Omega(T/C)$, even when the loss functions are strongly convex. This lower bound implies that the $O(T^{1/3})$ communication complexity of our algorithm is nearly optimal for obtaining the $O(T^{2/3}\log T)$ regret bound up to polylogarithmic factors. Finally, we extend our algorithm into the bandit setting and obtain similar theoretical guarantees.
翻訳日:2021-03-23 14:54:34 公開日:2021-03-20
# Fokker-Planck方程式に対する適応的な密度近似

Adaptive deep density approximation for Fokker-Planck equations ( http://arxiv.org/abs/2103.11181v1 )

ライセンス: Link先を確認
Kejun Tang, Xiaoliang Wan, Qifeng Liao(参考訳) 本稿では, 定常フォッカー・プランク方程式の解法として, KRnet (ADDA-KR) に基づく適応密度近似法を提案する。 この方程式は一般に非有界領域に与えられる高次元空間変数を持ち、従来のグリッドベースの数値手法の適用を制限することが知られている。 KRnetと呼ばれる新しいフローベース生成モデルであるKnothe-Rosenblatt再構成により、従来の計算手法よりも次元依存性の弱いFokker-Planck方程式の効率的な解候補として機能する確率密度関数の族が提供される。 KRnetのトレーニングに有効な確率的コロケーションポイントを実現するため,各反復でKRnetを用いてサンプルを反復的に生成する適応型サンプリング手法を開発した。 さらに,krnet の詳細な議論を行い,一般の高次元密度関数を効率的に推定できることを示す。 本稿では,adda-krの一般的な数学的枠組みを示し,その精度を検証し,数値実験によりその効率を示す。

In this paper we present a novel adaptive deep density approximation strategy based on KRnet (ADDA-KR) for solving the steady-state Fokker-Planck equation. It is known that this equation typically has high-dimensional spatial variables posed on unbounded domains, which limit the application of traditional grid based numerical methods. With the Knothe-Rosenblatt rearrangement, our newly proposed flow-based generative model, called KRnet, provides a family of probability density functions to serve as effective solution candidates of the Fokker-Planck equation, which have weaker dependence on dimensionality than traditional computational approaches. To result in effective stochastic collocation points for training KRnet, we develop an adaptive sampling procedure, where samples are generated iteratively using KRnet at each iteration. In addition, we give a detailed discussion of KRnet and show that it can efficiently estimate general high-dimensional density functions. We present a general mathematical framework of ADDA-KR, validate its accuracy and demonstrate its efficiency with numerical experiments.
翻訳日:2021-03-23 14:54:14 公開日:2021-03-20
# マルチモーダル画像マッチングにおけるマルチスケール特徴マップへの注意

Paying Attention to Multiscale Feature Maps in Multimodal Image Matching ( http://arxiv.org/abs/2103.11247v1 )

ライセンス: Link先を確認
Aviad Moreshet, Yosi Keller(参考訳) マルチスケールのシームズCNNの特徴マップに付随するTransformerエンコーダを用いたマルチモーダル画像パッチマッチングのためのアテンションベースアプローチを提案する。 マルチスケール画像埋め込みを効率よく集約し,タスク固有の外観不変画像キューを強調する。 また,エンコーダをバイパスする残差接続を用いたアテンション残差アーキテクチャも導入する。 この追加の学習信号は、エンドツーエンドのトレーニングをスクラッチから促進する。 提案手法は,マルチモーダルベンチマークと単一モーダリティベンチマークの両方において,その汎用性を示す新しい精度を実現するために実験的に示された。 我々の知る限り、これはTransformerエンコーダアーキテクチャをマルチモーダル画像パッチマッチングタスクに実装した最初の成功例である。

We propose an attention-based approach for multimodal image patch matching using a Transformer encoder attending to the feature maps of a multiscale Siamese CNN. Our encoder is shown to efficiently aggregate multiscale image embeddings while emphasizing task-specific appearance-invariant image cues. We also introduce an attention-residual architecture, using a residual connection bypassing the encoder. This additional learning signal facilitates end-to-end training from scratch. Our approach is experimentally shown to achieve new state-of-the-art accuracy on both multimodal and single modality benchmarks, illustrating its general applicability. To the best of our knowledge, this is the first successful implementation of the Transformer encoder architecture to the multimodal image patch matching task.
翻訳日:2021-03-23 14:51:37 公開日:2021-03-20
# 境界属性は正規(ベクトル)属性を与える

Boundary Attributions Provide Normal (Vector) Attributions ( http://arxiv.org/abs/2103.11257v1 )

ライセンス: Link先を確認
Zifan Wang, Matt Fredrikson, Anupam Datta(参考訳) 近年、Deep Neural Networks (DNN) の説明研究は、入力機能に対するモデルの出力スコアの寄与に焦点を当てている。 しかし、分類問題に関して、より根本的な問題は、各機能がモデルの入力インスタンスを特定のクラスに分類する決定にどの程度貢献しているかである。 最初のコントリビューションは境界属性(Boundary Attribution)です。 BAは活性化領域の幾何学的理解を利用する。 具体的には、ターゲット入力に対する局所的な決定境界の正規ベクトルを計算(および集約)する。 第2の貢献は,ネットワークの対向的ロバスト性と勾配に基づく説明の質を結びつけた分析結果のセットである。 具体的には、2つの定理をReLUネットワークに対して証明する: ランダム化されたスムーズなネットワークのBAや頑健に訓練されたネットワークは、標準ネットワークよりも非有界帰属法に近い。 これらの分析は、高品質な説明のためのモデルロバスト性を改善することをユーザに促している。 最後に,imagenetにおける提案手法を評価し,basが非境界画像に比べてより集中的かつシャープな可視化を実現することを示す。 さらに,本手法は,必要であればベースライン入力に対する帰属感度の低減にも寄与することを示す。

Recent work on explaining Deep Neural Networks (DNNs) focuses on attributing the model's output scores to input features. However, when it comes to classification problems, a more fundamental question is how much does each feature contributes to the model's decision to classify an input instance into a specific class. Our first contribution is Boundary Attribution, a new explanation method to address this question. BA leverages an understanding of the geometry of activation regions. Specifically, they involve computing (and aggregating) normal vectors of the local decision boundaries for the target input. Our second contribution is a set of analytical results connecting the adversarial robustness of the network and the quality of gradient-based explanations. Specifically, we prove two theorems for ReLU networks: BA of randomized smoothed networks or robustly trained networks is much closer to non-boundary attribution methods than that in standard networks. These analytics encourage users to improve model robustness for high-quality explanations. Finally, we evaluate the proposed methods on ImageNet and show BAs produce more concentrated and sharper visualizations compared with non-boundary ones. We further demonstrate that our method also helps to reduce the sensitivity of attributions to the baseline input if one is required.
翻訳日:2021-03-23 14:51:27 公開日:2021-03-20
# モノのインターネットのためのディープニューラルネットワークのコンパクト化:方法と応用

Compacting Deep Neural Networks for Internet of Things: Methods and Applications ( http://arxiv.org/abs/2103.11083v1 )

ライセンス: Link先を確認
Ke Zhang, Hanbo Ying, Hong-Ning Dai, Lin Li, Yuangyuang Peng, Keyi Guo, Hongfang Yu(参考訳) ディープニューラルネットワーク(DNN)は複雑なタスクの完了に大きな成功を収めている。 しかし、DNNは階層構造が複雑であるために計算コストとストレージ消費が必然的に高くなるため、計算能力とストレージ容量が制限されたIoT(Internet-of-Thin gs)デバイスへの展開が妨げられる。 そのため,DNNのコンパクト化に向けた技術を検討する必要がある。 コンパクト化DNNの大幅な進歩にもかかわらず、特にIoTアプリケーションにおいて、コンパクト化DNN技術を要約する調査はほとんどない。 そこで本稿では,コンパクト化dnns技術に関する包括的研究を行う。 本稿では,1)ネットワークモデル圧縮,2)知識蒸留(KD),3)ネットワーク構造の変更の3つの主要なタイプに分類する。 また、これらのアプローチの多様性を詳しく説明し、並べて比較します。 さらに、各種IoTアプリケーションにおけるコンパクトDNNの適用について論じ、今後の方向性を概説する。

Deep Neural Networks (DNNs) have shown great success in completing complex tasks. However, DNNs inevitably bring high computational cost and storage consumption due to the complexity of hierarchical structures, thereby hindering their wide deployment in Internet-of-Things (IoT) devices, which have limited computational capability and storage capacity. Therefore, it is a necessity to investigate the technologies to compact DNNs. Despite tremendous advances in compacting DNNs, few surveys summarize compacting-DNNs technologies, especially for IoT applications. Hence, this paper presents a comprehensive study on compacting-DNNs technologies. We categorize compacting-DNNs technologies into three major types: 1) network model compression, 2) Knowledge Distillation (KD), 3) modification of network structures. We also elaborate on the diversity of these approaches and make side-by-side comparisons. Moreover, we discuss the applications of compacted DNNs in various IoT applications and outline future directions.
翻訳日:2021-03-23 14:49:50 公開日:2021-03-20
# 非ホロノミックシステムのための連続コスト対Go関数の学習

Learning Continuous Cost-to-Go Functions for Non-holonomic Systems ( http://arxiv.org/abs/2103.11168v1 )

ライセンス: Link先を確認
Jinwook Huh, Daniel D. Lee and Volkan Isler(参考訳) 本稿では,ワークスペース記述から直接,非ホロノミックシステムの連続的なコスト対ゴー関数を生成する教師あり学習手法を提案する。 情報的な例からのスーパービジョンは、トレーニング時間を短縮し、ネットワークパフォーマンスを改善する。 非ホロノミック系の最適軌跡を表す多様体は、均一サンプリングでは効率的に捕捉できない高い曲率領域を有する。 この課題に対処するために,サンプリングベースプランナと局所閉形式のソリューションを併用して,トレーニングサンプルを生成する適応サンプリング手法を提案する。 特定のワークスペース上のコスト・ツー・ゴー関数は、第2の高次ネットワークによって重みが生成されるニューラルネットワークとして表現される。 ネットワークはエンドツーエンドでトレーニングされる。 これまでの研究で、このアーキテクチャは一様サンプリングを用いてホロノミックシステムのコスト・ツー・ゴー関数を生成することに成功していることが示された。 本研究では,非ホロノミック系において均一サンプリングが失敗することを示す。 しかし, 適応サンプリング手法を用いることで, 非ホロノミックシステムに対して, 障害物を回避しつつ, ほぼ最適軌道を生成できる。 実験により, この手法は, 散在環境における従来の手法に比べて2桁高速であることがわかった。

This paper presents a supervised learning method to generate continuous cost-to-go functions of non-holonomic systems directly from the workspace description. Supervision from informative examples reduces training time and improves network performance. The manifold representing the optimal trajectories of a non-holonomic system has high-curvature regions which can not be efficiently captured with uniform sampling. To address this challenge, we present an adaptive sampling method which makes use of sampling-based planners along with local, closed-form solutions to generate training samples. The cost-to-go function over a specific workspace is represented as a neural network whose weights are generated by a second, higher order network. The networks are trained in an end-to-end fashion. In our previous work, this architecture was shown to successfully learn to generate the cost-to-go functions of holonomic systems using uniform sampling. In this work, we show that uniform sampling fails for non-holonomic systems. However, with the proposed adaptive sampling methodology, our network can generate near-optimal trajectories for non-holonomic systems while avoiding obstacles. Experiments show that our method is two orders of magnitude faster compared to traditional approaches in cluttered environments.
翻訳日:2021-03-23 14:49:36 公開日:2021-03-20
# NCoRE: 治療の組み合わせのためのニューラルカウンターファクト表現学習

NCoRE: Neural Counterfactual Representation Learning for Combinations of Treatments ( http://arxiv.org/abs/2103.11175v1 )

ライセンス: Link先を確認
Sonali Parbhoo, Stefan Bauer, Patrick Schwab(参考訳) 観察データから介入に対する個人の潜在的反応を推定することは、医療、公共政策、経済といった多くの領域において、高い実用的妥当性を持つ。 この設定では、医療における複数の処方薬や経済における異なる財政・金融措置など、介入の組み合わせが同時に適用される場合が多い。 しかし、既存の反ファクト推論の方法は、アクションを同時に使用しない設定に限られている。 本稿では, 相互処理相互作用を明示的にモデル化した組み合わせ処理環境において, 対実表現を学習するための新しい手法であるニューラル対実関係推定(NCoRE)を提案する。 NCoREは、複数の治療の組み合わせの根底にある潜在的な因果生成過程を推測するために学習された治療相互作用変調子を含む、分岐した条件付き神経表現に基づいている。 実験の結果,NCoREは, 合成, 半合成, 実世界の複数のベンチマークにおいて, 複数の処理の組み合わせによる効果を考慮せず, 既存の処理効果評価法よりも優れていた。

Estimating an individual's potential response to interventions from observational data is of high practical relevance for many domains, such as healthcare, public policy or economics. In this setting, it is often the case that combinations of interventions may be applied simultaneously, for example, multiple prescriptions in healthcare or different fiscal and monetary measures in economics. However, existing methods for counterfactual inference are limited to settings in which actions are not used simultaneously. Here, we present Neural Counterfactual Relation Estimation (NCoRE), a new method for learning counterfactual representations in the combination treatment setting that explicitly models cross-treatment interactions. NCoRE is based on a novel branched conditional neural representation that includes learnt treatment interaction modulators to infer the potential causal generative process underlying the combination of multiple treatments. Our experiments show that NCoRE significantly outperforms existing state-of-the-art methods for counterfactual treatment effect estimation that do not account for the effects of combining multiple treatments across several synthetic, semi-synthetic and real-world benchmarks.
翻訳日:2021-03-23 14:47:23 公開日:2021-03-20
# 分離されたペア分解とパワー重み付き最短経路距離アルゴリズムの融合

Well Separated Pair Decomposition and power weighted shortest path metric algorithm fusion ( http://arxiv.org/abs/2103.11216v1 )

ライセンス: Link先を確認
Gurpreet S. Kalsi and Steven B. Damelin(参考訳) $s$$>$ 0 に対して、$\mathbb{R}^{n}$, $n$$$>1$ の特定の点集合におけるすべての $s$-well 分離ペアを計算するアルゴリズムを考える。 整数の$k$$$$>1$の場合、djkstraのアルゴリズムの置換であるアルゴリズムも考慮し、そのアルゴリズムは$k$-nearestの隣人に対して、$\mathbb{r}^{n}$, $n$$$$$$$$ で重み付けされた最短経路メトリックを用いて計算します。 入力データに対する各アルゴリズムとその依存関係について述べる。 両アルゴリズムを融合したアルゴリズムに組み合わせる手法を導入する。 今後の研究にはいくつかの未解決問題がある。

For $s$ $>$ 0, we consider an algorithm that computes all $s$-well separated pairs in certain point sets in $\mathbb{R}^{n}$, $n$ $>1$. For an integer $K$ $>1$, we also consider an algorithm that is a permutation of Dijkstra's algorithm, that computes $K$-nearest neighbors using a certain power weighted shortest path metric in $\mathbb{R}^{n}$, $n$ $>$ $1$. We describe each algorithm and their respective dependencies on the input data. We introduce a way to combine both algorithms into a fused algorithm. Several open problems are given for future research.
翻訳日:2021-03-23 14:44:33 公開日:2021-03-20
# 予測メンテナンス -- 人工知能とiotの橋渡し

Predictive Maintenance -- Bridging Artificial Intelligence and IoT ( http://arxiv.org/abs/2103.11148v1 )

ライセンス: Link先を確認
G.G. Samatas, S.S. Moumgiakmas, G.A. Papakostas(参考訳) 本稿では,機械学習を用いて予測保守の分野におけるトレンドを明らかにする。 第四次産業革命の継続的な発展により、IoTを通じて、人工知能を利用する技術は進化しつつある。 その結果、産業はこれらの技術を使って生産を最適化している。 本稿では,機械学習による人工知能とIoTを用いた予測保守アプリケーションの動向について,科学的研究を通じて結論を導いた。 これらの傾向は、予測メンテナンスが適用された産業の種類、機械学習を中心に人工知能のモデルが実装され、iotを介してアプリケーションに適用されるセンサの種類に関係している。 6部門が発表され、総出版物の54.54%を占める生産部門が支配的であった。 人工知能モデルにおいて、最も普及しているのは、ニューラルネットワーク、サポートベクターマシン、ランダムフォレストであり、それぞれ27.84%、17.72%、13.92%である。 最後に12種類のセンサーが出現し、最も広く使われているのは温度と振動のセンサーで、その割合は60.71%と46.42%である。

This paper highlights the trends in the field of predictive maintenance with the use of machine learning. With the continuous development of the Fourth Industrial Revolution, through IoT, the technologies that use artificial intelligence are evolving. As a result, industries have been using these technologies to optimize their production. Through scientific research conducted for this paper, conclusions were drawn about the trends in Predictive Maintenance applications with the use of machine learning bridging Artificial Intelligence and IoT. These trends are related to the types of industries in which Predictive Maintenance was applied, the models of artificial intelligence were implemented, mainly of machine learning and the types of sensors that are applied through the IoT to the applications. Six sectors were presented and the production sector was dominant as it accounted for 54.54% of total publications. In terms of artificial intelligence models, the most prevalent among ten were the Artificial Neural Networks, Support Vector Machine and Random Forest with 27.84%, 17.72% and 13.92% respectively. Finally, twelve categories of sensors emerged, of which the most widely used were the sensors of temperature and vibration with percentages of 60.71% and 46.42% correspondingly.
翻訳日:2021-03-23 14:43:32 公開日:2021-03-20
# 属性アライメント:事前学習した言語モデルからテキスト生成を制御する

Attribute Alignment: Controlling Text Generation from Pre-trained Language Models ( http://arxiv.org/abs/2103.11070v1 )

ライセンス: Link先を確認
Dian Yu, Kenji Sagae, Zhou Yu(参考訳) 大規模な言語モデルは、大量のラベルのないテキストでトレーニングすることで恩恵を受ける。 しかし、感情極性や特定のトピックといった対象属性を考慮したテキスト生成にこれらのモデルを使用することは、依然として課題である。 本稿では,不整合属性表現を整列させてテキスト生成を制御する,シンプルで柔軟な手法を提案する。 属性のトークンレベル分布を乱すように識別器を訓練する最近の取り組みとは対照的に、同じデータを用いてアライメント関数を学習し、トレーニング済みの非制御言語モデルを誘導し、元の言語モデルパラメータを変更することなく、ターゲット属性を持つテキストを生成する。 本手法は感情・話題制御世代について評価し,従来手法よりも高い性能向上率を示しつつ,流動性と多様性を維持している。

Large language models benefit from training with a large amount of unlabeled text, which gives them increasingly fluent and diverse generation capabilities. However, using these models for text generation that takes into account target attributes, such as sentiment polarity or specific topics, remains a challenge. We propose a simple and flexible method for controlling text generation by aligning disentangled attribute representations. In contrast to recent efforts on training a discriminator to perturb the token level distribution for an attribute, we use the same data to learn an alignment function to guide the pre-trained, non-controlled language model to generate texts with the target attribute without changing the original language model parameters. We evaluate our method on sentiment- and topic-controlled generation, and show large performance gains over previous methods while retaining fluency and diversity.
翻訳日:2021-03-23 14:42:49 公開日:2021-03-20
# 低リソースニューラルマシン翻訳における形態素認識セグメンテーションの有効性

The Effectiveness of Morphology-aware Segmentation in Low-Resource Neural Machine Translation ( http://arxiv.org/abs/2103.11189v1 )

ライセンス: Link先を確認
Jonne S\"alev\"a and Constantine Lignos(参考訳) 本稿では,低リソースのニューラルマシン翻訳環境において,最新のサブワードセグメンテーション手法の性能を評価する。 トークンや文レベルでBPEを適用したセグメンテーションと,LMVRとMORSELのモルフォロジーに基づくセグメンテーションを比較した。 我々は,ネパール語,シンハラ語,カザフ語の各言語間の翻訳課題を評価し,形態素的なセグメンテーション手法を用いることで,この設定においてより良い性能が得られると予測した。 しかし,bpeと比較すると,セグメンテーション法の間に一貫性と信頼性の差はみられなかった。 形態的手法がBPEより優れているケースはいくつかあるが、最も優れた方法はタスクによって異なり、分節法の性能はしばしば統計的に区別できない。

This paper evaluates the performance of several modern subword segmentation methods in a low-resource neural machine translation setting. We compare segmentations produced by applying BPE at the token or sentence level with morphologically-base d segmentations from LMVR and MORSEL. We evaluate translation tasks between English and each of Nepali, Sinhala, and Kazakh, and predict that using morphologically-base d segmentation methods would lead to better performance in this setting. However, comparing to BPE, we find that no consistent and reliable differences emerge between the segmentation methods. While morphologically-base d methods outperform BPE in a few cases, what performs best tends to vary across tasks, and the performance of segmentation methods is often statistically indistinguishable.
翻訳日:2021-03-23 14:42:34 公開日:2021-03-20
# 顔ランドマークを用いた顔非対称性の自動定量化

Automatic Quantification of Facial Asymmetry using Facial Landmarks ( http://arxiv.org/abs/2103.11059v1 )

ライセンス: Link先を確認
Abu Md Niamul Taufique, Andreas Savakis, Jonathan Leckenby(参考訳) 片側の顔面麻痺は顔の側面の顔面の筋肉の不均一な運動を引き起こす。 現在、医師は臨床経験に基づいて顔の非対称性を主観的に評価している。 本稿では,正面面に対する客観的かつ定量的な非対称性スコアを提供する新しい手法を提案する。 当指標は、片面性顔面麻痺患者のリハビリテーションのモニタリングだけでなく、医師の診断を助ける可能性がある。 深層学習に基づくランドマーク検出手法は、スタイル不変な顔ランドマークポイントを推定するために使用され、密度の高い光フローは、フレームの短いシーケンスからの動きマップを生成するために使用される。 6つの顔領域は、額、目、口の左右に対応していると考えられている。 運動は、各関心領域の左と右の部分の間で計算され比較され、対称性スコアを推定する。 テストでは、表情データセットから非対称配列を合成的に生成する。 スコア方程式は対称面列と非対称面列の対称性を定量化する。

One-sided facial paralysis causes uneven movements of facial muscles on the sides of the face. Physicians currently assess facial asymmetry in a subjective manner based on their clinical experience. This paper proposes a novel method to provide an objective and quantitative asymmetry score for frontal faces. Our metric has the potential to help physicians for diagnosis as well as monitoring the rehabilitation of patients with one-sided facial paralysis. A deep learning based landmark detection technique is used to estimate style invariant facial landmark points and dense optical flow is used to generate motion maps from a short sequence of frames. Six face regions are considered corresponding to the left and right parts of the forehead, eyes, and mouth. Motion is computed and compared between the left and the right parts of each region of interest to estimate the symmetry score. For testing, asymmetric sequences are synthetically generated from a facial expression dataset. A score equation is developed to quantify symmetry in both symmetric and asymmetric face sequences.
翻訳日:2021-03-23 14:36:41 公開日:2021-03-20
# SAR画像における深部伝達学習の可視化

Visualization of Deep Transfer Learning In SAR Imagery ( http://arxiv.org/abs/2103.11061v1 )

ライセンス: Link先を確認
Abu Md Niamul Taufique, Navya Nagananda, Andreas Savakis(参考訳) SAR(Synthetic Aperture Radar)画像は、陸上および海洋監視に様々な応用がある。 電気光学(EO)システムとは異なり、これらのシステムは天候の影響を受けず、昼夜でも使用できる。 SARイメージの重要性が高まる中で、広く利用可能なEOデータセットでトレーニングされたモデルもSARイメージに使用できることが望ましい。 本研究では,EO船のデータセットに基づいてトレーニングされたネットワークから,SAR画像上での予測を生成するための転送学習を検討する。 さらに,クラスアクティベーションマップ(CAM)の形でネットワークアクティベーションを探索することにより,SAR画像への転送学習プロセスを可視化し,深層ネットワークが新しいモダリティをどのように解釈するかの洞察を得る。

Synthetic Aperture Radar (SAR) imagery has diverse applications in land and marine surveillance. Unlike electro-optical (EO) systems, these systems are not affected by weather conditions and can be used in the day and night times. With the growing importance of SAR imagery, it would be desirable if models trained on widely available EO datasets can also be used for SAR images. In this work, we consider transfer learning to leverage deep features from a network trained on an EO ships dataset and generate predictions on SAR imagery. Furthermore, by exploring the network activations in the form of class-activation maps (CAMs), we visualize the transfer learning process to SAR imagery and gain insight on how a deep network interprets a new modality.
翻訳日:2021-03-23 14:36:26 公開日:2021-03-20
# ステレオセンターネットを用いた自律走行のための3次元物体検出

Stereo CenterNet based 3D Object Detection for Autonomous Driving ( http://arxiv.org/abs/2103.11071v1 )

ライセンス: Link先を確認
Yuguang Shi, Zhenqiang Mi, Yu Guo(参考訳) 近年,ステレオカメラによる3D検出は大きな進歩を遂げているが,現状のほとんどの手法ではアンカーベースの2D検出や深さ推定を用いてこの問題を解決している。 しかし,計算コストが高いため,リアルタイム性能の達成が困難である。 本研究ではステレオ画像の幾何学的情報を用いた3次元物体検出手法Stereo CenterNetを提案する。 Stereo CenterNetは、空間内のオブジェクトの3D境界ボックスの4つの意味キーポイントを予測し、3D空間におけるオブジェクトのバウンディングボックスを復元するために、2D左の右ボックス、3D次元、向き、キーポイントを使用する。 そして、改良された測光アライメントモジュールを使用して、3Dバウンディングボックスの位置をさらに最適化する。 KITTIデータセットを用いた実験により, ステレオ幾何に基づく最先端手法と比較して, 高速かつ高精度なトレードオフを実現することができた。

In recent years, 3D detection based on stereo cameras has made great progress, but most state-of-the-art methods use anchor-based 2D detection or depth estimation to solve this problem. However, the high computational cost makes these methods difficult to meet real-time performance. In this work, we propose a 3D object detection method using geometric information in stereo images, called Stereo CenterNet. Stereo CenterNet predicts the four semantic key points of the 3D bounding box of the object in space and uses 2D left right boxes, 3D dimension, orientation and key points to restore the bounding box of the object in the 3D space. Then, we use an improved photometric alignment module to further optimize the position of the 3D bounding box. Experiments conducted on the KITTI dataset show that our method achieves the best speed-accuracy trade-off compared with the state-of-the-art methods based on stereo geometry.
翻訳日:2021-03-23 14:36:12 公開日:2021-03-20
# AD-NeRF:音声駆動型頭部合成のためのニューラルラジアンス場

AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis ( http://arxiv.org/abs/2103.11078v1 )

ライセンス: Link先を確認
Yudong Guo, Keyu Chen, Sen Liang, Yongjin Liu, Hujun Bao, Juyong Zhang(参考訳) 入力音声シーケンスに適合して高忠実度音声ヘッドビデオを生成することは,近年注目されている課題である。 本稿では,神経シーン表現ネットワークを用いてこの問題に対処する。 提案手法は,音声入力と映像出力のギャップを埋めるため,2次元ランドマークや3次元顔モデルなどの中間表現に依存する既存の手法とは全く異なる。 具体的には、入力音声信号の特徴を直接条件付き暗黙関数に入力して動的ニューラル放射場を生成し、音信号に対応する高忠実なトーキングヘッド映像をボリュームレンダリングを用いて合成する。 この枠組みのもう1つの利点は、頭(毛髪)領域が以前の方法と同様に合成されるだけでなく、上体が2つの個々の神経放射野を介して生成されることである。 実験結果から,本フレームワークは(1)高忠実で自然な結果が得られ,(2)音声信号,視聴方向,背景画像の自由な調整が可能であることが示された。

Generating high-fidelity talking head video by fitting with the input audio sequence is a challenging problem that receives considerable attentions recently. In this paper, we address this problem with the aid of neural scene representation networks. Our method is completely different from existing methods that rely on intermediate representations like 2D landmarks or 3D face models to bridge the gap between audio input and video output. Specifically, the feature of input audio signal is directly fed into a conditional implicit function to generate a dynamic neural radiance field, from which a high-fidelity talking-head video corresponding to the audio signal is synthesized using volume rendering. Another advantage of our framework is that not only the head (with hair) region is synthesized as previous methods did, but also the upper body is generated via two individual neural radiance fields. Experimental results demonstrate that our novel framework can (1) produce high-fidelity and natural results, and (2) support free adjustment of audio signals, viewing directions, and background images.
翻訳日:2021-03-23 14:35:57 公開日:2021-03-20
# Patch AutoAugment

Patch AutoAugment ( http://arxiv.org/abs/2103.11099v1 )

ライセンス: Link先を確認
Shiqi Lin, Tao Yu, Ruoyu Feng, Zhibo Chen(参考訳) データ拡張(da)は、モデルの一般化を改善するためにディープニューラルネットワークのトレーニングにおいて重要な役割を果たす。 最近の研究によると、AutoAugment (AA)のような自動DAポリシーはモデルの性能を大幅に改善している。 しかし、ほとんどの自動da手法は、画像内の異なる領域に対する最適なポリシーを考慮せずに、画像レベルでdaポリシーを探索する。 本稿ではパッチレベルの自動DAアルゴリズムであるPatch AutoAugment(PAA)を提案する。 PAAはイメージをパッチのグリッドに分割し、各パッチの最適なDAポリシーを検索する。 具体的には、PAAは各パッチDA操作をエージェントによって制御し、マルチエージェント強化学習(MARL)問題としてモデル化する。 各ステップにおいて、PAAは、その内容と画像全体のセマンティクスに基づいて、各パッチに対して最も効果的な操作をサンプリングする。 エージェントはチームとして協力し、画像全体の共同最適DAポリシーを達成するために統一されたチーム報酬を共有する。 この実験により、PAAは画像分類ときめ細かい画像認識の多くのベンチマークデータセットにおいて、目標ネットワーク性能を一貫して改善することが示された。 PAAはFastAAより2.3倍、ImageNetより56.1倍高速である。

Data augmentation (DA) plays a critical role in training deep neural networks for improving the generalization of models. Recent work has shown that automatic DA policy, such as AutoAugment (AA), significantly improves model performance. However, most automatic DA methods search for DA policies at the image-level without considering that the optimal policies for different regions in an image may be diverse. In this paper, we propose a patch-level automatic DA algorithm called Patch AutoAugment (PAA). PAA divides an image into a grid of patches and searches for the optimal DA policy of each patch. Specifically, PAA allows each patch DA operation to be controlled by an agent and models it as a Multi-Agent Reinforcement Learning (MARL) problem. At each step, PAA samples the most effective operation for each patch based on its content and the semantics of the whole image. The agents cooperate as a team and share a unified team reward for achieving the joint optimal DA policy of the whole image. The experiment shows that PAA consistently improves the target network performance on many benchmark datasets of image classification and fine-grained image recognition. PAA also achieves remarkable computational efficiency, i.e 2.3x faster than FastAA and 56.1x faster than AA on ImageNet.
翻訳日:2021-03-23 14:35:41 公開日:2021-03-20
# classifier crafting: convnetをゼロショット学習者に変える!

Classifier Crafting: Turn Your ConvNet into a Zero-Shot Learner! ( http://arxiv.org/abs/2103.11112v1 )

ライセンス: Link先を確認
Jacopo Cavazza(参考訳) ゼロショット学習(ZSL)では,期待される外観のテキスト記述(クラス埋め込み)と,注釈付き視覚データにアクセス可能な授業の非結合プールを用いて,未知のカテゴリを分類する。 我々は「バニラ」畳み込みニューラルネットワーク(例えば、)をキャストすることでZSLに取り組む。 AlexNet, ResNet-101, DenseNet-201, DarkNet-53) はゼロショット学習者になる。 私たちは、softmax分類器を作成して、その重み付けを固定視された分類規則(セマンティクス(seen class embeddeds)またはビジュアル(seen class prototypes)を使用して凍結します。 そして,データ駆動型とZSL対応の特徴表現を,これらの固定分類規則に適合するように学習する。 後者が目に見えないクラスに対してシームレスに一般化されることを考えると、実際の目に見えないデータを計算することなく、テスト時に分類ルールのプールを拡大し、学習したのと全く同じ表現を保ちながらZSL推論を行うことができる。 セマンティックとビジュアルクラフトの組み合わせ(ソフトマックススコアを平均化することで)は、標準のインダクティブZSLのベンチマークデータセットにおける最先端の手法を改善する。 既見および未発見のクラスに対する合同推論をよりうまく扱うために予測を再バランスした後、私たちはまた、事前の一般化された帰納的zslメソッドよりも優れています。 また,ニューラルアテンション法(grad-camなど)をそのまま使用することにより,追加コストで解釈可能となる。 コードは公開される予定だ。

In Zero-shot learning (ZSL), we classify unseen categories using textual descriptions about their expected appearance when observed (class embeddings) and a disjoint pool of seen classes, for which annotated visual data are accessible. We tackle ZSL by casting a "vanilla" convolutional neural network (e.g. AlexNet, ResNet-101, DenseNet-201 or DarkNet-53) into a zero-shot learner. We do so by crafting the softmax classifier: we freeze its weights using fixed seen classification rules, either semantic (seen class embeddings) or visual (seen class prototypes). Then, we learn a data-driven and ZSL-tailored feature representation on seen classes only to match these fixed classification rules. Given that the latter seamlessly generalize towards unseen classes, while requiring not actual unseen data to be computed, we can perform ZSL inference by augmenting the pool of classification rules at test time while keeping the very same representation we learnt: nowhere re-training or fine-tuning on unseen data is performed. The combination of semantic and visual crafting (by simply averaging softmax scores) improves prior state-of-the-art methods in benchmark datasets for standard, inductive ZSL. After rebalancing predictions to better handle the joint inference over seen and unseen classes, we outperform prior generalized, inductive ZSL methods as well. Also, we gain interpretability at no additional cost, by using neural attention methods (e.g., grad-CAM) as they are. Code will be made publicly available.
翻訳日:2021-03-23 14:35:22 公開日:2021-03-20
# レーン線分割のためのジョイント符号化モデルに基づく新しいマルチモーダル融合ネットワーク

A novel multimodal fusion network based on a joint coding model for lane line segmentation ( http://arxiv.org/abs/2103.11114v1 )

ライセンス: Link先を確認
Zhenhong Zou, Xinyu Zhang, Huaping Liu, Zhiwei Li, Amir Hussain and Jun Li(参考訳) 近年,頑丈な車線分割を実現するためにマルチモーダルセンサの利用への関心が高まっている。 本稿では,情報理論の観点から新しいマルチモーダルフュージョンアーキテクチャを導入し,その実用性をLight Detection and Ranging (LiDAR)カメラフュージョンネットワークを用いて実証する。 特に,各ノード,層,パイプラインがチャネルとして表現されるジョイントコーディングモデルとして,初めてマルチモーダル融合ネットワークを開発した。 したがって、前方伝播はチャネル内の情報伝達と等しい。 そして、異なる融合アプローチの効果を質的かつ定量的に分析することができる。 我々は、最適核融合アーキテクチャは、ソースとチャネルに基づいて、必須容量とその割り当てに関係していると論じる。 このマルチモーダル融合仮説をテストするために,提案手法に基づく一連のマルチモーダルモデルを段階的に決定し,KITTIおよびA2D2データセット上で評価する。 我々の最適核融合ネットワークは85%以上の車線精度と98.7%以上の全体を達成する。 モデル間のパフォーマンスギャップは、深層マルチモーダル学習コミュニティのための最適な融合アルゴリズムの開発に関する今後の研究に役立ちます。

There has recently been growing interest in utilizing multimodal sensors to achieve robust lane line segmentation. In this paper, we introduce a novel multimodal fusion architecture from an information theory perspective, and demonstrate its practical utility using Light Detection and Ranging (LiDAR) camera fusion networks. In particular, we develop, for the first time, a multimodal fusion network as a joint coding model, where each single node, layer, and pipeline is represented as a channel. The forward propagation is thus equal to the information transmission in the channels. Then, we can qualitatively and quantitatively analyze the effect of different fusion approaches. We argue the optimal fusion architecture is related to the essential capacity and its allocation based on the source and channel. To test this multimodal fusion hypothesis, we progressively determine a series of multimodal models based on the proposed fusion methods and evaluate them on the KITTI and the A2D2 datasets. Our optimal fusion network achieves 85%+ lane line accuracy and 98.7%+ overall. The performance gap among the models will inform continuing future research into development of optimal fusion algorithms for the deep multimodal learning community.
翻訳日:2021-03-23 14:34:53 公開日:2021-03-20
# モバイルタブレットにおける視線追跡のための適応型特徴融合ネットワーク

Adaptive Feature Fusion Network for Gaze Tracking in Mobile Tablets ( http://arxiv.org/abs/2103.11119v1 )

ライセンス: Link先を確認
Yiwei Bao, Yihua Cheng, Yunfei Liu and Feng Lu(参考訳) 近年,複数ストリームの視線推定手法が提案されている。 彼らは目と顔の外観から視線を推定し、妥当な精度を達成する。 しかし、ほとんどの方法は単に目と顔の外観から抽出された特徴を結合するだけである。 機能融合プロセスは無視されている。 本稿では,モバイルタブレットにおける視線追跡タスクを実行する新しいAdaptive Feature Fusion Network (AFF-Net)を提案する。 我々は2眼特徴写像を積み重ね,Squeeze-and-Excitat ion 層を用いて外観上の類似性に応じて2眼特徴を適応的に融合させる。 また,顔特徴の指導により眼特徴を再調整するための適応型群正規化を提案する。 GazeCaptureとMPIIFaceGazeの両方のデータセットに対する大規模な実験により,提案手法の性能は一貫して向上した。

Recently, many multi-stream gaze estimation methods have been proposed. They estimate gaze from eye and face appearances and achieve reasonable accuracy. However, most of the methods simply concatenate the features extracted from eye and face appearance. The feature fusion process has been ignored. In this paper, we propose a novel Adaptive Feature Fusion Network (AFF-Net), which performs gaze tracking task in mobile tablets. We stack two-eye feature maps and utilize Squeeze-and-Excitati on layers to adaptively fuse two-eye features according to their similarity on appearance. Meanwhile, we also propose Adaptive Group Normalization to recalibrate eye features with the guidance of facial feature. Extensive experiments on both GazeCapture and MPIIFaceGaze datasets demonstrate consistently superior performance of the proposed method.
翻訳日:2021-03-23 14:34:37 公開日:2021-03-20
# ビジュアルオドメトリーを用いた車両制御のための自励式ステアリング角予測

Self-Supervised Steering Angle Prediction for Vehicle Control Using Visual Odometry ( http://arxiv.org/abs/2103.11204v1 )

ライセンス: Link先を確認
Qadeer Khan, Patrick Wenzel, Daniel Cremers(参考訳) 自動運転車の視覚に基づく学習方法は、主に多数のラベルを必要とする教師付きアプローチを用いて訓練を行っている。 しかし、これらのラベルは通常入手が困難で高価である。 本稿では,視覚オドメトリー法を用いて推定したカメラポーズを用いて車両の軌道制御を,完全に自己教師あり方式で訓練する方法を示す。 車両の前方にカメラを設置することにより,複数の異なる走行経路からの軌跡情報を活用するスケーラブルなフレームワークを提案する。 CARLAシミュレータによる実験結果から,提案手法が指導訓練モデルと同等に動作することを示した。

Vision-based learning methods for self-driving cars have primarily used supervised approaches that require a large number of labels for training. However, those labels are usually difficult and expensive to obtain. In this paper, we demonstrate how a model can be trained to control a vehicle's trajectory using camera poses estimated through visual odometry methods in an entirely self-supervised fashion. We propose a scalable framework that leverages trajectory information from several different runs using a camera setup placed at the front of a car. Experimental results on the CARLA simulator demonstrate that our proposed approach performs at par with the model trained with supervision.
翻訳日:2021-03-23 14:34:26 公開日:2021-03-20
# 連帯学習における非独立性の影響の解明

Demystifying the Effects of Non-Independence in Federated Learning ( http://arxiv.org/abs/2103.11226v1 )

ライセンス: Link先を確認
Stefan Arnold, Dilara Yesilbas(参考訳) Federated Learning (FL)は、データセキュリティとユーザのプライバシを損なうことなく、ユーザ生成データ上に統計モデルを構築することを可能にする。 このためflは、データが豊富で民営化されたモバイルデバイスからデバイス上での学習に適しています。 モバイルデバイスの時間的可用性に制限されているため、トレーニングとアグリゲーションからなる反復プロトコルに参加するのは、デバイスのサブセットのみである。 本研究では,ブロック循環サンプリングから発生する非独立なデータ分布の影響をよりよく理解するための一歩を踏み出す。 視覚分類に関する広範囲な実験を行い,ブロック循環サンプリング(単独および非平衡ブロック分布と組み合わせて)の効果を測定した。 具体的には, 精度, 公平性, 収束率の観点から, ブロック循環サンプリングによる変化を測定した。 実験結果は、例えば時間帯による2ブロック構造のサイクリングに対する堅牢性を示している。 対照的に、マルチブロック構造からのデータサンプルの描画は、最大26%の収束率と性能を著しく低下させる。 さらに,この性能低下は,通信量の増加や同期頻度の高まりにより,もはや十分な補償が得られない地点への不均衡なブロック分布によってさらに悪化することがわかった。

Federated Learning (FL) enables statistical models to be built on user-generated data without compromising data security and user privacy. For this reason, FL is well suited for on-device learning from mobile devices where data is abundant and highly privatized. Constrained by the temporal availability of mobile devices, only a subset of devices is accessible to participate in the iterative protocol consisting of training and aggregation. In this study, we take a step toward better understanding the effect of non-independent data distributions arising from block-cyclic sampling. By conducting extensive experiments on visual classification, we measure the effects of block-cyclic sampling (both standalone and in combination with non-balanced block distributions). Specifically, we measure the alterations induced by block-cyclic sampling from the perspective of accuracy, fairness, and convergence rate. Experimental results indicate robustness to cycling over a two-block structure, e.g., due to time zones. In contrast, drawing data samples dependently from a multi-block structure significantly degrades the performance and rate of convergence by up to 26%. Moreover, we find that this performance degeneration is further aggravated by unbalanced block distributions to a point that can no longer be adequately compensated by higher communication and more frequent synchronization.
翻訳日:2021-03-23 14:24:27 公開日:2021-03-20
# ベイズ分布政策の勾配

Bayesian Distributional Policy Gradients ( http://arxiv.org/abs/2103.11265v1 )

ライセンス: Link先を確認
Luchen Li, A. Aldo Faisal(参考訳) distributional reinforcement learning (rl) は報酬から解放までの確率分布全体を維持している。 このリターンは、政策パフォーマンスに関連する不確実性を考慮したより多くの学習シグナルを提供することで、探索や搾取、政策学習全般の取引に有益である可能性がある。 分散RLにおける従来の研究は、状態-作用-復帰分布の計算を中心に、状態-復帰分布をモデル化する。 これにより、状態値に基づく従来のRLアルゴリズムを分散RLに変換することができる。 分布ベルマン演算を,ターゲット/モデルリターン分布間のwassersteinメトリックを最小化する推論に基づく自動エンコーディングプロセスとして定式化する。 提案アルゴリズムであるBDPG (Bayesian Distributional Policy Gradients) は,共用コントラスト学習における逆方向学習を用いて回帰から変動後部を推定する。 さらに, 回帰予測の不確かさを情報ゲインとして解釈し, bdpgの探索を活発かつ効率的に支援する新たな好奇心の指標を得ることができた。 我々は,Atari 2600 ゲームと MuJoCo タスクのスイートにおいて,BDPG が参照分布 RL アルゴリズムよりも一般に速く,漸近的な性能で学習する方法を実証する。

Distributional Reinforcement Learning (RL) maintains the entire probability distribution of the reward-to-go, i.e. the return, providing more learning signals that account for the uncertainty associated with policy performance, which may be beneficial for trading off exploration and exploitation and policy learning in general. Previous works in distributional RL focused mainly on computing the state-action-return distributions, here we model the state-return distributions. This enables us to translate successful conventional RL algorithms that are based on state values into distributional RL. We formulate the distributional Bellman operation as an inference-based auto-encoding process that minimises Wasserstein metrics between target/model return distributions. The proposed algorithm, BDPG (Bayesian Distributional Policy Gradients), uses adversarial training in joint-contrastive learning to estimate a variational posterior from the returns. Moreover, we can now interpret the return prediction uncertainty as an information gain, which allows to obtain a new curiosity measure that helps BDPG steer exploration actively and efficiently. We demonstrate in a suite of Atari 2600 games and MuJoCo tasks, including well known hard-exploration challenges, how BDPG learns generally faster and with higher asymptotic performance than reference distributional RL algorithms.
翻訳日:2021-03-23 14:24:08 公開日:2021-03-20
# 持続的フェデレーション学習のためのUAVコミュニケーション

UAV Communications for Sustainable Federated Learning ( http://arxiv.org/abs/2103.11073v1 )

ライセンス: Link先を確認
Quoc-Viet Pham and Ming Zeng and Rukhsana Ruby and Thien Huynh-The and Won-Joo Hwang(参考訳) 2016年にgoogleが発明したfederated learning(fl)は、ホットな研究トレンドになっている。 しかし、無線ネットワークでflを実現するためには、モバイルユーザーのバッテリー寿命の制限を克服する必要がある。 そこで本稿では,無人航空機(uav)による無線電力伝送を持続可能flベース無線ネットワークに適用することを提案する。 目的は、送信時間と帯域割り当て、電力制御、UAV配置を共同で最適化することで、UAVの送信効率を最大化することである。 変数の結合のため、定式化問題の直接解決は困難である。 したがって,分解法と連続凸近似法を利用して,持続的FL(UAV-SFL)のための効率的なUAVアルゴリズムを開発した。 最後に,提案手法の有効性をシミュレーションにより示し,flベースの無線ネットワークに対して持続的ソリューションを提供すること,また,uavの送電電力を32.95%,63.18%,78.81% 削減する。

Federated learning (FL), invented by Google in 2016, has become a hot research trend. However, enabling FL in wireless networks has to overcome the limited battery challenge of mobile users. In this regard, we propose to apply unmanned aerial vehicle (UAV)-empowered wireless power transfer to enable sustainable FL-based wireless networks. The objective is to maximize the UAV transmit power efficiency, via a joint optimization of transmission time and bandwidth allocation, power control, and the UAV placement. Directly solving the formulated problem is challenging, due to the coupling of variables. Hence, we leverage the decomposition technique and a successive convex approximation approach to develop an efficient algorithm, namely UAV for sustainable FL (UAV-SFL). Finally, simulations illustrate the potential of our proposed UAV-SFL approach in providing a sustainable solution for FL-based wireless networks, and in reducing the UAV transmit power by 32.95%, 63.18%, and 78.81% compared with the benchmarks.
翻訳日:2021-03-23 14:16:20 公開日:2021-03-20
# datalens: 勾配圧縮と集約によるスケーラブルなプライバシー保護トレーニング

DataLens: Scalable Privacy Preserving Training via Gradient Compression and Aggregation ( http://arxiv.org/abs/2103.11109v1 )

ライセンス: Link先を確認
Boxin Wang, Fan Wu, Yunhui Long, Luka Rimanic, Ce Zhang, Bo Li(参考訳) ディープニューラルネットワーク(dnn)の最近の成功は、大規模データセットの可用性にかかっているが、そのようなデータセットのトレーニングは、センシティブなトレーニング情報に対してプライバシリスクをもたらすことが多い。 本稿では,生成モデルと勾配空間のパワーについて検討し,拡張性のあるプライバシ保存型生成モデルDateLENSを提案する。 教師が1次元の予測に投票できる標準のPATEプライバシー保護フレームワークと比較して、高次元勾配ベクトルの投票はプライバシー保護の観点から難しい。 次元削減技術が必要なため,(1)プライバシー保護の改善と(2)SGDの収束の鈍化との間には,微妙なトレードオフ空間をナビゲートする必要がある。 そこで我々は,通信効率のよい学習を生かし,次元縮小のためのトップk圧縮と対応するノイズ注入機構を組み合わせた新しいノイズ圧縮・集約手法TOPAGGを提案する。 理論的には、このフレームワークは生成されたデータの差分プライバシーを保証し、その収束度を解析する。 そこで,本研究では,MNIST,Fashion-MNIST ,高次元CelebAなどの多種多様なデータセットを用いて,DateLENSの実用性を実証するため,他のベースラインDP生成モデルよりも優れていることを示す。 さらに,datalensの重要な構成要素の一つであるtopaggアプローチをdp sgdトレーニングに適用し,ほとんどの場合において最先端のdp sgdアプローチよりも高い有効性を実現可能であることを示す。

Recent success of deep neural networks (DNNs) hinges on the availability of large-scale dataset; however, training on such dataset often poses privacy risks for sensitive training information. In this paper, we aim to explore the power of generative models and gradient sparsity, and propose a scalable privacy-preserving generative model DATALENS. Comparing with the standard PATE privacy-preserving framework which allows teachers to vote on one-dimensional predictions, voting on the high dimensional gradient vectors is challenging in terms of privacy preservation. As dimension reduction techniques are required, we need to navigate a delicate tradeoff space between (1) the improvement of privacy preservation and (2) the slowdown of SGD convergence. To tackle this, we take advantage of communication efficient learning and propose a novel noise compression and aggregation approach TOPAGG by combining top-k compression for dimension reduction with a corresponding noise injection mechanism. We theoretically prove that the DATALENS framework guarantees differential privacy for its generated data, and provide analysis on its convergence. To demonstrate the practical usage of DATALENS, we conduct extensive experiments on diverse datasets including MNIST, Fashion-MNIST, and high dimensional CelebA, and we show that, DATALENS significantly outperforms other baseline DP generative models. In addition, we adapt the proposed TOPAGG approach, which is one of the key building blocks in DATALENS, to DP SGD training, and show that it is able to achieve higher utility than the state-of-the-art DP SGD approach in most cases.
翻訳日:2021-03-23 14:16:02 公開日:2021-03-20
# 有限状態マシンの公開評価のためのラウンド・コミュニケーションバランスプロトコル

Round and Communication Balanced Protocols for Oblivious Evaluation of Finite State Machines ( http://arxiv.org/abs/2103.11240v1 )

ライセンス: Link先を確認
Rafael Dowsley and Caleb Horst and Anderson C. A. Nascimento(参考訳) 本研究では,有限状態機械のプロバイダと入力文字列のプロバイダとの間で,双方が相手の入力を学習せず,訪れた状態が両方から隠蔽されるように,その評価を明示的に評価するためのプロトコルを提案する。 アルファベットサイズ $|\sigma|$, 状態数 $|q|$, 入力長 $n$ に対して、以前の解は数ラウンドを$n$ で直線化するか、$\omega(n|\sigma||q|\log|q|)$ で通信する必要があった。 我々の解は通信$O(n(|\Sigma|+|Q|\log|Q|))$の2ラウンドを必要とする。 我々はこの問題に対する2つの異なる解決法、すなわち、信頼できないが解決しないヘルパーをセットとして提示する。

We propose protocols for obliviously evaluating finite-state machines, i.e., the evaluation is shared between the provider of the finite-state machine and the provider of the input string in such a manner that neither party learns the other's input, and the states being visited are hidden from both. For alphabet size $|\Sigma|$, number of states $|Q|$, and input length $n$, previous solutions have either required a number of rounds linear in $n$ or communication $\Omega(n|\Sigma||Q|\log|Q|)$. Our solutions require 2 rounds with communication $O(n(|\Sigma|+|Q|\log|Q|))$. We present two different solutions to this problem, a two-party one and a setting with an untrusted but non-colluding helper.
翻訳日:2021-03-23 14:15:33 公開日:2021-03-20
# ツリーベース機械学習モデル予測のSHAP解釈による心不全患者の臨床像の理解

Understanding Heart-Failure Patients EHR Clinical Features via SHAP Interpretation of Tree-Based Machine Learning Model Predictions ( http://arxiv.org/abs/2103.11254v1 )

ライセンス: Link先を確認
Shuyu Lu, Ruoyu Chen, Wei Wei, Xinghua Lu(参考訳) 心不全(Heart failure, HF)は、死因の一つ。 患者の予後を改善するには、hf進行の正確なモニタリングと治療の調整が不可欠である。 経験豊富な心臓医は、心機能を直接測定することなく、患者の電子健康記録(EHR)から症状、兆候、検査結果の組み合わせに基づいて正確なHFステージ診断を行うことができる。 機械学習モデル、特にxgboostモデルがehrに基づいて患者ステージを正確に予測できるかどうかを検証し、さらにshapley additive descriptions(shap)フレームワークを適用して情報的特徴とその解釈を同定した。 以上の結果から,EHRの構造化データに基づいて,患者の退院率(EF)を適度な精度で予測できることが示唆された。 SHAPは情報的特徴を同定し,HFの潜在的な臨床サブタイプを明らかにした。 本研究は,HF患者のEHRデータを連続的にマイニングすることで,HF患者の疾患進行を正確にモニタリングするコンピュータシステムの設計方法に関する知見を提供する。

Heart failure (HF) is a major cause of mortality. Accurately monitoring HF progress and adjust therapies are critical for improving patient outcomes. An experienced cardiologist can make accurate HF stage diagnoses based on combination of symptoms, signs, and lab results from the electronic health records (EHR) of a patient, without directly measuring heart function. We examined whether machine learning models, more specifically the XGBoost model, can accurately predict patient stage based on EHR, and we further applied the SHapley Additive exPlanations (SHAP) framework to identify informative features and their interpretations. Our results indicate that based on structured data from EHR, our models could predict patients' ejection fraction (EF) scores with moderate accuracy. SHAP analyses identified informative features and revealed potential clinical subtypes of HF. Our findings provide insights on how to design computing systems to accurately monitor disease progression of HF patients through continuously mining patients' EHR data.
翻訳日:2021-03-23 14:15:15 公開日:2021-03-20
# マルチカメラ配置のための非微分可能対称物体の効率的なグローバル最適化

Efficient Global Optimization of Non-differentiable, Symmetric Objectives for Multi Camera Placement ( http://arxiv.org/abs/2103.11210v1 )

ライセンス: Link先を確認
Maria L. H\"anel and Carola-B. Sch\"onlieb(参考訳) 本稿では,複数台のカメラを3次元シーンに最適配置・配向する手法を提案する。 サンプルアプリケーションには、3D再構築の精度の向上、監視対象エリアの最大化、多視点歩行者追跡のカバレッジ向上が含まれる。 本アルゴリズムは, サロゲート関数と排他領域法を組み合わせたブロック座標昇降法に基づく。 これにより、しばしば高価で定量化または微分不可能な難しい客観的関数を柔軟に扱うことができる。 ソルバはグローバルに収束し、容易に並列化できる。 目的関数の特殊特性,例えば対称性を利用して最適化を高速化する方法を示す。 さらに,非最適静止点間のトレードオフと,視点を連続的に最適化する場合のコスト削減について考察する。

We propose a novel iterative method for optimally placing and orienting multiple cameras in a 3D scene. Sample applications include improving the accuracy of 3D reconstruction, maximizing the covered area for surveillance, or improving the coverage in multi-viewpoint pedestrian tracking. Our algorithm is based on a block-coordinate ascent combined with a surrogate function and an exclusion area technique. This allows to flexibly handle difficult objective functions that are often expensive and quantized or non-differentiable. The solver is globally convergent and easily parallelizable. We show how to accelerate the optimization by exploiting special properties of the objective function, such as symmetry. Additionally, we discuss the trade-off between non-optimal stationary points and the cost reduction when optimizing the viewpoints consecutively.
翻訳日:2021-03-23 14:11:43 公開日:2021-03-20
# 被写体と視力の最適化のためのZバッファレンダリングによるマルチカメラ配置

Multi Camera Placement via Z-buffer Rendering for the Optimization of the Coverage and the Visual Hull ( http://arxiv.org/abs/2103.11211v1 )

ライセンス: Link先を確認
Maria L. H\"anel and Johannes V\"olkel and Dominik Henrich(参考訳) 人間の完全性が保証されている場合、共通のワークセルで人間とロボットの協力を許可するだけである。 複数のカメラを備えた監視システムは、人間の協力者に接触することなく衝突を検出することができる。 障害セーフシステムは、ロボットワークセルの重要な領域を安全重複で最適にカバーする必要がある。 ワークセルの3次元CADモデルにカメラを最適配置・配向する効率的なアルゴリズムを提案する。 各ステップにおけるカメラコンステレーションの品質を評価するため、画像取得のためのzバッファレンダリング技術、オーバーラップのためのボクセル空間、保守的な人体再構成のための精細な視覚内包手法を用いて視覚システムをシミュレートした。 このシミュレーションは、テーブル、ラック、壁、ロボット、人といった静的および動的視覚障害の存在下で、画像の歪みと高度な画像解析に関して品質を評価することができる。 本手法は,複数のカメラのカバー範囲を最大化したり,視覚ハルによる誤差を最小化するのに理想的であり,確率的空間彫刻に拡張できる。

We can only allow human-robot-cooperat ion in a common work cell if the human integrity is guaranteed. A surveillance system with multiple cameras can detect collisions without contact to the human collaborator. A failure safe system needs to optimally cover the important areas of the robot work cell with safety overlap. We propose an efficient algorithm for optimally placing and orienting the cameras in a 3D CAD model of the work cell. In order to evaluate the quality of the camera constellation in each step, our method simulates the vision system using a z-buffer rendering technique for image acquisition, a voxel space for the overlap and a refined visual hull method for a conservative human reconstruction. The simulation allows to evaluate the quality with respect to the distortion of images and advanced image analysis in the presence of static and dynamic visual obstacles such as tables, racks, walls, robots and people. Our method is ideally suited for maximizing the coverage of multiple cameras or minimizing an error made by the visual hull and can be extended to probabilistic space carving.
翻訳日:2021-03-23 14:11:32 公開日:2021-03-20
# 40次元部分空間におけるトレインディープニューラルネットワーク

Train Deep Neural Networks in 40-D Subspaces ( http://arxiv.org/abs/2103.11154v1 )

ライセンス: Link先を確認
Tao Li, Lei Tan, Qinghua Tao, Yipeng Liu, Xiaolin Huang(参考訳) ディープニューラルネットワークには膨大なパラメータがあるが、トレーニングはかなり低次元の空間で進行することができる。 このような訓練軌跡の低次元特性を調べることにより,パラメータ空間を著しく低次元の可変部分空間に劇的に還元する動的線形次元化法(DLDR)を提案する。 最適化する変数はわずかであるので、二階法が適用できる。 この考え方に従い、ニューラルネットワークのパラメータではなく、dldrによって得られるこれらの変数をトレーニングする準ニュートンベースのアルゴリズムを開発した。 多くの標準ニューラルネットワークでは、たった40変数以上を最適化することで、数千から数百万のパラメータの通常のトレーニングに対して同等のパフォーマンスを達成できます。

Although there are massive parameters in deep neural networks, the training can actually proceed in a rather low-dimensional space. By investigating such low-dimensional properties of the training trajectory, we propose a Dynamic Linear Dimensionality Reduction (DLDR), which dramatically reduces the parameter space to a variable subspace of significantly lower dimension. Since there are only a few variables to optimize, second-order methods become applicable. Following this idea, we develop a quasi-Newton-based algorithm to train these variables obtained by DLDR, rather than the original parameters of neural networks. The experimental results strongly support the dimensionality reduction performance: for many standard neural networks, optimizing over only 40 variables, one can achieve comparable performance against the regular training over thousands or even millions of parameters.
翻訳日:2021-03-23 14:11:16 公開日:2021-03-20
# 航空遅延予測のための時空間データマイニング

Spatio-Temporal Data Mining for Aviation Delay Prediction ( http://arxiv.org/abs/2103.11221v1 )

ライセンス: Link先を確認
Kai Zhang, Yushan Jiang, Dahai Liu and Houbing Song(参考訳) 今後10年間で商業航空会社が前例のない増加に対応するため、次世代航空輸送システム(NextGen)が米国で実施され、航空輸送をより安全で効率よく、より経済的にするための大規模な航空交通管理(ATM)データを記録している。 航空交通スケジューリングと航空資源管理のための協調意思決定の重要な役割は、飛行遅延の正確な予測である。 出発・到着の航空交通データを用いて、飛行遅延状況の予測に機械学習などのデータ駆動手法を適用する試みが数多く行われている。 しかし、そのほとんどは航空会社の空間情報と、不正確な予測をもたらす連続飛行間の時間的相関を省略している。 本稿では,商用機用スタック型long short-term memory (lstm) ネットワークを用いた航空遅延予測システムを提案する。 このシステムは、自動監視ブロードキャスト(ADS-B)メッセージから歴史的軌跡から学習し、相関位置情報を用いて、気候要素、航空交通、空域、人的要因などの不必要な特徴を後続ルートに沿って収集する。 これらの機能は統合され、提案する回帰モデルに供給されます。 データの潜在時空間パターンはLSTMアーキテクチャで抽象化され、学習される。 従来と比べ,大規模なハブ空港ではより堅牢で正確であることが実証された。

To accommodate the unprecedented increase of commercial airlines over the next ten years, the Next Generation Air Transportation System (NextGen) has been implemented in the USA that records large-scale Air Traffic Management (ATM) data to make air travel safer, more efficient, and more economical. A key role of collaborative decision making for air traffic scheduling and airspace resource management is the accurate prediction of flight delay. There has been a lot of attempts to apply data-driven methods such as machine learning to forecast flight delay situation using air traffic data of departures and arrivals. However, most of them omit en-route spatial information of airlines and temporal correlation between serial flights which results in inaccuracy prediction. In this paper, we present a novel aviation delay prediction system based on stacked Long Short-Term Memory (LSTM) networks for commercial flights. The system learns from historical trajectories from automatic dependent surveillance-broadca st (ADS-B) messages and uses the correlative geolocations to collect indispensable features such as climatic elements, air traffic, airspace, and human factors data along posterior routes. These features are integrated and then are fed into our proposed regression model. The latent spatio-temporal patterns of data are abstracted and learned in the LSTM architecture. Compared with previous schemes, our approach is demonstrated to be more robust and accurate for large hub airports.
翻訳日:2021-03-23 14:11:05 公開日:2021-03-20
# (参考訳) DanceNet3D:パラメトリックモーショントランスを用いた音楽ベースダンス生成 [全文訳有]

DanceNet3D: Music Based Dance Generation with Parametric Motion Transformer ( http://arxiv.org/abs/2103.10206v2 )

ライセンス: CC BY 4.0
Buyu Li, Yongchi Zhao, Lu Sheng(参考訳) 本研究では,音楽全体から鮮やかなダンスを生成できる新しい深層学習フレームワークを提案する。 課題を運動状態パラメータのフレーム生成と定義した先行研究とは対照的に,この課題を,アニメーション産業の実践に触発された,キーポーズ間の動き曲線の予測として定式化する。 提案したフレームワークはDanceNet3Dと呼ばれ、まず与えられた音楽のビートにキーポーズを生成し、その間の動き曲線を予測する。 DanceNet3Dは、エンコーダ・デコーダアーキテクチャと、トレーニングのための敵のスキームを採用している。 DanceNet3Dのデコーダはモーション生成に適した変換器であるMoTrans上に構築されている。 MoTransでは,キネマティック・チェーン・ネットワークによるキネマティック・相関を導入し,人間の動作の時間的局所的相関を考慮に入れた学習的局所注意モジュールを提案する。 さらに,プロのアニマティエータが生成した最初の大規模ダンスデータセットであるPhantomDanceを提案する。 広範囲にわたる実験により、提案手法は、能動的、エレガント、パフォーマンス、ビート同期の3dダンスを生成できることが示されている。

In this work, we propose a novel deep learning framework that can generate a vivid dance from a whole piece of music. In contrast to previous works that define the problem as generation of frames of motion state parameters, we formulate the task as a prediction of motion curves between key poses, which is inspired by the animation industry practice. The proposed framework, named DanceNet3D, first generates key poses on beats of the given music and then predicts the in-between motion curves. DanceNet3D adopts the encoder-decoder architecture and the adversarial schemes for training. The decoders in DanceNet3D are constructed on MoTrans, a transformer tailored for motion generation. In MoTrans we introduce the kinematic correlation by the Kinematic Chain Networks, and we also propose the Learned Local Attention module to take the temporal local correlation of human motion into consideration. Furthermore, we propose PhantomDance, the first large-scale dance dataset produced by professional animatiors, with accurate synchronization with music. Extensive experiments demonstrate that the proposed approach can generate fluent, elegant, performative and beat-synchronized 3D dances, which significantly surpasses previous works quantitatively and qualitatively.
翻訳日:2021-03-23 13:13:15 公開日:2021-03-20
# 知識蒸留を用いたヒューマンインスパイアされたマルチエージェントナビゲーション

Human-Inspired Multi-Agent Navigation using Knowledge Distillation ( http://arxiv.org/abs/2103.10000v2 )

ライセンス: Link先を確認
Pei Xu and Ioannis Karamouzas(参考訳) マルチエージェントナビゲーションの分野では大きな進歩があったが、エージェントは人間がマルチエージェント設定で示す高度な知識を欠いている。 本稿では,完全分散マルチエージェント環境におけるエージェント・エージェント間インタラクションのためのヒューマンライクな一般衝突回避ポリシーを学習するための枠組みを提案する。 提案手法では, 行動クローニングによる人間軌道実証から抽出した知識蒸留と強化学習を用いて報酬関数を形成する。 提案手法により訓練されたエージェントは,実験で提供されていない衝突回避や目標指向の操舵作業において,人間のような軌道を取ることができることを示す。

Despite significant advancements in the field of multi-agent navigation, agents still lack the sophistication and intelligence that humans exhibit in multi-agent settings. In this paper, we propose a framework for learning a human-like general collision avoidance policy for agent-agent interactions in fully decentralized, multi-agent environments. Our approach uses knowledge distillation with reinforcement learning to shape the reward function based on expert policies extracted from human trajectory demonstrations through behavior cloning. We show that agents trained with our approach can take human-like trajectories in collision avoidance and goal-directed steering tasks not provided by the demonstrations, outperforming the experts as well as learning-based agents trained without knowledge distillation.
翻訳日:2021-03-23 11:37:31 公開日:2021-03-20