このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211030となっている論文です。

PDF登録状況(公開日: 20211030)

TitleAuthorsAbstract論文公表日・翻訳日
# ハリケーンの進化予測のためのデータベースモデル:ディープラーニングアプローチ

Data-Based Models for Hurricane Evolution Prediction: A Deep Learning Approach ( http://arxiv.org/abs/2111.12683v1 )

ライセンス: Link先を確認
Rikhi Bose, Adam Pintar and Emil Simiu(参考訳) 生命の損失を減らし、コミュニティのレジリエンスを高めるためには、遺伝子導入以降のハリケーン進化の迅速かつ正確な予測が必要である。 本研究では,2種類のリカレントニューラルネットワーク(RNN)に基づいて,嵐軌道予測のための新しいモデル開発手法を提案する。 RNNモデルは、NHC(National Hurricane Center)が管理する北大西洋ハリケーンデータベースHURDAT2の入力機能に基づいて訓練されている。 モデルは、歴史的データから計算された任意の場所を通過する嵐の確率を使用する。 モデル予測誤差の詳細な解析により、多対一の予測モデルは、複合的なエラー蓄積による多対多のモデルよりも精度が低いことが示されている。 北大西洋流域での75以上の試験嵐の適用は、短期予測で最大12時間まで、Multi-to-Many RNNのストーム軌道予測モデルは、NHCが使用するアンサンブルモデルよりも大幅に高速であり、同じ規模の誤差をもたらすことを示した。

Fast and accurate prediction of hurricane evolution from genesis onwards is needed to reduce loss of life and enhance community resilience. In this work, a novel model development methodology for predicting storm trajectory is proposed based on two classes of Recurrent Neural Networks (RNNs). The RNN models are trained on input features available in or derived from the HURDAT2 North Atlantic hurricane database maintained by the National Hurricane Center (NHC). The models use probabilities of storms passing through any location, computed from historical data. A detailed analysis of model forecasting error shows that Many-To-One prediction models are less accurate than Many-To-Many models owing to compounded error accumulation, with the exception of $6-hr$ predictions, for which the two types of model perform comparably. Application to 75 or more test storms in the North Atlantic basin showed that, for short-term forecasting up to 12 hours, the Many-to-Many RNN storm trajectory prediction models presented herein are significantly faster than ensemble models used by the NHC, while leading to errors of comparable magnitude.
翻訳日:2021-11-28 18:19:28 公開日:2021-10-30
# (参考訳) 慢性疾患の老年臨床医療における機械学習の利用 : 体系的文献レビュー [全文訳有]

Use of machine learning in geriatric clinical care for chronic diseases: a systematic literature review ( http://arxiv.org/abs/2111.08441v1 )

ライセンス: CC BY 4.0
Avishek Choudhury, Emily Renjilian and Onur Asan(参考訳) Objectives-Geriatric Clinical Careは、高齢者(65歳以上)の機能的能力、身体的健康、認知的幸福を評価するために設計された多分野の医療評価である。 これらの患者の大半は複数の慢性疾患を患っており、特別な注意が必要である。 近年、病院は高齢者のケアを改善するために様々な人工知能(AI)システムを利用している。 この体系的な文献レビューの目的は、慢性疾患の老年医療におけるAIシステム、特に機械学習(ML)の現在の利用を理解することである。 資料と手法-我々は2010年1月から2019年6月までに英語で出版された研究論文を分析するために,pubmed, worldcat, medline, proquest, sciencedirect, springerlink, wiley, ericの8つのデータベースに検索を制限した。 我々は,慢性疾患のある高齢者のケアにMLアルゴリズムを用いた研究に焦点をあてた。 結果: 対象研究は35例であり, 精神疾患 (n=22), 眼疾患 (n=6), その他の3群 (n=7) に分類した。 このレビューでは、標準化されたML評価指標の欠如と、医療アプリケーションに特化したデータガバナンスの必要性が明らかになった。 結論-老年医療の改善にMLが役立つかどうかを確認するためには、医療応用に適したさらなる研究とML標準化が必要である。

Objectives-Geriatric clinical care is a multidisciplinary assessment designed to evaluate older patients (age 65 years and above) functional ability, physical health, and cognitive wellbeing. The majority of these patients suffer from multiple chronic conditions and require special attention. Recently, hospitals utilize various artificial intelligence (AI) systems to improve care for elderly patients. The purpose of this systematic literature review is to understand the current use of AI systems, particularly machine learning (ML), in geriatric clinical care for chronic diseases. Materials and Methods-We restricted our search to eight databases, namely PubMed, WorldCat, MEDLINE, ProQuest, ScienceDirect, SpringerLink, Wiley, and ERIC, to analyze research articles published in English between January 2010 and June 2019. We focused on studies that used ML algorithms in the care of geriatrics patients with chronic conditions. Results-We identified 35 eligible studies and classified in three groups-psychological disorder (n=22), eye diseases (n=6), and others (n=7). This review identified the lack of standardized ML evaluation metrics and the need for data governance specific to health care applications. Conclusion- More studies and ML standardization tailored to health care applications are required to confirm whether ML could aid in improving geriatric clinical care.
翻訳日:2021-11-21 17:03:38 公開日:2021-10-30
# ディープニューラルネットワークを用いたTWRの壁面および物体パラメータの同時推定

Simultaneous estimation of wall and object parameters in TWR using deep neural network ( http://arxiv.org/abs/2111.04568v1 )

ライセンス: Link先を確認
Fardin Ghorbani, Hossein Soleimani(参考訳) 本稿では,壁間レーダにおける目標パラメータと壁パラメータを同時に推定するディープラーニングモデルを提案する。 本研究では,単一ターゲットと2ターゲットの2つのモードを考える。 いずれの場合も, 壁の誘電率と厚さ, ターゲット中心の二次元座標, 誘電率を考える。 これは、1つのターゲットの場合、5つの値を見積もる一方で、2つのターゲットの場合、8つの値を同時に見積もることを意味します。 その結果,深層ニューラルネットワークを用いて対象の探索問題を解くと,モデルにより多くのパラメータを与えると位置精度が向上することがわかった。 その結果,壁面パラメータが2つ含まれており,壁面パラメータの推定中に目標位置の精度が向上することが判明した。 深部ニューラルネットワークモデルを用いて,壁の誘電率と厚さのパラメータと,単一ターゲットモードと2ターゲットモードにおける目標の2次元座標と誘電率を99倍精度で推定することができた。

This paper presents a deep learning model for simultaneously estimating target and wall parameters in Through-the-Wall Radar. In this work, we consider two modes: single-target and two-targets. In both cases, we consider the permittivity and thickness for the wall, as well as the two-dimensional coordinates of the target's center and permittivity. This means that in the case of a single target, we estimate five values, whereas, in the case of two targets, we estimate eight values simultaneously, each of which represents the mentioned parameters. We discovered that when using deep neural networks to solve the target locating problem, giving the model more parameters of the problem increases the location accuracy. As a result, we included two wall parameters in the problem and discovered that the accuracy of target locating improves while the wall parameters are estimated. We were able to estimate the parameters of wall permittivity and thickness, as well as two-dimensional coordinates and permittivity of targets in single-target and two-target modes with 99\% accuracy by using a deep neural network model.
翻訳日:2021-11-14 15:26:45 公開日:2021-10-30
# 機械学習誤り訂正を用いた低忠実度モデルによる位置最適化

Use of low-fidelity models with machine-learning error correction for well placement optimization ( http://arxiv.org/abs/2111.02960v1 )

ライセンス: Link先を確認
Haoyu Tang and Louis J. Durlofsky(参考訳) ウェルプレースメント最適化は、人口ベースの大域的確率的探索アルゴリズムを用いて行われる。 これらの最適化は、大量の多相流シミュレーションを行う必要があるため、計算コストがかかる。 本研究では,これらのシミュレーションを低忠実度(LF)モデルで行う最適化フレームワークを提案する。 これらのLFモデルは、大域的透過率アップスケーリング法を用いて、基礎となる高忠実度(HF)ジオモデルから構築される。 木に基づく機械学習手法、特にランダムフォレストと光勾配促進機を用いて、LFモデルに関連する目的関数値(この場合、ネット現在値、NPV)の誤差を推定する。 オフライン(前処理)ステップでは、LFモデルを使用して予備最適化を行い、クラスタリング手順を適用して、トレーニングに使用する100-150ウェル構成の代表セットを選択する。 これらの構成に対してHFシミュレーションが実行され、ツリーベースのモデルが適切な機能セットを使用してトレーニングされる。 オンライン(ランタイム)ステップでは、LFモデルによる最適化と機械学習の修正が行われる。 微分進化は全ての最適化に使用される。 3次元バイモーダル水路モデルにおける鉛直坑井の設置に関する2つの例を示す。 我々は,HFモデルを用いた最適化手法の性能を比較する。 第一に、両方のアプローチで25の最適化実行が実行される。 提案手法は, HF モデルを用いた最適化と比較して, HF 結果の 1% 以内の NPV で全体の 46 倍の高速化係数を提供する。 第2のケースでは,HF最適化の実行を減らし(実際の実践と一致),アプローチによる全体的な高速化率は約8。 この場合、我々の手順から得られる最良のNPVはHFを3.8%上回る。

Well placement optimization is commonly performed using population-based global stochastic search algorithms. These optimizations are computationally expensive due to the large number of multiphase flow simulations that must be conducted. In this work, we present an optimization framework in which these simulations are performed with low-fidelity (LF) models. These LF models are constructed from the underlying high-fidelity (HF) geomodel using a global transmissibility upscaling procedure. Tree-based machine-learning methods, specifically random forest and light gradient boosting machine, are applied to estimate the error in objective function value (in this case net present value, NPV) associated with the LF models. In the offline (preprocessing) step, preliminary optimizations are performed using LF models, and a clustering procedure is applied to select a representative set of 100--150 well configurations to use for training. HF simulation is then performed for these configurations, and the tree-based models are trained using an appropriate set of features. In the online (runtime) step, optimization with LF models, with the machine-learning correction, is conducted. Differential evolution is used for all optimizations. Results are presented for two example cases involving the placement of vertical wells in 3D bimodal channelized geomodels. We compare the performance of our procedure to optimization using HF models. In the first case, 25 optimization runs are performed with both approaches. Our method provides an overall speedup factor of 46 relative to optimization using HF models, with the best-case NPV within 1% of the HF result. In the second case fewer HF optimization runs are conducted (consistent with actual practice), and the overall speedup factor with our approach is about 8. In this case, the best-case NPV from our procedure exceeds the HF result by 3.8%
翻訳日:2021-11-07 11:09:27 公開日:2021-10-30
# (参考訳) 気候モニタリングのための南洋の臨界生物地球化学予測 [全文訳有]

Predicting Critical Biogeochemistry of the Southern Ocean for Climate Monitoring ( http://arxiv.org/abs/2111.00126v1 )

ライセンス: CC BY 4.0
Ellen Park, Jae Deok Kim, Nadege Aoki, Yumeng Melody Cao, Yamin Arefeen, Matthew Beveridge, David Nicholson, Iddo Drori(参考訳) biogeochemical-argo( bgc-argo)プログラムは、グローバルに分散したセンサーを搭載したロボットプロファイリングフロートによるネットワークを構築し、気候システムの理解と、それがどのように変化するかを改善する。 しかし、これらのフロートは測定された変数の数に制限がある。 本研究では, 温度, 圧力, 塩分, 酸素, 硝酸, 位置から南洋のケイ酸塩およびリン酸値を予測するためにニューラルネットワークを訓練し, これらのモデルを地球系モデル(esm)およびbgc-argoデータに適用し, この海洋観測ネットワークの有用性を拡大する。 我々は,Global Ocean Ship-Based Hydrographic Investigations Program(GO-SHIP)の観測に基づいてニューラルネットワークをトレーニングし,予測値に不確実性をもたらすためにドロップアウト正規化を使用した。 我々のニューラルネットワークは線形回帰を著しく改善するが、予測変数の範囲で不確実性の変動レベルを示す。 ESMデータとBGC-Argoデータの両方からトレーニング分布外のデータをテストするための推定器の一般化を検討する。 生物地球化学的パラメータの変化を調査し, 推定値に関する不確実性境界を計算するために, 分布外試験データを用いて, 海洋データと気候モニタリングの最先端を推察した。 データとコードを公開しています。

The Biogeochemical-Argo (BGC-Argo) program is building a network of globally distributed, sensor-equipped robotic profiling floats, improving our understanding of the climate system and how it is changing. These floats, however, are limited in the number of variables measured. In this study, we train neural networks to predict silicate and phosphate values in the Southern Ocean from temperature, pressure, salinity, oxygen, nitrate, and location and apply these models to earth system model (ESM) and BGC-Argo data to expand the utility of this ocean observation network. We trained our neural networks on observations from the Global Ocean Ship-Based Hydrographic Investigations Program (GO-SHIP) and use dropout regularization to provide uncertainty bounds around our predicted values. Our neural network significantly improves upon linear regression but shows variable levels of uncertainty across the ranges of predicted variables. We explore the generalization of our estimators to test data outside our training distribution from both ESM and BGC-Argo data. Our use of out-of-distribution test data to examine shifts in biogeochemical parameters and calculate uncertainty bounds around estimates advance the state-of-the-art in oceanographic data and climate monitoring. We make our data and code publicly available.
翻訳日:2021-11-04 12:05:32 公開日:2021-10-30
# (参考訳) 分布外配向と照明におけるオブジェクトへのDNN一般化を促進する3つのアプローチ:遅延ストッピング、バッチ正規化のチューニング、不変損失

Three approaches to facilitate DNN generalization to objects in out-of-distribution orientations and illuminations: late-stopping, tuning batch normalization and invariance loss ( http://arxiv.org/abs/2111.00131v1 )

ライセンス: CC BY 4.0
Akira Sakai, Taro Sunagawa, Spandan Madan, Kanata Suzuki, Takashi Katoh, Hiromichi Kobashi, Hanspeter Pfister, Pawan Sinha, Xavier Boix, Tomotake Sasaki(参考訳) トレーニングデータ分布は、特定の方向や照明条件のオブジェクトに対して偏りがしばしばある。 人間は、od(out-of-distributi on)方向と照度で物体を認識する能力を持っているが、大量のトレーニング例がある場合でも、このケースではディープニューラルネットワーク(dnn)がひどく苦しむ。 本稿では,OoD配向と照明における物体認識において,DNNを改善するための3つのアプローチについて検討する。 すなわち、これらは (i)in-distribution(i nd)検証精度、すなわち遅延停止精度の収束後、はるかに長い訓練 (ii)バッチ正規化層の運動量パラメータの調整、及び (iii)配向および照明条件に対する中間層における神経活動のばらつきを強制する。 これらのアプローチはいずれも、DNNのOoD精度を大幅に改善する(場合によっては20%以上)。 MNISTとiLabのデータセットから2つのデータセットが修正され、残りの2つが新しい(3Dレンダリングされた車のうちの1つと、様々な制御された向きと照明条件から取られたオブジェクト)。 これらのデータセットは、異なるバイアスの影響を研究することができ、dnnがood条件で性能が悪いため困難である。 最後に、3つのアプローチはdnnの異なる側面に焦点を当てているが、いずれもoodの精度向上を実現するために、同じ基盤となる神経機構をもたらす傾向があることを実証する。

The training data distribution is often biased towards objects in certain orientations and illumination conditions. While humans have a remarkable capability of recognizing objects in out-of-distribution (OoD) orientations and illuminations, Deep Neural Networks (DNNs) severely suffer in this case, even when large amounts of training examples are available. In this paper, we investigate three different approaches to improve DNNs in recognizing objects in OoD orientations and illuminations. Namely, these are (i) training much longer after convergence of the in-distribution (InD) validation accuracy, i.e., late-stopping, (ii) tuning the momentum parameter of the batch normalization layers, and (iii) enforcing invariance of the neural activity in an intermediate layer to orientation and illumination conditions. Each of these approaches substantially improves the DNN's OoD accuracy (more than 20% in some cases). We report results in four datasets: two datasets are modified from the MNIST and iLab datasets, and the other two are novel (one of 3D rendered cars and another of objects taken from various controlled orientations and illumination conditions). These datasets allow to study the effects of different amounts of bias and are challenging as DNNs perform poorly in OoD conditions. Finally, we demonstrate that even though the three approaches focus on different aspects of DNNs, they all tend to lead to the same underlying neural mechanism to enable OoD accuracy gains -- individual neurons in the intermediate layers become more selective to a category and also invariant to OoD orientations and illuminations.
翻訳日:2021-11-04 11:59:24 公開日:2021-10-30
# (参考訳) バンディットにおけるトレーディングオフ後悔のない効率的な推定:トンプソンサンプリングのための割り当て確率検定

Efficient Inference Without Trading-off Regret in Bandits: An Allocation Probability Test for Thompson Sampling ( http://arxiv.org/abs/2111.00137v1 )

ライセンス: CC BY-SA 4.0
Nina Deliu, Joseph J. Williams, Sofia S. Villar(参考訳) 適応ランダム化実験を行うのにバンドアルゴリズムを用いると、後悔を最小限に抑えることができるが、統計的推測(バイアス推定器、インフレーション型I誤差、パワー低下など)には大きな課題が生じる。 これらの課題に対処する最近の試みは、典型的にはバンドイットアルゴリズムの搾取的性質に制限を課すものであり、漸近的な保証を保証するために大きなサンプルサイズを必要とする。 しかし、大きな実験は一般に、その大きさや持続時間に厳しく制約された試験的な研究を成功させる。 このような小さなパイロット実験におけるパワーの増大は、アルゴリズムの適応性を制限することなく、有望な介入がより大きな実験段階に到達することができる。 本研究では,banditアルゴリズムの割り当て確率に一意的に基づいて,その実用性や最小実験サイズを制約することなく,新たな仮説テストを提案する。 私たちは$allocation\ probability\ test$を$thompson\ sampling$に適用し、漸近的な理論特性を示し、最先端のアプローチと比較して有限個の性能を示す。 特に小さなサンプルでは、広範囲なシミュレーションと実際のメンタルヘルスに関する実験の両方において、我々のアプローチの後悔と推論の利点を実証する。

Using bandit algorithms to conduct adaptive randomised experiments can minimise regret, but it poses major challenges for statistical inference (e.g., biased estimators, inflated type-I error and reduced power). Recent attempts to address these challenges typically impose restrictions on the exploitative nature of the bandit algorithm$-$trading off regret$-$and require large sample sizes to ensure asymptotic guarantees. However, large experiments generally follow a successful pilot study, which is tightly constrained in its size or duration. Increasing power in such small pilot experiments, without limiting the adaptive nature of the algorithm, can allow promising interventions to reach a larger experimental phase. In this work we introduce a novel hypothesis test, uniquely based on the allocation probabilities of the bandit algorithm, and without constraining its exploitative nature or requiring a minimum experimental size. We characterise our $Allocation\ Probability\ Test$ when applied to $Thompson\ Sampling$, presenting its asymptotic theoretical properties, and illustrating its finite-sample performances compared to state-of-the-art approaches. We demonstrate the regret and inferential advantages of our approach, particularly in small samples, in both extensive simulations and in a real-world experiment on mental health aspects.
翻訳日:2021-11-04 11:57:16 公開日:2021-10-30
# (参考訳) 悪意あるWebサイトの背後にあるIPアドレスのホストタイプ [全文訳有]

Uncovering IP Address Hosting Types Behind Malicious Websites ( http://arxiv.org/abs/2111.00142v1 )

ライセンス: CC BY 4.0
Nimesha Wickramasinghe, Mohamed Nabeel, Kenneth Thilakaratne, Chamath Keppitiyagama, Kasun De Zoysa(参考訳) 毎日何十万もの悪質なドメインが作成されている。 これらの悪意のあるドメインは、さまざまなネットワークインフラストラクチャにホストされている。 伝統的に、攻撃者は弾丸証明ホスティングサービス(例えば、maxided、cyber bunker)を使用して、彼らがホストできるコンテンツに対する比較的寛大なポリシーを利用する。 しかし、これらのIP範囲はますますブロックされているか、法執行機関によってサービスを停止されている。 そのため、攻撃者は通常のホスティングプロバイダのIPを活用しながら、これらのホスティングプロバイダのレーダーの下に留まっている。 悪質なドメインをホストするのに使用されるipの種類を正確に知るための実用的な利点はいくつかある。 ipが専用のip(すなわち、単一のエンティティにリースされる)である場合、同じipにホストされた他の悪意のあるドメインを識別する方法として、welllでホストされたドメインをブロックするためにipをブラックリストすることができる。 IPが共有ホスティングIPである場合、ホスティングプロバイダは、そのようなドメインをクリーンアップし、ユーザに対する高い評価を維持するための措置を取ることができる。

Hundreds of thousands of malicious domains are created everyday. These malicious domains are hosted on a wide variety of network infrastructures. Traditionally, attackers utilize bullet proof hosting services (e.g. MaxiDed, Cyber Bunker) to take advantage of relatively lenient policies on what content they can host. However, these IP ranges are increasingly being blocked or the services are taken down by law enforcement. Hence, attackers are moving towards utilizing IPs from regular hosting providers while staying under the radar of these hosting providers. There are several practical advantages of accurately knowing the type of IP used to host malicious domains. If the IP is a dedicated IP (i.e. it is leased to a single entity), one may blacklist the IP to block domains hosted on those IPs as welll as use as a way to identify other malicious domains hosted the same IP. If the IP is a shared hosting IP, hosting providers may take measures to clean up such domains and maintain a high reputation for their users.
翻訳日:2021-11-04 11:56:05 公開日:2021-10-30
# (参考訳) 多言語音声認識のための擬似ラベリング [全文訳有]

Pseudo-Labeling for Massively Multilingual Speech Recognition ( http://arxiv.org/abs/2111.00161v1 )

ライセンス: CC0 1.0
Loren Lugosch, Tatiana Likhomanenko, Gabriel Synnaeve, Ronan Collobert(参考訳) 擬似ラベルによる半教師付き学習は、最先端の単言語音声認識システムの主流となっている。 本研究では,60言語を用いた多言語音声認識に擬似ラベルを拡張した。 教師付き多言語モデルの訓練,ターゲット言語における半教師付き学習による微調整,その言語のための擬似ラベルの生成,スクラッチからあるいは微調整によって,すべての言語に対する擬似ラベルを用いた最終モデルの訓練,といった,低リソース言語でもうまく機能するシンプルな擬似ラベルレシピを提案する。 ラベル付き共通音声とラベルなしvoxpopuliデータセットの実験は、我々のレシピが、librispeechによく変換される多くの言語でより良いパフォーマンスのモデルが得られることを示している。

Semi-supervised learning through pseudo-labeling has become a staple of state-of-the-art monolingual speech recognition systems. In this work, we extend pseudo-labeling to massively multilingual speech recognition with 60 languages. We propose a simple pseudo-labeling recipe that works well even with low-resource languages: train a supervised multilingual model, fine-tune it with semi-supervised learning on a target language, generate pseudo-labels for that language, and train a final model using pseudo-labels for all languages, either from scratch or by fine-tuning. Experiments on the labeled Common Voice and unlabeled VoxPopuli datasets show that our recipe can yield a model with better performance for many languages that also transfers well to LibriSpeech.
翻訳日:2021-11-04 11:47:27 公開日:2021-10-30
# (参考訳) 自律型UAVのための衝突フリーナビゲーションとFlockingのアルゴリズム

Advanced Algorithms of Collision Free Navigation and Flocking for Autonomous UAVs ( http://arxiv.org/abs/2111.00166v1 )

ライセンス: CC BY 4.0
Taha Elmokadem(参考訳) 無人航空機(uavs)は、農業、建設、鉱業、環境モニタリングなど、多くの軍用および民間用途で非常に人気がある。 UAVの望ましい特徴は、人間との対話を最小限に抑えて自律的にタスクをナビゲートし実行できることである。 UAVアプリケーションの複雑さ、厳しい環境での運用、限られたペイロードとオンボードコンピューティング能力、高非線形ダイナミクスなど、いくつかの要因により、これは非常に難しい問題である。 本報告では,マルチUAVシステムの自律走行及び運動調整のためのUAV制御の最先端化に寄与する。 このレポートの最初の部分は、単一UAVシステムを扱う。 未知/動的環境における3次元衝突フリーナビゲーションの複雑な問題に対処する。 この目的のために,感覚と回避のパラダイムを取り入れ,障害物に対する迅速な反応を実現する高度な3次元リアクティブ制御戦略が開発されている。 3Dの未知の閉じ込められた環境(すなわちトンネルのような)におけるナビゲーションの特別な事例も対処される。 一般的な3Dキネマティックモデルは、水中車両に加えて異なるUAVタイプに適用可能な設計である。 さらに, 制御設計におけるuavダイナミクスを考慮し, 四角形uavを用いた戦略の実装方法も検討した。 開発手法の性能を解析するために, 実用実験とシミュレーションを行った。 本報告の第2部では,マルチuavシステムの安全なナビゲーションについて述べる。 群集および3次元領域被覆のためのマルチuavシステムの分散動作コーディネーション手法を開発した。 これらの手法は大規模システムに優れた計算コストを提供する。 異なる大きさのシステムを考慮した手法の性能検証のためにシミュレーションを行った。

Unmanned aerial vehicles (UAVs) have become very popular for many military and civilian applications including in agriculture, construction, mining, environmental monitoring, etc. A desirable feature for UAVs is the ability to navigate and perform tasks autonomously with least human interaction. This is a very challenging problem due to several factors such as the high complexity of UAV applications, operation in harsh environments, limited payload and onboard computing power and highly nonlinear dynamics. The work presented in this report contributes towards the state-of-the-art in UAV control for safe autonomous navigation and motion coordination of multi-UAV systems. The first part of this report deals with single-UAV systems. The complex problem of three-dimensional (3D) collision-free navigation in unknown/dynamic environments is addressed. To that end, advanced 3D reactive control strategies are developed adopting the sense-and-avoid paradigm to produce quick reactions around obstacles. A special case of navigation in 3D unknown confined environments (i.e. tunnel-like) is also addressed. General 3D kinematic models are considered in the design which makes these methods applicable to different UAV types in addition to underwater vehicles. Moreover, different implementation methods for these strategies with quadrotor-type UAVs are also investigated considering UAV dynamics in the control design. Practical experiments and simulations were carried out to analyze the performance of the developed methods. The second part of this report addresses safe navigation for multi-UAV systems. Distributed motion coordination methods of multi-UAV systems for flocking and 3D area coverage are developed. These methods offer good computational cost for large-scale systems. Simulations were performed to verify the performance of these methods considering systems with different sizes.
翻訳日:2021-11-04 11:33:09 公開日:2021-10-30
# (参考訳) 動的微分プライバシー保存sgd [全文訳有]

Dynamic Differential-Privacy Preserving SGD ( http://arxiv.org/abs/2111.00173v1 )

ライセンス: CC BY 4.0
Jian Du, Song Li, Moran Feng, Siheng Chen(参考訳) Differentially-Priva te Stochastic Gradient Descent (DP-SGD)は、SGDトレーニング中にクリップされた勾配にノイズを加えて、差分プライバシー(DP)定義を満たすことによって、トレーニングデータのプライバシー侵害を防止する。 一方で、同じクリップ操作とトレーニングステップ間の付加ノイズにより、不安定な更新やランプアップ期間が発生し、モデルの精度が大幅に低下する。 本稿では,各ステップ毎にクリッピング値とノイズパワーを個別に調整するために,ガウスのDP中心極限定理を拡張した。 したがって,対象とする更新数で同じプライバシ予算を達成するまで,更新時のプライバシコストがdp-sgdよりも低い動的dp-sgdを提案することができる。 特に、動的DP-SGDは、全体的なプライバシー予算の制約に固執しながら、クリッピング値とノイズパワーの両方を徐々に下げることで、プライバシーを犠牲にすることなくモデル精度を向上させる。 画像分類,自然言語処理,フェデレーション学習など,さまざまなディープラーニングタスクに関する広範な実験により,提案した動的DP-SGDアルゴリズムが更新を安定させ,結果として,DP-SGDと比較して強力なプライバシ保護領域におけるモデル精度を著しく向上させることを示した。

Differentially-Priva te Stochastic Gradient Descent (DP-SGD) prevents training-data privacy breaches by adding noise to the clipped gradient during SGD training to satisfy the differential privacy (DP) definition. On the other hand, the same clipping operation and additive noise across training steps results in unstable updates and even a ramp-up period, which significantly reduces the model's accuracy. In this paper, we extend the Gaussian DP central limit theorem to calibrate the clipping value and the noise power for each individual step separately. We, therefore, are able to propose the dynamic DP-SGD, which has a lower privacy cost than the DP-SGD during updates until they achieve the same target privacy budget at a target number of updates. Dynamic DP-SGD, in particular, improves model accuracy without sacrificing privacy by gradually lowering both clipping value and noise power while adhering to a total privacy budget constraint. Extensive experiments on a variety of deep learning tasks, including image classification, natural language processing, and federated learning, show that the proposed dynamic DP-SGD algorithm stabilizes updates and, as a result, significantly improves model accuracy in the strong privacy protection region when compared to DP-SGD.
翻訳日:2021-11-04 10:43:05 公開日:2021-10-30
# (参考訳) 短文分類のための階層的不均質グラフ表現学習 [全文訳有]

Hierarchical Heterogeneous Graph Representation Learning for Short Text Classification ( http://arxiv.org/abs/2111.00180v1 )

ライセンス: CC BY 4.0
Yaqing Wang and Song Wang and Quanming Yao and Dejing Dou(参考訳) 短いテキスト分類は自然言語処理の基本的なタスクである。 実際にはコンテキスト情報やラベル付きデータが不足しているため、難しいのです。 本稿では,グラフニューラルネットワーク(GNN)を用いた短いテキスト分類のための ShiNE という新しい手法を提案する。 まず,短いテキストデータセットを,意味的および構文的情報を導入する単語レベルのコンポーネントグラフからなる階層的不均質グラフとしてモデル化する。 そして,類似した短文間のラベル伝達を容易にする短文グラフを動的に学習する。 したがって、既存のGNNベースの手法と比較して、Shineは同一タイプのノード間の相互作用をよりうまく利用し、短いテキスト間の類似性を捉えることができる。 様々なベンチマークショートテキストデータセットでの広範囲な実験により、sshineは最先端のメソッド、特にラベルの少ないメソッドを一貫して上回っていることが示されている。

Short text classification is a fundamental task in natural language processing. It is hard due to the lack of context information and labeled data in practice. In this paper, we propose a new method called SHINE, which is based on graph neural network (GNN), for short text classification. First, we model the short text dataset as a hierarchical heterogeneous graph consisting of word-level component graphs which introduce more semantic and syntactic information. Then, we dynamically learn a short document graph that facilitates effective label propagation among similar short texts. Thus, compared with existing GNN-based methods, SHINE can better exploit interactions between nodes of the same types and capture similarities between short texts. Extensive experiments on various benchmark short text datasets show that SHINE consistently outperforms state-of-the-art methods, especially with fewer labels.
翻訳日:2021-11-04 10:26:47 公開日:2021-10-30
# (参考訳) 弱スムーズ設定における政策勾配法の収束性と最適性

Convergence and Optimality of Policy Gradient Methods in Weakly Smooth Settings ( http://arxiv.org/abs/2111.00185v1 )

ライセンス: CC BY 4.0
Matthew Shunshi Zhang, Murat Erdogdu, Animesh Garg(参考訳) 政策勾配法は制御と強化学習の問題にしばしば適用されてきたが、既存の収束解析は直観的でない非現実的で不透明な条件に依存している。 特に、既存のレートは厳密な滑らかさと有界条件の下で限られた設定で達成される。 本研究では、これらの条件に頼らずにポリシー勾配法の明示的な収束率を確立し、代わりに$L_2$可積分勾配を持つ弱滑らかな政策クラスに収束状態を拡張する。 これらの新しい条件の背後にある洞察を説明する直感的な例を示す。 また,問題の重要なクラスであるニアリニアmdpのエルゴード性に対する十分条件を特徴付ける。 特に,本分析は,これらの仮定の下での標準方針勾配アルゴリズムと自然政策勾配アルゴリズムの両方に対して,高速収束速度が達成可能であることを示す。 最後に、収束ポリシーの最適性に関する条件と分析を提供する。

Policy gradient methods have been frequently applied to problems in control and reinforcement learning with great success, yet existing convergence analysis still relies on non-intuitive, impractical and often opaque conditions. In particular, existing rates are achieved in limited settings, under strict smoothness and bounded conditions. In this work, we establish explicit convergence rates of policy gradient methods without relying on these conditions, instead extending the convergence regime to weakly smooth policy classes with $L_2$ integrable gradient. We provide intuitive examples to illustrate the insight behind these new conditions. We also characterize the sufficiency conditions for the ergodicity of near-linear MDPs, which represent an important class of problems. Notably, our analysis also shows that fast convergence rates are achievable for both the standard policy gradient and the natural policy gradient algorithms under these assumptions. Lastly we provide conditions and analysis for optimality of the converged policies.
翻訳日:2021-11-04 10:12:03 公開日:2021-10-30
# (参考訳) 自己監督型カテゴリーレベルオブジェクトポーズ推定におけるSE(3)の等価性 [全文訳有]

Leveraging SE(3) Equivariance for Self-Supervised Category-Level Object Pose Estimation ( http://arxiv.org/abs/2111.00190v1 )

ライセンス: CC BY 4.0
Xiaolong Li, Yijia Weng, Li Yi, Leonidas Guibas, A. Lynn Abbott, Shuran Song, He Wang(参考訳) カテゴリーレベルのオブジェクトポーズ推定は、オブジェクトCADモデルにアクセスすることなく、既知のカテゴリから未確認のオブジェクトインスタンスの6Dオブジェクトポーズを見つけることを目的としている。 カテゴリーレベルの学習に必要なポーズアノテーションを少なくするため,一点の3D点群からカテゴリレベルの6Dオブジェクトのポーズを推定する自己教師型学習フレームワークを提案する。 提案手法の鍵となるのは,SE(3)等変点クラウドネットワークによって強化された,不変形状再構成モジュールと同変ポーズ推定モジュールを介し,整列再構成を行い,アノテーションを使わずにカテゴリレベルの参照フレームを生成することである。 さらに、同変ポーズ推定モジュールは、いくつかの完全教師付き手法に匹敵するカテゴリレベルのポーズ推定精度を達成する。 大規模な実験では,ModelNet40ベンチマークによる完全および部分深度点雲,NOCS-REAL 275データセットによる実深度点雲に対するアプローチの有効性が示された。 コードと視覚化を備えたプロジェクトページは、https://dragonlong.g ithub.io/equi-poseで見ることができる。

Category-level object pose estimation aims to find 6D object poses of previously unseen object instances from known categories without access to object CAD models. To reduce the huge amount of pose annotations needed for category-level learning, we propose for the first time a self-supervised learning framework to estimate category-level 6D object pose from single 3D point clouds.During training, our method assumes no ground-truth pose annotations, no CAD models, and no multi-view supervision. The key to our method is to disentangle shape and pose through an invariant shape reconstruction module and an equivariant pose estimation module, empowered by SE(3) equivariant point cloud networks.The invariant shape reconstruction module learns to perform aligned reconstructions, yielding a category-level reference frame without using any annotations. In addition, the equivariant pose estimation module achieves category-level pose estimation accuracy that is comparable to some fully supervised methods. Extensive experiments demonstrate the effectiveness of our approach on both complete and partial depth point clouds from the ModelNet40 benchmark, and on real depth point clouds from the NOCS-REAL 275 dataset. The project page with code and visualizations can be found at: https://dragonlong.g ithub.io/equi-pose.
翻訳日:2021-11-04 10:10:58 公開日:2021-10-30
# (参考訳) ヒト翻訳はNMTとどのように共存すべきか? 高品質並列コーパス構築のための効率的なツール [全文訳有]

How should human translation coexist with NMT? Efficient tool for building high quality parallel corpus ( http://arxiv.org/abs/2111.00191v1 )

ライセンス: CC BY 4.0
Chanjun Park, Seolhwa Lee, Hyeonseok Moon, Sugyeong Eo, Jaehyung Seo, Heuiseok Lim(参考訳) 本稿では,人的負担を最小限に抑えつつ,高品質な並列コーパスを効率的に構築するツールを提案する。 提案する構築プロセスは,人間の翻訳と共存するだけでなく,データ品質制御と人間の翻訳をデータ中心の手法で組み合わせることでその効率を向上させるために,ニューラルマシン翻訳(nmt)に基づいています。

This paper proposes a tool for efficiently constructing high-quality parallel corpora with minimizing human labor and making this tool publicly available. Our proposed construction process is based on neural machine translation (NMT) to allow for it to not only coexist with human translation, but also improve its efficiency by combining data quality control with human translation in a data-centric approach.
翻訳日:2021-11-04 09:51:32 公開日:2021-10-30
# (参考訳) 生成コモンセンス推論のための知識自動増強 [全文訳有]

Automatic Knowledge Augmentation for Generative Commonsense Reasoning ( http://arxiv.org/abs/2111.00192v1 )

ライセンス: CC BY 4.0
Jaehyung Seo, Chanjun Park, Sugyeong Eo, Hyeonseok Moon, Heuiseok Lim(参考訳) ジェネレーティブ・コモンセンス推論(generative commonsense reasoning)は、コモンセンスの知識に基づいて与えられた概念セットで文を生成する言語モデルの能力である。 しかし、生成言語モデルは出力の提供に苦慮しており、トレーニングセットには生成コモンセンス推論に十分なパターンが含まれていない。 本稿では,機械の知識生成装置を用いて,知識自動増強を用いて常識知識を拡張するデータ中心手法を提案する。 この方法は、アーキテクチャの変更なしに言語モデルの生成コモンセンス推論を改善する半金文を生成することができる。 さらに、このアプローチはモデルに依存しない手法であり、データ構築に人的労力を必要としない。

Generative commonsense reasoning is the capability of a language model to generate a sentence with a given concept-set that is based on commonsense knowledge. However, generative language models still struggle to provide outputs, and the training set does not contain patterns that are sufficient for generative commonsense reasoning. In this paper, we propose a data-centric method that uses automatic knowledge augmentation to extend commonsense knowledge using a machine knowledge generator. This method can generate semi-golden sentences that improve the generative commonsense reasoning of a language model without architecture modifications. Furthermore, this approach is a model-agnostic method and does not require human effort for data construction.
翻訳日:2021-11-04 09:47:57 公開日:2021-10-30
# (参考訳) M2MRF : 基底画像の細い病変分割のための多対多の再構成 [全文訳有]

M2MRF: Many-to-Many Reassembly of Features for Tiny Lesion Segmentation in Fundus Images ( http://arxiv.org/abs/2111.00193v1 )

ライセンス: CC BY 4.0
Qing Liu, Haotian Liu, Yixiong Liang(参考訳) 機能再アセンブリは、機能ダウンサンプリングとアップサンプリング演算子を含む、最新のCNNベースのセグメンテーションアプローチにおいて不可欠なコンポーネントである。 既存の機能再組み立てオペレータは、小さな事前定義された領域から、ターゲット位置ごとに独立して複数の機能を再組み立てする。 これにより空間情報が失われ、小さな病変の活性化が消失する可能性がある。 本稿では,M2MRF(man-to-many reassembly of features)を提案する。 次元レデュースされた特徴空間における特徴を再組み立てし、同時に大きな事前定義された領域内の複数の特徴を複数のターゲット特徴に集約する。 このようにして、特に複数の病変が共存する場合に、小さな病変の活性化を維持するために、長い範囲の空間依存が捕捉される。 DDRとIDRiDの2つの病変セグメンテーションベンチマークによる実験結果から,M2MRFは既存の機能再構成演算子よりも優れていることが示された。

Feature reassembly is an essential component in modern CNNs-based segmentation approaches, which includes feature downsampling and upsampling operators. Existing feature reassembly operators reassemble multiple features from a small predefined region into one for each target location independently. This may result in loss of spatial information, which could vanish activations of tiny lesions particularly when they cluster together. In this paper, we propose a many-to-many reassembly of features (M2MRF). It reassembles features in a dimension-reduced feature space and simultaneously aggregates multiple features inside a large predefined region into multiple target features. In this way, long range spatial dependencies are captured to maintain activations on tiny lesions, particularly when multiple lesions coexist. Experimental results on two lesion segmentation benchmarks, i.e. DDR and IDRiD, show that our M2MRF outperforms existing feature reassembly operators.
翻訳日:2021-11-04 09:43:46 公開日:2021-10-30
# (参考訳) ディジタル双生児を用いた個人熱快適性モデル:Build2VecによるBIM抽出時空間近接データによる予測 [全文訳有]

Personal thermal comfort models using digital twins: Preference prediction with BIM-extracted spatial-temporal proximity data from Build2Vec ( http://arxiv.org/abs/2111.00199v1 )

ライセンス: CC BY 4.0
Mahmoud Abdelrahman, Adrian Chong, and Clayton Miller(参考訳) 建物における従来の熱選好予測は, 環境要因や個人要因の把握が困難であるため, 限界がある。 新しいモデル機能は、人の熱的嗜好を分類する機械学習モデルの能力を改善することができる。 建物の空間的コンテキストは、窓、壁、暖房および冷却源、空気拡散器などのモデルに情報を提供し、熱的快適性に影響を与える微小環境を作ることができる。 空間的不均一性のため、すべての条件を捉えるのに十分な解像度でセンサーを配置することは不可能である。 本研究は,空間的空間的嗜好を予測するために,ビル2Vecと呼ばれる既存のベクトル型空間モデルを構築することを目的とする。 Build2Vecはビル情報モデル(BIM)の空間データと実世界における屋内のローカライゼーションを利用する。 このフレームワークは、smart watch-based eco momentary assessments(ema)からの縦断的な熱的快適感の主観的フィードバックを用いる。 これらのデータの集約はグラフネットワーク構造(オブジェクトと関係)に結合され、占有する熱的嗜好を予測するための分類モデルの入力として使用される。 テスト実装の結果,従来の温度優先予測入力変数を用いたベースラインのセットよりも14~28%精度が向上した。

Conventional thermal preference prediction in buildings has limitations due to the difficulty in capturing all environmental and personal factors. New model features can improve the ability of a machine learning model to classify a person's thermal preference. The spatial context of a building can provide information to models about the windows, walls, heating and cooling sources, air diffusers, and other factors that create micro-environments that influence thermal comfort. Due to spatial heterogeneity, it is impractical to position sensors at a high enough resolution to capture all conditions. This research aims to build upon an existing vector-based spatial model, called Build2Vec, for predicting spatial-temporal occupants' indoor environmental preferences. Build2Vec utilizes the spatial data from the Building Information Model (BIM) and indoor localization in a real-world setting. This framework uses longitudinal intensive thermal comfort subjective feedback from smart watch-based ecological momentary assessments (EMA). The aggregation of these data is combined into a graph network structure (i.e., objects and relations) and used as input for a classification model to predict occupant thermal preference. The results of a test implementation show 14-28% accuracy improvement over a set of baselines that use conventional thermal preference prediction input variables.
翻訳日:2021-11-04 09:24:34 公開日:2021-10-30
# (参考訳) 最近のFew-Shotオブジェクト検出アルゴリズムの比較検討 [全文訳有]

A Comparative Review of Recent Few-Shot Object Detection Algorithms ( http://arxiv.org/abs/2111.00201v1 )

ライセンス: CC BY 4.0
Leng Jiaxu, Chen Taiyue, Gao Xinbo, Yu Yongtao, Wang Ye, Gao Feng, Wang Yue(参考訳) 少数のラベル付きデータによる新しいクラスへの適応を学習するオブジェクト検出は、実世界のデータ固有の長期分布と、データ収集とアノテーションのコスト削減を急務に要求することによる、命令的かつ長期的問題である。 近年、一部の研究は、ターゲットドメインの監督なしに追加のデータセットで暗黙の手がかりを使ってロバストなタスク概念を洗練する方法を模索している。 この調査は、数発物体検出の現在の古典的成果と最新の成果から、多様体の観点からの今後の研究期待まで、総合的な概要を提供する。 具体的には、まず、トレーニング段階でアクセスされるトレーニングデータのデータに基づく分類と、それに対応する監督形態を提案する。 この分類に従って,形式的定義,主な課題,ベンチマークデータセット,評価指標,学習戦略について重要なレビューを行う。 さらに,この問題を体系的に開発するためのオブジェクト検出手法の相互運用方法について,詳細な検討を行った。 最後に、この分野での潜在的研究方向とともに、数発の物体検出の現状を結論付ける。

Few-shot object detection, learning to adapt to the novel classes with a few labeled data, is an imperative and long-lasting problem due to the inherent long-tail distribution of real-world data and the urgent demands to cut costs of data collection and annotation. Recently, some studies have explored how to use implicit cues in extra datasets without target-domain supervision to help few-shot detectors refine robust task notions. This survey provides a comprehensive overview from current classic and latest achievements for few-shot object detection to future research expectations from manifold perspectives. In particular, we first propose a data-based taxonomy of the training data and the form of corresponding supervision which are accessed during the training stage. Following this taxonomy, we present a significant review of the formal definition, main challenges, benchmark datasets, evaluation metrics, and learning strategies. In addition, we present a detailed investigation of how to interplay the object detection methods to develop this issue systematically. Finally, we conclude with the current status of few-shot object detection, along with potential research directions for this field.
翻訳日:2021-11-04 08:41:50 公開日:2021-10-30
# (参考訳) PatchFormer: パッチアテンションに基づく3D変圧器 [全文訳有]

PatchFormer: A Versatile 3D Transformer Based on Patch Attention ( http://arxiv.org/abs/2111.00207v1 )

ライセンス: CC BY 4.0
Zhang Cheng, Haocheng Wan, Xinyi Shen, Zizhao Wu(参考訳) 3d visionコミュニティは、cnnからtransformerへのモデリングシフトを目撃している。 しかし、既存の3Dトランスフォーマーは、入力サイズに関して2次複雑さ(空間と時間の両方)を持つ大きな注意マップを生成する必要がある。 この欠点を解決するために,注意マップを計算したベースセットを適応的に学習するためにパッチアテンションを導入する。 これらのベースを重みづけることで、パッチアテンションはグローバル形状のコンテキストをキャプチャするだけでなく、入力サイズに対する線形複雑度も達成する。 さらに,異なるスケールの特徴に注意を向ける軽量なマルチスケールアテンション(MSA)ブロックを提案し,そのモデルにマルチスケールの機能を提供する。 これらの提案したモジュールに基づいて、PatchFormerと呼ばれるニューラルネットワークを構築します。 我々のネットワークは,従来の3Dトランスよりも7.3倍のスピードアップで,一般的な3D認識タスクにおいて高い精度を実現している。

The 3D vision community is witnesses a modeling shift from CNNs to Transformers, where pure Transformer architectures have attained top accuracy on the major 3D learning benchmarks. However, existing 3D Transformers need to generate a large attention map, which has quadratic complexity (both in space and time) with respect to input size. To solve this shortcoming, we introduce patch-attention to adaptively learn a much smaller set of bases upon which the attention maps are computed. By a weighted summation upon these bases, patch-attention not only captures the global shape context but also achieves linear complexity to input size. In addition, we propose a lightweight Multi-scale Attention (MSA) block to build attentions among features of different scales, providing the model with multi-scale features. Based on these proposed modules, we construct our neural architecture called PatchFormer. Extensive experiments demonstrate that our network achieves strong accuracy on general 3D recognition tasks with 7.3x speed-up than previous 3D Transformers.
翻訳日:2021-11-04 07:09:07 公開日:2021-10-30
# (参考訳) 混合変数ベイズ最適化手法の比較 [全文訳有]

A comparison of mixed-variables Bayesian optimization approaches ( http://arxiv.org/abs/2111.01533v1 )

ライセンス: CC BY 4.0
Jhouben Cuesta-Ramirez and Rodolphe Le Riche and Olivier Roustant and Guillaume Perrin and Cedric Durantin and Alain Gliere(参考訳) ほとんどの実最適化問題は、変数が離散かつ連続である混合探索空間上で定義される。 工学的応用において、目的関数は通常、計算コストのかかるブラックボックスシミュレーションで計算されるが、一般の混合およびコストのかかる最適化問題は非常に実用的であり、その解決はオープン科学的な問題である。 本稿では、離散変数が連続潜伏変数に緩和されるガウス過程を通じて、コストのかかる混合問題にアプローチする。 連続空間は混合空間よりも古典的ベイズ最適化手法により容易に得ることができる。 離散変数は、その後の連続的な最適化、または拡張ラグランジアンで処理される追加の連続離散互換制約によって復元される。 このようなベイズ混合最適化のいくつかの実装を比較する。 特に、連続的潜在変数による問題の再構成は、混合空間で直接働く検索と競合する。 潜在変数と拡張ラグランジアンを含むアルゴリズムのうち、局所的および大域的推定手法を研究するラグランジ乗数に特に注意が向けられている。 比較は3つの解析関数の繰り返し最適化とビーム設計問題に基づいている。

Most real optimization problems are defined over a mixed search space where the variables are both discrete and continuous. In engineering applications, the objective function is typically calculated with a numerically costly black-box simulation.General mixed and costly optimization problems are therefore of a great practical interest, yet their resolution remains in a large part an open scientific question. In this article, costly mixed problems are approached through Gaussian processes where the discrete variables are relaxed into continuous latent variables. The continuous space is more easily harvested by classical Bayesian optimization techniques than a mixed space would. Discrete variables are recovered either subsequently to the continuous optimization, or simultaneously with an additional continuous-discrete compatibility constraint that is handled with augmented Lagrangians. Several possible implementations of such Bayesian mixed optimizers are compared. In particular, the reformulation of the problem with continuous latent variables is put in competition with searches working directly in the mixed space. Among the algorithms involving latent variables and an augmented Lagrangian, a particular attention is devoted to the Lagrange multipliers for which a local and a global estimation techniques are studied. The comparisons are based on the repeated optimization of three analytical functions and a beam design problem.
翻訳日:2021-11-04 06:56:38 公開日:2021-10-30
# (参考訳) 2つの頭は1より優れている:ポイントクラウド分類とセグメンテーションのための幾何学的レイテンシー [全文訳有]

Two Heads are Better than One: Geometric-Latent Attention for Point Cloud Classification and Segmentation ( http://arxiv.org/abs/2111.00231v1 )

ライセンス: CC BY-SA 4.0
Hanz Cuevas-Velasquez, Antonio Javier Gallego, Robert B. Fisher(参考訳) 3dシーンを意味的に意味のある部分集合に分割するために,幾何学的特徴と潜伏特徴を組み合わせた,革新的な双方向注意層を提案する。 各ヘッドは、各点の幾何学的特徴または潜在的な特徴を用いて、局所的および大域的な情報を結合し、この情報を用いて、より良い局所的関係を学ぶ。 この幾何学的相対的注意層(ge-latto)は、グローバル特徴を捉えるためのサブサンプリング戦略と組み合わせられる。 本手法は共有MLP層の利用により置換に不変であり,局所的な注意層は近傍の順序に依存しないため,密度の異なる点雲でも使用することができる。 提案手法は単純かつ堅牢であり,shapenetpart と modelnet40 のデータセットにおいて,領域 5 の 69.2% iou と 6 領域の k-fold クロスバリデーションを用いた 89.7% という,複雑なデータセット s3dis のセグメンテーションにおいて,競合的な結果が得られる。

We present an innovative two-headed attention layer that combines geometric and latent features to segment a 3D scene into semantically meaningful subsets. Each head combines local and global information, using either the geometric or latent features, of a neighborhood of points and uses this information to learn better local relationships. This Geometric-Latent attention layer (Ge-Latto) is combined with a sub-sampling strategy to capture global features. Our method is invariant to permutation thanks to the use of shared-MLP layers, and it can also be used with point clouds with varying densities because the local attention layer does not depend on the neighbor order. Our proposal is simple yet robust, which allows it to achieve competitive results in the ShapeNetPart and ModelNet40 datasets, and the state-of-the-art when segmenting the complex dataset S3DIS, with 69.2% IoU on Area 5, and 89.7% overall accuracy using K-fold cross-validation on the 6 areas.
翻訳日:2021-11-04 06:30:13 公開日:2021-10-30
# (参考訳) equinox:呼び出し可能なpytreesとフィルタ変換によるjaxのニューラルネットワーク [全文訳有]

Equinox: neural networks in JAX via callable PyTrees and filtered transformations ( http://arxiv.org/abs/2111.00254v1 )

ライセンス: CC BY 4.0
Patrick Kidger and Cristian Garcia(参考訳) JAXとPyTorchは2つの人気のあるPython自動微分フレームワークである。 JAXは純粋関数と関数型プログラミングに基づいている。 PyTorchは、ニューラルネットワークのようなパラメータ化された関数を定義するためにオブジェクト指向(OO)クラスベースの構文を普及させた。 この根本的な違いは、JAXでパラメータ化された関数を構築するための現在のライブラリが、OOアプローチを完全に拒否するか(Stax)、あるいはOOから関数への変換を導入し、複数の新しい抽象化を導入し、JAXと統合する範囲(Flax、Haiku、Objax)に制限されたことを意味する。 いずれにせよ、このOO/機能的な違いは緊張の源です。 これは、jaxのような関数型プログラミングを犠牲にすることなく、pytorchのようなクラスベースのアプローチがどのように受け入れられるかを示す小さなニューラルネットワークライブラリである。 主なアイデアは2つある。 ひとつは、パラメータ化された関数自体が 'PyTrees' として表現されることです。 2つ目は、PyTreeをフィルタして、モデルに適用される損失関数のようなパラメータ化された関数の高階関数(`jit', `grad', `vmap'-ing)を変換する際に扱うべきコンポーネントだけを分離することです。 全体的なequinoxは、通常のjaxと同様、pytreeとtransformsのみを新たに導入することなく、上記の緊張を解消する。 Equinox は \url{https://github.com/p atrick-kidger/equino x} で入手できる。

JAX and PyTorch are two popular Python autodifferentiation frameworks. JAX is based around pure functions and functional programming. PyTorch has popularised the use of an object-oriented (OO) class-based syntax for defining parameterised functions, such as neural networks. That this seems like a fundamental difference means current libraries for building parameterised functions in JAX have either rejected the OO approach entirely (Stax) or have introduced OO-to-functional transformations, multiple new abstractions, and been limited in the extent to which they integrate with JAX (Flax, Haiku, Objax). Either way this OO/functional difference has been a source of tension. Here, we introduce `Equinox', a small neural network library showing how a PyTorch-like class-based approach may be admitted without sacrificing JAX-like functional programming. We provide two main ideas. One: parameterised functions are themselves represented as `PyTrees', which means that the parameterisation of a function is transparent to the JAX framework. Two: we filter a PyTree to isolate just those components that should be treated when transforming (`jit', `grad' or `vmap'-ing) a higher-order function of a parameterised function -- such as a loss function applied to a model. Overall Equinox resolves the above tension without introducing any new programmatic abstractions: only PyTrees and transformations, just as with regular JAX. Equinox is available at \url{https://github.com/p atrick-kidger/equino x}.
翻訳日:2021-11-04 06:21:35 公開日:2021-10-30
# (参考訳) 遠心動力学プランナーを模倣した地形適応運動の学習 [全文訳有]

Learning Coordinated Terrain-Adaptive Locomotion by Imitating a Centroidal Dynamics Planner ( http://arxiv.org/abs/2111.00262v1 )

ライセンス: CC BY 4.0
Philemon Brakel, Steven Bohez, Leonard Hasenclever, Nicolas Heess, Konstantinos Bousmalis(参考訳) 正確な足の配置を持つ難易度地形上の動的四足歩行は、最適制御法と強化学習(RL)の両方にとって難しい問題である。 非線形ソルバは、動きを満たす座標制約を生成できるが、オンラインアプリケーションに収束するのに時間がかかることが多い。 RL法は動的反応制御を学習できるが、良好な歩行を生成するためには慎重に調整された形状の報酬が必要である。 模倣学習はこの問題を回避し、平らな地形の四足歩行を抽出するためにモーションキャプチャデータと共に使用されてきた。 しかし、高度差のある非常に多種多様な地形のモーションキャプチャーデータを取得するのは費用がかかる。 本研究では、軌道最適化と学習手法の利点を組み合わせることで、非線形ソルバによる手続き的地形上で計画された軌道を模倣する軌道適応型コントローラを訓練ポリシーにより得られることを示す。 学習されたポリシーは、未確認の地形に移行し、正確な足の配置を必要とし、標準のRLでは解決が困難である挑戦的な地形を動的に横断するように微調整できることを示す。

Dynamic quadruped locomotion over challenging terrains with precise foot placements is a hard problem for both optimal control methods and Reinforcement Learning (RL). Non-linear solvers can produce coordinated constraint satisfying motions, but often take too long to converge for online application. RL methods can learn dynamic reactive controllers but require carefully tuned shaping rewards to produce good gaits and can have trouble discovering precise coordinated movements. Imitation learning circumvents this problem and has been used with motion capture data to extract quadruped gaits for flat terrains. However, it would be costly to acquire motion capture data for a very large variety of terrains with height differences. In this work, we combine the advantages of trajectory optimization and learning methods and show that terrain adaptive controllers can be obtained by training policies to imitate trajectories that have been planned over procedural terrains by a non-linear solver. We show that the learned policies transfer to unseen terrains and can be fine-tuned to dynamically traverse challenging terrains that require precise foot placements and are very hard to solve with standard RL.
翻訳日:2021-11-04 06:12:25 公開日:2021-10-30
# (参考訳) 極値理論と生成逆ネットワークを組み合わせた空間的極大のモデル化とシミュレーション [全文訳有]

Modelling and simulating spatial extremes by combining extreme value theory with generative adversarial networks ( http://arxiv.org/abs/2111.00267v1 )

ライセンス: CC BY 4.0
Younes Boulaguiem, Jakob Zscheischler, Edoardo Vignotto, Karin van der Wiel and Sebastian Engelke(参考訳) 気候極端間の依存関係をモデル化することは、例えば緊急管理資金を割り当てる際の気候リスク評価にとって重要である。 統計学において、多変量極値理論は空間的極値のモデル化にしばしば用いられる。 しかし、最も一般的に使われるアプローチは強い仮定が必要であり、単純すぎるか過剰なパラメータである。 機械学習の観点からは、GAN(Generative Adversarial Networks)は高次元空間における依存関係をモデル化するための強力なツールである。 しかし、標準設定では、GANは極端な依存関係をうまく表現していない。 ここでは,GANを極値理論(evtGAN)と組み合わせて,夏季の気温の最大値と冬季の最大値の降水量の空間依存性をモデル化する。 定常2000年間の気候モデルシミュレーションのデータを用いて,そのアプローチを検証し,小さなサンプルサイズに対する感度を探索する。 以上の結果から,evtGANは空間的極端をモデル化するための古典的GANや標準統計的アプローチよりも優れていた。 すでに50年分のデータがあり、一般的に利用可能な気候記録に対応しています。 一般に、温度極端間の依存性は、温度場における高い空間的コヒーレンスのため、降水極端間の依存性よりもよく捉えられる。 我々のアプローチは他の気候変数にも適用可能であり、極端における依存関係を決定するために非常に長いシミュレーションを行う場合、気候モデルをエミュレートするために使用できる。

Modelling dependencies between climate extremes is important for climate risk assessment, for instance when allocating emergency management funds. In statistics, multivariate extreme value theory is often used to model spatial extremes. However, most commonly used approaches require strong assumptions and are either too simplistic or over-parametrised. From a machine learning perspective, Generative Adversarial Networks (GANs) are a powerful tool to model dependencies in high-dimensional spaces. Yet in the standard setting, GANs do not well represent dependencies in the extremes. Here we combine GANs with extreme value theory (evtGAN) to model spatial dependencies in summer maxima of temperature and winter maxima in precipitation over a large part of western Europe. We use data from a stationary 2000-year climate model simulation to validate the approach and explore its sensitivity to small sample sizes. Our results show that evtGAN outperforms classical GANs and standard statistical approaches to model spatial extremes. Already with about 50 years of data, which corresponds to commonly available climate records, we obtain reasonably good performance. In general, dependencies between temperature extremes are better captured than dependencies between precipitation extremes due to the high spatial coherence in temperature fields. Our approach can be applied to other climate variables and can be used to emulate climate models when running very long simulations to determine dependencies in the extremes is deemed infeasible.
翻訳日:2021-11-04 05:52:01 公開日:2021-10-30
# (参考訳) マルチスペクトル物体検出用クロスモダリティ核融合変圧器 [全文訳有]

Cross-Modality Fusion Transformer for Multispectral Object Detection ( http://arxiv.org/abs/2111.00273v1 )

ライセンス: CC BY 4.0
Fang Qingyun, Han Dapeng and Wang Zhaokui(参考訳) マルチスペクトル画像ペアは組み合わせた情報を提供し、オープンな世界でオブジェクト検出アプリケーションがより信頼性が高く堅牢になる。 そこで本論文では,CFT (Cross-Modality Fusion Transformer) と題する,単純かつ効果的なクロスモーダル特徴融合手法を提案する。 トランスフォーマー方式による以前のcnnsベースの作業とは異なり、ネットワークは長距離の依存関係を学習し、グローバルコンテキスト情報を特徴抽出段階に統合する。 さらに,変圧器の自己注意を生かして自然にモダリティ内およびモダリティ間融合を行い,RGBと熱ドメイン間の潜伏相互作用を確実に捕捉し,マルチスペクトル物体検出の性能を大幅に向上させることができる。 複数のデータセットに関する広範な実験とアブレーションの研究は、このアプローチが有効であることを示し、最先端の検出性能を達成する。 私たちのコードとモデルは、近くhttps://github.com/d ocf/multispectral-ob ject-detectionでリリースされる予定です。

Multispectral image pairs can provide the combined information, making object detection applications more reliable and robust in the open world. To fully exploit the different modalities, we present a simple yet effective cross-modality feature fusion approach, named Cross-Modality Fusion Transformer (CFT) in this paper. Unlike prior CNNs-based works, guided by the transformer scheme, our network learns long-range dependencies and integrates global contextual information in the feature extraction stage. More importantly, by leveraging the self attention of the transformer, the network can naturally carry out simultaneous intra-modality and inter-modality fusion, and robustly capture the latent interactions between RGB and Thermal domains, thereby significantly improving the performance of multispectral object detection. Extensive experiments and ablation studies on multiple datasets demonstrate that our approach is effective and achieves state-of-the-art detection performance. Our code and models will be released soon at https://github.com/D ocF/multispectral-ob ject-detection.
翻訳日:2021-11-04 05:27:10 公開日:2021-10-30
# (参考訳) QQブラウザ2021 Aiアルゴリズム競合トラック1 : マルチモーダルビデオの類似性 [全文訳有]

Top1 Solution of QQ Browser 2021 Ai Algorithm Competition Track 1 : Multimodal Video Similarity ( http://arxiv.org/abs/2111.01677v1 )

ライセンス: CC BY 4.0
Zhuoran Ma, Majing Lou, Xuan Ouyang(参考訳) 本稿では,QQ Browser 2021 Ai Algorithm Competition (AIAC) Track 1について述べる。 ビデオ埋め込み抽出にはマルチモーダルトランスフォーマーモデルを用いる。 プレトレイン段階では,(1)ビデオタグ分類(VTC),(2)マスク言語モデリング(MLM),(3)マスクフレームモデリング(MFM)の3つのタスクでモデルを訓練する。 微粒度段階では,人間のランク正規化ラベルに基づくビデオ類似度でモデルを訓練する。 私たちの完全なパイプラインは、いくつかのモデルを組み立てた後、リーダーボードで0.852を獲得しました。 ソースコードはGithubで公開されている。

In this paper, we describe the solution to the QQ Browser 2021 Ai Algorithm Competition (AIAC) Track 1. We use the multi-modal transformer model for the video embedding extraction. In the pretrain phase, we train the model with three tasks, (1) Video Tag Classification (VTC), (2) Mask Language Modeling (MLM) and (3) Mask Frame Modeling (MFM). In the finetune phase, we train the model with video similarity based on rank normalized human labels. Our full pipeline, after ensembling several models, scores 0.852 on the leaderboard, which we achieved the 1st place in the competition. The source codes have been released at Github.
翻訳日:2021-11-04 05:16:03 公開日:2021-10-30
# (参考訳) EventNarrative: 知識グラフからテキスト生成のための大規模イベント中心データセット [全文訳有]

EventNarrative: A large-scale Event-centric Dataset for Knowledge Graph-to-Text Generation ( http://arxiv.org/abs/2111.00276v1 )

ライセンス: CC BY 4.0
Anthony Colas, Ali Sadeghian, Yue Wang, Daisy Zhe Wang(参考訳) オープンワールドナレッジグラフの知識グラフからテキストへのデータセットであるeventnarrativeを紹介する。 イベント駆動情報抽出(IE)の最近の進歩と、グラフからテキストまでの先行研究がエンティティ駆動のKGにのみ焦点をあてていることを踏まえ、この記事ではイベント中心のデータに焦点を当てる。 しかし、私たちのデータ生成システムは、他のタイプのkgデータにも適応できます。 グラフとテキストの領域にある既存の大規模なデータセットは並列ではないため、KGとテキストの間には大きな断絶がある。 ペア化されたKGとテキストを持つデータセットは、小さなスケールで、リッチなオントロジーなしで手動で生成されたり、あるいは生成される。 さらに、これらのデータセットには、KGとテキストペアの間に多くの非リンクエンティティが含まれている。 eventnarrativeは約23万のグラフと対応する自然言語テキストで構成されており、現在の最大の並列データセットの6倍の大きさである。 リッチなオントロジーを利用し、すべてのKGsエンティティがテキストにリンクされ、手動のアノテーションによって高いデータ品質が確認されます。 データの不足しているイベント中心の研究の新たな基盤を打破し、研究者に、既存の知識グラフからテキストへのモデルをよりよく評価するための、明確に定義された大規模データセットを提供することです。 また,2種類のベースラインをイベントナラティブ上で評価した。グラフからテキストへの特定モデルと,知識グラフからテキストへの適応性を示す2つの最先端言語モデルである。

We introduce EventNarrative, a knowledge graph-to-text dataset from publicly available open-world knowledge graphs. Given the recent advances in event-driven Information Extraction (IE), and that prior research on graph-to-text only focused on entity-driven KGs, this paper focuses on event-centric data. However, our data generation system can still be adapted to other other types of KG data. Existing large-scale datasets in the graph-to-text area are non-parallel, meaning there is a large disconnect between the KGs and text. The datasets that have a paired KG and text, are small scale and manually generated or generated without a rich ontology, making the corresponding graphs sparse. Furthermore, these datasets contain many unlinked entities between their KG and text pairs. EventNarrative consists of approximately 230,000 graphs and their corresponding natural language text, 6 times larger than the current largest parallel dataset. It makes use of a rich ontology, all of the KGs entities are linked to the text, and our manual annotations confirm a high data quality. Our aim is two-fold: help break new ground in event-centric research where data is lacking, and to give researchers a well-defined, large-scale dataset in order to better evaluate existing and future knowledge graph-to-text models. We also evaluate two types of baseline on EventNarrative: a graph-to-text specific model and two state-of-the-art language models, which previous work has shown to be adaptable to the knowledge graph-to-text domain.
翻訳日:2021-11-04 05:11:48 公開日:2021-10-30
# (参考訳) 緊急車両の効率的な通過のための分散強化学習フレームワーク [全文訳有]

A Decentralized Reinforcement Learning Framework for Efficient Passage of Emergency Vehicles ( http://arxiv.org/abs/2111.00278v1 )

ライセンス: CC BY 4.0
Haoran Su, Yaofeng Desmond Zhong, Dey Biswadip, Amit Chakraborty(参考訳) 救急車(EMV)は、医療緊急事態や火災の発生など、時間的に重要な出来事に対する市の対応において重要な役割を果たす。 EMV走行時間を短縮するための既存のアプローチでは、これらの2つのサブプロブレム間の結合を考慮せずに、経路最適化と信号プリエンプションを採用している。 結果として、計画された経路はしばしば最適となる。 さらに、これらのアプローチは、トラフィックフロー全体の破壊を最小限にすることにも焦点を合わせない。 これらの問題に対処するため,本稿ではEMVLightを紹介する。 これは動的ルーティングとトラフィック信号制御を同時に行う分散強化学習(rl)フレームワークである。 EMVLight は Dijkstra のアルゴリズムを拡張して,トラフィックネットワークを走行する EMV の最適経路を効率的に更新する。 その結果、分散RLエージェントは、EMV走行時間とネットワーク内の非EMVの平均走行時間を減少させるネットワークレベルの協調交通信号位相戦略を学習する。 我々は,この利点を実証するために,合成地図と実世界地図を用いた総合実験を行った。 以上の結果から,EMVLightは既存のRLベースの信号制御手法と同様に,交通工学のベンチマーク技術よりも優れていた。

Emergency vehicles (EMVs) play a critical role in a city's response to time-critical events such as medical emergencies and fire outbreaks. The existing approaches to reduce EMV travel time employ route optimization and traffic signal pre-emption without accounting for the coupling between route these two subproblems. As a result, the planned route often becomes suboptimal. In addition, these approaches also do not focus on minimizing disruption to the overall traffic flow. To address these issues, we introduce EMVLight in this paper. This is a decentralized reinforcement learning (RL) framework for simultaneous dynamic routing and traffic signal control. EMVLight extends Dijkstra's algorithm to efficiently update the optimal route for an EMV in real-time as it travels through the traffic network. Consequently, the decentralized RL agents learn network-level cooperative traffic signal phase strategies that reduce EMV travel time and the average travel time of non-EMVs in the network. We have carried out comprehensive experiments with synthetic and real-world maps to demonstrate this benefit. Our results show that EMVLight outperforms benchmark transportation engineering techniques as well as existing RL-based traffic signal control methods.
翻訳日:2021-11-04 04:57:23 公開日:2021-10-30
# (参考訳) 最適停止による侵入防止 [全文訳有]

Intrusion Prevention through Optimal Stopping ( http://arxiv.org/abs/2111.00289v1 )

ライセンス: CC BY-SA 4.0
Kim Hammar and Rolf Stadler(参考訳) 強化学習を用いた自動侵入防止について検討した。 新たなアプローチに従うと、侵入防止の問題を(最適)多重停止問題として定式化する。 この定式化は、しきい値特性を持つことを示す最適ポリシーの構造についての洞察を与える。 ほとんどの実例では、動的プログラミングを用いて最適なディフェンダーポリシーを得ることは不可能である。 そこで我々は,最適政策を近似する強化学習手法を開発した。 本手法は,ディフェンダーポリシを漸進的に学習するシミュレーションシステムと,シミュレーションを駆動する統計を生成するエミュレーションシステムと,学習ポリシを評価するエミュレーションシステムと,2つのシステムから構成される。 当社のアプローチは,限られた規模の実践的なITインフラストラクチャに対して,効果的なディフェンダポリシを実現することができることを示す。 学習方針の検査は閾値特性を示すことを確認した。

We study automated intrusion prevention using reinforcement learning. Following a novel approach, we formulate the problem of intrusion prevention as an (optimal) multiple stopping problem. This formulation gives us insight into the structure of optimal policies, which we show to have threshold properties. For most practical cases, it is not feasible to obtain an optimal defender policy using dynamic programming. We therefore develop a reinforcement learning approach to approximate an optimal policy. Our method for learning and validating policies includes two systems: a simulation system where defender policies are incrementally learned and an emulation system where statistics are produced that drive simulation runs and where learned policies are evaluated. We show that our approach can produce effective defender policies for a practical IT infrastructure of limited size. Inspection of the learned policies confirms that they exhibit threshold properties.
翻訳日:2021-11-04 04:41:00 公開日:2021-10-30
# (参考訳) 極海における自動車の長距離ルート計画 [全文訳有]

Long-Range Route-planning for Autonomous Vehicles in the Polar Oceans ( http://arxiv.org/abs/2111.00293v1 )

ライセンス: CC BY 4.0
Maria Fox, Michael Meredith, J. Alexander Brearley, Dan Jones and Derek Long(参考訳) 極氷環境での運用は、無人水中車両(AUV)のパイロット需要が高まっている。 現在、auvは船舶から配備され、これらの地域では直接人力操縦されており、高い炭素コストと運用範囲を制限している。 長期の自律ミッションの重要な要件は、氷の状態の変化を認識した長距離経路計画能力である。 本稿では,南洋におけるAUVの長距離ルート計画自動化の課題に対処する。 経路計画法と結果から,効率的な氷を回避し,長距離走行を計画できることを示す。

There is an increasing demand for piloted autonomous underwater vehicles (AUVs) to operate in polar ice conditions. At present, AUVs are deployed from ships and directly human-piloted in these regions, entailing a high carbon cost and limiting the scope of operations. A key requirement for long-term autonomous missions is a long-range route planning capability that is aware of the changing ice conditions. In this paper we address the problem of automating long-range route-planning for AUVs operating in the Southern Ocean. We present the route-planning method and results showing that efficient, ice-avoiding, long-distance traverses can be planned.
翻訳日:2021-11-04 04:07:10 公開日:2021-10-30
# (参考訳) 分散Q学習ランダムアクセスmMTCネットワークにおけるスループットとレイテンシ [全文訳有]

Throughput and Latency in the Distributed Q-Learning Random Access mMTC Networks ( http://arxiv.org/abs/2111.00299v1 )

ライセンス: CC BY 4.0
Giovanni Maciel Ferreira Silva, Taufik Abrao(参考訳) mMTCモードでは、何千ものデバイスがネットワークリソースを散発的にアクセスしようとすると、ランダムアクセス(RA)の問題と、同じリソースを選択するデバイス間の衝突が重要になる。 このようなra問題を解決するための有望なアプローチは、学習メカニズム、特にq-learningアルゴリズムを使用することである。 本研究では,送信するパケットの数が多いデバイスを優先する中央ノードから報酬を変動させることにより,分散パケットベースの学習手法を提案する。 提案手法は, 実用シナリオにおいて, 分散パケットを用いたq-learning手法が, 従来手法よりもスループット・レイテンシのトレードオフが向上することを示す。 対照的に、同じ正規化スループットを達成するためのコラボレーティブqラーニングra技術に関して、パケットベース手法のペイロードビット数を減少させる。

In mMTC mode, with thousands of devices trying to access network resources sporadically, the problem of random access (RA) and collisions between devices that select the same resources becomes crucial. A promising approach to solve such an RA problem is to use learning mechanisms, especially the Q-learning algorithm, where the devices learn about the best time-slot periods to transmit through rewards sent by the central node. In this work, we propose a distributed packet-based learning method by varying the reward from the central node that favors devices having a larger number of remaining packets to transmit. Our numerical results indicated that the proposed distributed packet-based Q-learning method attains a much better throughput-latency trade-off than the alternative independent and collaborative techniques in practical scenarios of interest. In contrast, the number of payload bits of the packet-based technique is reduced regarding the collaborative Q-learning RA technique for achieving the same normalized throughput.
翻訳日:2021-11-04 03:47:44 公開日:2021-10-30
# (参考訳) 近似メッセージパッシングによるバイナリ症状チェッカーの最適化 [全文訳有]

Optimizing Binary Symptom Checkers via Approximate Message Passing ( http://arxiv.org/abs/2111.00303v1 )

ライセンス: CC BY-SA 4.0
Mohamed Akrout, Faouzi Bellili, Amine Mezghani, Hayet Amdouni(参考訳) 症状チェッカーは、進行中のパンデミック危機の間、インテリジェントな電子医療アプリケーションとして広く採用されてきた。 彼らのパフォーマンスは、症状と疾患の間の収集された医療知識のきめ細かい品質によって制限されている。 症状と疾患の関係のバイナリ化はデータ収集プロセスを単純化する一方で、推論ステップ中に非凸最適化の問題を引き起こす。 本稿では,この症状チェック問題を非凸最適化問題として定式化し,圧縮センシングフレームワークを用いてその解法を正当化する。 一般化ベクトル近似メッセージパッシング(G-VAMP)アルゴリズムが二項症状チェッカーに最適な性能を提供することを示す。

Symptom checkers have been widely adopted as an intelligent e-healthcare application during the ongoing pandemic crisis. Their performance have been limited by the fine-grained quality of the collected medical knowledge between symptom and diseases. While the binarization of the relationships between symptoms and diseases simplifies the data collection process, it also leads to non-convex optimization problems during the inference step. In this paper, we formulate the symptom checking problem as an underdertermined non-convex optimization problem, thereby justifying the use of the compressive sensing framework to solve it. We show that the generalized vector approximate message passing (G-VAMP) algorithm provides the best performance for binary symptom checkers.
翻訳日:2021-11-04 03:33:14 公開日:2021-10-30
# (参考訳) 3DP3:確率計画による3次元シーン認識

3DP3: 3D Scene Perception via Probabilistic Programming ( http://arxiv.org/abs/2111.00312v1 )

ライセンス: CC BY 4.0
Nishad Gothoskar, Marco Cusumano-Towner, Ben Zinberg, Matin Ghavamizadeh, Falk Pollok, Austin Garrett, Joshua B. Tenenbaum, Dan Gutfreund, Vikash K. Mansinghka(参考訳) 本稿では,オブジェクト,シーン,画像の構造化生成モデルにおける推論を用いた逆グラフのフレームワークである3DP3を提案する。 3DP3 の使用 (i)オブジェクトの3次元形状を表すボクセルモデル。 (ii)シーンをオブジェクトに分解する階層的なシーングラフとその接点 (iii)リアルタイムグラフィックスに基づく深度画像の可能性。 観察されたRGB-D画像から、3DP3の推論アルゴリズムは、オブジェクトのポーズや、高速なボトムアップポーズの提案、シーングラフ構造の新しい不揮発性MCMC更新、オプションでニューラルオブジェクト検出器とポーズ推定器を用いて、これらのポーズの擬似的な関節パラメトリゼーションを含む、下層の3Dシーンを推論する。 3DP3は3次元形状, 咬合, 接触構造を認識したシーン理解を可能にする。 以上の結果から,3DP3は深層学習ベースラインよりも6DoFオブジェクトの方が精度が高く,新たな視点,接触,部分観測性を備えた挑戦シーンに対して,より汎用性が高いことが示された。

We present 3DP3, a framework for inverse graphics that uses inference in a structured generative model of objects, scenes, and images. 3DP3 uses (i) voxel models to represent the 3D shape of objects, (ii) hierarchical scene graphs to decompose scenes into objects and the contacts between them, and (iii) depth image likelihoods based on real-time graphics. Given an observed RGB-D image, 3DP3's inference algorithm infers the underlying latent 3D scene, including the object poses and a parsimonious joint parametrization of these poses, using fast bottom-up pose proposals, novel involutive MCMC updates of the scene graph structure, and, optionally, neural object detectors and pose estimators. We show that 3DP3 enables scene understanding that is aware of 3D shape, occlusion, and contact structure. Our results demonstrate that 3DP3 is more accurate at 6DoF object pose estimation from real images than deep learning baselines and shows better generalization to challenging scenes with novel viewpoints, contact, and partial observability.
翻訳日:2021-11-04 03:23:07 公開日:2021-10-30
# (参考訳) 注意誘導畳み込みニューラルネットワークを用いたカクテルパーティーシナリオにおけるリアルタイム話者カウント [全文訳有]

Real-time Speaker counting in a cocktail party scenario using Attention-guided Convolutional Neural Network ( http://arxiv.org/abs/2111.00316v1 )

ライセンス: CC BY 4.0
Midia Yousefi, John H.L. Hansen(参考訳) 現在の音声技術システムの多くは、複数のアクティブスピーカーが存在する場合でも、うまく動作するように設計されている。 しかし、ほとんどの解は共起話者の数が知られていると仮定する。 残念ながら、この情報は現実世界のアプリケーションでは必ずしも利用できないかもしれない。 本研究では,重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。 提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。 次に、注目機構は抽出した情報を臨界情報を失うことなくコンパクトな特徴ベクトルに要約する。 最後に、アクティブスピーカーは、完全接続されたネットワークを使用して分類される。 WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プールに比べて,注意解がほぼ3%向上することが示されている。 提案された注意誘導CNNは、重み付き精度と平均リコールの両方で76.15%、音声セグメントで75.80%の精度を20フレーム(すなわち200ms)で達成している。 すべての分類基準は、入力信号が100フレーム以上(すなわち1s)のオフラインシナリオにおいて、注意誘導モデルにおいて92%を超える。

Most current speech technology systems are designed to operate well even in the presence of multiple active speakers. However, most solutions assume that the number of co-current speakers is known. Unfortunately, this information might not always be available in real-world applications. In this study, we propose a real-time, single-channel attention-guided Convolutional Neural Network (CNN) to estimate the number of active speakers in overlapping speech. The proposed system extracts higher-level information from the speech spectral content using a CNN model. Next, the attention mechanism summarizes the extracted information into a compact feature vector without losing critical information. Finally, the active speakers are classified using a fully connected network. Experiments on simulated overlapping speech using WSJ corpus show that the attention solution is shown to improve the performance by almost 3% absolute over conventional temporal average pooling. The proposed Attention-guided CNN achieves 76.15% for both Weighted Accuracy and average Recall, and 75.80% Precision on speech segments as short as 20 frames (i.e., 200 ms). All the classification metrics exceed 92% for the attention-guided model in offline scenarios where the input signal is more than 100 frames long (i.e., 1s).
翻訳日:2021-11-04 03:21:35 公開日:2021-10-30
# (参考訳) マルチスピーカ音声認識におけるアフィン変換を用いた音響モデルの話者条件付け [全文訳有]

Speaker conditioning of acoustic models using affine transformation for multi-speaker speech recognition ( http://arxiv.org/abs/2111.00320v1 )

ライセンス: CC BY 4.0
Midia Yousefi, John H.L. Hanse(参考訳) 本研究では,重複音声シナリオにおける対象話者の単一チャネル自動音声認識の問題に対処する。 提案手法では,音響モデルの隠れ表現を話者補助情報によって変調し,所望の話者のみを認識する。 音響モデルネットワークにアフィン変換層を挿入し、話者情報と音響的特徴を統合する。 スピーカコンディショニングプロセスにより,音響モデルが対象話者補助情報の文脈で計算を行うことができる。 提案手法は一般的なアプローチであり,任意の音響モデルアーキテクチャに適用可能である。 本稿では,話者コンディショニングをresnet音響モデルに適用する。 wsjコーパスにおける実験により,提案手法は,複数話者音声認識における話者補助情報と音響特徴を融合する有効な解であり,従来のresnet音響モデルのベースラインと比較して,それぞれ+9%,+20%の相対 wer 削減を達成していることがわかった。

This study addresses the problem of single-channel Automatic Speech Recognition of a target speaker within an overlap speech scenario. In the proposed method, the hidden representations in the acoustic model are modulated by speaker auxiliary information to recognize only the desired speaker. Affine transformation layers are inserted into the acoustic model network to integrate speaker information with the acoustic features. The speaker conditioning process allows the acoustic model to perform computation in the context of target-speaker auxiliary information. The proposed speaker conditioning method is a general approach and can be applied to any acoustic model architecture. Here, we employ speaker conditioning on a ResNet acoustic model. Experiments on the WSJ corpus show that the proposed speaker conditioning method is an effective solution to fuse speaker auxiliary information with acoustic features for multi-speaker speech recognition, achieving +9% and +20% relative WER reduction for clean and overlap speech scenarios, respectively, compared to the original ResNet acoustic model baseline.
翻訳日:2021-11-04 03:12:12 公開日:2021-10-30
# 背景モデル補完による移動カメラによる塩分検出

Saliency detection with moving camera via background model completion ( http://arxiv.org/abs/2111.01681v1 )

ライセンス: Link先を確認
Yupei Zhang, Kwok-Leung Chan(参考訳) 映像中の塩分を検出することは、多くのコンピュータビジョンシステムにおいて基本的なステップである。 相性(Saliency)は、ビデオの重要なターゲットである。 関心の対象は、高レベルのアプリケーションに対してさらに分析される。 異なる視覚的手がかりを示す場合、相性や背景の分離が可能である。 したがって、サリエンシ検出はしばしばバックグラウンドサブトラクションとして定式化される。 しかし、塩分検出は困難である。 例えば、動的背景は偽陽性の誤りを引き起こすことがある。 別のシナリオでは、カモフラージュは偽陰性エラーを引き起こす。 カメラを動かすと、撮影されたシーンは処理がさらに複雑になる。 本稿では,バックグラウンドモデルとディープラーニングのバックグラウンド/フォアグラウンドセグメンテーションネットワークからなる,バックグラウンドモデル補完(sd-bmc)によるサリエンシー検出という新しいフレームワークを提案する。 背景モデラーは、短い画像シーケンスから初期クリーンな背景画像を生成する。 ビデオ補完の概念に基づいて、背景の変化と移動物体の共存により、優れた背景フレームを合成することができる。 バックグラウンド/地上セグメンタを採用するが、特定のビデオデータセットで事前訓練されているため、見当たらないビデオの精度も検出できる。 背景モデラーは、長い映像の処理中に背景/前景セグメンタ出力が劣化したとき、背景画像を動的に調整することができる。 我々の知る限りでは、移動カメラで撮影したビデオの背景モデリングと相性検出にビデオ補完を採用するのは、我々のフレームワークが初めてである。 PTZビデオから得られた結果から,提案手法が深層学習に基づく背景抽出モデルよりも11%以上優れた結果を得た。 より難しいビデオでは、我々のフレームワークは、多くの高いランクのバックグラウンド減算メソッドを3%以上上回っている。

To detect saliency in video is a fundamental step in many computer vision systems. Saliency is the significant target(s) in the video. The object of interest is further analyzed for high-level applications. The segregation of saliency and the background can be made if they exhibit different visual cues. Therefore, saliency detection is often formulated as background subtraction. However, saliency detection is challenging. For instance, dynamic background can result in false positive errors. In another scenario, camouflage will lead to false negative errors. With moving camera, the captured scenes are even more complicated to handle. We propose a new framework, called saliency detection via background model completion (SD-BMC), that comprises of a background modeler and the deep learning background/foregroun d segmentation network. The background modeler generates an initial clean background image from a short image sequence. Based on the idea of video completion, a good background frame can be synthesized with the co-existence of changing background and moving objects. We adopt the background/foregroun d segmenter, although pre-trained with a specific video dataset, can also detect saliency in unseen videos. The background modeler can adjust the background image dynamically when the background/foregroun d segmenter output deteriorates during processing of a long video. To the best of our knowledge, our framework is the first one to adopt video completion for background modeling and saliency detection in videos captured by moving camera. The results, obtained from the PTZ videos, show that our proposed framework outperforms some deep learning-based background subtraction models by 11% or more. With more challenging videos, our framework also outperforms many high ranking background subtraction methods by more than 3%.
翻訳日:2021-11-03 14:40:46 公開日:2021-10-30
# フラットミニマの発見によるインクリメンタルFew-Shot学習におけるカタストロフィック・フォーミングの克服

Overcoming Catastrophic Forgetting in Incremental Few-Shot Learning by Finding Flat Minima ( http://arxiv.org/abs/2111.01549v1 )

ライセンス: Link先を確認
Guangyuan Shi, Jiaxin Chen, Wenlong Zhang, Li-Ming Zhan, Xiao-Ming Wu(参考訳) 本稿では,新しいカテゴリを連続的に認識するためのモデルが必要となる,段階的な少数ショット学習を考察する。 本研究は,既存手法がデータ不足と不均衡により悪化する,インクリメンタル学習におけるよく知られた難題である破滅的な忘れ込みに苦しむことを示唆する。 分析ではさらに、破滅的な忘れるのを防ぐために、基礎クラスのトレーニングではなく、プリミティブなステージでアクションを取る必要があることを示唆しています。 そこで本研究では,ベーストレーニング対象関数の平坦な局所最小値の探索を行い,新しいタスクでフラット領域内のモデルパラメータを微調整する。 このようにして、モデルは古いクラスを保持しながら、効率的に新しいクラスを学ぶことができる。 総合的な実験結果から,本手法は従来の最先端手法よりも優れ,近似上界に非常に近いことを示す。 ソースコードはhttps://github.com/m oukamisama/F2Mで入手できる。

This paper considers incremental few-shot learning, which requires a model to continually recognize new categories with only a few examples provided. Our study shows that existing methods severely suffer from catastrophic forgetting, a well-known problem in incremental learning, which is aggravated due to data scarcity and imbalance in the few-shot setting. Our analysis further suggests that to prevent catastrophic forgetting, actions need to be taken in the primitive stage -- the training of base classes instead of later few-shot learning sessions. Therefore, we propose to search for flat local minima of the base training objective function and then fine-tune the model parameters within the flat region on new tasks. In this way, the model can efficiently learn new classes while preserving the old ones. Comprehensive experimental results demonstrate that our approach outperforms all prior state-of-the-art methods and is very close to the approximate upper bound. The source code is available at https://github.com/m oukamisama/F2M.
翻訳日:2021-11-03 14:20:22 公開日:2021-10-30
# (参考訳) 回転ダクト流中の異方性レイノルズ応力テンソルのカリキュラム学習によるマルチタスク学習に基づく畳み込みモデル [全文訳有]

Multi-Task Learning based Convolutional Models with Curriculum Learning for the Anisotropic Reynolds Stress Tensor in Turbulent Duct Flow ( http://arxiv.org/abs/2111.00328v1 )

ライセンス: CC BY 4.0
Haitz S\'aez de Oc\'ariz Borde, David Sondak, Pavlos Protopapas(参考訳) Reynolds-averaged Navier-Stokes (RANS) 方程式は異方性 Reynolds 応力テンソルの正確なモデリングを必要とする。 研究者たちは、この問題に対処するために機械学習アプローチを使い始めた。 本研究では,乱流モデリングに用いる最近の畳み込みニューラルネットワークアーキテクチャを基礎として,乱流流れの正規化異方性レイノルズ応力テンソルを正確に予測できるマルチタスク学習ベースの完全畳み込みニューラルネットワークを提案する。 さらに,データ駆動乱流モデリングへのカリキュラム学習の適用についても検討する。

The Reynolds-averaged Navier-Stokes (RANS) equations require accurate modeling of the anisotropic Reynolds stress tensor, for which traditional closure models only give good results in certain flow configurations. Researchers have started using machine learning approaches to address this problem. In this work we build upon recent convolutional neural network architectures used for turbulence modeling and propose a multi-task learning based fully convolutional neural network that is able to accurately predict the normalized anisotropic Reynolds stress tensor for turbulent duct flow. Furthermore, we also explore the application of curriculum learning to data-driven turbulence modeling.
翻訳日:2021-11-03 11:02:52 公開日:2021-10-30
# (参考訳) パンデミックで患者を管理するアルゴリズムにおける偏見の同定と緩和 [全文訳有]

Identifying and mitigating bias in algorithms used to manage patients in a pandemic ( http://arxiv.org/abs/2111.00340v1 )

ライセンス: CC BY 4.0
Yifan Li, Garrett Yoon, Mustafa Nasir-Moin, David Rosenberg, Sean Neifert, and Douglas Kondziolka, Eric Karl Oermann(参考訳) 多くのcovid-19臨床判断支援システムが開発されている。 しかし、これらのシステムの多くは、アルゴリズムバイアスを含む方法論的欠点のために有効性を持たない。 方法 ロジスティック回帰モデルは、ニューヨーク市の4つの病院からなる現実のデータセットを用いて、新型コロナウイルスの死亡率、人工呼吸器の状態、入院状態を予測するために作成され、人種、性別、年齢に対する偏見を分析した。 トレーニングプロセスに簡単なしきい値調整を適用し、より公平なモデルを構築した。 その結果, 評価モデルと比較すると, 偏差試験回数は57%減少し, 受信/操作曲線 (AUC) 下の領域で測定された予測性能は変わらなかった。 キャリブレーション後, 予測モデルの平均感度は0.527から0.955に増加した。 結論 新型コロナウイルス(covid-19)の予測分析のために、現実世界のデータに機械学習モデルを訓練し、デプロイすることは、バイアスのリスクが高いことを実証する。 モデルトレーニング中に簡単に実装された調整やキャリブレーションは、その後の展開に対して相当かつ持続的な利益をもたらす可能性がある。

Numerous COVID-19 clinical decision support systems have been developed. However many of these systems do not have the merit for validity due to methodological shortcomings including algorithmic bias. Methods Logistic regression models were created to predict COVID-19 mortality, ventilator status and inpatient status using a real-world dataset consisting of four hospitals in New York City and analyzed for biases against race, gender and age. Simple thresholding adjustments were applied in the training process to establish more equitable models. Results Compared to the naively trained models, the calibrated models showed a 57% decrease in the number of biased trials, while predictive performance, measured by area under the receiver/operating curve (AUC), remained unchanged. After calibration, the average sensitivity of the predictive models increased from 0.527 to 0.955. Conclusion We demonstrate that naively training and deploying machine learning models on real world data for predictive analytics of COVID-19 has a high risk of bias. Simple implemented adjustments or calibrations during model training can lead to substantial and sustained gains in fairness on subsequent deployment.
翻訳日:2021-11-03 10:36:54 公開日:2021-10-30
# (参考訳) 決定論的関係を持つ線形構造因果モデルにおける因果発見

Causal Discovery in Linear Structural Causal Models with Deterministic Relations ( http://arxiv.org/abs/2111.00341v1 )

ライセンス: CC BY 4.0
Yuqin Yang, Mohamed Nafea, AmirEmad Ghassami, Negar Kiyavash(参考訳) 線形構造因果モデル(SCM)は、各観測された変数が他の観測された変数のサブセットと外因性ソースのサブセットによって生成されるもので、因果推論やカジュアルな発見において普及している。 しかし因果発見のタスクでは、既存の作業は、観察された各変数が非ゼロ分散の異なるソースに関連付けられる部分モデルにほとんど焦点を合わせている。 これにより、観測変数が決定論的に他の観測変数や潜在共同設立者に依存できないという制限が生じる。 本稿では、この特性を持たない線形SCMのサブクラス、すなわち、観測変数がソースのサブセットに因果的に影響され、他の観測変数や潜在的共同設立者の決定的関数となることができるモデルに着目して、構造学習に関する結果を拡張する。 これにより、システムにおける影響や情報伝達のより現実的なモデリングが可能になる。 このサブクラスのメンバーから生成された観測データによる因果発見の課題に焦点をあてる。 因果構造の一意的な識別性のために必要十分条件の集合を導出する。 私たちの知る限りでは、これは潜在的な結合関係と決定論的関係の両方の下で因果発見の識別可能性結果を与える最初の作品です。 また,上記の条件を満たす場合,基礎となる因果構造を復元するアルゴリズムを提案する。 我々は合成データと実データの両方で理論的結果を検証する。

Linear structural causal models (SCMs) -- in which each observed variable is generated by a subset of the other observed variables as well as a subset of the exogenous sources -- are pervasive in causal inference and casual discovery. However, for the task of causal discovery, existing work almost exclusively focus on the submodel where each observed variable is associated with a distinct source with non-zero variance. This results in the restriction that no observed variable can deterministically depend on other observed variables or latent confounders. In this paper, we extend the results on structure learning by focusing on a subclass of linear SCMs which do not have this property, i.e., models in which observed variables can be causally affected by any subset of the sources, and are allowed to be a deterministic function of other observed variables or latent confounders. This allows for a more realistic modeling of influence or information propagation in systems. We focus on the task of causal discovery form observational data generated from a member of this subclass. We derive a set of necessary and sufficient conditions for unique identifiability of the causal structure. To the best of our knowledge, this is the first work that gives identifiability results for causal discovery under both latent confounding and deterministic relationships. Further, we propose an algorithm for recovering the underlying causal structure when the aforementioned conditions are satisfied. We validate our theoretical results both on synthetic and real datasets.
翻訳日:2021-11-03 10:33:05 公開日:2021-10-30
# Beyond Independent Measurements: GNNアプリケーションによる一般圧縮センシング

Beyond Independent Measurements: General Compressed Sensing with GNN Application ( http://arxiv.org/abs/2111.00327v1 )

ライセンス: Link先を確認
Alireza Naderi and Yaniv Plan(参考訳) 構造信号 $\mathbf{x} \in \mathbb{R}^{n}$ を雑音線形観測 $\mathbf{y} =\mathbf{M} \mathbf{x}+\mathbf{w}$ から復元する問題を考える。 測定行列は $\mathbf{M} = \mathbf{B}\mathbf{A}$ とモデル化され、$\mathbf{B} \in \mathbb{R}^{l \times m}$ は任意のものであり、$\mathbf{A} \in \mathbb{R}^{m \times n}$ は独立な部分ガウス列を持つ。 これは、$\mathbf{b}$と$\mathbf{a}$のサブガウス分布を変化させることで、重い尾、依存行と列、大きなダイナミックレンジを持つ特異値を持つ測定行列の族を与える。 構造がおそらく非凸円錐$T \subset \mathbb{R}^{n}$として与えられるとき、モデルミスマッチが存在する場合でも、実測値の有効数が十分であれば、近似経験的リスク最小化器はロバストな推定器であることが証明される。 独立な(サブ)ガウス計測を持つ古典的圧縮センシングでは、$\mathbf{x}$を回復するのに何つの測定が必要か尋ねる。 しかし、我々の設定では、実測値の有効数は $\mathbf{B}$ の性質に依存する。 実効的なランクである$\mathbf{b}$ が測定値のサロゲートとして用いられ、それが2乗ガウス平均幅である $(t-t) \cap \mathbb{s}^{n-1}$ を超える場合、正確な回復が保証される。 さらに、生成前の特別な場合、すなわち$\mathbf{x}$が$T = \mathrm{ran}(G)$ と $G: \mathbb{R}^k \rightarrow \mathbb{R}^n$ に近いとき、ReLU活性化関数を持つ生成ニューラルネットワーク(GNN)である。 我々の研究は、Jeong, Li, Plan, and Yilmaz arXiv:2001.10631 による確率行列理論の最近の結果に依存している。 .

We consider the problem of recovering a structured signal $\mathbf{x} \in \mathbb{R}^{n}$ from noisy linear observations $\mathbf{y} =\mathbf{M} \mathbf{x}+\mathbf{w}$. The measurement matrix is modeled as $\mathbf{M} = \mathbf{B}\mathbf{A}$, where $\mathbf{B} \in \mathbb{R}^{l \times m}$ is arbitrary and $\mathbf{A} \in \mathbb{R}^{m \times n}$ has independent sub-gaussian rows. By varying $\mathbf{B}$, and the sub-gaussian distribution of $\mathbf{A}$, this gives a family of measurement matrices which may have heavy tails, dependent rows and columns, and singular values with a large dynamic range. When the structure is given as a possibly non-convex cone $T \subset \mathbb{R}^{n}$, an approximate empirical risk minimizer is proven to be a robust estimator if the effective number of measurements is sufficient, even in the presence of a model mismatch. In classical compressed sensing with independent (sub-)gaussian measurements, one asks how many measurements are needed to recover $\mathbf{x}$? In our setting, however, the effective number of measurements depends on the properties of $\mathbf{B}$. We show that the effective rank of $\mathbf{B}$ may be used as a surrogate for the number of measurements, and if this exceeds the squared Gaussian mean width of $(T-T) \cap \mathbb{S}^{n-1}$, then accurate recovery is guaranteed. Furthermore, we examine the special case of generative priors in detail, that is when $\mathbf{x}$ lies close to $T = \mathrm{ran}(G)$ and $G: \mathbb{R}^k \rightarrow \mathbb{R}^n$ is a Generative Neural Network (GNN) with ReLU activation functions. Our work relies on a recent result in random matrix theory by Jeong, Li, Plan, and Yilmaz arXiv:2001.10631. .
翻訳日:2021-11-02 18:05:36 公開日:2021-10-30
# 任意スケール超解像のための音声の連続表現学習

Learning Continuous Representation of Audio for Arbitrary Scale Super Resolution ( http://arxiv.org/abs/2111.00195v1 )

ライセンス: Link先を確認
Jaechang Kim, Yunjoo Lee, Seunghoon Hong, Jungseul Ok(参考訳) audio super resolutionは、低解像度オーディオ信号の高分解能コンポーネントの欠落を予測することを目的としている。 自然界の音声は連続的な信号であるが、現在のアプローチでは離散データ(すなわち、入力は離散時間領域で定義される)として扱い、固定スケール因子(すなわち、出力解像度を変更するために新しいニューラルネットワークを訓練する必要がある)に対する超解像を考える。 音響の連続的な表現と任意のスケール係数の超分解能を実現するため、任意スケールの超分解能のためのニューラル暗黙表現法、Local Implicit representation(LISA) を提案する。 本手法は,音声のチャンクを連続時間関数として局所的にパラメータ化し,各チャンクを隣接チャンクの局所潜時符号で表現することにより,任意の時間座標,すなわち無限分解能で信号の外挿を可能にする。 音声の連続表現を学習するために,確率的選択によって元の解像度までスーパーレゾリューションタスクを実践するための自己教師あり学習戦略を設計する。 数値評価の結果,LISAは従来の固定スケール法よりも若干のパラメータで優れていたが,訓練データの解像度を超えた任意のスケール超解法も可能であることがわかった。

Audio super resolution aims to predict the missing high resolution components of the low resolution audio signals. While audio in nature is continuous signal, current approaches treat it as discrete data (i.e., input is defined on discrete time domain), and consider the super resolution over fixed scale factor (i.e., it is required to train a new neural network to change output resolution). To obtain a continuous representation of audio and enable super resolution for arbitrary scale factor, we propose a method of neural implicit representation, coined Local Implicit representation for Super resolution of Arbitrary scale (LISA). Our method locally parameterizes a chunk of audio as a function of continuous time, and represents each chunk with the local latent codes of neighboring chunks so that the function can extrapolate the signal at any time coordinate, i.e., infinite resolution. To learn a continuous representation for audio, we design a self-supervised learning strategy to practice super resolution tasks up to the original resolution by stochastic selection. Our numerical evaluation shows that LISA outperforms the previous fixed-scale methods with a fraction of parameters, but also is capable of arbitrary scale super resolution even beyond the resolution of training data.
翻訳日:2021-11-02 18:03:30 公開日:2021-10-30
# コルモゴロフPDEのための残留ニューラルネットワークの近似特性

Approximation properties of Residual Neural Networks for Kolmogorov PDEs ( http://arxiv.org/abs/2111.00215v1 )

ライセンス: Link先を確認
Jonas Baggenstos and Diyora Salimova(参考訳) 近年、[He, K., Zhang, X., Ren, S., Sun, J., Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2016), 770-778] は、画像分類やセグメンテーションを含む多くのアプリケーションで非常に人気がある。 彼らは、消える勾配問題に悩まされることなく、非常に深いニューラルネットワークをトレーニングする新しい視点を提供する。 本稿では, 近似再ネットのパラメータ数が近似精度 $\varepsilon > 0$ と考慮される pde $d\in\mathbb{n}$ の逆数で最大に増加するような次元の呪いに苦しむことなく, 定常拡散と非線形ドリフト係数を持つコルモゴロフ偏微分方程式 (pdes) の近似解を導出することを示す。 我々は[jentzen, a., salimova, d., and welti, t., commun. math. sci. 19, 5 (2021), 1167-1205]の証明を、feedforward neural networks (fnns) で同様の結果を示した。 FNNとは対照的に、ResNetsのEuler-Maruyama近似構造は、ResNetsの近似の構成を大幅に単純化する。 さらに、上記の研究とは対照的に、我々の証明では、ResNetsは、適用可能なアクティベーション関数の集合を拡大するIDマップを表すFNN(またはResNet)の存在を必要としない。

In recent years residual neural networks (ResNets) as introduced by [He, K., Zhang, X., Ren, S., and Sun, J., Proceedings of the IEEE conference on computer vision and pattern recognition (2016), 770-778] have become very popular in a large number of applications, including in image classification and segmentation. They provide a new perspective in training very deep neural networks without suffering the vanishing gradient problem. In this article we show that ResNets are able to approximate solutions of Kolmogorov partial differential equations (PDEs) with constant diffusion and possibly nonlinear drift coefficients without suffering the curse of dimensionality, which is to say the number of parameters of the approximating ResNets grows at most polynomially in the reciprocal of the approximation accuracy $\varepsilon > 0$ and the dimension of the considered PDE $d\in\mathbb{N}$. We adapt a proof in [Jentzen, A., Salimova, D., and Welti, T., Commun. Math. Sci. 19, 5 (2021), 1167-1205] - who showed a similar result for feedforward neural networks (FNNs) - to ResNets. In contrast to FNNs, the Euler-Maruyama approximation structure of ResNets simplifies the construction of the approximating ResNets substantially. Moreover, contrary to the above work, in our proof using ResNets does not require the existence of an FNN (or a ResNet) representing the identity map, which enlarges the set of applicable activation functions.
翻訳日:2021-11-02 17:58:54 公開日:2021-10-30
# リアルな音声駆動型顔合成のための任意発話スタイルの省略

Imitating Arbitrary Talking Style for Realistic Audio-DrivenTalking Face Synthesis ( http://arxiv.org/abs/2111.00203v1 )

ライセンス: Link先を確認
Haozhe Wu, Jia Jia, Haoyu Wang, Yishun Dou, Chao Duan, Qingshan Deng(参考訳) 人々は多様化したスタイルで話します。 1つのスピーチでは、異なる話し方が顔と頭の動きに顕著な違いを示す。 例えば、"excited"スタイルは口を大きく開けて話すのが一般的だが、"solemn"スタイルはより標準化され、しばしば誇張された動きを示す。 このような異なるスタイルの違いのため、音声駆動型音声合成フレームワークに話し方を統合する必要がある。 本稿では,特定の参照ビデオの任意の発話スタイルを模倣することにより,音声合成フレームワークにスタイルを注入することを提案する。 具体的には,収集した \textit{Ted-HD} データセットを用いて発話スタイルを体系的に検討し,3D morphable model~(3DMM) パラメータの統計値としてスタイルコードを構築する。 その後、スタイルコードから会話スタイルを模倣してスタイリッシュな話し顔を合成するために、潜伏型融合モデル(lsf)を考案する。 1) スタイルには何の注釈も必要とせず, 会話スタイルは, 野放しの会話ビデオから教師なしの方法で学習される。 (2)任意のビデオから任意のスタイルを模倣することができ、スタイルコードを補間して新しいスタイルを生成することもできる。 広範な実験により,提案フレームワークは,ベースライン手法と比較して,より自然で表現豊かな発話スタイルを合成できることが証明された。

People talk with diversified styles. For one piece of speech, different talking styles exhibit significant differences in the facial and head pose movements. For example, the "excited" style usually talks with the mouth wide open, while the "solemn" style is more standardized and seldomly exhibits exaggerated motions. Due to such huge differences between different styles, it is necessary to incorporate the talking style into audio-driven talking face synthesis framework. In this paper, we propose to inject style into the talking face synthesis framework through imitating arbitrary talking style of the particular reference video. Specifically, we systematically investigate talking styles with our collected \textit{Ted-HD} dataset and construct style codes as several statistics of 3D morphable model~(3DMM) parameters. Afterwards, we devise a latent-style-fusion~ (LSF) model to synthesize stylized talking faces by imitating talking styles from the style codes. We emphasize the following novel characteristics of our framework: (1) It doesn't require any annotation of the style, the talking style is learned in an unsupervised manner from talking videos in the wild. (2) It can imitate arbitrary styles from arbitrary videos, and the style codes can also be interpolated to generate new styles. Extensive experiments demonstrate that the proposed framework has the ability to synthesize more natural and expressive talking styles compared with baseline methods.
翻訳日:2021-11-02 17:27:06 公開日:2021-10-30
# 映画における人物行動事例探索のための時空間同一性検証手法

A Spatio-Temporal Identity Verification Method for Person-Action Instance Search in Movies ( http://arxiv.org/abs/2111.00228v1 )

ライセンス: Link先を確認
Jingyao Yang, Chao Liang, Yanrui Niu, Baojin Huang and Zhongyuan Wang(参考訳) ビデオ検索の難しい問題の一つとして、Person-Action Instance Search (INS)は、大量のビデオから特定の人物が特定のアクションを実行しているショットを検索することを目指している。 既存の方法は、まず、個人INSとアクションINSの2つの個別のINSブランチを別々に行い、初期人物とアクションランキングスコアを計算し、次に、両方のスコアを直接融合して最終ランキングを生成する。 しかし、2つのinsスコアの直接集計は、個人と行動の同一性を保証することはできない。 例えば、"pat is standing" と "ian is sitting on couch" のショットは、誤って "pat is sitting on couch" あるいは "ian is standing" と解釈されることがある。 上記の同一性不整合問題(IIP)に対処するため,時空間同定手法を提案する。 具体的には、空間次元において、個人INSとアクションINSの直接融合スコアを最適化するためのアイデンティティ整合性検証手法を提案する。 このモチベーションは、顔検出結果が通常、アイデンティティ一貫性のある行動境界ボックスにあるという観察に由来する。 さらに, 複雑な撮影条件を考慮した時間次元において, 連続する映像フレームにおいて欠落した顔・動作検出結果を補間するフレーム間検出拡張演算を提案する。 提案手法は,大規模なTRECVID INSデータセットを用いて評価し,本手法はIIPを効果的に軽減し,既存のTRECVID 2019および2020 INSタスクの2位を超えることができることを示した。

As one of the challenging problems in video search, Person-Action Instance Search (INS) aims to retrieve shots with specific person carrying out specific action from massive video shots. Existing methods mainly include two steps: First, two individual INS branches, i.e., person INS and action INS, are separately conducted to compute the initial person and action ranking scores; Second, both scores are directly fused to generate the final ranking list. However, direct aggregation of two individual INS scores cannot guarantee the identity consistency between person and action. For example, a shot with "Pat is standing" and "Ian is sitting on couch" may be erroneously understood as "Pat is sitting on couch" or "Ian is standing". To address the above identity inconsistency problem (IIP), we study a spatio-temporal identity verification method. Specifically, in the spatial dimension, we propose an identity consistency verification scheme to optimize the direct fusion score of person INS and action INS. The motivation originates from an observation that face detection results usually locate in the identity-consistent action bounding boxes. Moreover, in the temporal dimension, considering the complex filming condition, we propose an inter-frame detection extension operation to interpolate missing face/action detection results in successive video frames. The proposed method is evaluated on the large scale TRECVID INS dataset, and the experimental results show that our method can effectively mitigate the IIP and surpass the existing second places in both TRECVID 2019 and 2020 INS tasks.
翻訳日:2021-11-02 17:26:41 公開日:2021-10-30
# あなたは私の当選した宝くじを盗まれます! 宝くじでその所有権を請求する

You are caught stealing my winning lottery ticket! Making a lottery ticket claim its ownership ( http://arxiv.org/abs/2111.00162v1 )

ライセンス: Link先を確認
Xuxi Chen, Tianlong Chen, Zhenyu Zhang, Zhangyang Wang(参考訳) 多くのアプリケーションシナリオで非常に成功したにもかかわらず、ディープラーニングを使用するトレーニングと推論コストも、時間とともに急速に増加しています。 抽選券仮説(英: lottery ticket hypothesis、LTH)は、トレーニングと推論の両方の完全なモデルではなく、特別にスパースなサブネットワーク(すなわち、当選券)を活用するための有望な枠組みとして現れ、パフォーマンスを犠牲にすることなくコストを下げることができる。 しかし、LTHの主な資源ボトルネックは、当選チケットのスパースマスクを見つけるのに特別なコストである。 これにより、見つかった当選チケットは所有者にとって貴重な資産となり、著作権を保護する必要性を強調している。 当社の設定では、知的財産権(ip)による深層モデル侵害に対する保護への関心が高まり、所有者の膨大な/未熟なリソースを開発や訓練に活用するため、その所有権の検証に新たな次元が加えられている。 既存の手法では, 暗号化された重みや予測を探索する一方で, 粗いトポロジ情報を利用して宝くじ検証を行う独自の手法を探索し, 認証情報として組み込むことのできるグラフベースのシグネチャを複数開発した。 トリガーセットベースのメソッドを更に組み合わせることで、ホワイトボックスとブラックボックスの両方の検証シナリオで動作する。 CIFAR-10およびCIFAR-100における各種モデル(ResNet-20,ResNet-18 ,ResNet-50)における抽選検証の有効性を示す。 具体的には,モデルファインチューニングやプルーニングなどの除去攻撃や,あいまいな攻撃に対して堅牢であることを示す。 私たちのコードはhttps://github.com/V ITA-Group/NO-stealin g-LTHで公開しています。

Despite tremendous success in many application scenarios, the training and inference costs of using deep learning are also rapidly increasing over time. The lottery ticket hypothesis (LTH) emerges as a promising framework to leverage a special sparse subnetwork (i.e., winning ticket) instead of a full model for both training and inference, that can lower both costs without sacrificing the performance. The main resource bottleneck of LTH is however the extraordinary cost to find the sparse mask of the winning ticket. That makes the found winning ticket become a valuable asset to the owners, highlighting the necessity of protecting its copyright. Our setting adds a new dimension to the recently soaring interest in protecting against the intellectual property (IP) infringement of deep models and verifying their ownerships, since they take owners' massive/unique resources to develop or train. While existing methods explored encrypted weights or predictions, we investigate a unique way to leverage sparse topological information to perform lottery verification, by developing several graph-based signatures that can be embedded as credentials. By further combining trigger set-based methods, our proposal can work in both white-box and black-box verification scenarios. Through extensive experiments, we demonstrate the effectiveness of lottery verification in diverse models (ResNet-20, ResNet-18, ResNet-50) on CIFAR-10 and CIFAR-100. Specifically, our verification is shown to be robust to removal attacks such as model fine-tuning and pruning, as well as several ambiguity attacks. Our codes are available at https://github.com/V ITA-Group/NO-stealin g-LTH.
翻訳日:2021-11-02 17:10:50 公開日:2021-10-30
# マットにセットされた猫:二部的ハイパーグラフにおけるセットマッチングのためのクロス注意

The CAT SET on the MAT: Cross Attention for Set Matching in Bipartite Hypergraphs ( http://arxiv.org/abs/2111.00243v1 )

ライセンス: Link先を確認
Govind Sharma, Swyam Prakash Singh, V. Susheela Devi, and M. Narasimha Murty(参考訳) エンティティ間の通常の関係はグラフを使ってキャプチャできるが、より異なる2種類のエンティティ("left" と "right")の間にある上位のエンティティは、"bipartite hypergraph" を呼び出す。 例えば、症状の左セットと病気の右セットが与えられた場合、一連の症状(患者が特定の時点に経験する)と疾患のサブセット(彼/彼女が診断されるかもしれない)の関係は、二成分ハイパーエッジを用いてよく表現できる。 ハイパーグラフの埋め込みノードの最先端は、ハイパーエッジからノードペア間の自己アテンション構造を学習することに基づいている。 本研究は,両部ハイパーグラフを用いて,左右のハイパーエッジ間の交叉積からノード対の関係を捉えることを目的としており,これを「クロスアテンション」(CAT)ベースモデルと呼ぶ。 より正確には、セットマッチング(SETMAT)問題として"双分割ハイパーエッジリンク予測(bipartite hyperedge link prediction)"を行い、CATSETMATと呼ばれる新しいニューラルネットワークアーキテクチャを提案する。 catsetmatの優れた性能を示すために,複数の2部ハイパーグラフデータセットについて広範な実験を行い,最先端の複数の技術と比較した。 また,自己および横断的なシナリオにおける情報フローの解明も行った。

Usual relations between entities could be captured using graphs; but those of a higher-order -- more so between two different types of entities (which we term "left" and "right") -- calls for a "bipartite hypergraph". For example, given a left set of symptoms and right set of diseases, the relation between a set subset of symptoms (that a patient experiences at a given point of time) and a subset of diseases (that he/she might be diagnosed with) could be well-represented using a bipartite hyperedge. The state-of-the-art in embedding nodes of a hypergraph is based on learning the self-attention structure between node-pairs from a hyperedge. In the present work, given a bipartite hypergraph, we aim at capturing relations between node pairs from the cross-product between the left and right hyperedges, and term it a "cross-attention" ; (CAT) based model. More precisely, we pose "bipartite hyperedge link prediction" as a set-matching (SETMAT) problem and propose a novel neural network architecture called CATSETMAT for the same. We perform extensive experiments on multiple bipartite hypergraph datasets to show the superior performance of CATSETMAT, which we compare with multiple techniques from the state-of-the-art. Our results also elucidate information flow in self- and cross-attention scenarios.
翻訳日:2021-11-02 17:08:53 公開日:2021-10-30
# Love tHy Neighbour:Hypergraph -Derived Networksにおける局所構造ノード類似性の再評価

Love tHy Neighbour: Remeasuring Local Structural Node Similarity in Hypergraph-Derived Networks ( http://arxiv.org/abs/2111.00256v1 )

ライセンス: Link先を確認
Govind Sharma, Paarth Gupta, and M. Narasihma Murty(参考訳) ネットワークにおけるノード相似性の問題は、基盤となるグラフ構造を利用するノードペア間の測定の多さを招いた。 しかし、高次関係はただのグラフによって損なわれず、代わりにその拡張であるビザハイパーグラフが使われる。 このような設定におけるノードペア間の近接性の測定は、トポロジカルな類似性の尺度の修正を要求するが、ハイパーグラフ構造は未解明のままである。 本研究では,ノードペア間のハイパーグラフ指向の類似度スコアを多数提案し,リンク予測問題に対する新しい解を提供する。 提案の一部として,グラフトポロジに基づくスコアをハイパーグラフに拡張するための理論的定式化を提案する。 得られたスコアとグラフに基づくスコア(グラフへのハイパーグラフの斜め展開)を比較した。 既存のグラフベースと提案されたハイパーグラフベースの類似度スコアを組み合わせることで、分類器の特徴は、前者のみを使うよりもずっと良いリンクを予測できる。 いくつかの実世界のデータセットの実験と、定量化および同一の定性的分析は、提案された類似度スコアが既存のデータセットよりも優れていることを示す。

The problem of node-similarity in networks has motivated a plethora of such measures between node-pairs, which make use of the underlying graph structure. However, higher-order relations cannot be losslessly captured by mere graphs and hence, extensions thereof viz. hypergraphs are used instead. Measuring proximity between node pairs in such a setting calls for a revision in the topological measures of similarity, lest the hypergraph structure remains under-exploited. We, in this work, propose a multitude of hypergraph-oriented similarity scores between node-pairs, thereby providing novel solutions to the link prediction problem. As a part of our proposition, we provide theoretical formulations to extend graph-topology based scores to hypergraphs. We compare our scores with graph-based scores (over clique-expansions of hypergraphs into graphs) from the state-of-the-art. Using a combination of the existing graph-based and the proposed hypergraph-based similarity scores as features for a classifier predicts links much better than using the former solely. Experiments on several real-world datasets and both quantitative as well as qualitative analyses on the same exhibit the superiority of the proposed similarity scores over the existing ones.
翻訳日:2021-11-02 17:08:26 公開日:2021-10-30
# グラフにおける高次関係スキューリンク予測

Higher-Order Relations Skew Link Prediction in Graphs ( http://arxiv.org/abs/2111.00271v1 )

ライセンス: Link先を確認
Govind Sharma, Aditya Challa, Paarth Gupta, and M. Narasimha Murty(参考訳) リンク予測の問題はアクティブな関心事である。 リンク予測問題を解決する主なアプローチは、CN(Common Neighbors)のようなヒューリスティックな手法に基づいている。 本稿では,高次関係の存在下でこの問題を考察する。 驚くべきことに、CNは非常にうまく機能し、高次関係の存在下でさらに優れていることが判明した。 しかし、現在の研究で証明されているように、これは高次関係の存在下での予測能力の過大評価によるものである。 この主張は、高次関係の理論モデルを検討し、CNのAUCスコアがモデルから得られるよりも高いことを示すことによって証明される。 単純な場合の理論的正当化も提供される。 さらに、Adamic Adarのような類似のリンク予測アルゴリズムに我々の観測を拡張します。 最後に、これらの洞察はランダムグラフが0.5の最良のAUCスコアしか持たないという良心を取り入れて調整係数を提案するために用いられる。 この調整係数は一般化スコアのより良い推定を可能にする。

The problem of link prediction is of active interest. The main approach to solving the link prediction problem is based on heuristics such as Common Neighbors (CN) -- more number of common neighbors of a pair of nodes implies a higher chance of them getting linked. In this article, we investigate this problem in the presence of higher-order relations. Surprisingly, it is found that CN works very well, and even better in the presence of higher-order relations. However, as we prove in the current work, this is due to the CN-heuristic overestimating its prediction abilities in the presence of higher-order relations. This statement is proved by considering a theoretical model for higher-order relations and by showing that AUC scores of CN are higher than can be achieved from the model. Theoretical justification in simple cases is also provided. Further, we extend our observations to other similar link prediction algorithms such as Adamic Adar. Finally, these insights are used to propose an adjustment factor by taking into conscience that a random graph would only have a best AUC score of 0.5. This adjustment factor allows for a better estimation of generalization scores.
翻訳日:2021-11-02 17:08:08 公開日:2021-10-30
# DIB-R++: ハイブリッド微分レンダリングによる照明と材料予測の学習

DIB-R++: Learning to Predict Lighting and Material with a Hybrid Differentiable Renderer ( http://arxiv.org/abs/2111.00140v1 )

ライセンス: Link先を確認
Wenzheng Chen and Joey Litalien and Jun Gao and Zian Wang and Clement Fuji Tsang and Sameh Khamis and Or Litany and Sanja Fidler(参考訳) 微分可能なレンダラーを用いて、単一画像から固有のオブジェクト特性を予測するという課題を考察する。 逆グラフィックスに対する多くの学習ベースのアプローチでは、ラスタライズベースのレンダラーを採用しており、無意味なライティングや物質モデルも想定している。 本研究では,ラスタ化とレイトレーシングを組み合わせて,それぞれの強みであるスピードとリアリズムを生かして,これらの光リアル効果をサポートするハイブリッド微分可能レンダラーDIBR++を提案する。 我々のレンダラーは環境光と空間変化物質モデルを用いて直接推定や球面基底関数による光輸送を効率的に近似する。 パストレースを利用したより高度な物理ベースの微分可能なレンダラと比較して、DIBR++はコンパクトで表現力のあるシェーディングモデルにより、基底構造を必要とせず、単一の画像から幾何学、反射、照明予測の学習フレームワークと容易に統合できる。 既存のラスタリゼーション・アプローチに比べて合成データと実データに優れた材料と照明の絡み合いが達成できることを実験的に証明し,素材の編集やリライトなどの芸術的応用を紹介する。

We consider the challenging problem of predicting intrinsic object properties from a single image by exploiting differentiable renderers. Many previous learning-based approaches for inverse graphics adopt rasterization-based renderers and assume naive lighting and material models, which often fail to account for non-Lambertian, specular reflections commonly observed in the wild. In this work, we propose DIBR++, a hybrid differentiable renderer which supports these photorealistic effects by combining rasterization and ray-tracing, taking the advantage of their respective strengths -- speed and realism. Our renderer incorporates environmental lighting and spatially-varying material models to efficiently approximate light transport, either through direct estimation or via spherical basis functions. Compared to more advanced physics-based differentiable renderers leveraging path tracing, DIBR++ is highly performant due to its compact and expressive shading model, which enables easy integration with learning frameworks for geometry, reflectance and lighting prediction from a single image without requiring any ground-truth. We experimentally demonstrate that our approach achieves superior material and lighting disentanglement on synthetic and real data compared to existing rasterization-based approaches and showcase several artistic applications including material editing and relighting.
翻訳日:2021-11-02 16:56:09 公開日:2021-10-30
# パラメトリック画像復元問題のための機能ニューラルネットワーク

Functional Neural Networks for Parametric Image Restoration Problems ( http://arxiv.org/abs/2111.00361v1 )

ライセンス: Link先を確認
Fangzhou Luo, Xiaolin Wu, Yanhui Guo(参考訳) ほぼ全ての画像復元問題は、超解像におけるスケール係数、画像のノイズレベル、JPEGデブロッキングにおける品質係数など、密接に関連するパラメータを持つ。 画像復元問題に関する最近の研究は、ディープニューラルネットワークの開発によって大きな成功を収めているが、それらは未解明な方法でパラメータを扱う。 以前のほとんどの研究者は、異なるパラメータレベルの問題を独立したタスクとして扱い、各パラメータレベルの特定のモデルをトレーニングするか、単にパラメータを無視し、すべてのパラメータレベルの単一のモデルをトレーニングする。 2つの一般的なアプローチには、独自の欠点がある。 前者はコンピューティングにおいて非効率であり、後者は性能において非効率である。 本研究では,機能的ニューラルネットワーク(FuncNet)と呼ばれる新しいシステムを提案し,パラメトリック画像復元問題を1つのモデルで解く。 単純なニューラルネットワークとは異なり、私たちのファンクネットの最小の概念要素はもはや浮動小数点変数ではなく、問題のパラメータの関数である。 この機能はパラメトリック問題に対して効率的かつ効果的である。 我々はFuncNetを超解像度、画像デノーミング、JPEGデブロッキングに適用する。 実験の結果,3つのパラメトリック画像復元作業におけるFuncNetの優位性を示した。

Almost every single image restoration problem has a closely related parameter, such as the scale factor in super-resolution, the noise level in image denoising, and the quality factor in JPEG deblocking. Although recent studies on image restoration problems have achieved great success due to the development of deep neural networks, they handle the parameter involved in an unsophisticated way. Most previous researchers either treat problems with different parameter levels as independent tasks, and train a specific model for each parameter level; or simply ignore the parameter, and train a single model for all parameter levels. The two popular approaches have their own shortcomings. The former is inefficient in computing and the latter is ineffective in performance. In this work, we propose a novel system called functional neural network (FuncNet) to solve a parametric image restoration problem with a single model. Unlike a plain neural network, the smallest conceptual element of our FuncNet is no longer a floating-point variable, but a function of the parameter of the problem. This feature makes it both efficient and effective for a parametric problem. We apply FuncNet to super-resolution, image denoising, and JPEG deblocking. The experimental results show the superiority of our FuncNet on all three parametric image restoration tasks over the state of the arts.
翻訳日:2021-11-02 16:55:47 公開日:2021-10-30
# RMSMP:Row-wise Mixed SchemesとMultiple Precisionを備えた新しいディープニューラルネットワーク量子化フレームワーク

RMSMP: A Novel Deep Neural Network Quantization Framework with Row-wise Mixed Schemes and Multiple Precisions ( http://arxiv.org/abs/2111.00153v1 )

ライセンス: Link先を確認
Sung-En Chang, Yanyu Li, Mengshu Sun, Weiwen Jiang, Sijia Liu, Yanzhi Wang, Xue Lin(参考訳) この研究は、Row-wise Mixed-Scheme and Multi-Precisionアプローチによる新しいディープニューラルネットワーク(DNN)量子化フレームワーク、すなわちRMSMPを提案する。 具体的には、dnn重み行列の行間で混合量子化スキームと複数の精度を割り当てて、精度を維持しながらハードウェア推論の操作を単純化する最初の取り組みである。 さらに, 量子化誤差が必ずしも層毎の感度を示すものではないという先行研究とは異なる観察を行い, 各層内の重みの一定部分の精度が保たれる限り実際に緩和できることを示した。 この観測は、混合スキームの行方向の柔軟性と精度を高めるために多重精度を保ちながら、ハードウェア実装における層方向の均一性を保証された推論加速に向けて実現している。 スキームと精度の候補は,問題探索空間を削減するためのハードウェア・インフォーマティブ・ストラテジーにより,実用的かつ効果的に導出される。 すべての層に対する異なる量子化スキームと精度のオフライン決定比により、RMSMP量子化アルゴリズムは、各行のスキームと精度を効果的に割り当てるためにヘシアン法と分散法を用いる。 提案するrmsmpは,画像分類および自然言語処理(bert)アプリケーションでテストされ,同等の精度で最先端技術間で最高の精度が得られる。 rmsmpはfpgaデバイス上で実装され、imagenet上のresnet-18のエンドツーエンド推論時間の3.65倍の高速化を達成している。

This work proposes a novel Deep Neural Network (DNN) quantization framework, namely RMSMP, with a Row-wise Mixed-Scheme and Multi-Precision approach. Specifically, this is the first effort to assign mixed quantization schemes and multiple precisions within layers -- among rows of the DNN weight matrix, for simplified operations in hardware inference, while preserving accuracy. Furthermore, this paper makes a different observation from the prior work that the quantization error does not necessarily exhibit the layer-wise sensitivity, and actually can be mitigated as long as a certain portion of the weights in every layer are in higher precisions. This observation enables layer-wise uniformality in the hardware implementation towards guaranteed inference acceleration, while still enjoying row-wise flexibility of mixed schemes and multiple precisions to boost accuracy. The candidates of schemes and precisions are derived practically and effectively with a highly hardware-informative strategy to reduce the problem search space. With the offline determined ratio of different quantization schemes and precisions for all the layers, the RMSMP quantization algorithm uses the Hessian and variance-based method to effectively assign schemes and precisions for each row. The proposed RMSMP is tested for the image classification and natural language processing (BERT) applications and achieves the best accuracy performance among state-of-the-arts under the same equivalent precisions. The RMSMP is implemented on FPGA devices, achieving 3.65x speedup in the end-to-end inference time for ResNet-18 on ImageNet, compared with the 4-bit Fixed-point baseline.
翻訳日:2021-11-02 16:27:03 公開日:2021-10-30
# ILMPQ : FPGAのための階層内マルチ精度ディープニューラルネットワーク量子化フレームワーク

ILMPQ : An Intra-Layer Multi-Precision Deep Neural Network Quantization framework for FPGA ( http://arxiv.org/abs/2111.00155v1 )

ライセンス: Link先を確認
Sung-En Chang, Yanyu Li, Mengshu Sun, Yanzhi Wang, Xue Lin(参考訳) この研究は、DNNエッジコンピューティングのハードウェアプラットフォームとして一般的に使われているFPGA(フィールドプログラマブルゲートアレイ)デバイスをターゲットにしている。 主モデル圧縮技術としてDNN量子化に着目した。 本研究の目新しさは, 層内次元に沿って複数の精度をサポートする量子化法を用い, 既存の量子化法では層間次元に沿って多重精度量子化を適用できる点である。 層内マルチ精度法では,異なる層に対するハードウェア構成を統一することで計算オーバーヘッドを低減できると同時に,層間アプローチのモデル精度を維持できる。 提案するILMPQ DNN量子化フレームワークは,ImageNetデータセット上でResNet-18で70.73Top1の精度を実現する。 Xilinx XC7Z020 と XC7Z045 の2つのFPGAデバイス上で提案した MSP フレームワークを検証する。 固定点量子化法と比較して,画像ネットの終端推定時間において3.65倍の高速化を実現する。

This work targets the commonly used FPGA (field-programmable gate array) devices as the hardware platform for DNN edge computing. We focus on DNN quantization as the main model compression technique. The novelty of this work is: We use a quantization method that supports multiple precisions along the intra-layer dimension, while the existing quantization methods apply multi-precision quantization along the inter-layer dimension. The intra-layer multi-precision method can uniform the hardware configurations for different layers to reduce computation overhead and at the same time preserve the model accuracy as the inter-layer approach. Our proposed ILMPQ DNN quantization framework achieves 70.73 Top1 accuracy in ResNet-18 on the ImageNet dataset. We also validate the proposed MSP framework on two FPGA devices i.e., Xilinx XC7Z020 and XC7Z045. We achieve 3.65x speedup in end-to-end inference time on the ImageNet, compared with the fixed-point quantization method.
翻訳日:2021-11-02 16:26:32 公開日:2021-10-30
# 反事実の定量的評価について

On Quantitative Evaluations of Counterfactuals ( http://arxiv.org/abs/2111.00177v1 )

ライセンス: Link先を確認
Frederik Hvilsh{\o}j and Alexandros Iosifidis and Ira Assent(参考訳) 深層学習モデルの決定を説明する上で,反実例がますます人気になっているため,定量的評価指標がどのような特性を捉えるのかを理解することが不可欠である。 現在、そのような理解は欠如しており、科学の進歩を遅くしている可能性がある。 本稿では,分析と実験を通じて視覚的対実例を評価する作業を統合する。 ほとんどのメトリクスは十分な単純なデータセットを意図して振る舞うが、複雑性が大きくなると、良い結果と悪い結果の違いを判断できないものもいる。 測定値が小さな敵様の変化に対してよいスコアを与えることを実験的に観察し、そのような変化を優れた対実例として正しく識別する。 この問題を軽減するため、私たちはラベル変動スコアとoracleスコアという2つの新しいメトリクスを提案しました。 視覚的対実例の適切な定量的評価は、優れた対実例のすべての側面を定量化するためにメトリクスを組み合わせるべきであると結論付けている。

As counterfactual examples become increasingly popular for explaining decisions of deep learning models, it is essential to understand what properties quantitative evaluation metrics do capture and equally important what they do not capture. Currently, such understanding is lacking, potentially slowing down scientific progress. In this paper, we consolidate the work on evaluating visual counterfactual examples through an analysis and experiments. We find that while most metrics behave as intended for sufficiently simple datasets, some fail to tell the difference between good and bad counterfactuals when the complexity increases. We observe experimentally that metrics give good scores to tiny adversarial-like changes, wrongly identifying such changes as superior counterfactual examples. To mitigate this issue, we propose two new metrics, the Label Variation Score and the Oracle score, which are both less vulnerable to such tiny changes. We conclude that a proper quantitative evaluation of visual counterfactual examples should combine metrics to ensure that all aspects of good counterfactuals are quantified.
翻訳日:2021-11-02 16:26:17 公開日:2021-10-30
# 階層型強化学習のための隣接制約

Adjacency constraint for efficient hierarchical reinforcement learning ( http://arxiv.org/abs/2111.00213v1 )

ライセンス: Link先を確認
Tianren Zhang, Shangqi Guo, Tian Tan, Xiaolin Hu, Feng Chen(参考訳) 目標条件付き階層型強化学習(HRL)は、強化学習(RL)技術をスケールアップするための有望なアプローチである。 しかし、高レベルのアクション空間、すなわちゴール空間が大きいため、トレーニングの非効率さに悩まされることが多い。 大きな目標空間での探索は、ハイレベルなサブゴール生成と低レベルなポリシー学習の両方に困難をもたらす。 本稿では,高レベルな動作空間を目標空間全体から,隣接制約を用いて現在状態の$k$-step隣接領域に制限することにより,この問題を効果的に軽減できることを示す。 理論的には,決定論的マルコフ決定過程 (mdp) において,提案する随伴制約は最適な階層的ポリシーを保ち,一方,確率的mdpでは随伴制約はmdpの遷移構造によって決定される有界な状態-値サブオプティリティを誘導する。 さらに,隣接するサブゴールと非隣接サブゴールの区別が可能な隣接ネットワークをトレーニングすることで,この制約を実践可能であることを示す。 ロボットのロコモーションと操作操作の課題を含む離散的かつ連続的な制御タスクの実験結果は、隣接制約を組み込むことで、最先端の目標条件付きhrlアプローチの性能が著しく向上することを示している。

Goal-conditioned Hierarchical Reinforcement Learning (HRL) is a promising approach for scaling up reinforcement learning (RL) techniques. However, it often suffers from training inefficiency as the action space of the high-level, i.e., the goal space, is large. Searching in a large goal space poses difficulty for both high-level subgoal generation and low-level policy learning. In this paper, we show that this problem can be effectively alleviated by restricting the high-level action space from the whole goal space to a $k$-step adjacent region of the current state using an adjacency constraint. We theoretically prove that in a deterministic Markov Decision Process (MDP), the proposed adjacency constraint preserves the optimal hierarchical policy, while in a stochastic MDP the adjacency constraint induces a bounded state-value suboptimality determined by the MDP's transition structure. We further show that this constraint can be practically implemented by training an adjacency network that can discriminate between adjacent and non-adjacent subgoals. Experimental results on discrete and continuous control tasks including challenging simulated robot locomotion and manipulation tasks show that incorporating the adjacency constraint significantly boosts the performance of state-of-the-art goal-conditioned HRL approaches.
翻訳日:2021-11-02 16:25:59 公開日:2021-10-30
# ニューラルODEとGANモデルを用いたECG合成

ECG synthesis with Neural ODE and GAN models ( http://arxiv.org/abs/2111.00314v1 )

ライセンス: Link先を確認
Mansura Habiba, Eoin Borphy, Barak A. Pearlmutter, Tomas Ward(参考訳) ECGのような連続医療時系列データは、その動的および高次元特性のために最も複雑な時系列の1つである。 さらに、その繊細な性質、プライバシーの懸念、法的制限により、さまざまな医学研究に実際のデータを使うのはさらに複雑であることが多い。 その結果,連続医療時系列生成は極めて重要な研究分野である。 いくつかの研究で、連続医療時系列生成におけるGAN(Generative Adversarial Network)の能力が有望であることが示されている。 ECG合成のようなほとんどの医療データ生成は、主にGANモデルとそのバリエーションによって駆動される。 一方、ニューラル正規微分方程式(Neural ODE)に関する最近の研究は、情報不足、高次元、および連続時系列の動的性質に対するその強さを実証している。 連続時系列を離散時間列として考える代わりに、Neural ODEは連続時系列をリアルタイムにトレーニングすることができる。 本研究では,ニューラルODEモデルを用いて合成正弦波と合成心電図を生成する。 我々はニューラルODEベースジェネレータと識別器を用いた生成対向ネットワークの設計手法を導入した。 連続医療データを合成する3つの新しいモデルを開発した。 異なる評価指標を用いて、実世界のアプリケーションやデータ分析のために生成された合成データの質を定量的に評価する。 この研究のもう1つの目標は、心電図などの合成連続医療時系列データを生成するために、GANとNeural ODEの強さを組み合わせることである。 また、医療データ合成において、GANモデルとNeural ODEモデルの両方を用いて、GANおよびNeural ODEファミリーのモデルの比較効率について検討した。

Continuous medical time series data such as ECG is one of the most complex time series due to its dynamic and high dimensional characteristics. In addition, due to its sensitive nature, privacy concerns and legal restrictions, it is often even complex to use actual data for different medical research. As a result, generating continuous medical time series is a very critical research area. Several research works already showed that the ability of generative adversarial networks (GANs) in the case of continuous medical time series generation is promising. Most medical data generation works, such as ECG synthesis, are mainly driven by the GAN model and its variation. On the other hand, Some recent work on Neural Ordinary Differential Equation (Neural ODE) demonstrates its strength against informative missingness, high dimension as well as dynamic nature of continuous time series. Instead of considering continuous-time series as a discrete-time sequence, Neural ODE can train continuous time series in real-time continuously. In this work, we used Neural ODE based model to generate synthetic sine waves and synthetic ECG. We introduced a new technique to design the generative adversarial network with Neural ODE based Generator and Discriminator. We developed three new models to synthesise continuous medical data. Different evaluation metrics are then used to quantitatively assess the quality of generated synthetic data for real-world applications and data analysis. Another goal of this work is to combine the strength of GAN and Neural ODE to generate synthetic continuous medical time series data such as ECG. We also evaluated both the GAN model and the Neural ODE model to understand the comparative efficiency of models from the GAN and Neural ODE family in medical data synthesis.
翻訳日:2021-11-02 16:25:34 公開日:2021-10-30
# 数値 iterate-to-fixedpoin t の自動微分変換に基づくニューラルネットワーク

Neural Network based on Automatic Differentiation Transformation of Numeric Iterate-to-Fixedpoin t ( http://arxiv.org/abs/2111.00326v1 )

ライセンス: Link先を確認
Mansura Habiba, Barak A. Pearlmutter(参考訳) 本研究では,反復固定点演算子を用いて深度を制御できるニューラルネットワークモデルを提案する。 アーキテクチャは標準のレイヤネットワークから始まるが、現在のレイヤから以前のレイヤへの接続を追加し、ほとんどの状況では非アクティブにするためのゲートも備えている。 これらの `temporal wormhole' 接続はショートカットを生成し、ニューラルネットワークはより深い層で利用可能な情報を使用し、変調された入力で以前の計算を再実行することができる。 数値反復固定点演算子に対する適切な計算を用いてエンドツーエンドの訓練を行う。 典型的な場合、'ワームホール'接続が非アクティブである場合、これは安価であるが、アクティブな場合、ネットワークが落ち着くのに長い時間がかかるため、勾配計算もより手間がかかり、ネットワークをより深くする効果がある。 既存のスキップ接続の概念とは対照的に,提案手法では,情報をネットワーク上で上下に流すことができる。 さらに、情報の流れは、脳内の処理層を通しての情報の求心性と消耗的な流れに類似しているように見えるやり方に従っている。 我々は,この機構を長期依存タスクに応用したモデルを評価する。 その結果,従来の深層学習モデルが消失する勾配降下問題を克服する上で,提案モデルが著しく寄与することが示された。 同時に、`easy''入力ケースは ``difficult''入力ケースよりも高速に処理されるので、トレーニング時間が大幅に短縮される。

This work proposes a Neural Network model that can control its depth using an iterate-to-fixed-poi nt operator. The architecture starts with a standard layered Network but with added connections from current later to earlier layers, along with a gate to make them inactive under most circumstances. These ``temporal wormhole'' connections create a shortcut that allows the Neural Network to use the information available at deeper layers and re-do earlier computations with modulated inputs. End-to-end training is accomplished by using appropriate calculations for a numeric iterate-to-fixed-poi nt operator. In a typical case, where the ``wormhole'' connections are inactive, this is inexpensive; but when they are active, the network takes a longer time to settle down, and the gradient calculation is also more laborious, with an effect similar to making the network deeper. In contrast to the existing skip-connection concept, this proposed technique enables information to flow up and down in the network. Furthermore, the flow of information follows a fashion that seems analogous to the afferent and efferent flow of information through layers of processing in the brain. We evaluate models that use this novel mechanism on different long-term dependency tasks. The results are competitive with other studies, showing that the proposed model contributes significantly to overcoming traditional deep learning models' vanishing gradient descent problem. At the same time, the training time is significantly reduced, as the ``easy'' input cases are processed more quickly than ``difficult'' ones.
翻訳日:2021-11-02 16:25:09 公開日:2021-10-30
# 連続畳み込みニューラルネットワーク:結合型ニューラルPDEとODE

Continuous Convolutional Neural Networks: Coupled Neural PDE and ODE ( http://arxiv.org/abs/2111.00343v1 )

ライセンス: Link先を確認
Mansura Habiba, Barak A. Pearlmutter(参考訳) 深層学習における最近の研究は、通常の微分方程式や偏微分方程式における物理系の解法に焦点を当てている。 この研究は、通常の微分方程式(ODE)システム(ODE)と部分微分方程式システム(PDE)を用いて物理系の隠れ力学を学習できる畳み込みニューラルネットワーク(CNN)の変種を提案した。 画像や時系列などの物理系を複数の層からなるシステムとして考慮する代わりに、この新手法は微分方程式(DE)の形でシステムをモデル化することができる。 提案手法は, 熱方程式, ナビエ・ストークス方程式などの不規則領域における定常 pdes の解法として評価されている。

Recent work in deep learning focuses on solving physical systems in the Ordinary Differential Equation or Partial Differential Equation. This current work proposed a variant of Convolutional Neural Networks (CNNs) that can learn the hidden dynamics of a physical system using ordinary differential equation (ODEs) systems (ODEs) and Partial Differential Equation systems (PDEs). Instead of considering the physical system such as image, time -series as a system of multiple layers, this new technique can model a system in the form of Differential Equation (DEs). The proposed method has been assessed by solving several steady-state PDEs on irregular domains, including heat equations, Navier-Stokes equations.
翻訳日:2021-11-02 16:23:59 公開日:2021-10-30
# グラフニューラルネットワークにおけるスパース行列乗算の最適化

Optimizing Sparse Matrix Multiplications for Graph Neural Networks ( http://arxiv.org/abs/2111.00352v1 )

ライセンス: Link先を確認
Shenghao Qiu, You Liang and Zheng Wang(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造をモデル化するための強力なテクニックとして登場している。 実世界のグラフデータのばらつきにより、GNNの性能は計算に関わる広範なスパース行列乗算(SpMM)演算によって制限される。 適切なスパースマトリックスストレージフォーマットは入力データによって異なるが、既存のディープラーニングフレームワークは単一の静的ストレージフォーマットを採用しており、改善の余地がたくさんある。 本稿では,スパース行列ストレージフォーマットの選択がGNNの性能に与える影響について検討する。 適切なスパース行列記憶形式を選択すると、GNNのトレーニング性能は大幅に向上するが、適切なフォーマットは入力負荷に依存し、GNNが入力グラフ上で反復するので変更できる。 次に、入力行列に基づいてgnn層が使用するスパースマトリックスストレージフォーマットを動的に選択する予測モデルを開発した。 我々のモデルは,まずトレーニング行列サンプルを用いてオフラインで訓練され,訓練されたモデルはSpMM計算で任意の入力行列およびGNNカーネルに適用できる。 提案手法はPyTorch上に実装し,実環境および合成データセットを用いて,マルチコアCPU上で動作する5つの代表GNNモデルに適用する。 実験の結果,GNN走行時間の平均速度は1.17倍(最大3倍)であることがわかった。

Graph neural networks (GNNs) are emerging as a powerful technique for modeling graph structures. Due to the sparsity of real-world graph data, GNN performance is limited by extensive sparse matrix multiplication (SpMM) operations involved in computation. While the right sparse matrix storage format varies across input data, existing deep learning frameworks employ a single, static storage format, leaving much room for improvement. This paper investigates how the choice of sparse matrix storage formats affect the GNN performance. We observe that choosing a suitable sparse matrix storage format can significantly improve the GNN training performance, but the right format depends on the input workloads and can change as the GNN iterates over the input graph. We then develop a predictive model to dynamically choose a sparse matrix storage format to be used by a GNN layer based on the input matrices. Our model is first trained offline using training matrix samples, and the trained model can be applied to any input matrix and GNN kernels with SpMM computation. We implement our approach on top of PyTorch and apply it to 5 representative GNN models running on a multi-core CPU using real-life and synthetic datasets. Experimental results show that our approach gives an average speedup of 1.17x (up to 3x) for GNN running time.
翻訳日:2021-11-02 16:23:45 公開日:2021-10-30
# AutoDrone: 自動運転ドローンの障害物なし経路計画が最短

AutoDrone: Shortest Optimized Obstacle-Free Path Planning for Autonomous Drones ( http://arxiv.org/abs/2111.00200v1 )

ライセンス: Link先を確認
Prithwish Jana, Debasish Jana(参考訳) 技術進歩により、ドローンは人間が操縦して目的地に到達できる無人航空機として出現した。 ドローン自体も、指定されたソースから目的地に到達するための最も短い障害物のない経路を見つけるのに十分な知性を持っている。 計画されているスマートシティや、自然災害の影響を受けている残骸の場所であっても、ドローンが直接視界を飛行する障害として、建物、表面検出された構造物、その他のブロックを想像することができる。 そのため、鳥全体の風景の視界をグリッドセルのグラフに変換することができ、障害物を示すために占有されるものや、自由な経路を示す自由なものもある。 自律型ドローン(autodrone)は、2次元空間を移動しながら最も短い障害のない経路を見つけ、ある場所から別の場所へ移動することができる。 本稿では,GPSで誘導される座標系において,障害物のない最短経路を求める手法を提案する。 これは、救助活動や迅速な配送、あるいはエネルギー効率の良い方法でのピックアップにおいて特に有益であり、アルゴリズムは、飛行すべき最短経路と角度を見つけるのに役立つでしょう。 私たちの研究は、自律ドローンによって計算される最も短い経路を通じて、パストラッキングのさまざまなシナリオを示しています。

With technological advancement, drone has emerged as unmanned aerial vehicle that can be controlled by humans to fly or reach a destination. This may be autonomous as well, where the drone itself is intelligent enough to find a shortest obstacle-free path to reach the destination from a designated source. Be it a planned smart city or even a wreckage site affected by natural calamity, we may imagine the buildings, any surface-erected structure or other blockage as obstacles for the drone to fly in a direct line-of-sight path. So, the whole bird's eye-view of the landscape can be transformed to a graph of grid-cells, where some are occupied to indicate the obstacles and some are free to indicate the free path. The autonomous drone (AutoDrone) will be able to find out the shortest hindrance-free path while travelling in two-dimensional space and move from one place to another. In this paper, we propose a method to find out an obstacle-free shortest path in the coordinate system guided by GPS. This can be especially beneficial in rescue operations and fast delivery or pick-up in an energy-efficient way, where our algorithm will help in finding out the shortest path and angle along which it should fly. Our work shows different scenarios to path-tracing, through the shortest feasible path computed by the autonomous drone.
翻訳日:2021-11-02 16:19:18 公開日:2021-10-30
# targetum: ターゲットとする高可用性アイテムセットクエリ

TargetUM: Targeted High-Utility Itemset Querying ( http://arxiv.org/abs/2111.00309v1 )

ライセンス: Link先を確認
Jinbao Miao, Shicheng Wan, Wensheng Gan, Jiayi Sun, and Jiahui Chen(参考訳) 従来の高ユーティリティアイテムセットマイニング(HUIM)は、トランザクションデータベースにおける最小ユーティリティしきい値(\textit{minUtil})を満たすすべての高ユーティリティアイテムセット(HUI)を決定することを目的としています。 しかし、ほとんどのアプリケーションでは、特定の部分だけを必要とするため、すべてのHUIが興味深いわけではない。 したがって, 従来の鉱業課題よりも, 利用者の嗜好に基づく対象鉱業が重要である。 本論文は,ターゲットベースHUIM問題を初めて提案し,定量トランザクションデータベースにおいて,対象とするユーティリティマイニングタスクの明確な定式化を提供する。 木をベースとしたTarget-based high-Utility iteMset querying using (TargetUM)。 このアルゴリズムは、レキソグラフィークエリツリーと3つの効果的なプルーニング戦略を用いて、鉱業効率を向上する。 いくつかの実および合成データベースで実験的検証を実施し,その性能が満足でき,完全かつ正確であることを実証した。 最後に、辞書クエリツリーのため、データベースを複数のクエリに対して繰り返しスキャンする必要がなくなった。

Traditional high-utility itemset mining (HUIM) aims to determine all high-utility itemsets (HUIs) that satisfy the minimum utility threshold (\textit{minUtil}) in transaction databases. However, in most applications, not all HUIs are interesting because only specific parts are required. Thus, targeted mining based on user preferences is more important than traditional mining tasks. This paper is the first to propose a target-based HUIM problem and to provide a clear formulation of the targeted utility mining task in a quantitative transaction database. A tree-based algorithm known as Target-based high-Utility iteMset querying using (TargetUM) is proposed. The algorithm uses a lexicographic querying tree and three effective pruning strategies to improve the mining efficiency. We implemented experimental validation on several real and synthetic databases, and the results demonstrate that the performance of \textbf{TargetUM} is satisfactory, complete, and correct. Finally, owing to the lexicographic querying tree, the database no longer needs to be scanned repeatedly for multiple queries.
翻訳日:2021-11-02 16:18:00 公開日:2021-10-30
# HIERMATCH: 半教師付き学習改善のためのラベル階層の活用

HIERMATCH: Leveraging Label Hierarchies for Improving Semi-Supervised Learning ( http://arxiv.org/abs/2111.00164v1 )

ライセンス: Link先を確認
Ashima Garg, Shaurya Bagga, Yashvardhan Singh, Saket Anand(参考訳) 半教師付き学習アプローチは、大量の注釈付きデータを取得するという課題に対処する研究の活発な領域として現れてきた。 半教師付き学習手法の性能向上を目指して,階層的情報を活用した半教師付き学習手法であるhiermatchを提案し,ラベリングコストを低減し,バニラ半教師付き学習手法を提案する。 階層的な情報は、粗いラベル(例:ウッドペッカー)という形で、きめ細かいラベル(例:ダニーウッドペッカーやゴールデンフロントウッドペッカー)のイメージの以前の知識としてしばしば利用することができる。 しかし, 半教師付き技術を改善するために, 粗いカテゴリラベルを用いた監督法は検討されていない。 きめ細かいラベルがない場合、HIERMATCHはラベル階層を利用し、粗いクラスラベルを弱い監督信号として使用する。 さらに、HIERMATCHは、あらゆる半教師付き学習フレームワークを改善するための汎用的なアプローチであり、最近の最先端技術であるMixMatchとFixMatchの成果を用いてこれを実証する。 CIFAR-100とNABirdsという2つのベンチマークデータセットに対するHIERMATCHの有効性を評価する。 HIERMATCHは、MixMatchと比較して、CIFAR-100では0.59%の差しかなく、きめ細かいラベルの使用を50%削減できる。

Semi-supervised learning approaches have emerged as an active area of research to combat the challenge of obtaining large amounts of annotated data. Towards the goal of improving the performance of semi-supervised learning methods, we propose a novel framework, HIERMATCH, a semi-supervised approach that leverages hierarchical information to reduce labeling costs and performs as well as a vanilla semi-supervised learning method. Hierarchical information is often available as prior knowledge in the form of coarse labels (e.g., woodpeckers) for images with fine-grained labels (e.g., downy woodpeckers or golden-fronted woodpeckers). However, the use of supervision using coarse category labels to improve semi-supervised techniques has not been explored. In the absence of fine-grained labels, HIERMATCH exploits the label hierarchy and uses coarse class labels as a weak supervisory signal. Additionally, HIERMATCH is a generic-approach to improve any semisupervised learning framework, we demonstrate this using our results on recent state-of-the-art techniques MixMatch and FixMatch. We evaluate the efficacy of HIERMATCH on two benchmark datasets, namely CIFAR-100 and NABirds. HIERMATCH can reduce the usage of fine-grained labels by 50% on CIFAR-100 with only a marginal drop of 0.59% in top-1 accuracy as compared to MixMatch.
翻訳日:2021-11-02 15:16:02 公開日:2021-10-30
# SIFT特徴量に基づく虹彩認識

Iris Recognition Based on SIFT Features ( http://arxiv.org/abs/2111.00176v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Pedro Tome-Gonzalez, Virginia Ruiz-Albacete, Javier Ortega-Garcia(参考訳) アイリス画像に基づくバイオメトリックス手法は非常に高精度であると考えられており、近年はアイリスバイオメトリックスへの関心が爆発的に高まっている。 本稿では、虹彩画像を用いた認識にSIFT(Scale Invariant Feature Transformation)を用いる。 従来のアイリス認識システムとは対照的に、SIFTアプローチはアイリスパターンの極座標への変換や高精度なセグメンテーションに頼らず、制約の少ない画像取得条件を実現する。 我々は、SIFT演算子を用いて、スケール空間における特徴SIFT特徴点を抽出し、特徴点周辺のテクスチャ情報に基づいてマッチングを行う。 実験はbiosec multimodal databaseを用いて行われ、2つの異なるセッションで獲得した200人の個人から3200枚の虹彩画像を含む。 我々は,異なるSIFTパラメータが認識性能に与える影響の分析に寄与する。 また,極座標とログガボウェーブレットへの変換に基づく,siftアプローチと一般的なマッチングアプローチとの相補性を示す。 2つのアプローチの組み合わせは、それぞれのスキームよりも大幅にパフォーマンスが向上し、同等のエラー率で24%のパフォーマンス向上を実現している。

Biometric methods based on iris images are believed to allow very high accuracy, and there has been an explosion of interest in iris biometrics in recent years. In this paper, we use the Scale Invariant Feature Transformation (SIFT) for recognition using iris images. Contrarily to traditional iris recognition systems, the SIFT approach does not rely on the transformation of the iris pattern to polar coordinates or on highly accurate segmentation, allowing less constrained image acquisition conditions. We extract characteristic SIFT feature points in scale space and perform matching based on the texture information around the feature points using the SIFT operator. Experiments are done using the BioSec multimodal database, which includes 3,200 iris images from 200 individuals acquired in two different sessions. We contribute with the analysis of the influence of different SIFT parameters on the recognition performance. We also show the complementarity between the SIFT approach and a popular matching approach based on transformation to polar coordinates and Log-Gabor wavelets. The combination of the two approaches achieves significantly better performance than either of the individual schemes, with a performance improvement of 24% in the Equal Error Rate.
翻訳日:2021-11-02 15:15:38 公開日:2021-10-30
# iris検証における偽画像を用いたダイレクトアタック

Direct attacks using fake images in iris verification ( http://arxiv.org/abs/2111.00178v1 )

ライセンス: Link先を確認
Virginia Ruiz-Albacete, Pedro Tome-Gonzalez, Fernando Alonso-Fernandez, Javier Galbally, Julian Fierrez, Javier Ortega-Garcia(参考訳) 本報告では, 直接攻撃に対する虹彩認識システムの脆弱性について検討した。 BioSecベースラインデータベースの実際のアイリスから偽アイリス画像のデータベースが作成されている。 irisイメージは商用プリンターで印刷され、irisセンサーで表示されます。 実験では虹彩識別システムを用いて,虹彩分割のステップを改善するため,いくつかの改良を加えている。 異なる運用シナリオで達成された結果から,本システムは直接攻撃に対して脆弱であり,このような不正行為に対する対策の重要性を指摘する。

In this contribution, the vulnerabilities of iris-based recognition systems to direct attacks are studied. A database of fake iris images has been created from real iris of the BioSec baseline database. Iris images are printed using a commercial printer and then, presented at the iris sensor. We use for our experiments a publicly available iris recognition system, which some modifications to improve the iris segmentation step. Based on results achieved on different operational scenarios, we show that the system is vulnerable to direct attacks, pointing out the importance of having countermeasures against this type of fraudulent actions.
翻訳日:2021-11-02 15:15:21 公開日:2021-10-30
# 多様体上の幾何認識階層ベイズ学習

Geometry-Aware Hierarchical Bayesian Learning on Manifolds ( http://arxiv.org/abs/2111.00184v1 )

ライセンス: Link先を確認
Yonghui Fan, Yalin Wang(参考訳) ガウス過程を用いたベイズ学習は、コンピュータビジョンタスクの解法における回帰と分類性能の促進を示す。 しかし、メッシュや点雲のような3次元多様体値の視覚データに対するベイズ的手法はほとんど研究されていない。 主な課題の1つは、不規則な入力から幾何学的特徴を効果的かつ効率的に集約する方法である。 本稿では,この問題に対処するために階層ベイズ学習モデルを提案する。 まず,幾何認識とカーネル内畳み込みの性質を持つカーネルを導入する。 これにより、特定の手作りの特徴記述子を使わずに多様体上の幾何学的に合理的な推論が可能になる。 次に、ガウス過程回帰を用いて入力を整理し、最終的に特徴集約のための階層型ベイズネットワークを実装する。 さらに,ニューラルネットワークの特徴学習をベイズモデルの特徴集約に取り入れ,多様体上での連立学習の実現可能性について検討する。 実験結果から,本手法が既存のベイジアン法よりも優れるだけでなく,ベイジアンネットワークとニューラルネットワークを結合する可能性も示された。

Bayesian learning with Gaussian processes demonstrates encouraging regression and classification performances in solving computer vision tasks. However, Bayesian methods on 3D manifold-valued vision data, such as meshes and point clouds, are seldom studied. One of the primary challenges is how to effectively and efficiently aggregate geometric features from the irregular inputs. In this paper, we propose a hierarchical Bayesian learning model to address this challenge. We initially introduce a kernel with the properties of geometry-awareness and intra-kernel convolution. This enables geometrically reasonable inferences on manifolds without using any specific hand-crafted feature descriptors. Then, we use a Gaussian process regression to organize the inputs and finally implement a hierarchical Bayesian network for the feature aggregation. Furthermore, we incorporate the feature learning of neural networks with the feature aggregation of Bayesian models to investigate the feasibility of jointly learning on manifolds. Experimental results not only show that our method outperforms existing Bayesian methods on manifolds but also demonstrate the prospect of coupling neural networks with Bayesian networks.
翻訳日:2021-11-02 15:15:14 公開日:2021-10-30
# mfnet:ピクセル単位のメトリック学習を備えたマルチクラスマイトショットセグメンテーションネットワーク

MFNet: Multi-class Few-shot Segmentation Network with Pixel-wise Metric Learning ( http://arxiv.org/abs/2111.00232v1 )

ライセンス: Link先を確認
Miao Zhang and Miaojing Shi and Li Li(参考訳) 視覚認識タスクでは、数少ない学習では、サポート例の少ないオブジェクトカテゴリを学習する能力が必要となる。 深層学習の発展に照らした最近の復活は主に画像分類である。 この研究は、まだほとんど探索されていない分野である少数ショットセマンティックセグメンテーションに焦点を当てている。 最近の進歩は、しばしばシングルクラスのショットセグメンテーションに制限される。 本稿では,まず,マルチスケールクエリ情報とマルチクラスサポート情報を一つのクエリ支援埋め込みに効果的に融合する,新しいマルチウェイ符号化とデコードアーキテクチャを提案する。 機能融合を改善するため,マルチレベルのアテンション機構をアーキテクチャ内に提案し,マルチスケールの組み合わせに対するアテンションと機能変調のアテンションを含む。 最後に、埋め込み空間学習を強化するために、入力画像の画素レベル埋め込み上に三重項損失を定式化した、追加の画素単位メトリック学習モジュールを考案する。 PASCAL-5^i と COCO-20^i のベンチマーク実験により, 数発のセグメンテーションにおいて, 本手法の精度に対する利点が示された。

In visual recognition tasks, few-shot learning requires the ability to learn object categories with few support examples. Its recent resurgence in light of the deep learning development is mainly in image classification. This work focuses on few-shot semantic segmentation, which is still a largely unexplored field. A few recent advances are often restricted to single-class few-shot segmentation. In this paper, we first present a novel multi-way encoding and decoding architecture which effectively fuses multi-scale query information and multi-class support information into one query-support embedding; multi-class segmentation is directly decoded upon this embedding. In order for better feature fusion, a multi-level attention mechanism is proposed within the architecture, which includes the attention for support feature modulation and attention for multi-scale combination. Last, to enhance the embedding space learning, an additional pixel-wise metric learning module is devised with triplet loss formulated on the pixel-level embedding of the input image. Extensive experiments on standard benchmarks PASCAL-5^i and COCO-20^i show clear benefits of our method over the state of the art in few-shot segmentation.
翻訳日:2021-11-02 15:15:00 公開日:2021-10-30
# 正しい理由を追求する:教師指導型カリキュラム学習アプローチによる対人ロバスト性の向上

Get Fooled for the Right Reason: Improving Adversarial Robustness through a Teacher-guided Curriculum Learning Approach ( http://arxiv.org/abs/2111.00295v1 )

ライセンス: Link先を確認
Anindya Sarkar, Anirban Sarkar, Sowrya Gali, Vineeth N Balasubramanian(参考訳) 現在のSOTA逆向き頑健モデルは、主に対向訓練(AT)に基づいており、内部最大化または外部最小化ステップにおいてのみ、一部の正規化器によって異なる。 インナー・マキシミゼーション・ステップの間、自然界で反復するので、トレーニングには膨大な時間がかかる。 学習中に以下の考え方を強制する非反復的手法を提案する。 帰属マップは、自然に訓練されたモデルと比較して、敵対的にロバストなモデルのために画像内の実際のオブジェクトとより一致している。 また、画像の摂動を許容する画素集合(モデル決定を変更する)は対象画素のみに制限すべきであり、攻撃空間を制限することで攻撃強度を低下させる。 提案手法は,既存のATモデルよりも若干の余分な労力(10-20%)で性能向上を実現し,逆方向および自然な精度で他の手法よりも優れる。 我々は, CIFAR-10, CIFAR-100, TinyImageNetデータセットを用いて広範囲に実験を行い, 提案手法の有効性を実証するために, 多くの攻撃に対して報告を行った。

Current SOTA adversarially robust models are mostly based on adversarial training (AT) and differ only by some regularizers either at inner maximization or outer minimization steps. Being repetitive in nature during the inner maximization step, they take a huge time to train. We propose a non-iterative method that enforces the following ideas during training. Attribution maps are more aligned to the actual object in the image for adversarially robust models compared to naturally trained models. Also, the allowed set of pixels to perturb an image (that changes model decision) should be restricted to the object pixels only, which reduces the attack strength by limiting the attack space. Our method achieves significant performance gains with a little extra effort (10-20%) over existing AT models and outperforms all other methods in terms of adversarial as well as natural accuracy. We have performed extensive experimentation with CIFAR-10, CIFAR-100, and TinyImageNet datasets and reported results against many popular strong adversarial attacks to prove the effectiveness of our method.
翻訳日:2021-11-02 15:03:06 公開日:2021-10-30
# TransAug: 文の埋め込みのための拡張としての翻訳

TransAug: Translate as Augmentation for Sentence Embeddings ( http://arxiv.org/abs/2111.00157v1 )

ライセンス: Link先を確認
Jue Wang, Haofan Wang, Xing Wu, Chaochen Gao, Debing Zhang(参考訳) コントラスト学習は文埋め込みの表現を大きく進歩させるが、既存の文データセットのサイズによってはまだ制限されている。 本稿では,翻訳文対をテキストデータ補完として利用する最初の試みであるtransaug(translate as augmentedation)と,最先端文埋め込みを前進させるための2段階パラダイムを提案する。 他の言語設定で訓練されたエンコーダを採用する代わりに、まず中国語のエンコーダをSimCSEエンコーダから蒸留し、その埋め込みが意味空間に近いようにし、暗黙のデータ拡張として分解することができる。 そして、英語エンコーダを言語横断のコントラスト学習で更新し、蒸留した中国語エンコーダを凍結する。 提案手法は,SimCSEとSentence-T5の両性能を向上し,SentEvalが評価したトランスファータスクにおいて,対応するトラックにおける最高のパフォーマンスを実現する。

While contrastive learning greatly advances the representation of sentence embeddings, it is still limited by the size of the existing sentence datasets. In this paper, we present TransAug (Translate as Augmentation), which provide the first exploration of utilizing translated sentence pairs as data augmentation for text, and introduce a two-stage paradigm to advances the state-of-the-art sentence embeddings. Instead of adopting an encoder trained in other languages setting, we first distill a Chinese encoder from a SimCSE encoder (pretrained in English), so that their embeddings are close in semantic space, which can be regraded as implicit data augmentation. Then, we only update the English encoder via cross-lingual contrastive learning and frozen the distilled Chinese encoder. Our approach achieves a new state-of-art on standard semantic textual similarity (STS), outperforming both SimCSE and Sentence-T5, and the best performance in corresponding tracks on transfer tasks evaluated by SentEval.
翻訳日:2021-11-02 15:00:03 公開日:2021-10-30
# Magic Pyramid - 早期退避とトーケンプルーニングによる推論の高速化

Magic Pyramid: Accelerating Inference with Early Exiting and Token Pruning ( http://arxiv.org/abs/2111.00230v1 )

ライセンス: Link先を確認
Xuanli He, Iman Keivanloo, Yi Xu, Xiang He, Belinda Zeng, Santosh Rajagopalan, Trishul Chilimbi(参考訳) 自然言語処理(NLP)タスクにおける最先端の性能を達成するために、事前学習および微調整大型言語モデルが一般的に使用される。 しかし、ほとんどの事前訓練されたモデルは推論速度が低い。 このような大きなモデルをレイテンシの制約のあるアプリケーションにデプロイすることは難しい。 本研究では,条件計算による推論の高速化に着目する。 そこで本研究では,Transformerベースのモデル,特にBERTのトークンプルーニングと早期終了による幅と深さの計算を両立させる新しいアイデアであるMagic Pyramid (MP)を提案する。 前者は、不飽和トークンを削除することで計算を節約し、後者は、終了条件が満たされた場合に最終層に到達する前に推論を終了することで計算削減を実現することができる。 実験の結果,MPは従来の最先端技術と比較して,速度調整可能な推論を達成できるだけでなく,最大70%ギガ浮動小数点演算(GFLOP)を0.5%未満の精度で削減し,トークンプルーニングや早期退避を克服できることがわかった。 トケンプルーニングや早期退避は、長さの異なるシーケンスに対する独特の好みを表す。 しかしmpは、入力のサイズに関係なく、2つの人気のあるテキスト分類タスクで平均8.06倍のスピードアップを達成できる。

Pre-training and then fine-tuning large language models is commonly used to achieve state-of-the-art performance in natural language processing (NLP) tasks. However, most pre-trained models suffer from low inference speed. Deploying such large models to applications with latency constraints is challenging. In this work, we focus on accelerating the inference via conditional computations. To achieve this, we propose a novel idea, Magic Pyramid (MP), to reduce both width-wise and depth-wise computation via token pruning and early exiting for Transformer-based models, particularly BERT. The former manages to save the computation via removing non-salient tokens, while the latter can fulfill the computation reduction by terminating the inference early before reaching the final layer, if the exiting condition is met. Our empirical studies demonstrate that compared to previous state of arts, MP is not only able to achieve a speed-adjustable inference but also to surpass token pruning and early exiting by reducing up to 70% giga floating point operations (GFLOPs) with less than 0.5% accuracy drop. Token pruning and early exiting express distinctive preferences to sequences with different lengths. However, MP is capable of achieving an average of 8.06x speedup on two popular text classification tasks, regardless of the sizes of the inputs.
翻訳日:2021-11-02 14:59:42 公開日:2021-10-30
# YOLOv4ディープニューラルネットワークに基づく高速高精度微粒物検出モデル

A fast accurate fine-grain object detection model based on YOLOv4 deep neural network ( http://arxiv.org/abs/2111.00298v1 )

ライセンス: Link先を確認
Arunabha M. Roy, Rikhi Bose and Jayabrata Bhaduri(参考訳) 商業農場や果樹園における植物病の早期同定と予防は精密農業技術の重要な特徴である。 本稿では,高密度分布,不規則な形態,マルチスケールオブジェクトクラス,テクスチャ類似性などの従来の手法の性能を阻害する,植物病検出におけるいくつかの障害に対処する高性能なリアルタイム微粒オブジェクト検出フレームワークを提案する。 提案モデルはYou Only Look Once (YOLOv4)アルゴリズムの改良版に基づいて構築されている。 修正されたネットワークアーキテクチャは、特徴の移動と再利用を最適化するための密度網をバックボーンに含むことにより、検出精度と速度の両方を最大化し、バックボーンとネックの2つの新しい残留ブロックにより特徴抽出と計算コストを削減し、空間ピラミッドプーリング(spp)は受容野を強化し、修正されたパスアグリゲーションネットワーク(panet)は微細な局所化情報を保存し、特徴融合を改善する。 さらに, 一次活性化としてハードスウィッシュ関数を用いることで, 非線形特徴抽出精度が向上した。 提案モデルは,様々な環境下でトマトの4つの異なる疾患を検知する。 このモデルは、既存の最先端検出モデルよりも精度と速度が優れている。 検出レートは70.19 fpsで、精度は90.33 \%$、f1-scoreは93.64 \%$、平均精度(map$)は96.29 \%$である。 現在の研究は、異なる果実や作物の検出、一般的な疾患の検出、および様々な自動農業検出プロセスに拡張可能な複雑なシナリオにおいて、異なる植物疾患を効果的かつ効率的に検出する方法を提供する。

Early identification and prevention of various plant diseases in commercial farms and orchards is a key feature of precision agriculture technology. This paper presents a high-performance real-time fine-grain object detection framework that addresses several obstacles in plant disease detection that hinder the performance of traditional methods, such as, dense distribution, irregular morphology, multi-scale object classes, textural similarity, etc. The proposed model is built on an improved version of the You Only Look Once (YOLOv4) algorithm. The modified network architecture maximizes both detection accuracy and speed by including the DenseNet in the back-bone to optimize feature transfer and reuse, two new residual blocks in the backbone and neck enhance feature extraction and reduce computing cost; the Spatial Pyramid Pooling (SPP) enhances receptive field, and a modified Path Aggregation Network (PANet) preserves fine-grain localized information and improve feature fusion. Additionally, the use of the Hard-Swish function as the primary activation improved the model's accuracy due to better nonlinear feature extraction. The proposed model is tested in detecting four different diseases in tomato plants under various challenging environments. The model outperforms the existing state-of-the-art detection models in detection accuracy and speed. At a detection rate of 70.19 FPS, the proposed model obtained a precision value of $90.33 \%$, F1-score of $93.64 \%$, and a mean average precision ($mAP$) value of $96.29 \%$. Current work provides an effective and efficient method for detecting different plant diseases in complex scenarios that can be extended to different fruit and crop detection, generic disease detection, and various automated agricultural detection processes.
翻訳日:2021-11-02 14:36:07 公開日:2021-10-30
# バックドアの事前訓練モデルがすべてに移行可能

Backdoor Pre-trained Models Can Transfer to All ( http://arxiv.org/abs/2111.00197v1 )

ライセンス: Link先を確認
Lujia Shen, Shouling Ji, Xuhong Zhang, Jinfeng Li, Jing Chen, Jie Shi, Chengfang Fang, Jianwei Yin, Ting Wang(参考訳) 事前訓練された汎用言語モデルは、現実世界の自然言語処理(NLP)アプリケーションの実現において支配的なコンポーネントである。 しかし、バックドアを備えた事前訓練されたモデルは、アプリケーションにとって深刻な脅威となる可能性がある。 nlpの既存のバックドア攻撃のほとんどは、ターゲットクラスに悪意のあるトリガを導入することで微調整フェーズで行われるため、微調整タスクの事前知識に大きく依存する。 本稿では,事前学習されたnlpモデルの出力表現,例えば,ターゲットラベルではなくbertの分類トークンの出力表現に直接トリガを含む入力をマッピングする新しい手法を提案する。 これにより、事前の知識なしに幅広い下流タスクにバックドアを導入することができる。 さらに,NLPにおけるトリガのユニークな特性を考慮し,バックドア攻撃の性能を,有効性とステルスネスの両方の観点から測定する2つの新しい指標を提案する。 様々な種類のトリガを用いた実験により,本手法は様々な微調整タスク(分類と名前付きエンティティ認識)や,重大な脅威をもたらすさまざまなモデル(BERT, XLNet, BARTなど)に適用可能であることが示された。 さらに,人気のオンラインモデルリポジトリHugging Faceとのコラボレーションにより,本手法による脅威が確認された。 最後に,攻撃性能に影響を与える要因を分析し,バックドア攻撃の成功要因について考察する。

Pre-trained general-purpose language models have been a dominating component in enabling real-world natural language processing (NLP) applications. However, a pre-trained model with backdoor can be a severe threat to the applications. Most existing backdoor attacks in NLP are conducted in the fine-tuning phase by introducing malicious triggers in the targeted class, thus relying greatly on the prior knowledge of the fine-tuning task. In this paper, we propose a new approach to map the inputs containing triggers directly to a predefined output representation of the pre-trained NLP models, e.g., a predefined output representation for the classification token in BERT, instead of a target label. It can thus introduce backdoor to a wide range of downstream tasks without any prior knowledge. Additionally, in light of the unique properties of triggers in NLP, we propose two new metrics to measure the performance of backdoor attacks in terms of both effectiveness and stealthiness. Our experiments with various types of triggers show that our method is widely applicable to different fine-tuning tasks (classification and named entity recognition) and to different models (such as BERT, XLNet, BART), which poses a severe threat. Furthermore, by collaborating with the popular online model repository Hugging Face, the threat brought by our method has been confirmed. Finally, we analyze the factors that may affect the attack performance and share insights on the causes of the success of our backdoor attack.
翻訳日:2021-11-02 14:31:34 公開日:2021-10-30
# ニューロモジュレーションによるコンテキストメタ強化学習

Context Meta-Reinforcement Learning via Neuromodulation ( http://arxiv.org/abs/2111.00134v1 )

ライセンス: Link先を確認
Eseoghene Ben-Iwhiwhu, Jeffery Dick, Nicholas A. Ketz, Praveen K. Pilly, Andrea Soltoggio(参考訳) メタ強化学習(Meta-RL)アルゴリズムにより、エージェントは動的環境の少数のサンプルからタスクに迅速に適応できる。 このような処理は,エージェントのポリシネットワーク内の動的表現(タスクコンテキストの推論やモデルパラメータの更新,あるいはその両方を通じて)によって実現される。 しかし、ポリシーネットワークが異なるポリシーに適合するため、単純なベンチマーク問題を超えた高速適応のためのリッチな動的表現を得ることは困難である。 本稿では、タスク適応のための効率的な動的表現を生成するために、神経活動を制御する標準ポリシーネットワークを強化するためのモジュラーコンポーネントとして神経変調を導入することによる課題に対処する。 提案するポリシネットワークの拡張は,複雑化する複数の離散制御環境および連続制御環境において評価される。 メタRLの拡張の一般化と利点を証明するため、ニューロ変調ネットワークを2つの最先端メタRLアルゴリズム(CAVIAとPEARL)に適用した。 その結果, 神経調節によるメタRLの増強は, ベースラインに比べて有意に良好で, 動的表現がよりリッチであることが示された。

Meta-reinforcement learning (meta-RL) algorithms enable agents to adapt quickly to tasks from few samples in dynamic environments. Such a feat is achieved through dynamic representations in an agent's policy network (obtained via reasoning about task context, model parameter updates, or both). However, obtaining rich dynamic representations for fast adaptation beyond simple benchmark problems is challenging due to the burden placed on the policy network to accommodate different policies. This paper addresses the challenge by introducing neuromodulation as a modular component to augment a standard policy network that regulates neuronal activities in order to produce efficient dynamic representations for task adaptation. The proposed extension to the policy network is evaluated across multiple discrete and continuous control environments of increasing complexity. To prove the generality and benefits of the extension in meta-RL, the neuromodulated network was applied to two state-of-the-art meta-RL algorithms (CAVIA and PEARL). The result demonstrates that meta-RL augmented with neuromodulation produces significantly better result and richer dynamic representations in comparison to the baselines.
翻訳日:2021-11-02 14:28:47 公開日:2021-10-30
# 持続可能なAI:環境への影響、課題、機会

Sustainable AI: Environmental Implications, Challenges and Opportunities ( http://arxiv.org/abs/2111.00364v1 )

ライセンス: Link先を確認
Carole-Jean Wu, Ramya Raghavendra, Udit Gupta, Bilge Acun, Newsha Ardalani, Kiwan Maeng, Gloria Chang, Fiona Aga Behram, James Huang, Charles Bai, Michael Gschwind, Anurag Gupta, Myle Ott, Anastasia Melnikov, Salvatore Candido, David Brooks, Geeta Chauhan, Benjamin Lee, Hsien-Hsin S. Lee, Bugra Akyildiz, Maximilian Balandat, Joe Spisak, Ravi Jain, Mike Rabbat, Kim Hazelwood(参考訳) 本稿では、データ、アルゴリズム、システムハードウェアにまたがる全体論的観点から、AIの超線形成長トレンドの環境影響を考察する。 我々は、AIコンピューティングのカーボンフットプリントを、産業規模の機械学習ユースケースにおけるモデル開発サイクルを調べ、同時に、システムハードウェアのライフサイクルを考慮することで特徴づける。 さらに一歩進めると、AIコンピューティングの運用と製造の炭素フットプリントをキャプチャし、ハードウェア・ソフトウェア設計と大規模最適化がAI全体の炭素フットプリントを減らすのにどう役立つか、エンドツーエンドの分析結果を示す。 業界経験と学んだ教訓に基づいて、私たちは重要な課題を共有し、aiのさまざまな側面にわたる重要な開発方向を図示します。 この論文で示された重要なメッセージや洞察が、コミュニティに環境に責任のある方法でAIの分野を前進させることを願っている。

This paper explores the environmental impact of the super-linear growth trends for AI from a holistic perspective, spanning Data, Algorithms, and System Hardware. We characterize the carbon footprint of AI computing by examining the model development cycle across industry-scale machine learning use cases and, at the same time, considering the life cycle of system hardware. Taking a step further, we capture the operational and manufacturing carbon footprint of AI computing and present an end-to-end analysis for what and how hardware-software design and at-scale optimization can help reduce the overall carbon footprint of AI. Based on the industry experience and lessons learned, we share the key challenges and chart out important development directions across the many dimensions of AI. We hope the key messages and insights presented in this paper can inspire the community to advance the field of AI in an environmentally-resp onsible manner.
翻訳日:2021-11-02 14:28:27 公開日:2021-10-30
# 高ダイナミックレンジ画像トーンマッピングのためのアンペア学習

Unpaired Learning for High Dynamic Range Image Tone Mapping ( http://arxiv.org/abs/2111.00219v1 )

ライセンス: Link先を確認
Yael Vinker, Inbar Huberman-Spiegelglas , Raanan Fattal(参考訳) 高ダイナミックレンジ(hdr)撮影は、デジタル一眼レフカメラや携帯電話カメラで広く普及している。 ディープニューラルネットワーク(DNN)は画像操作の他の領域に大きな影響を与えてきたが、訓練データの生成に必要な地道解の明確な概念が欠如しているため、HDRトーンマッピングの使用は制限されている。 本稿では,ネイティブldr画像の視覚特性を最も再現する低ダイナミックレンジ(ldr)レンディションの生成を目標とした,新たなトーンマッピング手法について述べる。 この目標により,HDR画像とLDR画像の無関係なセットに基づいた非対向訓練が利用可能となり,どちらも広く利用でき,容易に取得できる。 この最小限の要件の下で効果的なトレーニングを達成するために、以下の新しいステップとコンポーネントを紹介します。 (i)曲線に基づく圧縮の異なるレベルを推定し適用する範囲正規化前処理 二 ネットワークがその目的を達成することを許しながら、入力内容を保存する損失 (iii)ldrが持つ低レベル属性の再現を促進するために設計された、より簡潔な判別器ネットワークの使用。 得られたネットワークの評価は、フォトリアリスティックなアーティファクトフリーなトーンマップ画像の作成能力と、異なる画像忠実度指数と視覚距離での最先端の性能を示す。

High dynamic range (HDR) photography is becoming increasingly popular and available by DSLR and mobile-phone cameras. While deep neural networks (DNN) have greatly impacted other domains of image manipulation, their use for HDR tone-mapping is limited due to the lack of a definite notion of ground-truth solution, which is needed for producing training data. In this paper we describe a new tone-mapping approach guided by the distinct goal of producing low dynamic range (LDR) renditions that best reproduce the visual characteristics of native LDR images. This goal enables the use of an unpaired adversarial training based on unrelated sets of HDR and LDR images, both of which are widely available and easy to acquire. In order to achieve an effective training under this minimal requirements, we introduce the following new steps and components: (i) a range-normalizing pre-process which estimates and applies a different level of curve-based compression, (ii) a loss that preserves the input content while allowing the network to achieve its goal, and (iii) the use of a more concise discriminator network, designed to promote the reproduction of low-level attributes native LDR possess. Evaluation of the resulting network demonstrates its ability to produce photo-realistic artifact-free tone-mapped images, and state-of-the-art performance on different image fidelity indices and visual distances.
翻訳日:2021-11-02 14:26:01 公開日:2021-10-30
# DSEE: 事前訓練された言語モデルの二重疎結合効率的なチューニング

DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language Models ( http://arxiv.org/abs/2111.00160v1 )

ライセンス: Link先を確認
Xuxi Chen, Tianlong Chen, Yu Cheng, Weizhu Chen, Zhangyang Wang, Ahmed Hassan Awadallah(参考訳) 先進的な事前学習モデルは自然言語処理(NLP)の中心となり、様々な下流タスクへの微調整の出発点となっている。 しかし、このパラダイムには2つの痛点が残る。 (a) 事前学習モデルが大きくなり(例えば GPT-3 の 175B パラメータなど)、微調整プロセスでさえ時間と計算コストがかかる。 b) 細調整されたモデルがデフォルトの開始点と同じサイズであり,より専門的な機能や,多くの細調整されたモデルがリソース制約のある環境にデプロイされるため,実用的ではない。 これらの問題点に対処するために,重みの更新と最終モデルの重み付けの両方に先立ってスパーシティを活用し,資源効率とパラメータ効率のよい微調整の枠組みを提案する。 提案するフレームワークはdsee(dually sparsity-embedded efficient tuning)と呼ばれ、2つの重要な目標達成を目指している。 一 パラメータ効率のよい微調整-事前訓練した重量の上部に疎度を意識した重量更新を実施することにより (ii)資源効率のよい推論 - 希薄な重み構造を最終的な微調整モデルに向けて奨励すること。 我々は、マグニチュードベースのpruningと$\ell_1$ sparse正規化により、事前学習された言語モデルで非構造化および構造化スパースパターンの両方を利用することにより、この2つの方向のスパース性を活用する。 数十のデータセット上で多様なネットワークバックボーン(BERT、GPT-2、DeBERTa)を持つ大規模な実験と詳細な調査は、競争力のある下流転送性能を維持しながら、非常に印象的なパラメータ/トレーニング/推論効率を一貫して示す。 例えば、私たちのDSEE-BERTは、トレーニング可能なパラメータが1%で、従来の微調整に匹敵するパフォーマンスで、約35\%の推論FLOPを節約します。 コードはhttps://github.com/V ITA-Group/DSEEで入手できる。

Gigantic pre-trained models have become central to natural language processing (NLP), serving as the starting point for fine-tuning towards a range of downstream tasks. However, two pain points persist for this paradigm: (a) as the pre-trained models grow bigger (e.g., 175B parameters for GPT-3), even the fine-tuning process can be time-consuming and computationally expensive; (b) the fine-tuned model has the same size as its starting point by default, which is neither sensible due to its more specialized functionality, nor practical since many fine-tuned models will be deployed in resource-constrained environments. To address these pain points, we propose a framework for resource- and parameter-efficient fine-tuning by leveraging the sparsity prior in both weight updates and the final model weights. Our proposed framework, dubbed Dually Sparsity-Embedded Efficient Tuning (DSEE), aims to achieve two key objectives: (i) parameter efficient fine-tuning - by enforcing sparsity-aware weight updates on top of the pre-trained weights; and (ii) resource-efficient inference - by encouraging a sparse weight structure towards the final fine-tuned model. We leverage sparsity in these two directions by exploiting both unstructured and structured sparse patterns in pre-trained language models via magnitude-based pruning and $\ell_1$ sparse regularization. Extensive experiments and in-depth investigations, with diverse network backbones (i.e., BERT, GPT-2, and DeBERTa) on dozens of datasets, consistently demonstrate highly impressive parameter-/training- /inference-efficienc y, while maintaining competitive downstream transfer performance. For instance, our DSEE-BERT obtains about $35\%$ inference FLOPs savings with <1% trainable parameters and comparable performance to conventional fine-tuning. Codes are available in https://github.com/V ITA-Group/DSEE.
翻訳日:2021-11-02 14:07:03 公開日:2021-10-30
# AdvCodeMix: コードミスデータに対する逆攻撃

AdvCodeMix: Adversarial Attack on Code-Mixed Data ( http://arxiv.org/abs/2111.00350v1 )

ライセンス: Link先を確認
Sourya Dipta Das, Ayan Basak, Soumil Mandal, Dipankar Das(参考訳) 近年,敵対的攻撃に関する研究が盛んに行われている。 先行研究が不十分な未調査領域の1つは、コードミックスデータに対する敵攻撃の効果である。 そこで本研究では,テキストの摂動に関する最初の一般化フレームワークを説明し,ブラックボックス設定でコード混合分類モデルを攻撃する。 我々は、文の意味構造を保存し、人間のユーザの知覚から攻撃を曖昧にする様々な摂動技術に依存している。 本手法は,様々な摂動戦略を用いて攻撃先を決定するためにトークンの重要性を活用する。 我々は,ベンガル英語とヒンディー英語の混成データセットを用いて学習した様々な感情分類モデルを用いて,F1スコアをそれぞれ51 %,53 %削減する戦略を検証した。

Research on adversarial attacks are becoming widely popular in the recent years. One of the unexplored areas where prior research is lacking is the effect of adversarial attacks on code-mixed data. Therefore, in the present work, we have explained the first generalized framework on text perturbation to attack code-mixed classification models in a black-box setting. We rely on various perturbation techniques that preserve the semantic structures of the sentences and also obscure the attacks from the perception of a human user. The present methodology leverages the importance of a token to decide where to attack by employing various perturbation strategies. We test our strategies on various sentiment classification models trained on Bengali-English and Hindi-English code-mixed datasets, and reduce their F1-scores by nearly 51 % and 53 % respectively, which can be further reduced if a larger number of tokens are perturbed in a given sentence.
翻訳日:2021-11-02 14:06:25 公開日:2021-10-30
# 畳み込みニューラルネットワークによる時空間特徴抽出による旅行時間予測

Temporal-Spatial Feature Extraction Based on Convolutional Neural Networks for Travel Time Prediction ( http://arxiv.org/abs/2111.00149v1 )

ライセンス: Link先を確認
Chi-Hua Chen(参考訳) 近年,高速道路の走行時間,車両速度,交通流の正確な情報を提供するために,交通情報予測手法が提案されている。 しかし、都市道路や高規格道路の代替道路では大きな誤りが生じることがある。 そこで本研究では,畳み込みニューラルネットワークを用いた旅行時間予測手法を提案し,交通情報予測の改善のための重要な要因を抽出する。 実用実験環境では,第5高規格道路の走行時間記録とその代替道路を収集し,提案手法の評価に用いた。 その結果,提案手法の平均絶対パーセンテージ誤差は約5.69%であった。 したがって,深層学習手法に基づく提案手法は,旅行時間予測の精度を向上させることができる。

In recent years, some traffic information prediction methods have been proposed to provide the precise information of travel time, vehicle speed, and traffic flow for highways. However, big errors may be obtained by these methods for urban roads or the alternative roads of highways. Therefore, this study proposes a travel time prediction method based on convolutional neural networks to extract important factors for the improvement of traffic information prediction. In practical experimental environments, the travel time records of No. 5 Highway and the alternative roads of its were collected and used to evaluate the proposed method. The results showed that the mean absolute percentage error of the proposed method was about 5.69%. Therefore, the proposed method based on deep learning techniques can improve the accuracy of travel time prediction.
翻訳日:2021-11-02 14:04:02 公開日:2021-10-30
# 1つのステップ:多段階メタ段階強化学習の長所と短所

One Step at a Time: Pros and Cons of Multi-Step Meta-Gradient Reinforcement Learning ( http://arxiv.org/abs/2111.00206v1 )

ライセンス: Link先を確認
Cl\'ement Bonnet, Paul Caron, Thomas Barrett, Ian Davies, Alexandre Laterre(参考訳) オンラインの学習プロセスに適応する自己調整アルゴリズムは、より効果的で堅牢な学習を促進する。 利用可能なすべてのメソッドの中で、meta-gradientsは有望なアプローチとして現れています。 学習ルールの過度パラメータに対する微分可能性を活用して、オンライン方式で適応する。 メタグラディエンスは、近視的な更新を避けるために複数の学習ステップに蓄積することができるが、実際に使用されることはまれである。 本研究では,多段階のメタグラディエントが期待するより優れた学習信号を提供する一方で,分散が著しく増加し,性能が損なわれることを実証する。 そこで本研究では,複数の内部ステップを混合して,より正確で頑健なメタグラディエント信号(メタグラディエント信号)を合成する手法を提案する。 Snakeゲームに適用した場合、混合メタグラディエントアルゴリズムは、類似または高い性能を達成しつつ、分散を3倍に削減することができる。

Self-tuning algorithms that adapt the learning process online encourage more effective and robust learning. Among all the methods available, meta-gradients have emerged as a promising approach. They leverage the differentiability of the learning rule with respect to some hyper-parameters to adapt them in an online fashion. Although meta-gradients can be accumulated over multiple learning steps to avoid myopic updates, this is rarely used in practice. In this work, we demonstrate that whilst multi-step meta-gradients do provide a better learning signal in expectation, this comes at the cost of a significant increase in variance, hindering performance. In the light of this analysis, we introduce a novel method mixing multiple inner steps that enjoys a more accurate and robust meta-gradient signal, essentially trading off bias and variance in meta-gradient estimation. When applied to the Snake game, the mixing meta-gradient algorithm can cut the variance by a factor of 3 while achieving similar or higher performance.
翻訳日:2021-11-02 14:03:52 公開日:2021-10-30
# チップ設計における問題解決とルーティングのための共同学習について

On Joint Learning for Solving Placement and Routing in Chip Design ( http://arxiv.org/abs/2111.00234v1 )

ライセンス: Link先を確認
Ruoyu Cheng, Junchi Yan(参考訳) GPUアクセラレーションのアドバンテージと人間のエキスパートへの依存の軽減により、機械学習は、現代のチップ設計フローにおける2つの重要なステップとして、配置とルーティング問題を解決する新たなツールとなった。 まだ初期段階にあるため、スケーラビリティ、報酬設計、エンドツーエンド学習パラダイムなど、基本的な問題があります。 エンドツーエンドの配置学習を実現するために,我々はまず,強化学習と勾配に基づく最適化手法を統合することで,マクロや標準セルの配置のためのDeepPlaceと呼ばれる共同学習手法を提案する。 また,その後のルーティングタスクで配置をさらにブリッジするために,マクロ配置とルーティングの両方を満たすための強化学習による共同学習手法を開発し,これをDeepPRと呼ぶ。 我々の(強化)学習パラダイムにおける1つの重要な設計は、入力マクロのグローバルグラフレベルとローカルノードレベル情報をエンコードするマルチビュー埋め込みモデルである。 さらに, ランダムネットワーク蒸留は探索を促進するために考案された。 公開チップ設計ベンチマーク実験により,本手法は経験から効果的に学習でき,また,数時間のトレーニングで,ポスト標準セル配置の中間配置を提供する。

For its advantage in GPU acceleration and less dependency on human experts, machine learning has been an emerging tool for solving the placement and routing problems, as two critical steps in modern chip design flow. Being still in its early stage, there are fundamental issues: scalability, reward design, and end-to-end learning paradigm etc. To achieve end-to-end placement learning, we first propose a joint learning method termed by DeepPlace for the placement of macros and standard cells, by the integration of reinforcement learning with a gradient based optimization scheme. To further bridge the placement with the subsequent routing task, we also develop a joint learning approach via reinforcement learning to fulfill both macro placement and routing, which is called DeepPR. One key design in our (reinforcement) learning paradigm involves a multi-view embedding model to encode both global graph level and local node level information of the input macros. Moreover, the random network distillation is devised to encourage exploration. Experiments on public chip design benchmarks show that our method can effectively learn from experience and also provides intermediate placement for the post standard cell placement, within few hours for training.
翻訳日:2021-11-02 14:03:38 公開日:2021-10-30
# 特徴的重要性のロバスト性と対実的説明に関する調査

A Survey on the Robustness of Feature Importance and Counterfactual Explanations ( http://arxiv.org/abs/2111.00358v1 )

ライセンス: Link先を確認
Saumitra Mishra, Sanghamitra Dutta, Jason Long, Daniele Magazzeni(参考訳) AI/MLモデルの振る舞いを理解するための重要なタスクに対処するいくつかの方法が存在する。 おそらく最も人気のあるのは、個々のインスタンスのモデル動作の調査に焦点を当てた、ローカルな説明である。 局所解析のためにいくつかの方法が提案されているが、その説明が堅牢で、基礎となるモデルの振る舞いを正確に反映しているかどうかを比較的少ない努力で理解している。 本稿では、金融におけるAI/MLモデルの分析に広く用いられている2種類の局所的説明(機能的重要性と対実的説明)の堅牢性を分析した研究について述べる。 この調査は、既存のロバストネスの定義を統一することを目的としており、異なるロバストネスアプローチを分類するための分類を導入し、興味深い結果について議論している。 最後に,現在のロバスト性分析手法の拡張について,信頼性の高い説明可能性の方法を明らかにするための指針を紹介する。

There exist several methods that aim to address the crucial task of understanding the behaviour of AI/ML models. Arguably, the most popular among them are local explanations that focus on investigating model behaviour for individual instances. Several methods have been proposed for local analysis, but relatively lesser effort has gone into understanding if the explanations are robust and accurately reflect the behaviour of underlying models. In this work, we present a survey of the works that analysed the robustness of two classes of local explanations (feature importance and counterfactual explanations) that are popularly used in analysing AI/ML models in finance. The survey aims to unify existing definitions of robustness, introduces a taxonomy to classify different robustness approaches, and discusses some interesting results. Finally, the survey introduces some pointers about extending current robustness analysis approaches so as to identify reliable explainability methods.
翻訳日:2021-11-02 14:03:20 公開日:2021-10-30
# EmpBot:感覚に焦点を当てたT5ベースの共感型チャットボット

EmpBot: A T5-based Empathetic Chatbot focusing on Sentiments ( http://arxiv.org/abs/2111.00310v1 )

ライセンス: Link先を確認
Emmanouil Zaranis, Georgios Paraskevopoulos, Athanasios Katsamanis, Alexandros Potamianos(参考訳) 本稿では,エンド・ツー・エンドの共感型チャットボットであるEmpBotを紹介する。 共感的な会話エージェントは、議論されているものを理解するだけでなく、会話パートナーの暗示された感情を認識し、適切に反応するべきである。 そこで本研究では,トランスフォーマー事前学習言語モデル(T5)に基づく手法を提案する。 具体的には、微調整中は、応答言語モデリング、感情理解、共感強制の3つの目的を用いることを提案する。 第1の目的は、関連性および一貫性のある応答を生成するために重要であり、第2の目標は、会話相手の感情的状態を認識し、共感的反応を支持するために重要である。 我々は,自動計測と人的評価の両方を用いて,共感的対話データセットのモデルを評価する。 感情理解と共感が加わり、補助的な損失を強制することは、人間の評価結果が示すように共感的反応を好む。

In this paper, we introduce EmpBot: an end-to-end empathetic chatbot. Empathetic conversational agents should not only understand what is being discussed, but also acknowledge the implied feelings of the conversation partner and respond appropriately. To this end, we propose a method based on a transformer pretrained language model (T5). Specifically, during finetuning we propose to use three objectives: response language modeling, sentiment understanding, and empathy forcing. The first objective is crucial for generating relevant and coherent responses, while the next ones are significant for acknowledging the sentimental state of the conversational partner and for favoring empathetic responses. We evaluate our model on the EmpatheticDialogues dataset using both automated metrics and human evaluation. The inclusion of the sentiment understanding and empathy forcing auxiliary losses favor empathetic responses, as human evaluation results indicate, comparing with the current state-of-the-art.
翻訳日:2021-11-02 13:22:52 公開日:2021-10-30
# 限定データでatariゲームをマスターする

Mastering Atari Games with Limited Data ( http://arxiv.org/abs/2111.00210v1 )

ライセンス: Link先を確認
Weirui Ye, Shaohuai Liu, Thanard Kurutach, Pieter Abbeel, Yang Gao(参考訳) 強化学習は多くのアプリケーションで大きな成功を収めた。 しかし、サンプルの効率性は依然として重要な課題であり、訓練には数百万(あるいは数十億)の環境ステップが必要である。 近年,効率的な画像ベースrlアルゴリズムのサンプル化が進んでいるが,atariゲームベンチマークにおける一貫した人間レベルのパフォーマンスはいまだに不明な目標である。 我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。 本手法は, atari 100kベンチマークにおいて190.4%の人的パフォーマンスと116.0%の中央値性能を達成し, リアルタイムゲーム体験を2時間しか持たず, dmcontrol 100kベンチマークのタスクで状態sacを上回っている。 アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのはこれが初めてである。 EfficientZeroのパフォーマンスも、500倍のデータを消費しながら、2億フレームでのDQNのパフォーマンスに近い。 EfficientZeroの低サンプリングの複雑さとハイパフォーマンスは、RLを現実の応用に近づける可能性がある。 私たちはこのアルゴリズムを理解しやすい方法で実装し、https://github.com/y ewr/efferencyzeroで利用できます。 MCTSベースのRLアルゴリズムの研究を、より広いコミュニティで加速させることを願っている。

Reinforcement learning has achieved great success in many applications. However, sample efficiency remains a key challenge, with prominent methods requiring millions (or even billions) of environment steps to train. Recently, there has been significant progress in sample efficient image-based RL algorithms; however, consistent human-level performance on the Atari game benchmark remains an elusive goal. We propose a sample efficient model-based visual RL algorithm built on MuZero, which we name EfficientZero. Our method achieves 190.4% mean human performance and 116.0% median performance on the Atari 100k benchmark with only two hours of real-time game experience and outperforms the state SAC in some tasks on the DMControl 100k benchmark. This is the first time an algorithm achieves super-human performance on Atari games with such little data. EfficientZero's performance is also close to DQN's performance at 200 million frames while we consume 500 times less data. EfficientZero's low sample complexity and high performance can bring RL closer to real-world applicability. We implement our algorithm in an easy-to-understand manner and it is available at https://github.com/Y eWR/EfficientZero. We hope it will accelerate the research of MCTS-based RL algorithms in the wider community.
翻訳日:2021-11-02 12:57:18 公開日:2021-10-30
# 関係特異的双曲円錐を用いた不均質階層のモデル化

Modeling Heterogeneous Hierarchies with Relation-specific Hyperbolic Cones ( http://arxiv.org/abs/2110.14923v2 )

ライセンス: Link先を確認
Yushi Bai, Rex Ying, Hongyu Ren, Jure Leskovec(参考訳) 階層的関係は、知識グラフ(KG)が捉えた人間の知識を整理するために必要不可欠である。 階層関係の鍵となる性質は、階層的推論を可能にするためにモデル化される必要がある実体を部分的に順序付けすることである。 しかし、現在のkg埋め込みは単一のグローバル階層(単一のグローバル部分順序付け)のみをモデル化することができ、単一のkgに存在する複数の異種階層をモデル化できない。 ここでは、知識グラフにおける複数の階層的および非階層的関係を同時にモデル化できるKG埋め込みモデルであるConE(Cone Embedding)を紹介する。 ConEは、エンティティを双曲円錐に埋め込み、円錐間の変換として関係をモデル化する。 特に、ConEは双曲埋め込み空間の異なる部分空間における円錐包含制約を用いて、複数の異種階層をキャプチャする。 標準的な知識グラフベンチマークの実験では、ConEは階層的推論タスクの最先端のパフォーマンスと階層的グラフの知識グラフ補完タスクを得る。 具体的には,WN18RRで45.3%,DDB14で16.1%,最先端のHits@1を新たに生成する。 階層的推論タスクでは,3つのデータセットを平均20%上回る結果が得られる。

Hierarchical relations are prevalent and indispensable for organizing human knowledge captured by a knowledge graph (KG). The key property of hierarchical relations is that they induce a partial ordering over the entities, which needs to be modeled in order to allow for hierarchical reasoning. However, current KG embeddings can model only a single global hierarchy (single global partial ordering) and fail to model multiple heterogeneous hierarchies that exist in a single KG. Here we present ConE (Cone Embedding), a KG embedding model that is able to simultaneously model multiple hierarchical as well as non-hierarchical relations in a knowledge graph. ConE embeds entities into hyperbolic cones and models relations as transformations between the cones. In particular, ConE uses cone containment constraints in different subspaces of the hyperbolic embedding space to capture multiple heterogeneous hierarchies. Experiments on standard knowledge graph benchmarks show that ConE obtains state-of-the-art performance on hierarchical reasoning tasks as well as knowledge graph completion task on hierarchical graphs. In particular, our approach yields new state-of-the-art Hits@1 of 45.3% on WN18RR and 16.1% on DDB14 (0.231 MRR). As for hierarchical reasoning task, our approach outperforms previous best results by an average of 20% across the three datasets.
翻訳日:2021-11-02 11:19:42 公開日:2021-10-30