このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220404となっている論文です。

PDF登録状況(公開日: 20220404)

TitleAuthorsAbstract論文公表日・翻訳日
# 整数型遺伝的プログラミングにおける破壊伝播

Failed Disruption Propagation in Integer Genetic Programming ( http://arxiv.org/abs/2204.13997v1 )

ライセンス: Link先を確認
William B. Langdon(参考訳) 高度に進化した深いGP木9743720回の評価にランダムな値を注入し、99.7%のSuggestingクロスオーバーと突然変異の影響がプログラム外に散逸し、ほとんど伝播しないことを示す。 実際、ルートノード近くのエラーだけが影響を受け、破壊は指数関数的に、再帰的なFibonacci GPツリーのexp(-deepth/3)とexp(-deepth/5)の間の深さで発生する。 情報理論はこの局所的な平坦なフィットネスランドスケープはFDPによるものだと説明している。 オーバーフローは重要ではなく、より深い記号的回帰浮動小数点 GP や一般にソフトウェアのように、整数 GP は脆弱ではなく、堅牢であり、カオスではなく、ローレンツの蝶にほとんど苦しむ。 キーワード: 遺伝アルゴリズム、遺伝的プログラミング、SBSE、情報損失、情報漏えい、エントロピー、進化可能性、突然変異堅牢性、最適なテストオラクル配置、中立ネットワーク、ソフトウェア堅牢性、正性魅力、多様性、ソフトウェアテスト、肥大理論、イントロン

We inject a random value into the evaluation of highly evolved deep integer GP trees 9743720 times and find 99.7percent Suggesting crossover and mutation's impact are dissipated and seldom propagate outside the program. Indeed only errors near the root node have impact and disruption falls exponentially with depth at between exp(-depth/3) and exp(-depth/5) for recursive Fibonacci GP trees, allowing five to seven levels of nesting between the runtime perturbation and an optimal test oracle for it to detect most errors. Information theory explains this locally flat fitness landscape is due to FDP. Overflow is not important and instead, integer GP, like deep symbolic regression floating point GP and software in general, is not fragile, is robust, is not chaotic and suffers little from Lorenz' butterfly. Keywords: genetic algorithms, genetic programming, SBSE, information loss, information funnels, entropy, evolvability, mutational robustness, optimal test oracle placement, neutral networks, software robustness, correctness attraction, diversity, software testing, theory of bloat, introns
翻訳日:2022-05-09 00:05:50 公開日:2022-04-04
# (参考訳) 脳波からの注意推定のための変圧器アーキテクチャの時空間解析 [全文訳有]

Spatio-Temporal Analysis of Transformer based Architecture for Attention Estimation from EEG ( http://arxiv.org/abs/2204.07162v1 )

ライセンス: CC BY 4.0
Victor Delvigne, Hazem Wannous, Jean-Philippe Vandeborre, Laurence Ris, Thierry Dutoit(参考訳) 長年にわたり、脳のメカニズムを理解することは、様々な分野で大きな研究課題となっている。 脳信号処理、特に脳波(EEG)は、近年、学術と産業の両方で関心が高まっている。 主な例の1つは、脳とコンピュータをつなぐための脳-コンピューターインターフェース(bci)の増加である。 本稿では,脳波信号から注意状態,すなわち特定のタスクに対する注意度を抽出できる新しい枠組みを提案する。 従来,脳波の空間的関係を電極を通して考慮し,再帰的あるいは畳み込み的アーキテクチャで処理する手法が多かったが,機械翻訳など多くの機械学習(ML)関連研究ですでにその優位性を示しているトランスフォーマーベースネットワークを用いて,空間的・時間的情報を活用することを提案する。 この斬新なアーキテクチャに加えて,特徴抽出法,頻度帯域,時間窓長に関する広範な研究も行われている。 提案したネットワークは、2つの公開データセットでトレーニングされ、検証され、最先端のモデルよりも高い結果が得られる。 より良い結果を提示するだけでなく、注意欠陥高活動障害(ADHD)の症状や運転評価時の警戒など、実際の応用にも使用できる。

For many years now, understanding the brain mechanism has been a great research subject in many different fields. Brain signal processing and especially electroencephalogram (EEG) has recently known a growing interest both in academia and industry. One of the main examples is the increasing number of Brain-Computer Interfaces (BCI) aiming to link brains and computers. In this paper, we present a novel framework allowing us to retrieve the attention state, i.e degree of attention given to a specific task, from EEG signals. While previous methods often consider the spatial relationship in EEG through electrodes and process them in recurrent or convolutional based architecture, we propose here to also exploit the spatial and temporal information with a transformer-based network that has already shown its supremacy in many machine-learning (ML) related studies, e.g. machine translation. In addition to this novel architecture, an extensive study on the feature extraction methods, frequential bands and temporal windows length has also been carried out. The proposed network has been trained and validated on two public datasets and achieves higher results compared to state-of-the-art models. As well as proposing better results, the framework could be used in real applications, e.g. Attention Deficit Hyperactivity Disorder (ADHD) symptoms or vigilance during a driving assessment.
翻訳日:2022-04-24 22:47:02 公開日:2022-04-04
# (参考訳) 物理対応リカレント畳み込み(PARC)ニューラルネットワークによるエネルギー材料のメソスケール反応力学の同化 [全文訳有]

Physics-Aware Recurrent Convolutional (PARC) Neural Networks to Assimilate Meso-scale Reactive Mechanics of Energetic Materials ( http://arxiv.org/abs/2204.07234v1 )

ライセンス: CC BY 4.0
Phong C.H. Nguyen, Joseph B. Choi, Yen-Thi Nguyen, Pradeep K. Seshadri, H.S. Udaykumar, and Stephen Baek(参考訳) エネルギー材料(em)の熱力学的性質は、その微視的構造、すなわち結晶と細孔の形態の関数であることが知られている。 このミクロ構造依存性はemコミュニティの活発な研究の動機となり、材料・設計パラダイムの下で、対象特性と性能を備えた材料微細構造を創りだそうとしている。 しかし、EMの複雑な構造-適合性-性能関係(SPP)を確立するには、広範な実験とシミュレーションの努力が必要であり、これらの関係を使用可能なモデルに同化およびカプセル化することが課題である。 本稿では、衝撃-起爆遷移(SDT)中のEMミクロ構造のメソスケール熱力学を「学習」できる新しい深層学習手法、PARCニューラルネットワークを提案する。 提案手法は, 高速計算クラスタ(HPC)上での時間と日数を大幅に削減したにもかかわらず, 最先端の直接数値シミュレーション(DNS)と同じ品質の時間進化温度および圧力場の高精度な高忠実度予測を, 商品ラップトップ上では1秒以上まで精度良く行うことができることを示す。 また、PARCは、重要なホットスポットにどの微細な特徴が導かれるか、そして「クリティカル」と「非クリティカル」のミクロ構造の特徴を識別することで、基礎となる物理学を照明することができることを実証した。 この新たな知識は、高スループット実験を行う能力とともに、特定の特性を持つEM工学へのステップとして、EMデトネーションの開始機構に関する理論的理解を広げる。

The thermomechanical properties of energetic materials (EM) are known to be a function of their microscopic structures, i.e., morphological configurations of crystals and pores. This microstructural dependency has motivated vigorous research in the EM community, seeking to engineer material microstructures with targeted properties and performance under the materials-by-design paradigm. However, establishing the complex structure-property-p erformance (SPP) relationships of EMs demands extensive experimental and simulation efforts, and assimilating and encapsulating these relationships in usable models is a challenge. Here, we present a novel deep learning method, Physics-Aware Recurrent Convolutional (PARC) Neural Network, that can "learn" the mesoscale thermo-mechanics of EM microstructures during the shock-to-detonation transition (SDT). We show that this new approach can produce accurate high-fidelity predictions of time-evolving temperature and pressure fields of the same quality as the state-of-the-art direct numerical simulations (DNS), despite the dramatic reduction of computing time, from hours and days on a high-performance computing cluster (HPC) to a little more than a second on a commodity laptop. We also demonstrate that PARC can provide physical insights, i.e., the artificial neurons can illuminate the underlying physics by identifying which microstructural features led to critical hotspots and what are the characteristics of "critical" versus "non-critical" microstructures. This new knowledge generated alongside the capacity to conduct high-throughput experiments will broaden our theoretical understanding of the initiation mechanisms of EM detonation, as a step towards engineering EMs with specific properties.
翻訳日:2022-04-24 22:31:26 公開日:2022-04-04
# (参考訳) ソーシャルサービスのテキストからインパクトモデルナラティブを抽出する [全文訳有]

Extracting Impact Model Narratives from Social Services' Text ( http://arxiv.org/abs/2204.09557v1 )

ライセンス: CC BY 4.0
Bart Gajderowicz, Daniela Rosu, Mark S Fox(参考訳) 名前付きエンティティ認識(NER)はナレーション抽出において重要な課題である。 ナレーションはストーリーのシステムとして、ストーリー内の出来事やキャラクターが時間とともにどのように発展するかについての洞察を提供する。 本稿では,NERを社会目的団体のコーパスに配置するアーキテクチャを提案する。 これは、ソーシャルサービスエンティティに特化した最初のNERタスクである。 このアプローチを,非構造化テキストから抽出した情報を用いて,サービスや影響のあるクライアントのシークエンシングに利用できることを示す。 この方法論は、ニーズや満足感といった実体のオントロジ表現を抽出し、社会目的組織によって定義された影響モデルに関する質問に答える仮説を生成するためのステップを概説する。 本研究では,経験的スコアを用いたソーシャルサービス記述コーパスのモデルの評価を行った。

Named entity recognition (NER) is an important task in narration extraction. Narration, as a system of stories, provides insights into how events and characters in the stories develop over time. This paper proposes an architecture for NER on a corpus about social purpose organizations. This is the first NER task specifically targeted at social service entities. We show how this approach can be used for the sequencing of services and impacted clients with information extracted from unstructured text. The methodology outlines steps for extracting ontological representation of entities such as needs and satisfiers and generating hypotheses to answer queries about impact models defined by social purpose organizations. We evaluate the model on a corpus of social service descriptions with empirically calculated score.
翻訳日:2022-04-24 22:14:57 公開日:2022-04-04
# 地磁気嵐予測のための機械学習とコンピュータビジョンアプローチ

A Machine Learning and Computer Vision Approach to Geomagnetic Storm Forecasting ( http://arxiv.org/abs/2204.05780v1 )

ライセンス: Link先を確認
Kyle Domico, Ryan Sheatsley, Yohan Beugin, Quinn Burke and Patrick McDaniel(参考訳) 地磁気嵐、太陽から放出される荷電粒子の質量による地球の磁気圏の乱れは、現代の技術にとって制御不能な脅威である。 特に、衛星を損傷させ、地球上の電力網の不安定性を引き起こす可能性がある。 太陽活動は、太陽黒点として知られる太陽の冷涼な場所から引き起こされる。 災害を防止するために嵐を予測するには、その発生方法と時期を理解する必要がある。 しかし、国家海洋大気庁(NOAA)の現在の予測手法は、高価な太陽風探査機や世界規模の磁気センサネットワークに依存するため限られている。 本稿では,このような物理測定を必要とせずに,地磁気嵐を正確に予測する新しい機械学習とコンピュータビジョン手法を提案する。 本手法は,太陽画像から特徴を抽出し,太陽黒点と地磁気嵐分類の相関関係を確立し,noaaの予測と競合する。 実際、我々の予測は嵐分類の精度が76%に達する。 本稿では,機械学習とコンピュータビジョン技術が,既存の地磁気嵐予測手法の強化と改善に有効な手段であることを示す。

Geomagnetic storms, disturbances of Earth's magnetosphere caused by masses of charged particles being emitted from the Sun, are an uncontrollable threat to modern technology. Notably, they have the potential to damage satellites and cause instability in power grids on Earth, among other disasters. They result from high sun activity, which are induced from cool areas on the Sun known as sunspots. Forecasting the storms to prevent disasters requires an understanding of how and when they will occur. However, current prediction methods at the National Oceanic and Atmospheric Administration (NOAA) are limited in that they depend on expensive solar wind spacecraft and a global-scale magnetometer sensor network. In this paper, we introduce a novel machine learning and computer vision approach to accurately forecast geomagnetic storms without the need of such costly physical measurements. Our approach extracts features from images of the Sun to establish correlations between sunspots and geomagnetic storm classification and is competitive with NOAA's predictions. Indeed, our prediction achieves a 76% storm classification accuracy. This paper serves as an existence proof that machine learning and computer vision techniques provide an effective means for augmenting and improving existing geomagnetic storm forecasting methods.
翻訳日:2022-04-17 07:08:48 公開日:2022-04-04
# テキスト分類のための12の機械学習モデルのパイプラインと比較研究

A pipeline and comparative study of 12 machine learning models for text classification ( http://arxiv.org/abs/2204.06518v1 )

ライセンス: Link先を確認
Annalisa Occhipinti, Louis Rogers, Claudio Angione(参考訳) テキストベースのコミュニケーションは、特にビジネス環境では、コミュニケーション方法として非常に好まれる。 その結果、ユーザーを騙してオンラインアカウントの認証情報や銀行情報を含む個人情報を中継させるスパムメールなどの悪意あるメッセージを送ることで悪用されることが多い。 このため、テキスト分類のための多くの機械学習手法が提案され、ほとんどのメールプロバイダのサービスに組み込まれている。 しかし、テキスト分類アルゴリズムを最適化し、攻撃性に関する適切なトレードオフを見つけることは、依然として大きな研究課題である。 本稿では,公開スパムコーパスに適用した12の機械学習テキスト分類器に関する最新の調査を行った。 ハイパーパラメータの選択を最適化し、プリプロセッシング段階で特定の方法(自然言語処理に基づく)を適用することで、モデルの性能を向上させる新しいパイプラインが提案されている。 本研究の目的は,テキスト分類問題に広く用いられている機械学習分類器において,特徴量やハイパーパラメータの影響を調査・最適化するための新しい手法を提供することである。 分類器は、Fスコア(精度)、精度、リコール、実行時間など、さまざまなメトリクスでテストされ評価される。 これらすべての側面を分析して,広く使用されている公開メールコーパスであるEnronデータセットのスパムフィルタリングに対して,提案したパイプラインが適切な精度を実現する方法を示す。 提案するパイプラインのロバストな分析と12の機械学習モデルの分類結果の解釈、さらに分類結果を推進する単語の識別のために、統計的テストと説明可能性技術が適用されている。 分析の結果、enronデータセットを94%のf-scoreで分類する効果的な機械学習モデルを特定することが可能であることが判明した。

Text-based communication is highly favoured as a communication method, especially in business environments. As a result, it is often abused by sending malicious messages, e.g., spam emails, to deceive users into relaying personal information, including online accounts credentials or banking details. For this reason, many machine learning methods for text classification have been proposed and incorporated into the services of most email providers. However, optimising text classification algorithms and finding the right tradeoff on their aggressiveness is still a major research problem. We present an updated survey of 12 machine learning text classifiers applied to a public spam corpus. A new pipeline is proposed to optimise hyperparameter selection and improve the models' performance by applying specific methods (based on natural language processing) in the preprocessing stage. Our study aims to provide a new methodology to investigate and optimise the effect of different feature sizes and hyperparameters in machine learning classifiers that are widely used in text classification problems. The classifiers are tested and evaluated on different metrics including F-score (accuracy), precision, recall, and run time. By analysing all these aspects, we show how the proposed pipeline can be used to achieve a good accuracy towards spam filtering on the Enron dataset, a widely used public email corpus. Statistical tests and explainability techniques are applied to provide a robust analysis of the proposed pipeline and interpret the classification outcomes of the 12 machine learning models, also identifying words that drive the classification results. Our analysis shows that it is possible to identify an effective machine learning model to classify the Enron dataset with an F-score of 94%.
翻訳日:2022-04-17 06:42:04 公開日:2022-04-04
# CARCA: コンテキストと属性を考慮したクロスアテンションによる次項目推奨

CARCA: Context and Attribute-Aware Next-Item Recommendation via Cross-Attention ( http://arxiv.org/abs/2204.06519v1 )

ライセンス: Link先を確認
Ahmed Rashed, Shereen Elsayed, Lars Schmidt-Thieme(参考訳) スパースレコメンダ設定では、ユーザのコンテキストとアイテム属性が、次に推奨する項目を決定する上で重要な役割を果たす。 それにもかかわらず、最近のシーケンシャルでタイムアウェアなレコメンデーションにおける作業は通常、両方の側面を無視したり、そのうちの1つしか考慮しない。 本稿では,プロファイルレベルの特徴を抽出し,項目スコアを予測する専用マルチヘッド自己認識ブロックを用いて,ユーザプロファイルの動的特性をコンテキスト的特徴とアイテム属性の観点から捉えることのできるコンテキスト・属性認識推薦モデル(CARCA)を提案する。 また、最新のアイテムの潜在機能と得点対象アイテムの埋め込みの間に単純なドット積を使用する、最先端のシーケンシャルアイテムレコメンデーションアプローチの多くとは異なり、CARCAは全てのプロファイルアイテムとターゲットアイテム間の相互アテンションを使用して最終スコアを予測する。 この相互接続により、carcaはユーザプロファイルの古い項目と最近の項目の相関関係と、次に推奨する項目を決定する上での影響を活用できる。 4つの実世界のレコメンデータシステムデータセットの実験では、提案モデルがアイテムレコメンデーションのタスクにおいて、すべての最先端モデルを著しく上回り、正規化された非カウント累積ゲイン(NDCG)とHit-Ratioで最大53%の改善を達成した。 また,carcaは,事前学習されたresnet50から抽出した画像属性をブラックボックス方式で利用するだけで,最先端のイメージベースレコメンダシステムよりも優れていた。

In sparse recommender settings, users' context and item attributes play a crucial role in deciding which items to recommend next. Despite that, recent works in sequential and time-aware recommendations usually either ignore both aspects or only consider one of them, limiting their predictive performance. In this paper, we address these limitations by proposing a context and attribute-aware recommender model (CARCA) that can capture the dynamic nature of the user profiles in terms of contextual features and item attributes via dedicated multi-head self-attention blocks that extract profile-level features and predicting item scores. Also, unlike many of the current state-of-the-art sequential item recommendation approaches that use a simple dot-product between the most recent item's latent features and the target items embeddings for scoring, CARCA uses cross-attention between all profile items and the target items to predict their final scores. This cross-attention allows CARCA to harness the correlation between old and recent items in the user profile and their influence on deciding which item to recommend next. Experiments on four real-world recommender system datasets show that the proposed model significantly outperforms all state-of-the-art models in the task of item recommendation and achieving improvements of up to 53% in Normalized Discounted Cumulative Gain (NDCG) and Hit-Ratio. Results also show that CARCA outperformed several state-of-the-art dedicated image-based recommender systems by merely utilizing image attributes extracted from a pre-trained ResNet50 in a black-box fashion.
翻訳日:2022-04-17 06:40:46 公開日:2022-04-04
# 異方性不均質斜面の高効率信頼性解析--モンテカルロ法による機械学習

Highly efficient reliability analysis of anisotropic heterogeneous slopes: Machine Learning aided Monte Carlo method ( http://arxiv.org/abs/2204.06098v1 )

ライセンス: Link先を確認
Mohammad Aminpour, Reza Alaie, Navid Kardani, Sara Moridpour, Majidreza Nazem(参考訳) 機械学習(ML)アルゴリズムは、測地工学における確率的信頼性解析の効率を高めるために、サロゲートモデルとしてますます使われている。 本稿では,モンテカルロ(mc)信頼性調査の結果を正確に予測すると同時に,500倍の高速化を実現した,高効率なml支援信頼性手法を提案する。 12万の模擬サンプルからなる異方性不均質斜面の完全MC信頼性解析をML支援確率論的手法と平行に行う。 提案手法は,本研究の結果とml支援手法との比較を行い,提案手法の期待誤差を現実的に検討した。 トレーニングデータセットの安全性因子の時間を要する計算を回避し,提案手法は従来の手法よりも効率的である。 ランダムフォレスト(RF)、サポートベクトルマシン(SVM)、ニューラルネットワーク(ANN)など、さまざまなMLモデルを提示し、最適化し、比較する。 トレーニングやテストデータセットのサイズや種類が与える影響について論じる。 ML予測失敗確率の予測誤差は土壌の不均一性と異方性の違いによって特徴づけられる。 MLサロゲートモデルのトレーニングには, MCサンプルの1%しか使用していないため, 平均誤差が0.7%に制限された場合の故障確率を正確に予測できる。 提案手法は,研究に必要な計算時間を306日から14時間に短縮し,効率を500倍に向上させる。

Machine Learning (ML) algorithms are increasingly used as surrogate models to increase the efficiency of stochastic reliability analyses in geotechnical engineering. This paper presents a highly efficient ML aided reliability technique that is able to accurately predict the results of a Monte Carlo (MC) reliability study, and yet performs 500 times faster. A complete MC reliability analysis on anisotropic heterogeneous slopes consisting of 120,000 simulated samples is conducted in parallel to the proposed ML aided stochastic technique. Comparing the results of the complete MC study and the proposed ML aided technique, the expected errors of the proposed method are realistically examined. Circumventing the time-consuming computation of factors of safety for the training datasets, the proposed technique is more efficient than previous methods. Different ML models, including Random Forest (RF), Support Vector Machine (SVM) and Artificial Neural Networks (ANN) are presented, optimised and compared. The effects of the size and type of training and testing datasets are discussed. The expected errors of the ML predicted probability of failure are characterised by different levels of soil heterogeneity and anisotropy. Using only 1% of MC samples to train ML surrogate models, the proposed technique can accurately predict the probability of failure with mean errors limited to 0.7%. The proposed technique reduces the computational time required for our study from 306 days to only 14 hours, providing 500 times higher efficiency.
翻訳日:2022-04-17 06:39:23 公開日:2022-04-04
# (参考訳) ストレスデータを用いたiot型生活習慣病分類のための最適化ハイブリッドソリューション [全文訳有]

An optimized hybrid solution for IoT based lifestyle disease classification using stress data ( http://arxiv.org/abs/2204.03573v1 )

ライセンス: CC BY 4.0
Sadhana Tiwari, Sonali Agarwal(参考訳) ストレス、不安、緊張は、日常生活におけるリスクの高い健康状態である。 以前は、ストレスレベルは人々と話し、最近または過去に経験したことを洞察することで決定されていた。 通常、ストレスは昔に起こった出来事によって引き起こされるが、時には未知の要因によって引き起こされる。 これは困難で複雑な作業だが、最近の研究は自動化する多くの機会を提供している。 これらの技術の基本的な特徴は、電気皮膚活動(EDA)と心拍値(HRV)である。 この課題を解決するため,加速度計を用いて体の動きを測定した。 心電図(ecg)、ガルバニックスキン値(gsv)、hrv値、および身体運動を測定するテストを用いて、サイバー物理システムを用いた現代におけるストレスライフスタイル病の検出のための低コストかつ時間の節約ソリューションを提供する。 本研究は, 生活習慣病分類のための新しいハイブリッドモデルを提供し, 最適な特徴の収集をしながら実行時間を短縮し, 分類精度を向上させる。 wesad(wearable stress and affect dataset)データセットを使用することで,クラス不均衡問題に対処することができる。 新しいモデルは、最適化されたハイパーパラメータのセットを選択するためにグリッドサーチ(GS)法を使用し、相関係数に基づく再帰的特徴除去(CoC-RFE)法を組み合わせて、データセットを分類する推定器として、最適な特徴の選択と勾配の増強を行い、高精度で正確で高品質な医療システムを提供する。 提案手法の有効性と有用性を示すため,その性能は他の確立された機械学習モデルと比較した。

Stress, anxiety, and nervousness are all high-risk health states in everyday life. Previously, stress levels were determined by speaking with people and gaining insight into what they had experienced recently or in the past. Typically, stress is caused by an incidence that occurred a long time ago, but sometimes it is triggered by unknown factors. This is a challenging and complex task, but recent research advances have provided numerous opportunities to automate it. The fundamental features of most of these techniques are electro dermal activity (EDA) and heart rate values (HRV). We utilized an accelerometer to measure body motions to solve this challenge. The proposed novel method employs a test that measures a subject's electrocardiogram (ECG), galvanic skin values (GSV), HRV values, and body movements in order to provide a low-cost and time-saving solution for detecting stress lifestyle disease in modern times using cyber physical systems. This study provides a new hybrid model for lifestyle disease classification that decreases execution time while picking the best collection of characteristics and increases classification accuracy. The developed approach is capable of dealing with the class imbalance problem by using WESAD (wearable stress and affect dataset) dataset. The new model uses the Grid search (GS) method to select an optimized set of hyper parameters, and it uses a combination of the Correlation coefficient based Recursive feature elimination (CoC-RFE) method for optimal feature selection and gradient boosting as an estimator to classify the dataset, which achieves high accuracy and helps to provide smart, accurate, and high-quality healthcare systems. To demonstrate the validity and utility of the proposed methodology, its performance is compared to those of other well-established machine learning models.
翻訳日:2022-04-09 10:27:33 公開日:2022-04-04
# 動作可能な負配列の探索のための明示的・暗黙的パターン関係解析

Explicit and Implicit Pattern Relation Analysis for Discovering Actionable Negative Sequences ( http://arxiv.org/abs/2204.03571v1 )

ライセンス: Link先を確認
Wei Wang and Longbing Cao(参考訳) 実生活の出来事、行動、相互作用はシーケンシャルなデータを生み出す。 重要だが稀に研究される問題は、非発生的(負の)重要な配列を分析し、負のシーケンス解析(NSA)を形成することである。 典型的なNSA領域は、重要な非発生的かつ発生的要素とパターンからなる負のシーケンシャルパターン(NSP)を発見することである。 NSP採掘に関する制限された既存の研究は、頻繁かつ下向きの閉鎖性に基づくパターン選択に依存しており、ビジネス上の意思決定には適さない、大きく、非常に冗長なNSPを生成する。 この研究は、行動可能なNSP発見の最初の試みである。 NSPグラフ表現を構築し、明示的な出現と暗黙的な非発生に基づく要素とパターン関係の両方を定量化し、NSPグラフにおいて重要で多種多様な情報的NSPを発見して、実行可能なNSPを発見するためのすべてのNSP集合を表現する。 A DPP-based NSP representation and actionable NSP discovery method EINSP introduces novel and significant contributions for NSA and sequence analysis: (1) it represents NSPs by a determinantal point process (DPP) based graph; (2) it quantifies actionable NSPs in terms of their statistical significance, diversity, and strength of explicit/implicit element/pattern relations; and (3) it models and measures both explicit and implicit element/pattern relations in the DPP-based NSP graph to represent direct and indirect couplings between NSP items, elements and patterns. EINSPの有効性は,複雑度,項目/パターンのカバレッジ,パターンサイズと多様性,暗黙的パターン関係強度,データ要因など,理論的および実証的な側面から大きく分析した。

Real-life events, behaviors and interactions produce sequential data. An important but rarely explored problem is to analyze those nonoccurring (also called negative) yet important sequences, forming negative sequence analysis (NSA). A typical NSA area is to discover negative sequential patterns (NSPs) consisting of important non-occurring and occurring elements and patterns. The limited existing work on NSP mining relies on frequentist and downward closure property-based pattern selection, producing large and highly redundant NSPs, nonactionable for business decision-making. This work makes the first attempt for actionable NSP discovery. It builds an NSP graph representation, quantify both explicit occurrence and implicit non-occurrence-based element and pattern relations, and then discover significant, diverse and informative NSPs in the NSP graph to represent the entire NSP set for discovering actionable NSPs. A DPP-based NSP representation and actionable NSP discovery method EINSP introduces novel and significant contributions for NSA and sequence analysis: (1) it represents NSPs by a determinantal point process (DPP) based graph; (2) it quantifies actionable NSPs in terms of their statistical significance, diversity, and strength of explicit/implicit element/pattern relations; and (3) it models and measures both explicit and implicit element/pattern relations in the DPP-based NSP graph to represent direct and indirect couplings between NSP items, elements and patterns. We substantially analyze the effectiveness of EINSP in terms of various theoretical and empirical aspects including complexity, item/pattern coverage, pattern size and diversity, implicit pattern relation strength, and data factors.
翻訳日:2022-04-08 13:33:30 公開日:2022-04-04
# (参考訳) ブロット大佐における強化学習エージェント [全文訳有]

Reinforcement Learning Agents in Colonel Blotto ( http://arxiv.org/abs/2204.02785v1 )

ライセンス: CC BY 4.0
Joseph Christian G. Noel(参考訳) モデルとゲームは世界の簡素な表現である。 モデルにはさまざまな種類があり、すべて複雑さと世界のどの側面で、私たちの理解をさらに深めることができます。 本稿では、強化学習(RL)を用いてエージェントの環境における行動訓練を行うエージェントベースモデルの特定の事例に焦点を当てる。 強化学習エージェントは通常マルコフプロセスでもあり、これは使用可能な別のタイプのモデルである。 この強化学習エージェントをブロットー大佐環境1でテストし、ランダムエージェントに対する性能を相手として測定する。 我々はRLエージェントが1つの対戦相手を手動で打ち負かし、対戦相手の数が増えると依然として非常によく機能することを示した。 また、RLエージェントを解析し、最も高いQ値と低いQ値を与えるアクションを見て、どのような戦略が到達したかを調べる。 興味深いことに、複数の対戦相手をプレイする最適な戦略は、単一の対戦相手をプレイする最適な戦略とほぼ正反対である。

Models and games are simplified representations of the world. There are many different kinds of models, all differing in complexity and which aspect of the world they allow us to further our understanding of. In this paper we focus on a specific instance of agent-based models, which uses reinforcement learning (RL) to train the agent how to act in its environment. Reinforcement learning agents are usually also Markov processes, which is another type of model that can be used. We test this reinforcement learning agent in a Colonel Blotto environment1, and measure its performance against Random agents as its opponent. We find that the RL agent handily beats a single opponent, and still performs quite well when the number of opponents are increased. We also analyze the RL agent and look at what strategies it has arrived by looking at the actions that it has given the highest and lowest Q-values. Interestingly, the optimal strategy for playing multiple opponents is almost the complete opposite of the optimal strategy for playing a single opponent.
翻訳日:2022-04-08 04:27:27 公開日:2022-04-04
# アルツハイマー病の分類に先行する双対型マルチモーダルハイパーグラフ拡散ネットワーク

Multi-Modal Hypergraph Diffusion Network with Dual Prior for Alzheimer Classification ( http://arxiv.org/abs/2204.02399v1 )

ライセンス: Link先を確認
Angelica I. Aviles-Rivero, Christina Runkel, Nicolas Papadakis, Zoe Kourtzi, Carola-Bibiane Sch\"onlieb(参考訳) アルツハイマー病の進行段階の早期診断は、患者の生活の質を改善するための治療に大いに寄与している。 この問題をマルチモーダルな分類タスクとして扱う。 マルチモーダルデータはよりリッチで補完的な情報を提供する。 しかしながら、既存の技術では、データ間の低次関係とシングル/マルチモーダル画像データのみを考慮に入れている。 本稿では,アルツハイマー病診断のための半教師付きハイパーグラフ学習フレームワークを提案する。 本稿では,マルチモーダルイメージングと非画像データ間の高次関係を,小さなラベル付き集合を必要としながら実現する。 まず,データのセマンティクスを保存するロバストなハイパーグラフを構築するための二重埋め込み戦略を提案する。 我々は、コントラストベースのメカニズムを用いて、画像とグラフレベルでの摂動不変性を強制することで、これを実現する。 次に, 予測の不確実性を改善するために, 半指数流を介して動的に調整されたハイパーグラフ拡散モデルを提案する。 我々の実験を通じて,アルツハイマー病診断の現在の手法を上回ることができることを実証した。

The automatic early diagnosis of prodromal stages of Alzheimer's disease is of great relevance for patient treatment to improve quality of life. We address this problem as a multi-modal classification task. Multi-modal data provides richer and complementary information. However, existing techniques only consider either lower order relations between the data and single/multi-modal imaging data. In this work, we introduce a novel semi-supervised hypergraph learning framework for Alzheimer's disease diagnosis. Our framework allows for higher-order relations among multi-modal imaging and non-imaging data whilst requiring a tiny labelled set. Firstly, we introduce a dual embedding strategy for constructing a robust hypergraph that preserves the data semantics. We achieve this by enforcing perturbation invariance at the image and graph levels using a contrastive based mechanism. Secondly, we present a dynamically adjusted hypergraph diffusion model, via a semi-explicit flow, to improve the predictive uncertainty. We demonstrate, through our experiments, that our framework is able to outperform current techniques for Alzheimer's disease diagnosis.
翻訳日:2022-04-07 14:17:22 公開日:2022-04-04
# (参考訳) タンパク質のマルチスケール表現学習 [全文訳有]

Multi-Scale Representation Learning on Proteins ( http://arxiv.org/abs/2204.02337v1 )

ライセンス: CC BY 4.0
Vignesh Ram Somnath, Charlotte Bunne, Andreas Krause(参考訳) タンパク質は細胞機能と疾患において重要な役割を媒介する基本的な生物学的実体である。 本稿では,構造と配列を結合するタンパク質HoloProtのマルチスケールグラフ構築について紹介する。 表面はタンパク質の粗い詳細を捉え、一次成分と構造としての配列は二次成分と第三成分からなる。 グラフエンコーダは、各レベルが下のレベル(s)からそのレベルでのグラフとエンコーディングを統合することで、マルチスケール表現を学習する。 我々は,異なるタスク,すなわちリガンド結合親和性(回帰),および(二)タンパク質機能予測(分類)で学習された表現を検証した。 回帰タスクでは、従来の方法とは対照的に、このモデルは異なるデータセットの分割に対して一貫して確実に動作し、ほとんどの分割ですべてのベースラインを上回っています。 分類タスクでは、10倍少ないパラメータを使用しながら、トップパフォーマンスモデルに近いパフォーマンスを達成する。 構築のメモリ効率を向上させるため、多重化タンパク質表面多様体を分子スーパーピクセルに分割し、これらのスーパーピクセルで表面をほとんど性能損失なく置換する。

Proteins are fundamental biological entities mediating key roles in cellular function and disease. This paper introduces a multi-scale graph construction of a protein -- HoloProt -- connecting surface to structure and sequence. The surface captures coarser details of the protein, while sequence as primary component and structure -- comprising secondary and tertiary components -- capture finer details. Our graph encoder then learns a multi-scale representation by allowing each level to integrate the encoding from level(s) below with the graph at that level. We test the learned representation on different tasks, (i.) ligand binding affinity (regression), and (ii.) protein function prediction (classification). On the regression task, contrary to previous methods, our model performs consistently and reliably across different dataset splits, outperforming all baselines on most splits. On the classification task, it achieves a performance close to the top-performing model while using 10x fewer parameters. To improve the memory efficiency of our construction, we segment the multiplex protein surface manifold into molecular superpixels and substitute the surface with these superpixels at little to no performance loss.
翻訳日:2022-04-07 03:27:00 公開日:2022-04-04
# (参考訳) 医用画像分類のための一般ゼロショット学習 [全文訳有]

Generalized Zero Shot Learning For Medical Image Classification ( http://arxiv.org/abs/2204.01728v1 )

ライセンス: CC0 1.0
Dwarikanath Mahapatra(参考訳) 多くの実世界の医用画像分類設定では、可能なすべての疾患クラスのサンプルにアクセスできないが、ロバストなシステムは、新しい検査データを認識する上で高いパフォーマンスが期待できる。 自己教師付き学習(SSL)を用いた一般化ゼロショット学習(GZSL)手法を提案する。 1)異なる疾患クラスのアンカーベクターを選択すること、及び 2)特徴発生器の訓練。 本手法では, 自然画像では利用できないが, 医用画像では利用できない属性ベクトルは不要である。 SSLは、アンカーベクトルが各クラスの代表であることを保証します。 sslはunseenクラスの合成機能を生成するためにも使われる。 本手法は,より単純なアーキテクチャを用いて,自然画像に対するアートSSLベースのGZSL法の状態と一致し,医用画像に対するすべての手法より優れる。 本手法は,自然画像に対して使用可能なクラス属性ベクターに適応できる。

In many real world medical image classification settings we do not have access to samples of all possible disease classes, while a robust system is expected to give high performance in recognizing novel test data. We propose a generalized zero shot learning (GZSL) method that uses self supervised learning (SSL) for: 1) selecting anchor vectors of different disease classes; and 2) training a feature generator. Our approach does not require class attribute vectors which are available for natural images but not for medical images. SSL ensures that the anchor vectors are representative of each class. SSL is also used to generate synthetic features of unseen classes. Using a simpler architecture, our method matches a state of the art SSL based GZSL method for natural images and outperforms all methods for medical images. Our method is adaptable enough to accommodate class attribute vectors when they are available for natural images.
翻訳日:2022-04-07 03:06:19 公開日:2022-04-04
# (参考訳) Fully-Connected Tensor Network重み付き最適化に基づく高次テンソル補完アルゴリズム [全文訳有]

A high-order tensor completion algorithm based on Fully-Connected Tensor Network weighted optimization ( http://arxiv.org/abs/2204.01732v1 )

ライセンス: CC BY 4.0
Peilin Yang, Yonghui Huang, Yuning Qiu, Weijun Sun, Guoxu Zhou(参考訳) テンソル補完は、欠落したデータを復元することを目的としており、ディープラーニングと信号処理における一般的な関心事の1つである。 高階テンソル分解アルゴリズムのうち、最近提案された完全連結テンソルネットワーク分解(FCTN)アルゴリズムが最も高度である。 本稿では、完全連結テンソルネットワーク(FCTN)分解の優れた表現を利用して、完全連結テンソルネットワーク重み付け最適化(FCTN-WOPT)と呼ばれる新しいテンソル完備化法を提案する。 このアルゴリズムは、FCTN分解から因子を初期化して完成テンソルの構成を行う。 重みテンソル,完成テンソル,不完全テンソルを合わせて損失関数を構築し,lmfgs勾配降下アルゴリズムを用いて完成テンソルを更新することで空間記憶の占有量を削減し,反復を高速化する。 最後に, 合成データと実データ(画像データと映像データの両方)による完成実験を行い, 高次テンソル補完に適用した場合のFCTN-WOPTの高度性能を示す。

Tensor completion aimes at recovering missing data, and it is one of the popular concerns in deep learning and signal processing. Among the higher-order tensor decomposition algorithms, the recently proposed fully-connected tensor network decomposition (FCTN) algorithm is the most advanced. In this paper, by leveraging the superior expression of the fully-connected tensor network (FCTN) decomposition, we propose a new tensor completion method named the fully connected tensor network weighted optization(FCTN-WOPT ). The algorithm performs a composition of the completed tensor by initialising the factors from the FCTN decomposition. We build a loss function with the weight tensor, the completed tensor and the incomplete tensor together, and then update the completed tensor using the lbfgs gradient descent algorithm to reduce the spatial memory occupation and speed up iterations. Finally we test the completion with synthetic data and real data (both image data and video data) and the results show the advanced performance of our FCTN-WOPT when it is applied to higher-order tensor completion.
翻訳日:2022-04-07 01:58:11 公開日:2022-04-04
# (参考訳) 並列化単一光子検出と深層コントラスト埋め込みによるタービッドボリュームによる過渡運動の分類 [全文訳有]

Transient motion classification through turbid volumes via parallelized single-photon detection and deep contrastive embedding ( http://arxiv.org/abs/2204.01733v1 )

ライセンス: CC BY 4.0
Shiqi Xu, Wenhui Liu, Xi Yang, Joakim J\"onsson, Ruobing Qian, Paul McKee, Kanghyun Kim, Pavan Chandra Konda, Kevin C. Zhou, Lucas Krei{\ss}, Haoqian Wang, Edouard Berrocal, Scott Huettel, Roarke Horstmeyer(参考訳) 人間の頭蓋骨の下の脳血流など、空間的に異なる相関イベントの迅速な非侵襲的検出は、様々な科学的、臨床的設定において必須の課題である。 主な光学的手法の1つは拡散相関分光法 (diffuse correlation spectroscopy, DCS) であり、古典的な実装では単一または少数の単光子検出器を用いており、空間局在の精度は低く、時間分解能は比較的低い。 本稿では,並列化単一光子検出(crepe)による高速非相関事象を分類する手法を提案する。332\times32$ pixel spadアレイからの並列化スペックル検出を用いて,タービッドボリュームの下に隠れた異なるデ相関動きを高感度で検出・分類できる新しいdcsの形式である。 動的散乱媒体を用いて, 5mmの組織状ファントムの下に隠れた異なる時空間相関パターンを分類し, セットアップの評価を行った。 12個の多モード繊維を用いて組織ファントムの表面の異なる位置から散乱した光を収集する。 そこで我々は,マルチキロヘルツ速度で変調されたディジタルマイクロミラーデバイス(DMD)と流動流体を含む容器ファントムを用いて,摂動型デコリレーションパターンを生成する。 従来の教師なし学習法に勝る深層コントラスト学習アルゴリズムとともに,データラベリングを必要とせず,タービッド散乱媒質の下の異なる過渡的非相関事象(0.1-0.4s)を正確に検出し分類できることを実証した。 これは、例えば正常または異常な脳血流イベントを、コンパクトで静的な検出プローブ内のマルチヘルツレートで特定するなど、非侵襲的に組織の動きパターンを監視するために応用される可能性がある。

Fast noninvasive probing of spatially varying decorrelating events, such as cerebral blood flow beneath the human skull, is an essential task in various scientific and clinical settings. One of the primary optical techniques used is diffuse correlation spectroscopy (DCS), whose classical implementation uses a single or few single-photon detectors, resulting in poor spatial localization accuracy and relatively low temporal resolution. Here, we propose a technique termed Classifying Rapid decorrelation Events via Parallelized single photon dEtection (CREPE)}, a new form of DCS that can probe and classify different decorrelating movements hidden underneath turbid volume with high sensitivity using parallelized speckle detection from a $32\times32$ pixel SPAD array. We evaluate our setup by classifying different spatiotemporal-decor relating patterns hidden beneath a 5mm tissue-like phantom made with rapidly decorrelating dynamic scattering media. Twelve multi-mode fibers are used to collect scattered light from different positions on the surface of the tissue phantom. To validate our setup, we generate perturbed decorrelation patterns by both a digital micromirror device (DMD) modulated at multi-kilo-hertz rates, as well as a vessel phantom containing flowing fluid. Along with a deep contrastive learning algorithm that outperforms classic unsupervised learning methods, we demonstrate our approach can accurately detect and classify different transient decorrelation events (happening in 0.1-0.4s) underneath turbid scattering media, without any data labeling. This has the potential to be applied to noninvasively monitor deep tissue motion patterns, for example identifying normal or abnormal cerebral blood flow events, at multi-Hertz rates within a compact and static detection probe.
翻訳日:2022-04-07 01:48:18 公開日:2022-04-04
# (参考訳) マルチモーダルヘイトフルミーム検出モデルの説明について [全文訳有]

On Explaining Multimodal Hateful Meme Detection Models ( http://arxiv.org/abs/2204.01734v1 )

ライセンス: CC BY 4.0
Ming Shan Hee, Roy Ka-Wei Lee, Wen-Haw Chong(参考訳) ヘイトフルミーム検出は,学術・産業研究コミュニティで大きな注目を集めている新しいマルチモーダルタスクである。 近年,学習済みの視覚言語モデルを用いてマルチモーダル分類作業を行い,その一部は有望な結果を得た。 しかし、これらの視覚言語モデルが憎悪的なミーム分類タスクに何を学ぶかは、まだ明らかではない。 例えば、これらのモデルが、憎しみのあるミームのマルチモーダル(画像とテキスト)におけるデロゲーションまたはスラー参照をキャプチャできるかどうかは不明である。 本稿では,この研究ギャップを埋めるために,憎悪なミーム分類タスクを実行する視覚言語モデルに対する理解を深めるための3つの研究課題を提案する。 画像モダリティは嫌悪感のあるミーム分類タスクに寄与し,視覚言語モデルでは視覚的テキストスラリー処理をある程度行うことができることがわかった。 誤差分析の結果,視覚言語モデルにバイアスが与えられ,偽陽性の予測が得られた。

Hateful meme detection is a new multimodal task that has gained significant traction in academic and industry research communities. Recently, researchers have applied pre-trained visual-linguistic models to perform the multimodal classification task, and some of these solutions have yielded promising results. However, what these visual-linguistic models learn for the hateful meme classification task remains unclear. For instance, it is unclear if these models are able to capture the derogatory or slurs references in multimodality (i.e., image and text) of the hateful memes. To fill this research gap, this paper propose three research questions to improve our understanding of these visual-linguistic models performing the hateful meme classification task. We found that the image modality contributes more to the hateful meme classification task, and the visual-linguistic models are able to perform visual-text slurs grounding to a certain extent. Our error analysis also shows that the visual-linguistic models have acquired biases, which resulted in false-positive predictions.
翻訳日:2022-04-07 01:31:48 公開日:2022-04-04
# (参考訳) リモートセンシングによる発展途上国の都市化の追跡 [全文訳有]

Tracking Urbanization in Developing Regions with Remote Sensing Spatial-Temporal Super-Resolution ( http://arxiv.org/abs/2204.01736v1 )

ライセンス: CC BY 4.0
Yutong He, William Zhang, Chenlin Meng, Marshall Burke, David B. Lobell, Stefano Ermon(参考訳) 最近の機械学習とリモートセンシングの進歩により、建設情報が利用できない地域の都市開発の自動追跡が可能になった。 残念なことに、これらのソリューションは高解像度画像で最高の性能を発揮するため、取得にコストがかかり、あまり利用できないため、長時間にわたって大規模にスケールするのは困難である。 本研究では,1つの高分解能画像と一般利用可能低分解能画像の時系列を活用し,都市構造における物体追跡のための高精度高分解能時系列を生成するパイプラインを提案する。 提案手法は, 単一画像超解像を用いたベースラインに比べて, 大幅な改善を実現し, 開発途上国における建築追跡のアクセシビリティとスケーラビリティの向上を支援する。

Automated tracking of urban development in areas where construction information is not available became possible with recent advancements in machine learning and remote sensing. Unfortunately, these solutions perform best on high-resolution imagery, which is expensive to acquire and infrequently available, making it difficult to scale over long time spans and across large geographies. In this work, we propose a pipeline that leverages a single high-resolution image and a time series of publicly available low-resolution images to generate accurate high-resolution time series for object tracking in urban construction. Our method achieves significant improvement in comparison to baselines using single image super-resolution, and can assist in extending the accessibility and scalability of building construction tracking across the developing world.
翻訳日:2022-04-07 01:21:59 公開日:2022-04-04
# (参考訳) 医用画像における特徴的ロバスト性と性差 : MRIによるアルツハイマー病の検出を事例として [全文訳有]

Feature robustness and sex differences in medical imaging: a case study in MRI-based Alzheimer's disease detection ( http://arxiv.org/abs/2204.01737v1 )

ライセンス: CC BY 4.0
Eike Petersen and Aasa Feragen and Luise da Costa Zemsch and Anders Henriksen and Oskar Eiler Wiese Christensen and Melanie Ganz(参考訳) 畳み込みニューラルネットワークは、医療画像に基づく疾患分類を大幅に改善した。 しかし、これらのモデルが、スプリアス相関やデータセットシフトによるパフォーマンス低下の影響を受けやすいことがますます明確になってきており、このことが、低表示患者集団の低パフォーマンスにつながる可能性がある。 本稿では,手動で選択したボリューム特徴を入力として利用する非常に単純なロジスティック回帰モデルと,3次元MRIデータに基づいて訓練された畳み込みニューラルネットワークの2つの分類手法を比較する。 様々なデータセット分割, 性別構成の訓練, 疾患の発症段階において, トレーニングモデルのロバスト性を評価する。 胸部X線データに基づいて肺疾患を診断する以前の研究とは対照的に,男女試験対象者のモデル性能がトレーニングデータセットの性構成に大きく依存していることは見つからない。 さらに,手作業で選択した特徴量を持つ低次元モデルは3次元cnnを上回っており,頑健性のために自動ロバスト特徴抽出手法と手作業特徴仕様(事前知識に基づく)の必要性を強調する。

Convolutional neural networks have enabled significant improvements in medical image-based disease classification. It has, however, become increasingly clear that these models are susceptible to performance degradation due to spurious correlations and dataset shifts, which may lead to underperformance on underrepresented patient groups, among other problems. In this paper, we compare two classification schemes on the ADNI MRI dataset: a very simple logistic regression model that uses manually selected volumetric features as inputs, and a convolutional neural network trained on 3D MRI data. We assess the robustness of the trained models in the face of varying dataset splits, training set sex composition, and stage of disease. In contrast to earlier work on diagnosing lung diseases based on chest x-ray data, we do not find a strong dependence of model performance for male and female test subjects on the sex composition of the training dataset. Moreover, in our analysis, the low-dimensional model with manually selected features outperforms the 3D CNN, thus emphasizing the need for automatic robust feature extraction methods and the value of manual feature specification (based on prior knowledge) for robustness.
翻訳日:2022-04-07 01:14:14 公開日:2022-04-04
# (参考訳) SAT を Max2XOR に還元する [全文訳有]

Reducing SAT to Max2XOR ( http://arxiv.org/abs/2204.01774v1 )

ライセンス: CC BY 4.0
Carlos Ans\'otegui, Jordi Levy(参考訳) XOR節(パリティ制約)で問題を表現することで、より効率的な推論技術を適用することができる。 本稿では,SAT 節を Max2XOR 制約,すなわち少なくとも 2 変数の XOR 節を 0 または 1 に翻訳するガジェットを提案する。 さらに,一組の2XOR方程式から満たされる制約の最大数を求めるMax2XOR問題に対する新しい解決規則を提案する。

Representing some problems with XOR clauses (parity constraints) can allow to apply more efficient reasoning techniques. In this paper, we present a gadget for translating SAT clauses into Max2XOR constraints, i.e., XOR clauses of at most 2 variables equal to zero or to one. Additionally, we present new resolution rules for the Max2XOR problem which asks for which is the maximum number of constraints that can be satisfied from a set of 2XOR equations.
翻訳日:2022-04-07 01:03:12 公開日:2022-04-04
# (参考訳) インフィールドナビゲーションに向けて : 模擬データを活用した作物列検出 [全文訳有]

Towards Infield Navigation: leveraging simulated data for crop row detection ( http://arxiv.org/abs/2204.01811v1 )

ライセンス: CC BY 4.0
Rajitha de Silva, Grzegorz Cielniak, Junfeng Gao(参考訳) 作物の列検出のための農業データセットは、しばしば限られた数の画像によって拘束される。 これにより、作物列の検出を含む精密農業タスクのためのディープラーニングベースのモデルの開発が制限される。 シミュレーションによって生成されたデータとともに、小さな実世界のデータセットの利用を提案し、大規模な実世界のデータセットで訓練されたモデルと同様の作物列検出性能を得る。 本手法は,実世界データを用いて学習した深層学習に基づく作物列検出モデルの性能を60%低減する。 モデルは, 影, 日光, 成長ステージなどのフィールド変動に対して良好に機能した。 シミュレーション領域における作物列検出のためのラベル付き画像を生成する自動パイプラインを提案する。 実世界の様々なシナリオにおけるロバストな作物列検出へのシミュレーションデータの寄与を分析するために,詳細な比較を行った。

Agricultural datasets for crop row detection are often bound by their limited number of images. This restricts the researchers from developing deep learning based models for precision agricultural tasks involving crop row detection. We suggest the utilization of small real-world datasets along with additional data generated by simulations to yield similar crop row detection performance as that of a model trained with a large real world dataset. Our method could reach the performance of a deep learning based crop row detection model trained with real-world data by using 60% less labelled real-world data. Our model performed well against field variations such as shadows, sunlight and grow stages. We introduce an automated pipeline to generate labelled images for crop row detection in simulation domain. An extensive comparison is done to analyze the contribution of simulated data towards reaching robust crop row detection in various real-world field scenarios.
翻訳日:2022-04-07 00:37:50 公開日:2022-04-04
# (参考訳) 偽ニュース検出のためのテキスト要約の自動適用 [全文訳有]

Applying Automatic Text Summarization for Fake News Detection ( http://arxiv.org/abs/2204.01841v1 )

ライセンス: CC BY 4.0
Philipp Hartl, Udo Kruschwitz(参考訳) 偽ニュースの配信は新しいものではなく、急速に増加している問題である。 ソーシャルメディアを通じたニュース消費へのシフトは、誤解を招く情報や故意に誤った情報の普及の要因の1つとなっている。 このような偽ニュースが社会に有害な影響を与えるため、これらの発見はますます重要になっている。 本稿では,トランスフォーマーに基づく言語モデルのパワーを両立させながら,それらの問題の1つに対処する手法を提案する。 私たちのフレームワークであるCMTR-BERTは、複数のテキスト表現を組み合わせることで、シーケンシャルな制限と、基盤となるトランスフォーマーアーキテクチャが通常抱える情報の損失を回避することを目的としています。 さらに、コンテキスト情報の導入を可能にする。 2つの非常に異なる公開データセットに関する広範な実験は、我々のアプローチが新しい最先端のパフォーマンスベンチマークを設定できることを示しています。 自動テキスト要約手法の利点は別として,文脈情報の導入が性能向上に寄与することも見出した。

The distribution of fake news is not a new but a rapidly growing problem. The shift to news consumption via social media has been one of the drivers for the spread of misleading and deliberately wrong information, as in addition to it of easy use there is rarely any veracity monitoring. Due to the harmful effects of such fake news on society, the detection of these has become increasingly important. We present an approach to the problem that combines the power of transformer-based language models while simultaneously addressing one of their inherent problems. Our framework, CMTR-BERT, combines multiple text representations, with the goal of circumventing sequential limits and related loss of information the underlying transformer architecture typically suffers from. Additionally, it enables the incorporation of contextual information. Extensive experiments on two very different, publicly available datasets demonstrates that our approach is able to set new state-of-the-art performance benchmarks. Apart from the benefit of using automatic text summarization techniques we also find that the incorporation of contextual information contributes to performance gains.
翻訳日:2022-04-07 00:28:05 公開日:2022-04-04
# (参考訳) グラフ表現学習法に関する調査研究

A Survey on Graph Representation Learning Methods ( http://arxiv.org/abs/2204.01855v1 )

ライセンス: CC0 1.0
Shima Khoshraftar, Aijun An(参考訳) 近年,グラフ表現学習は非常に活発な研究領域となっている。 グラフ表現学習の目標は、大きなグラフの構造と特徴を正確に捉えるグラフ表現ベクトルを生成することである。 グラフ表現ベクトルの品質は、ノード分類、リンク予測、異常検出などの下流タスクにおけるこれらのベクトルの性能に影響を与えるため、これは特に重要である。 有効なグラフ表現ベクトルを生成するための多くの手法が提案されている。 グラフ表現学習で最も普及している2つのカテゴリは、グラフニューラルネット(gnn)を使用しないグラフ埋め込み手法(gnn)と、グラフニューラルネット(gnn)ベースの方法である。 非GNNグラフ埋め込み法は、ランダムウォーク、時間点過程、ニューラルネットワーク学習法などの手法に基づいている。 一方、GNNベースの手法は、グラフデータに対するディープラーニングの応用である。 本稿では,これら2つのカテゴリを概観し,静的グラフと動的グラフの両方の最先端手法について述べる。 最後に、今後の研究に向けたオープンで継続的な研究の方向性を探る。

Graphs representation learning has been a very active research area in recent years. The goal of graph representation learning is to generate graph representation vectors that capture the structure and features of large graphs accurately. This is especially important because the quality of the graph representation vectors will affect the performance of these vectors in downstream tasks such as node classification, link prediction and anomaly detection. Many techniques are proposed for generating effective graph representation vectors. Two of the most prevalent categories of graph representation learning are graph embedding methods without using graph neural nets (GNN), which we denote as non-GNN based graph embedding methods, and graph neural nets (GNN) based methods. Non-GNN graph embedding methods are based on techniques such as random walks, temporal point processes and neural network learning methods. GNN-based methods, on the other hand, are the application of deep learning on graph data. In this survey, we provide an overview of these two categories and cover the current state-of-the-art methods for both static and dynamic graphs. Finally, we explore some open and ongoing research directions for future work.
翻訳日:2022-04-07 00:07:33 公開日:2022-04-04
# (参考訳) プライベートエクイティにおける投資機会を特定するためのデータ駆動フレームワーク [全文訳有]

A Data-Driven Framework for Identifying Investment Opportunities in Private Equity ( http://arxiv.org/abs/2204.01852v1 )

ライセンス: CC BY 4.0
Samantha Petersone, Alwin Tan, Richard Allmendinger, Sujit Roy, James Hales(参考訳) PE(Private Equity)企業の中核となる活動は、通常4-7年以内に投資家に利益を提供するために企業に投資することである。 企業に投資するかどうかは、通常、企業のさまざまなパフォーマンス指標を見て、直感に基づいて意思決定を行うことによって手作業で行われる。 このプロセスは、多くの企業が投資する可能性があるため、かなり管理できない。 さらに、企業業績指標に関するデータが増え、増加を考慮すべきさまざまな指標の数が増えると、手作業によるクロールや投資機会の評価が非効率になり、最終的には不可能になる。 これらの課題に対処するため,本稿では,投資機会の自動スクリーニングのためのフレームワークを提案する。 このフレームワークは、企業の財務的および管理的位置を評価するために複数のソースからのデータに基づいており、その後、説明可能な人工知能(XAI)エンジンを使用して投資推奨を提案する。 モデルの堅牢性は、異なるAIアルゴリズム、クラス不均衡処理方法、利用可能なデータソースから抽出された特徴を用いて検証される。

The core activity of a Private Equity (PE) firm is to invest into companies in order to provide the investors with profit, usually within 4-7 years. To invest into a company or not is typically done manually by looking at various performance indicators of the company and then making a decision often based on instinct. This process is rather unmanageable given the large number of companies to potentially invest. Moreover, as more data about company performance indicators becomes available and the number of different indicators one may want to consider increases, manual crawling and assessment of investment opportunities becomes inefficient and ultimately impossible. To address these issues, this paper proposes a framework for automated data-driven screening of investment opportunities and thus the recommendation of businesses to invest in. The framework draws on data from several sources to assess the financial and managerial position of a company, and then uses an explainable artificial intelligence (XAI) engine to suggest investment recommendations. The robustness of the model is validated using different AI algorithms, class imbalance-handling methods, and features extracted from the available data sources.
翻訳日:2022-04-07 00:06:34 公開日:2022-04-04
# (参考訳) 位置データ処理における公平性モデルとメカニズム [全文訳有]

Models and Mechanisms for Fairness in Location Data Processing ( http://arxiv.org/abs/2204.01880v1 )

ライセンス: CC BY 4.0
Sina Shaham, Gabriel Ghinita, Cyrus Shahabi(参考訳) 位置情報の利用は、モバイルアプリの登場や、スマートヘルスやスマートシティといった新しい分野によって、過去10年間で広く普及しています。 同時に、データ処理の公平性に関して重要な懸念が浮かび上がっている。 特定の人口区分の個人は、ローンや求職、公共資源へのアクセス、その他の種類のサービスに対して不公平に扱われることがある。 場所データの場合、公正性は重要な関心事であり、例えば、人種、収入、教育など、個人の居場所は、しばしばセンシティブな属性と相関している。 機械学習の場合のように、近年フェアネスは大きな注目を集めているが、ロケーションデータを扱うフェアネスを達成するという課題にはほとんど焦点が当てられていない。 その特徴と特定の種類の処理アルゴリズムにより、位置データは包括的かつ効果的な方法で対処されなければならない重要な公平性の問題をもたらす。 本稿では,既存のフェアネスモデルを位置データと空間処理の特定の特性に適合させる。 我々は、より達成が難しく、ほとんどの位置データ処理シナリオに関連性が高い個別の公平性に焦点を当てる。 まず、フェア多項式の形で公平性を達成するために、新しいビルディングブロックを考案する。 そこで本研究では,位置データに基づく2つの共通相互作用タイプに対応する,公正な多項式に基づく2つのメカニズムを提案する。 実データを用いた広範囲な実験結果から,提案手法が有用性を犠牲にすることなく,個別の位置公平性を実現することが示された。

Location data use has become pervasive in the last decade due to the advent of mobile apps, as well as novel areas such as smart health, smart cities, etc. At the same time, significant concerns have surfaced with respect to fairness in data processing. Individuals from certain population segments may be unfairly treated when being considered for loan or job applications, access to public resources, or other types of services. In the case of location data, fairness is an important concern, given that an individual's whereabouts are often correlated with sensitive attributes, e.g., race, income, education. While fairness has received significant attention recently, e.g., in the case of machine learning, there is little focus on the challenges of achieving fairness when dealing with location data. Due to their characteristics and specific type of processing algorithms, location data pose important fairness challenges that must be addressed in a comprehensive and effective manner. In this paper, we adapt existing fairness models to suit the specific properties of location data and spatial processing. We focus on individual fairness, which is more difficult to achieve, and more relevant for most location data processing scenarios. First, we devise a novel building block to achieve fairness in the form of fair polynomials. Then, we propose two mechanisms based on fair polynomials that achieve individual fairness, corresponding to two common interaction types based on location data. Extensive experimental results on real data show that the proposed mechanisms achieve individual location fairness without sacrificing utility.
翻訳日:2022-04-06 23:43:36 公開日:2022-04-04
# (参考訳) MonoTrack:モノクラーバドミントンビデオによるシャトル軌道の再構築 [全文訳有]

MonoTrack: Shuttle trajectory reconstruction from monocular badminton video ( http://arxiv.org/abs/2204.01899v1 )

ライセンス: CC BY 4.0
Paul Liu and Jui-Hsien Wang(参考訳) 軌道推定はラケットスポーツ分析の基本的な要素であり、軌道には各点の勝利と負けに関する情報だけでなく、勝敗に関する情報も含まれている。 バドミントンのようなスポーツでは、シャトルコックやボールの高さが貴重な戦術情報を提供するため、プレイヤーは完全な3d軌道を知る利点がある。 残念なことに、3D再構成は難しい問題であり、標準軌跡推定器は2Dピクセル座標しか追跡できない。 本研究では,モノクロバドミントンビデオから3次元シャトル軌道の抽出とセグメンテーションを行うためのエンド・ツー・エンドシステムを提案する。 本システムは, コート次元, ショット配置, 動きの物理法則などのバドミントン領域の知識と, プレイヤーのポーズやシャトル追跡などの視覚的特徴を統合する。 システム全体を堅牢にするために、そして我々の作業の副産物として、裁判所の認識における最先端の結果の改善、2次元の軌道推定、ヒット認識のために、重要なエンジニアリング努力とモデルの改善が必要であることが分かりました。

Trajectory estimation is a fundamental component of racket sport analytics, as the trajectory contains information not only about the winning and losing of each point, but also how it was won or lost. In sports such as badminton, players benefit from knowing the full 3D trajectory, as the height of shuttlecock or ball provides valuable tactical information. Unfortunately, 3D reconstruction is a notoriously hard problem, and standard trajectory estimators can only track 2D pixel coordinates. In this work, we present the first complete end-to-end system for the extraction and segmentation of 3D shuttle trajectories from monocular badminton videos. Our system integrates badminton domain knowledge such as court dimension, shot placement, physical laws of motion, along with vision-based features such as player poses and shuttle tracking. We find that significant engineering efforts and model improvements are needed to make the overall system robust, and as a by-product of our work, improve state-of-the-art results on court recognition, 2D trajectory estimation, and hit recognition.
翻訳日:2022-04-06 23:26:17 公開日:2022-04-04
# 小児の顔認識 : 縦断的研究

Face Recognition In Children: A Longitudinal Study ( http://arxiv.org/abs/2204.01760v1 )

ライセンス: Link先を確認
Keivan Bahmani, Stephanie Schuckers(参考訳) 高い忠実性と公に入手可能な縦型児童顔データセットの欠如は、子供向け顔認識システムの開発において主要な制限要因の1つである。 本研究では, 幼児の短年齢群における顔認識システムの性能を解析するためのヤングフェイス・エイジング(YFA)データセットを提案する。 本研究は,YFAと公的に利用可能な複数の成人データセットを比較し,成人と小児の短年齢ギャップの効果を定量化する。 分析の結果,ArcFace-Focal,MagFa ce,Facenetのマッチングスコアと,小児のギャラリー画像とプローブ画像の年齢ギャップとの間には,6ヶ月の短い年齢ギャップにおいても,統計的に有意かつ無関係な崩壊が認められた。 しかし,先行研究で報告された検証性能の低下は,マッチング器のクラス内構造とサンプルの品質の低下によるものと考えられた。 以上の結果から,YFAおよびMagFaceを用いた顔認証実験では,6歳以上と36歳以上で98.3%,94.9%のTARが0.1%FARであり,最大3歳以上では顔認識が可能であることが示唆された。

The lack of high fidelity and publicly available longitudinal children face datasets is one of the main limiting factors in the development of face recognition systems for children. In this work, we introduce the Young Face Aging (YFA) dataset for analyzing the performance of face recognition systems over short age-gaps in children. We expand previous work by comparing YFA with several publicly available cross-age adult datasets to quantify the effects of short age-gap in adults and children. Our analysis confirms a statistically significant and matcher independent decaying relationship between the match scores of ArcFace-Focal, MagFace, and Facenet matchers and the age-gap between the gallery and probe images in children, even at the short age-gap of 6 months. However, our result indicates that the low verification performance reported in previous work might be due to the intra-class structure of the matcher and the lower quality of the samples. Our experiment using YFA and a state-of-the-art, quality-aware face matcher (MagFace) indicates 98.3% and 94.9% TAR at 0.1% FAR over 6 and 36 Months age-gaps, respectively, suggesting that face recognition may be feasible for children for age-gaps of up to three years.
翻訳日:2022-04-06 15:03:14 公開日:2022-04-04
# 前向き信号伝搬学習

Forward Signal Propagation Learning ( http://arxiv.org/abs/2204.01723v1 )

ライセンス: Link先を確認
Adam Kohan, Edward A. Rietman, Hava T. Siegelmann(参考訳) バックプロパゲーションの代替として,学習信号を伝達し,フォワードパスを介してニューラルネットワークパラメータを更新する新しい学習アルゴリズムを提案する。 forward signal propagation learning (sigprop) では、学習と推論のための前方経路しか存在せず、フィードバック接続や重み輸送、バックプロパゲーション下で存在する後方通過といった学習に関する構造的あるいは計算的な制約は存在しない。 Sigpropは、フォワードパスだけでグローバルな教師あり学習を可能にする。 これは、レイヤやモジュールの並列トレーニングに理想的です。 生物学では、フィードバック接続のないニューロンがグローバル学習信号を受信する方法を説明する。 ハードウェアでは、後方接続のないグローバル教師あり学習のアプローチを提供する。 Sigprop by Designは、バックプロパゲーションや学習制約緩和のための代替アプローチよりも、脳やハードウェアでの学習モデルとの互換性が優れている。 また、シグプロップは時間やメモリよりも効率的であることを示す。 sigpropの挙動をさらに説明するために,sigpropがバックプロパゲーションの文脈において有用な学習信号を提供することを示す。 生物とハードウェアの学習の関連性をさらに高めるため,我々はsigpropを用いて,ヒュービアン更新を用いた連続時間ニューラルネットワークのトレーニングと,関数をサロゲートすることなくスパイクニューラルネットワークのトレーニングを行う。

We propose a new learning algorithm for propagating a learning signal and updating neural network parameters via a forward pass, as an alternative to backpropagation. In forward signal propagation learning (sigprop), there is only the forward path for learning and inference, so there are no additional structural or computational constraints on learning, such as feedback connectivity, weight transport, or a backward pass, which exist under backpropagation. Sigprop enables global supervised learning with only a forward path. This is ideal for parallel training of layers or modules. In biology, this explains how neurons without feedback connections can still receive a global learning signal. In hardware, this provides an approach for global supervised learning without backward connectivity. Sigprop by design has better compatibility with models of learning in the brain and in hardware than backpropagation and alternative approaches to relaxing learning constraints. We also demonstrate that sigprop is more efficient in time and memory than they are. To further explain the behavior of sigprop, we provide evidence that sigprop provides useful learning signals in context to backpropagation. To further support relevance to biological and hardware learning, we use sigprop to train continuous time neural networks with Hebbian updates and train spiking neural networks without surrogate functions.
翻訳日:2022-04-06 15:02:06 公開日:2022-04-04
# マルチタスクと逆学習によるロバスト・スタッタ検出

Robust Stuttering Detection via Multi-task and Adversarial Learning ( http://arxiv.org/abs/2204.01735v1 )

ライセンス: Link先を確認
Shakeel Ahmad Sheikh, Md Sahidullah, Fabrice Hirsch, Slim Ouni(参考訳) スタブリングの自動検出と識別により、音声病理学者は、スタブリング(PWS)の進行を追跡できる。 本稿では,マルチタスク (MTL) と対向学習 (ADV) が頑健なスタッター特徴の学習に与える影響について検討する。 MTLとADVがスタブリング同定(SI)に用いられている最初の予備研究である。 385のポッドキャストから20時間(約20時間)のデータからなるsep-28kスッタリングデータセット上でシステムを評価する。 提案手法は有望な結果を示し,様々な不流動クラスでベースラインを上回っている。 ベースライン上での反復,ブロック,インタージェクションのそれぞれ10%,6.78%,2%の改善を達成しました。

By automatic detection and identification of stuttering, speech pathologists can track the progression of disfluencies of persons who stutter (PWS). In this paper, we investigate the impact of multi-task (MTL) and adversarial learning (ADV) to learn robust stutter features. This is the first-ever preliminary study where MTL and ADV have been employed in stuttering identification (SI). We evaluate our system on the SEP-28k stuttering dataset consisting of 20 hours (approx) of data from 385 podcasts. Our methods show promising results and outperform the baseline in various disfluency classes. We achieve up to 10%, 6.78%, and 2% improvement in repetitions, blocks, and interjections respectively over the baseline.
翻訳日:2022-04-06 15:01:44 公開日:2022-04-04
# 生涯の自己適応 - 生涯の機械学習

Lifelong Self-Adaptation: Self-Adaptation Meets Lifelong Machine Learning ( http://arxiv.org/abs/2204.01834v1 )

ライセンス: Link先を確認
Omid Gheibi, Danny Weyns(参考訳) 過去数年間、機械学習(ML)は自己適応をサポートする一般的なアプローチとなっている。 ML技術は、スケーラブルな意思決定など、自己適応におけるいくつかの問題への対処を可能にするが、それらもまた固有の課題である。 本稿では、自己適応において特に重要な課題の一つに焦点をあてる:ML技術は、運用ドメインに関連する一連の事前定義されたタスクに対処するように設計されており、学習に使用される入力データの概念シフトのような新しいタスクに対処する問題がある。 この課題に対処するために,一生のML層を用いたML技術を用いた自己適応システムを強化する,新たな自己適応手法である‘textit{lifelong self-adaptation’を提案する。 生涯にわたるMLレイヤは、実行システムとその環境を追跡し、この知識を現在のタスクと関連付け、微分に基づいて新しいタスクを特定し、それに従って自己適応システムの学習モデルを更新する。 本稿では、生涯にわたる自己適応のための再利用可能なアーキテクチャを提案し、自己適応における意思決定に使用される学習モデルの入力データの予期せぬ変化に起因する概念ドリフトのケースに適用する。 2種類の概念ドリフトに対する生涯自己適応を2例を用いて検証した。

In the past years, machine learning (ML) has become a popular approach to support self-adaptation. While ML techniques enable dealing with several problems in self-adaptation, such as scalable decision-making, they are also subject to inherent challenges. In this paper, we focus on one such challenge that is particularly important for self-adaptation: ML techniques are designed to deal with a set of predefined tasks associated with an operational domain; they have problems to deal with new emerging tasks, such as concept shift in input data that is used for learning. To tackle this challenge, we present \textit{lifelong self-adaptation}: a novel approach to self-adaptation that enhances self-adaptive systems that use ML techniques with a lifelong ML layer. The lifelong ML layer tracks the running system and its environment, associates this knowledge with the current tasks, identifies new tasks based on differentiations, and updates the learning models of the self-adaptive system accordingly. We present a reusable architecture for lifelong self-adaptation and apply it to the case of concept drift caused by unforeseen changes of the input data of a learning model that is used for decision-making in self-adaptation. We validate lifelong self-adaptation for two types of concept drift using two cases.
翻訳日:2022-04-06 15:01:33 公開日:2022-04-04
# 6自由度音響表現のための2重四元アンビソニックアレー

Dual Quaternion Ambisonics Array for Six-Degree-of-Freedo m Acoustic Representation ( http://arxiv.org/abs/2204.01851v1 )

ライセンス: Link先を確認
Eleonora Grassucci, Gioia Mancini, Christian Brignone, Aurelio Uncini, Danilo Comminiello(参考訳) 没入型オーディオ体験の普及や仮想現実や拡張現実などの応用により,空間オーディオ手法への関心が高まっている。 これらの目的のために、3dオーディオ信号はしばしば、球面高調波で音場を分解する4つのカプセルからなるアンビソニックマイクロホンの配列を介して取得される。 本稿では,2つの第1次アビソニックス(foa)マイクロホンの配列によって得られた空間音場の双四元表現を提案する。 音声信号は、四元数代数特性を利用して相関を利用する二重四元数にカプセル化される。 6自由度(6dof)のこの拡張された表現は、音場をより正確にカバーし、より正確な音像定位とより没入的なオーディオ体験をもたらす。 提案手法はseld(sound event localization and detection)ベンチマークを用いて評価する。 時間的畳み込みブロック(DualQSELD-TCN)を用いた2重四元数SELDモデルでは,音場表現の強化により,実および四元数値のベースラインに対してより良い結果が得られることを示す。 完全なコードは、https://github.com/i spamm/DualQSELD-TCN. comで入手できる。

Spatial audio methods are gaining a growing interest due to the spread of immersive audio experiences and applications, such as virtual and augmented reality. For these purposes, 3D audio signals are often acquired through arrays of Ambisonics microphones, each comprising four capsules that decompose the sound field in spherical harmonics. In this paper, we propose a dual quaternion representation of the spatial sound field acquired through an array of two First Order Ambisonics (FOA) microphones. The audio signals are encapsulated in a dual quaternion that leverages quaternion algebra properties to exploit correlations among them. This augmented representation with 6 degrees of freedom (6DOF) involves a more accurate coverage of the sound field, resulting in a more precise sound localization and a more immersive audio experience. We evaluate our approach on a sound event localization and detection (SELD) benchmark. We show that our dual quaternion SELD model with temporal convolution blocks (DualQSELD-TCN) achieves better results with respect to real and quaternion-valued baselines thanks to our augmented representation of the sound field. Full code is available at: https://github.com/i spamm/DualQSELD-TCN.
翻訳日:2022-04-06 15:01:13 公開日:2022-04-04
# 高次元不確かさに対するテスト:深度重要度サンプリングによる自動運転車の高速化評価

Test Against High-Dimensional Uncertainties: Accelerated Evaluation of Autonomous Vehicles with Deep Importance Sampling ( http://arxiv.org/abs/2204.02351v1 )

ライセンス: Link先を確認
Mansur Arief, Zhepeng Cen, Zhenyuan Liu, Zhiyuang Huang, Henry Lam, Bo Li, Ding Zhao(参考訳) 自律走行車(av)とその複雑なサブシステムの性能を自然環境下で高精度に評価することは、特に障害や危険な場合において、課題である。 rarityは,信頼性の高い推定を実現するために,膨大なサンプルサイズを必要とするだけでなく,真の障害率の危険な過小評価を引き起こし,検出が極めて困難である。 一方、正確性保証を備えた最先端のアプローチでは、特定の条件下での障害率の上限を計算するだけで、実用性を制限することができる。 本研究では,深層ニューラルネットワークを用いた深層重み付きサンプリング(deep is)フレームワークを提案する。これは最先端のisと同等の効率で,必要なサンプルサイズを平均サンプリング法より43倍小さくし,10%の相対誤差を達成し,より保守性の低い推定値を生成することができる。 我々は,最先端の交通標識分類器の誤分類率を推定する高次元実験により,目標が極めて小さい場合でもその効率は依然として持続し,600倍以上の効率向上を達成していることを明らかにした。 これはディープISが高次元の不確実性に対してさえ正確な見積もりを提供する可能性を強調している。

Evaluating the performance of autonomous vehicles (AV) and their complex subsystems to high precision under naturalistic circumstances remains a challenge, especially when failure or dangerous cases are rare. Rarity does not only require an enormous sample size for a naive method to achieve high confidence estimation, but it also causes dangerous underestimation of the true failure rate and it is extremely hard to detect. Meanwhile, the state-of-the-art approach that comes with a correctness guarantee can only compute an upper bound for the failure rate under certain conditions, which could limit its practical uses. In this work, we present Deep Importance Sampling (Deep IS) framework that utilizes a deep neural network to obtain an efficient IS that is on par with the state-of-the-art, capable of reducing the required sample size 43 times smaller than the naive sampling method to achieve 10% relative error and while producing an estimate that is much less conservative. Our high-dimensional experiment estimating the misclassification rate of one of the state-of-the-art traffic sign classifiers further reveals that this efficiency still holds true even when the target is very small, achieving over 600 times efficiency boost. This highlights the potential of Deep IS in providing a precise estimate even against high-dimensional uncertainties.
翻訳日:2022-04-06 14:58:40 公開日:2022-04-04
# グラントフリーランダムアクセスのためのガンベースジョイントアクティビティ検出とチャネル推定

Gan-Based Joint Activity Detection and Channel Estimation For Grant-free Random Access ( http://arxiv.org/abs/2204.01731v1 )

ライセンス: Link先を確認
Shuang Liang, Yinan Zou, and Yong Zhou(参考訳) 許可のないランダムアクセスのための共同アクティビティ検出とチャネル推定(JADCE)は、IoTネットワークにおける大規模な接続をサポートするために対処する必要がある重要な問題である。 しかし,既存のモデルフリー学習手法は,活動検出とチャネル推定の両方しか達成できない。 本稿では,JADCE問題に対処するGAN(Generative Adversarial Network)に基づく新しいモデル自由学習手法を提案する。 我々は、標準的なGANアーキテクチャではなく、U-netアーキテクチャを用いてジェネレータを構築し、そのジェネレータへの入力として、アクティビティ情報を含む事前推定値を採用する。 擬似逆の特性を利用してアフィン射影とスキップ接続を用いて生成器を洗練し、生成器の出力が測定と一致していることを保証する。 さらに,2層完全接続ニューラルネットワークを構築し,受話器ノイズの影響を低減するパイロットマトリックスの設計を行った。 シミュレーションの結果,提案手法は,データ整合性予測とパイロット行列最適化の両方が学習能力を向上させるため,高SNR方式の既存手法よりも優れていることがわかった。

Joint activity detection and channel estimation (JADCE) for grant-free random access is a critical issue that needs to be addressed to support massive connectivity in IoT networks. However, the existing model-free learning method can only achieve either activity detection or channel estimation, but not both. In this paper, we propose a novel model-free learning method based on generative adversarial network (GAN) to tackle the JADCE problem. We adopt the U-net architecture to build the generator rather than the standard GAN architecture, where a pre-estimated value that contains the activity information is adopted as input to the generator. By leveraging the properties of the pseudoinverse, the generator is refined by using an affine projection and a skip connection to ensure the output of the generator is consistent with the measurement. Moreover, we build a two-layer fully-connected neural network to design pilot matrix for reducing the impact of receiver noise. Simulation results show that the proposed method outperforms the existing methods in high SNR regimes, as both data consistency projection and pilot matrix optimization improve the learning ability.
翻訳日:2022-04-06 14:44:44 公開日:2022-04-04
# 3Dプリントメカニカルメタマテリアルの希少合理的設計のための深層学習

Deep learning for the rare-event rational design of 3D printed multi-material mechanical metamaterials ( http://arxiv.org/abs/2204.01769v1 )

ライセンス: Link先を確認
H. Pahlavani, M. Amani, M. Cruz Sald\'ivar, J. Zhoua, M. J. Mirzaali, A. A. Zadpoor(参考訳) マルチマテリアル3Dプリンティング技術は、複雑なジオメトリだけでなく、それらのジオメトリ内の複数のマテリアルの任意の分布を持つメタマテリアルの合理的設計の道を開いた。 複数の材料の空間分布の変化は、異方性弾性特性の興味深い、潜在的に独特な組み合わせをもたらす。 弾性特性の可能な組み合わせの大部分をカバーする設計手法が利用可能であることは、それ自体が興味深いが、非常に稀な材料特性(二重運動性や高弾性変調など)の組み合わせにつながる設計を見つけることがより重要である。 そこで本研究では,規則格子内の硬相と軟相のランダム分布を用いて,ネットワーク全体の異方性力学特性と,特に上述した稀な設計について検討した。 主要な課題は、膨大な数の設計パラメータと、そのような設計の極めて希少性に関するものである。 そこで我々は,設計パラメータの空間から機械的特性の空間へのマッピングを作成するために,計算モデルとディープラーニングアルゴリズムを用いた。 一 各指定書の評価に要する計算時間を短縮すること (ii)異なる意匠を評価する工程を高度に並列化すること。 さらに,ポリジェット多材料3Dプリンティング技術を用いて製造する10種類のデザインを選択し,その特性をデジタル画像相関 (DIC, 3デザイン) を用いて評価し,計算モデルの精度を検証した。 その結果,深層学習に基づくアルゴリズムは,実験で観測された変形機構と一致する異なる設計の力学特性を正確に予測できることがわかった。

Emerging multi-material 3D printing techniques have paved the way for the rational design of metamaterials with not only complex geometries but also arbitrary distributions of multiple materials within those geometries. Varying the spatial distribution of multiple materials gives rise to many interesting and potentially unique combinations of anisotropic elastic properties. While the availability of a design approach to cover a large portion of all possible combinations of elastic properties is interesting in itself, it is even more important to find the extremely rare designs that lead to highly unusual combinations of material properties (e.g., double-auxeticity and high elastic moduli). Here, we used a random distribution of a hard phase and a soft phase within a regular lattice to study the resulting anisotropic mechanical properties of the network in general and the abovementioned rare designs in particular. The primary challenge to take up concerns the huge number of design parameters and the extreme rarity of such designs. We, therefore, used computational models and deep learning algorithms to create a mapping from the space of design parameters to the space of mechanical properties, thereby (i) reducing the computational time required for evaluating each designand (ii) making the process of evaluating the different designs highly parallelizable. Furthermore, we selected ten designs to be fabricated using polyjet multi-material 3D printing techniques, mechanically tested them, and characterized their behavior using digital image correlation (DIC, 3 designs) to validate the accuracy of our computational models. The results of our simulations show that deep learning-based algorithms can accurately predict the mechanical properties of the different designs, which match the various deformation mechanisms observed in the experiments.
翻訳日:2022-04-06 14:44:25 公開日:2022-04-04
# 高速johnson-lindenstraus s変換はさらに高速

The Fast Johnson-Lindenstraus s Transform is Even Faster ( http://arxiv.org/abs/2204.01800v1 )

ライセンス: Link先を確認
Ora Nova Fandina, Mikael M{\o}ller H{\o}gsgaard, Kasper Green Larsen(参考訳) Ailon and Chazelle (SICOMP'09) による半素のFast Johnson-Lindenstraus s (Fast JL) 変換は、$d$-次元ユークリッド空間に$n$点の集合を最適$k=O(\varepsilon^{-2} \ln n)$次元に埋め込むとともに、すべての対距離を$(1 \pm \varepsilon)$の範囲内で保存する。 高速JL変換は、$O(d \ln d +k \ln^2 n)$ timeにおけるデータポイントの埋め込みの計算をサポートし、$d \ln d$ termは$d \times d$ Hadamard matrixによる乗法から、$k \ln^2 n$ termはスパース$k \times d$ matrixによる乗法に由来する。 高速JL変換は10年以上前からあるが、これは、$\varepsilon, d$ と$n$の間の多くのトレードオフにおいて、最も高速な次元削減手法の1つである。 本研究では, jl 変換の高速化に関する驚くべき解析を行い, 埋め込み時間の $k \ln^2 n$ 項を $(k \ln^2 n)/\alpha$ for a $\alpha = \omega(\min\{\varepsilon^{-1}\ln(1/\varepsilon), \ln n\})$ に改善できることを示した。 この改善は偶数スパルサー行列を用いることで従う。 また,改良した解析を下位のバウンダリで補完し,新しい解析が実際に密接であることを示す。

The seminal Fast Johnson-Lindenstraus s (Fast JL) transform by Ailon and Chazelle (SICOMP'09) embeds a set of $n$ points in $d$-dimensional Euclidean space into optimal $k=O(\varepsilon^{-2} \ln n)$ dimensions, while preserving all pairwise distances to within a factor $(1 \pm \varepsilon)$. The Fast JL transform supports computing the embedding of a data point in $O(d \ln d +k \ln^2 n)$ time, where the $d \ln d$ term comes from multiplication with a $d \times d$ Hadamard matrix and the $k \ln^2 n$ term comes from multiplication with a sparse $k \times d$ matrix. Despite the Fast JL transform being more than a decade old, it is one of the fastest dimensionality reduction techniques for many tradeoffs between $\varepsilon, d$ and $n$. In this work, we give a surprising new analysis of the Fast JL transform, showing that the $k \ln^2 n$ term in the embedding time can be improved to $(k \ln^2 n)/\alpha$ for an $\alpha = \Omega(\min\{\varepsilon^{-1}\ln(1/\varepsilon), \ln n\})$. The improvement follows by using an even sparser matrix. We also complement our improved analysis with a lower bound showing that our new analysis is in fact tight.
翻訳日:2022-04-06 14:43:58 公開日:2022-04-04
# Recommender システムにおける一貫したテンソル補完

A Unit-Consistent Tensor Completion with Applications in Recommender Systems ( http://arxiv.org/abs/2204.01815v1 )

ライセンス: Link先を確認
Tung Nguyen and Jeffrey Uhlmann(参考訳) 本稿では,非負正行列とテンソル補完問題を定義し解くための新しい一貫性に基づく手法を提案する。 フレームワークの新規性は、問題をアプリケーション・任意最適化問題という形で、人工的に適切に配置する代わりにいる。 例えば ランクやノルムなどのバルク構造尺度を最小化することで、単一プロパティ/制約 – 単位スケールの一貫性を保つ – が、ソリューションの存在と比較的弱いサポート仮定、一意性の両方を保証することを示す。 フレームワークと解アルゴリズムは任意の次元のテンソルに直接一般化し、固定次元に対して問題サイズで線形な計算複雑性を維持している。 d.レコメンデータ・システム(RS)アプリケーションのコンテキストにおいて,RS問題に対する解決を期待すべき2つの妥当な特性が,我々のフレームワーク内で一意性を保証するのに十分であることを示す。 これは、問題の中心にある明らかに人間/主観的変数であるにもかかわらず、ヒューリスティックな統計的あるいはAI手法の必要性を排除しているため、注目すべきである。 主要な理論的貢献には、その性質の証明を含む一般的な単位整合テンソル補完フレームワークが含まれる。 例えば 行列/テンソルの既知の項の数で線形である前処理複雑性を伴うo(1)項補完。

In this paper we introduce a new consistency-based approach for defining and solving nonnegative/positive matrix and tensor completion problems. The novelty of the framework is that instead of artificially making the problem well-posed in the form of an application-arbitrar y optimization problem, e.g., minimizing a bulk structural measure such as rank or norm, we show that a single property/constraint - preserving unit-scale consistency - guarantees both existence of a solution and, under relatively weak support assumptions, uniqueness. The framework and solution algorithms also generalize directly to tensors of arbitrary dimension while maintaining computational complexity that is linear in problem size for fixed dimension d. In the context of recommender system (RS) applications, we prove that two reasonable properties that should be expected to hold for any solution to the RS problem are sufficient to permit uniqueness guarantees to be established within our framework. This is remarkable because it obviates the need for heuristic-based statistical or AI methods despite what appear to be distinctly human/subjective variables at the heart of the problem. Key theoretical contributions include a general unit-consistent tensor-completion framework with proofs of its properties, including algorithms with optimal runtime complexity, e.g., O(1) term-completion with preprocessing complexity that is linear in the number of known terms of the matrix/tensor.
翻訳日:2022-04-06 14:43:12 公開日:2022-04-04
# フーリエ対向ネットワークを用いた動的照明条件におけるロバスト知覚のための軽量HDRカメラISP

Lightweight HDR Camera ISP for Robust Perception in Dynamic Illumination Conditions via Fourier Adversarial Networks ( http://arxiv.org/abs/2204.01795v1 )

ライセンス: Link先を確認
Pranjay Shyam, Sandeep Singh Sengar, Kuk-Jin Yoon and Kyung-Soo Kim(参考訳) 商用コンパクトカメラセンサのダイナミックレンジの制限により、照明条件の異なるシーンの不正確な表現が行われ、画質に悪影響を及ぼし、その後、基盤となる画像処理アルゴリズムの性能が制限される。 現在の最先端(SoTA)畳み込みニューラルネットワーク(CNN)は、未公開画像の独立に復元するための後処理技術として開発されている。 しかし、グラア、ハイビーム、カラーブラッシングなどの実世界の劣化を含む画像に適用すると、これらのアルゴリズムは劣化を増幅し、さらに画質を低下させる。 本稿では,これらの制約を克服するために,周波数先行値を用いた照明とノイズ除去の逐次バランスをとる軽量な2段階画像強調アルゴリズムを提案する。 さらに,画像の周波数特性と空間領域特性の関係を活かし,異なる照明条件下で一貫した画像エンハンスメントを実現するためのフーリエスペクトルに基づくadversarial framework(afnet)を提案する。 現在の画像強調の定式化は後処理技術として想定されているが,RAWセンサデータと軽量CNNアーキテクチャを利用して,カメラセンサに画像信号処理(ISP)パイプラインの機能を統合するために,そのようなアルゴリズムを拡張できるかどうかを検討する。 また,定量的および定性的な評価に基づいて,物体検出やセマンティックセグメンテーションなど,様々な照明条件下での認識課題に対する画像強調技術の実用性と効果についても検討した。

The limited dynamic range of commercial compact camera sensors results in an inaccurate representation of scenes with varying illumination conditions, adversely affecting image quality and subsequently limiting the performance of underlying image processing algorithms. Current state-of-the-art (SoTA) convolutional neural networks (CNN) are developed as post-processing techniques to independently recover under-/over-exposed images. However, when applied to images containing real-world degradations such as glare, high-beam, color bleeding with varying noise intensity, these algorithms amplify the degradations, further degrading image quality. We propose a lightweight two-stage image enhancement algorithm sequentially balancing illumination and noise removal using frequency priors for structural guidance to overcome these limitations. Furthermore, to ensure realistic image quality, we leverage the relationship between frequency and spatial domain properties of an image and propose a Fourier spectrum-based adversarial framework (AFNet) for consistent image enhancement under varying illumination conditions. While current formulations of image enhancement are envisioned as post-processing techniques, we examine if such an algorithm could be extended to integrate the functionality of the Image Signal Processing (ISP) pipeline within the camera sensor benefiting from RAW sensor data and lightweight CNN architecture. Based on quantitative and qualitative evaluations, we also examine the practicality and effects of image enhancement techniques on the performance of common perception tasks such as object detection and semantic segmentation in varying illumination conditions.
翻訳日:2022-04-06 14:12:46 公開日:2022-04-04
# 畳み込みニューラルネットワークを用いたトラック軸検出

Truck Axle Detection with Convolutional Neural Networks ( http://arxiv.org/abs/2204.01868v1 )

ライセンス: Link先を確認
Leandro Arab Marcomini, Andr\'e Luiz Cunha(参考訳) トラックの車軸数(Axle count)は、車両の分類や道路システムの運用において重要であり、サービス料金の決定や舗装への影響に使用される。 軸数は手作業などの伝統的な方法で達成できるが、深層学習法やコンピュータビジョン法を用いて軸数を数えることはますます可能になっている。 本稿では,トラック車軸検出のための3つのディープラーニングオブジェクト検出アルゴリズム,YOLO,Faster R-CNN,SSDを比較した。 ニューラルネットワークのトレーニングとテストの例を提供するためにデータセットが構築された。 トレーニング時間を短縮し、結果を比較するため、異なるベースモデルでトレーニングが行われた。 結果は,mAP,F1スコア,FPSカウントの3つの指標に基づいて評価した。 その結果、YOLOとSSDの精度と性能は類似しており、どちらのモデルも96% mAP以上であることがわかった。 データセットとコードはダウンロード可能である。

Axle count in trucks is important to the classification of vehicles and to the operation of road systems, and is used in the determination of service fees and the impact on the pavement. Although axle count can be achieved with traditional methods, such as manual labor, it is increasingly possible to count axles using deep learning and computer vision methods. This paper aims to compare three deep learning object detection algorithms, YOLO, Faster R-CNN and SSD, for the detection of truck axles. A dataset was built to provide training and testing examples for the neural networks. Training was done on different base models, to increase training time efficiency and to compare results. We evaluated results based on three metrics: mAP, F1-score, and FPS count. Results indicate that YOLO and SSD have similar accuracy and performance, with more than 96% mAP for both models. Dataset and codes are publicly available for download.
翻訳日:2022-04-06 14:12:22 公開日:2022-04-04
# オンデバイス音声言語理解のための検討モデル

Deliberation Model for On-Device Spoken Language Understanding ( http://arxiv.org/abs/2204.01893v1 )

ライセンス: Link先を確認
Duc Le, Akshat Shrivastava, Paden Tomasello, Suyoun Kim, Aleksandr Livshits, Ozlem Kalinli, Michael L. Seltzer(参考訳) 本稿では,ストリーム自動音声認識(ASR)モデルが第1パス仮説を生成し,第2パス自然言語理解(NLU)コンポーネントがASRのテキストとオーディオの埋め込みの両方に条件付けして意味解析を生成する,エンドツーエンド言語理解(E2E)の新たな検討手法を提案する。 一般化デコーダとしてE2E SLUを定式化することにより,複雑な構成意味構造をサポートすることができる。 さらに,ASR と NLU のパラメータの共有は,リソース制約(オンデバイス)環境に特に適しており,提案手法はTOPv2 データセットの様々な操作点に対して,強いパイプライン NLU のベースラインを0.82% から 1.34% 上回っている。 テキストと音声の融合と、ファーストパス仮説を書き換えるシステムの能力が組み合わさって、我々のアプローチがASRエラーに対してより堅牢であることを示す。 最後に,本手法は自然音声から合成音声訓練への移行時の劣化を著しく低減するが,テキスト音声(TTS)をE2E SLUのスケールアップに有効にするためには,より多くの作業が必要であることを示す。

We propose a novel deliberation-based approach to end-to-end (E2E) spoken language understanding (SLU), where a streaming automatic speech recognition (ASR) model produces the first-pass hypothesis and a second-pass natural language understanding (NLU) component generates the semantic parse by conditioning on both ASR's text and audio embeddings. By formulating E2E SLU as a generalized decoder, our system is able to support complex compositional semantic structures. Furthermore, the sharing of parameters between ASR and NLU makes the system especially suitable for resource-constrained (on-device) environments; our proposed approach consistently outperforms strong pipeline NLU baselines by 0.82% to 1.34% across various operating points on the spoken version of the TOPv2 dataset. We demonstrate that the fusion of text and audio features, coupled with the system's ability to rewrite the first-pass hypothesis, makes our approach more robust to ASR errors. Finally, we show that our approach can significantly reduce the degradation when moving from natural speech to synthetic speech training, but more work is required to make text-to-speech (TTS) a viable solution for scaling up E2E SLU.
翻訳日:2022-04-06 14:07:12 公開日:2022-04-04
# 粗大なスパースシーケンス勧告

Coarse-to-Fine Sparse Sequential Recommendation ( http://arxiv.org/abs/2204.01839v1 )

ライセンス: Link先を確認
Jiacheng Li, Tong Zhao, Jin Li, Jim Chan, Christos Faloutsos, George Karypis, Soo-Min Pantel, Julian McAuley(参考訳) シークエンシャルレコメンデーションは、歴史的相互作用から動的ユーザ動作をモデル化することを目的としている。 自己愛的手法は短期的ダイナミクスと長期的嗜好を捉えるのに有効であることが証明されている。 彼らの成功にもかかわらず、これらのアプローチは、高品質なアイテム表現を学ぶのに苦労するスパースデータのモデル化に苦慮している。 買い物意図とインタラクションアイテムからユーザダイナミクスをモデル化することを提案する。 学習意図は粗く、アイテムレコメンデーションの事前知識として機能します。 この目的のために、粗粒度および微細粒度シーケンシャルダイナミクスを明示的に学習する粗粒度自己保持フレームワーク、すなわちCaFeを提案する。 具体的には、CaFeはまず、粗い粒度の配列からインテントを学び、それによって高品質なユーザインテント表現を提供する。 次に、CaFeはインテント表現をアイテムエンコーダ出力に融合し、改善されたアイテム表現を得る。 最後に、項目の表現と対応する意図に基づいて推奨項目を推測する。 スパースデータセットの実験では、CaFeは最先端の自己注意型レコメンデータを平均44.03%のNDCG@5で上回っている。

Sequential recommendation aims to model dynamic user behavior from historical interactions. Self-attentive methods have proven effective at capturing short-term dynamics and long-term preferences. Despite their success, these approaches still struggle to model sparse data, on which they struggle to learn high-quality item representations. We propose to model user dynamics from shopping intents and interacted items simultaneously. The learned intents are coarse-grained and work as prior knowledge for item recommendation. To this end, we present a coarse-to-fine self-attention framework, namely CaFe, which explicitly learns coarse-grained and fine-grained sequential dynamics. Specifically, CaFe first learns intents from coarse-grained sequences which are dense and hence provide high-quality user intent representations. Then, CaFe fuses intent representations into item encoder outputs to obtain improved item representations. Finally, we infer recommended items based on representations of items and corresponding intents. Experiments on sparse datasets show that CaFe outperforms state-of-the-art self-attentive recommenders by 44.03% NDCG@5 on average.
翻訳日:2022-04-06 14:03:11 公開日:2022-04-04
# 感性分析と名前付きエンティティ認識を用いたバングリッシュテキストにおけるNLPを用いた製品市場需要分析

Product Market Demand Analysis Using NLP in Banglish Text with Sentiment Analysis and Named Entity Recognition ( http://arxiv.org/abs/2204.01827v1 )

ライセンス: Link先を確認
Md Sabbir Hossain, Nishat Nayla, Annajiat Alim Rasel(参考訳) 製品市場需要分析は、競争力のあるビジネス分野に顕著な影響を与えるため、ビジネス戦略の創出に重要な役割を果たす。 さらに、ベンガル語話者は約2億2800万人で、その大半はバングリッシュのテキストを使ってソーシャルメディア上で互いに対話している。 ソーシャルメディアが起業家のオンラインマーケットプレイスとして出現するにつれて、消費者はBanglishのテキストでソーシャルメディア上でアイテムを購入して評価している。 人々はソーシャルメディアを使って、ポジティブで悪い経験を共有して、好みのスマートフォンブランドやモデルを見つける。 このため、バングラデシュのテキストデータを収集し、感情分析を用いて、バングラデシュのスマートフォン市場需要を評価することで、ジェンダー別に最も人気のあるスマートフォンを決定することが目的である。 我々は,製品関連データをインスタントデータスクレイパでソーシャルメディアから抽出し,wikipediaなどのサイトからクロールしたデータをpython webスクレイパで生成した。 pythonのpandasとseabornライブラリを使用して、生データはnlpメソッドを使用してフィルタリングされる。 名前付きエンティティ認識のためにデータセットをトレーニングするために、SpaceyのカスタムNERモデルであるAmazon Comprehend Custom NERを使用しました。 感情分析のためのパラメータ調整を備えたtensorflowシーケンシャルモデルがデプロイされた。 一方、Google Cloud Translation APIを使用して、BanglaLingaライブラリを使用してレビュアーの性別を推定しました。 本稿では、自然言語処理(nlp)アプローチといくつかの機械学習モデルを用いて、バングラデシュ市場で最も需要の高いアイテムやサービスを特定する。 当社のモデルでは,Spaacy Custom Named Entity Recognitionの87.99%,Amazon Comprehend Custom NERの95.51%,需要分析のSequential Modelの87.02%が正確である。 spacyの研究の後、レベンシュテイン距離と比率のアルゴリズムを組み合わせることで、ミススペルされた単語に関連する誤りの80%を管理できた。

Product market demand analysis plays a significant role for originating business strategies due to its noticeable impact on the competitive business field. Furthermore, there are roughly 228 million native Bengali speakers, the majority of whom use Banglish text to interact with one another on social media. Consumers are buying and evaluating items on social media with Banglish text as social media emerges as an online marketplace for entrepreneurs. People use social media to find preferred smartphone brands and models by sharing their positive and bad experiences with them. For this reason, our goal is to gather Banglish text data and use sentiment analysis and named entity identification to assess Bangladeshi market demand for smartphones in order to determine the most popular smartphones by gender. We scraped product related data from social media with instant data scrapers and crawled data from Wikipedia and other sites for product information with python web scrapers. Using Python's Pandas and Seaborn libraries, the raw data is filtered using NLP methods. To train our datasets for named entity recognition, we utilized Spacey's custom NER model, Amazon Comprehend Custom NER. A tensorflow sequential model was deployed with parameter tweaking for sentiment analysis. Meanwhile, we used the Google Cloud Translation API to estimate the gender of the reviewers using the BanglaLinga library. In this article, we use natural language processing (NLP) approaches and several machine learning models to identify the most in-demand items and services in the Bangladeshi market. Our model has an accuracy of 87.99% in Spacy Custom Named Entity recognition, 95.51% in Amazon Comprehend Custom NER, and 87.02% in the Sequential model for demand analysis. After Spacy's study, we were able to manage 80% of mistakes related to misspelled words using a mix of Levenshtein distance and ratio algorithms.
翻訳日:2022-04-06 13:39:18 公開日:2022-04-04
# マルチヘッドビジュアルオーディオメモリを用いた唇読解のためのホモフェロンの除去

Distinguishing Homophenes Using Multi-Head Visual-Audio Memory for Lip Reading ( http://arxiv.org/abs/2204.01725v1 )

ライセンス: Link先を確認
Minsu Kim, Jeong Hun Yeo, Yong Man Ro(参考訳) 唇読解と呼ばれる無声唇運動からの発声認識は, 難易度の高い課題である。 1) 言論を完全に表現する唇運動の本来の情報不足、及び 2) 発音の異なる類似した唇運動を有するホモフェーンの存在。 本稿では,マルチヘッド・ビジュアルオーディオメモリ(mvm)を提案することにより,口唇読解における2つの課題を緩和する。 まず、MVMはオーディオ視覚データセットでトレーニングされ、ペア化されたオーディオ視覚表現の相互関係をモデル化することで、オーディオ表現を記憶する。 推論段階では、学習した相互関係を調べることで、視覚入力だけでメモリから保存された音声表現を抽出することができる。 したがって、リップ読み取りモデルは、抽出した音声表現で不十分な視覚情報を補完することができる。 第二に、MVMは視覚的特徴を保存するためのマルチヘッドキーメモリと、ホモフェーンを識別するために設計された音声知識を保存するための1値メモリで構成されている。 マルチヘッドキーメモリでは、mvmはメモリから候補音声の特徴を抽出することで、入力された唇の動きからどの発音を表現できるかをリップ読み取りモデルで検討することができる。 これはビセメ対音素の1対多マッピングの明示的な実装と見なすこともできる。 さらに、MVMは、メモリを取得する際のコンテキストを考慮し、ホモフェーンを区別するために、複数の時間レベルで使用される。 実験結果により, 唇読解法の有効性とホモフェーンの識別効果が検証された。

Recognizing speech from silent lip movement, which is called lip reading, is a challenging task due to 1) the inherent information insufficiency of lip movement to fully represent the speech, and 2) the existence of homophenes that have similar lip movement with different pronunciations. In this paper, we try to alleviate the aforementioned two challenges in lip reading by proposing a Multi-head Visual-audio Memory (MVM). Firstly, MVM is trained with audio-visual datasets and remembers audio representations by modelling the inter-relationships of paired audio-visual representations. At the inference stage, visual input alone can extract the saved audio representation from the memory by examining the learned inter-relationships. Therefore, the lip reading model can complement the insufficient visual information with the extracted audio representations. Secondly, MVM is composed of multi-head key memories for saving visual features and one value memory for saving audio knowledge, which is designed to distinguish the homophenes. With the multi-head key memories, MVM extracts possible candidate audio features from the memory, which allows the lip reading model to consider the possibility of which pronunciations can be represented from the input lip movement. This also can be viewed as an explicit implementation of the one-to-many mapping of viseme-to-phoneme. Moreover, MVM is employed in multi-temporal levels to consider the context when retrieving the memory and distinguish the homophenes. Extensive experimental results verify the effectiveness of the proposed method in lip reading and in distinguishing the homophenes.
翻訳日:2022-04-06 13:37:41 公開日:2022-04-04
# オブジェクトの永続性はメモリ上のランダムウォークに現れる

Object Permanence Emerges in a Random Walk along Memory ( http://arxiv.org/abs/2204.01784v1 )

ライセンス: Link先を確認
Pavel Tokmakov, Allan Jabri, Jie Li, Adrien Gaidon(参考訳) 本稿では,物体を隠蔽下で局所化する表現を学習するための自己指導的目的を提案する。 中心的な疑問は、完全閉塞の場合の学習信号の選択である。 目に見えない物体の位置を直接監視するのではなく、人間のアノテーションやオブジェクトのダイナミクスに関する仮定を必要としない自己監督目的を提案する。 メモリの時間的コヒーレンスを最適化することで、オブジェクトの永続性が現れることを示す: メモリの時空間グラフに沿ってマルコフウォークに適合し、各時間ステップの状態をシーケンスエンコーダから非マルコフ的特徴とする。 これにより、隠されたオブジェクトを格納し、その動きを予測し、よりローカライズするメモリ表現につながる。 結果として得られたモデルは、最小限の監督と仮定を必要とするにもかかわらず、複雑さと現実主義を増大させるいくつかのデータセットで既存のアプローチを上回る。

This paper proposes a self-supervised objective for learning representations that localize objects under occlusion - a property known as object permanence. A central question is the choice of learning signal in cases of total occlusion. Rather than directly supervising the locations of invisible objects, we propose a self-supervised objective that requires neither human annotation, nor assumptions about object dynamics. We show that object permanence can emerge by optimizing for temporal coherence of memory: we fit a Markov walk along a space-time graph of memories, where the states in each time step are non-Markovian features from a sequence encoder. This leads to a memory representation that stores occluded objects and predicts their motion, to better localize them. The resulting model outperforms existing approaches on several datasets of increasing complexity and realism, despite requiring minimal supervision and assumptions, and hence being broadly applicable.
翻訳日:2022-04-06 13:37:18 公開日:2022-04-04
# 地理空間的注意による近接・遠隔センシングの再検討

Revisiting Near/Remote Sensing with Geospatial Attention ( http://arxiv.org/abs/2204.01807v1 )

ライセンス: Link先を確認
Scott Workman, M. Usman Rafique, Hunter Blanton, Nathan Jacobs(参考訳) 本研究は、地上レベルの補助画像が利用できる場合のオーバーヘッド画像分割の課題に対処する。 近年の研究では、近接・遠隔センシングと呼ばれる2つのモードで共同推論を行うことで、精度が大幅に向上することが示されている。 地平面画像中の画素と地理的位置との地理空間的関係を明確に考慮する幾何学的注意機構である地理空間的注意の概念を導入する。 幾何学的特徴と頭上面と地上面の画像の出現を取り入れた地理空間的注意の計算手法を提案する。 地理空間的注意に基づく近接・遠隔センシングのための新しいアーキテクチャを導入し,その5つのセグメンテーションタスクへの応用を実証する。 その結果,本手法は従来の最先端手法よりも優れていた。

This work addresses the task of overhead image segmentation when auxiliary ground-level images are available. Recent work has shown that performing joint inference over these two modalities, often called near/remote sensing, can yield significant accuracy improvements. Extending this line of work, we introduce the concept of geospatial attention, a geometry-aware attention mechanism that explicitly considers the geospatial relationship between the pixels in a ground-level image and a geographic location. We propose an approach for computing geospatial attention that incorporates geometric features and the appearance of the overhead and ground-level imagery. We introduce a novel architecture for near/remote sensing that is based on geospatial attention and demonstrate its use for five segmentation tasks. The results demonstrate that our method significantly outperforms the previous state-of-the-art methods.
翻訳日:2022-04-06 13:36:00 公開日:2022-04-04
# 高効率歩行者交叉予測

High Efficiency Pedestrian Crossing Prediction ( http://arxiv.org/abs/2204.01862v1 )

ライセンス: Link先を確認
Zhuoran Zeng(参考訳) ADS(Advanced driving system)やADAS(Advanced driver-assistance system)を実生活に展開する上で、歩行者横断意図の予測は不可欠である。 歩行者横断の意図を予測する最先端の手法は、入力として複数の情報ストリームに依存することが多く、それぞれが大量の計算資源と重いネットワークアーキテクチャを生成する必要がある。 しかし、そのような信頼はシステムの実用的適用を制限する。 本稿では,歩行者のフレームのみを入力として,歩行者横断意図予測モデルの現実世界の要求を高い効率と正確性で駆動するネットワークを提案する。 導入されたネットワークのすべてのコンポーネントは、軽量の目標によって駆動される。 具体的には、マルチソース入力依存を減らし、モバイルデバイスに適した軽量ニューラルネットワークを採用する。 これらの小さなニューラルネットワークはコンピュータメモリに適合し、コンピュータネットワークを介してより簡単に送信できるため、実際のデプロイメントやリアルタイム予測に適しています。 マルチソース入力の除去を補うために,「サイドタスク学習」と呼ばれるマルチタスク学習を取り入れ,ロバスト性を改善するために機能抽出器を共同で学習する補助タスクを複数含むことにより,ネットワークの有効性を高める。 各ヘッドは、他のヘッドと知識を共有する可能性のある特定のタスクを処理する。 一方、機能抽出子はすべてのタスクで共有され、すべてのレイヤで基本的な知識の共有が保証される。 軽量かつ高効率な車載システムの特性は,車載システムへの展開の可能性を秘めている。 実験は、我々のモデルが常に優れたパフォーマンスを提供することを示す。

Predicting pedestrian crossing intention is an indispensable aspect of deploying advanced driving systems (ADS) or advanced driver-assistance systems (ADAS) to real life. State-of-the-art methods in predicting pedestrian crossing intention often rely on multiple streams of information as inputs, each of which requires massive computational resources and heavy network architectures to generate. However, such reliance limits the practical application of the systems. In this paper, driven the the real-world demands of pedestrian crossing intention prediction models with both high efficiency and accuracy, we introduce a network with only frames of pedestrians as the input. Every component in the introduced network is driven by the goal of light weight. Specifically, we reduce the multi-source input dependency and employ light neural networks that are tailored for mobile devices. These smaller neural networks can fit into computer memory and can be transmitted over a computer network more easily, thus making them more suitable for real-life deployment and real-time prediction. To compensate the removal of the multi-source input, we enhance the network effectiveness by adopting a multi-task learning training, named "side task learning", to include multiple auxiliary tasks to jointly learn the feature extractor for improved robustness. Each head handles a specific task that potentially shares knowledge with other heads. In the meantime, the feature extractor is shared across all tasks to ensure the sharing of basic knowledge across all layers. The light weight but high efficiency characteristics of our model endow it the potential of being deployed on vehicle-based systems. Experiments validate that our model consistently delivers outstanding performances.
翻訳日:2022-04-06 13:35:45 公開日:2022-04-04
# 深層学習の第一原理と圧縮

The First Principles of Deep Learning and Compression ( http://arxiv.org/abs/2204.01782v1 )

ライセンス: Link先を確認
Max Ehrlich(参考訳) 2012年のAlexnet論文によって引き起こされたディープラーニング革命は、コンピュータビジョンの分野に変革をもたらした。 古典的な解を用いて非常に制限された多くの問題は、今や前例のない成功を収めている。 ディープラーニング手法の急速な普及により、消費者や組み込みアプリケーションでの利用が急速に増加した。 コンシューマと組み込みアプリケーションの1つの結果として、リアルタイムシナリオにおけるデータの効率的なストレージと送信のために必要となる、マルチメディア圧縮の損失がある。 そのため、マルチメディア圧縮のための深層学習ソリューションへの関心が高まり、高い圧縮率と高い視覚品質が得られるようになった。 マルチメディア圧縮へのディープラーニングアプローチは、学習マルチメディア圧縮と呼ばれ、エンコーダとデコーダのためのディープネットワークを使用して画像やビデオの圧縮表現を計算することを含む。 これらの技術は優れた学術的成功を享受してきたが、その産業採用は基本的には存在しなかった。 JPEGやMPEGのような古典的な圧縮技術は、現代のコンピューティングでは簡単に置き換えられるには不十分である。 この論文は直交的アプローチを採用し、ディープラーニングを利用してこれらの古典的アルゴリズムの圧縮精度を向上させる。 これにより、古典的手法の普遍性を脅かすことなく、マルチメディア圧縮にディープラーニングの驚くべき進歩を利用できる。 この研究の鍵となる洞察は、第一原理、すなわち圧縮アルゴリズムが開発されたときに下された工学的決定によって動機づけられた手法は、一般的な方法よりも効果的であるということである。 アルゴリズムの設計に事前の知識をエンコードすることで、汎用コストで柔軟性、性能、および/または精度が向上する。

The deep learning revolution incited by the 2012 Alexnet paper has been transformative for the field of computer vision. Many problems which were severely limited using classical solutions are now seeing unprecedented success. The rapid proliferation of deep learning methods has led to a sharp increase in their use in consumer and embedded applications. One consequence of consumer and embedded applications is lossy multimedia compression which is required to engineer the efficient storage and transmission of data in these real-world scenarios. As such, there has been increased interest in a deep learning solution for multimedia compression which would allow for higher compression ratios and increased visual quality. The deep learning approach to multimedia compression, so called Learned Multimedia Compression, involves computing a compressed representation of an image or video using a deep network for the encoder and the decoder. While these techniques have enjoyed impressive academic success, their industry adoption has been essentially non-existent. Classical compression techniques like JPEG and MPEG are too entrenched in modern computing to be easily replaced. This dissertation takes an orthogonal approach and leverages deep learning to improve the compression fidelity of these classical algorithms. This allows the incredible advances in deep learning to be used for multimedia compression without threatening the ubiquity of the classical methods. The key insight of this work is that methods which are motivated by first principles, i.e., the underlying engineering decisions that were made when the compression algorithms were developed, are more effective than general methods. By encoding prior knowledge into the design of the algorithm, the flexibility, performance, and/or accuracy are improved at the cost of generality...
翻訳日:2022-04-06 13:08:53 公開日:2022-04-04
# シーケンス決定における長期的公正性の実現

Achieving Long-Term Fairness in Sequential Decision Making ( http://arxiv.org/abs/2204.01819v1 )

ライセンス: Link先を確認
Yaowei Hu and Lu Zhang(参考訳) 本稿では,長期的公正な意思決定を実現するための枠組みを提案する。 硬度と軟度の両方の介入を行うことで, 長期フェアネスを定量的に測定する手段として, 時間遅延因果グラフに経路特異的な効果を及ぼすことを提案する。 フェアシーケンシャルな意思決定の問題は、目的としてのユーティリティと、制約としての長期的および短期的公正性による制約付き最適化問題として定式化される。 このような最適化問題を性能的リスク最適化に変換できることを示す。 最後に、モデルトレーニングに繰り返しリスク最小化(RRM)を用い、理論的にRRMの収束を解析する。 実験による評価は,提案アルゴリズムが合成および半合成時間データセットに与える影響を示す。

In this paper, we propose a framework for achieving long-term fair sequential decision making. By conducting both the hard and soft interventions, we propose to take path-specific effects on the time-lagged causal graph as a quantitative tool for measuring long-term fairness. The problem of fair sequential decision making is then formulated as a constrained optimization problem with the utility as the objective and the long-term and short-term fairness as constraints. We show that such an optimization problem can be converted to a performative risk optimization. Finally, repeated risk minimization (RRM) is used for model training, and the convergence of RRM is theoretically analyzed. The empirical evaluation shows the effectiveness of the proposed algorithm on synthetic and semi-synthetic temporal datasets.
翻訳日:2022-04-06 13:05:35 公開日:2022-04-04
# Reward-Switching Policy Optimization による新しい戦略の連続的発見

Continuously Discovering Novel Strategies via Reward-Switching Policy Optimization ( http://arxiv.org/abs/2204.02246v1 )

ライセンス: Link先を確認
Zihan Zhou, Wei Fu, Bingliang Zhang, Yi Wu(参考訳) 提案手法は,局所的に最適かつ既存の手法と十分に異なる新しい方針を反復的に発見することにより,複雑なrl環境における多様な戦略を探索するパラダイムである。 学習方針が未発見の局所最適に向けて一貫して収束するよう促すため、RSPOは最適化プロセス中に軌道に基づく新規性測定によって外因性と内因性報酬を切り替える。 サンプル軌道が十分に異なる場合、RSPOは外因性報酬を伴う標準ポリシー最適化を行う。 既存の政策の下で高い可能性を持つ軌道に対しては、RSPOは固有の多様性報酬を利用して探索を促進する。 実験の結果、RSPOは単一エージェントの粒子世界タスクやMuJoCo連続制御からマルチエージェントのステージハントゲーム、StarCraftIIチャレンジまで、さまざまな領域で幅広い戦略を発見できることがわかった。

We present Reward-Switching Policy Optimization (RSPO), a paradigm to discover diverse strategies in complex RL environments by iteratively finding novel policies that are both locally optimal and sufficiently different from existing ones. To encourage the learning policy to consistently converge towards a previously undiscovered local optimum, RSPO switches between extrinsic and intrinsic rewards via a trajectory-based novelty measurement during the optimization process. When a sampled trajectory is sufficiently distinct, RSPO performs standard policy optimization with extrinsic rewards. For trajectories with high likelihood under existing policies, RSPO utilizes an intrinsic diversity reward to promote exploration. Experiments show that RSPO is able to discover a wide spectrum of strategies in a variety of domains, ranging from single-agent particle-world tasks and MuJoCo continuous control to multi-agent stag-hunt games and StarCraftII challenges.
翻訳日:2022-04-06 13:03:14 公開日:2022-04-04
# Visual Context Attentional GAN を用いたリップ・トゥ・音声合成

Lip to Speech Synthesis with Visual Context Attentional GAN ( http://arxiv.org/abs/2204.01726v1 )

ライセンス: Link先を確認
Minsu Kim, Joanna Hong, Yong Man Ro(参考訳) 本稿では,音声合成における局所的・大域的な唇の動きを協調的にモデル化できる,新しい音声合成対向ネットワークであるVCA-GAN(Visual Context Attentional GAN)を提案する。 具体的には、VCA-GANは、音声の局所的な唇の視覚特徴から音声を合成し、グローバルな視覚コンテキストは、ホモフェインによって誘発されるマッピングのあいまいさを明らかにするために、ジェネレータの中間層に埋め込まれる。 これを実現するために、局所的な視覚特徴からグローバルな表現を符号化する視覚コンテキストアテンションモジュールを提案し、音声視覚アテンションを介して、与えられた粗い音声表現に対応する所望のグローバルな視覚コンテキストをジェネレータに提供する。 局所的およびグローバルな視覚表現の明示的なモデリングに加えて、同期学習は、与えられた入力された唇の動きと同期して音声を合成するようにジェネレータに誘導するコントラスト学習の形式として導入された。 広汎な実験により,提案したVCA-GANは既存の最先端技術よりも優れており,従来の研究でほとんど扱われていなかったマルチスピーカから音声を効果的に合成できることが示されている。

In this paper, we propose a novel lip-to-speech generative adversarial network, Visual Context Attentional GAN (VCA-GAN), which can jointly model local and global lip movements during speech synthesis. Specifically, the proposed VCA-GAN synthesizes the speech from local lip visual features by finding a mapping function of viseme-to-phoneme, while global visual context is embedded into the intermediate layers of the generator to clarify the ambiguity in the mapping induced by homophene. To achieve this, a visual context attention module is proposed where it encodes global representations from the local visual features, and provides the desired global visual context corresponding to the given coarse speech representation to the generator through audio-visual attention. In addition to the explicit modelling of local and global visual representations, synchronization learning is introduced as a form of contrastive learning that guides the generator to synthesize a speech in sync with the given input lip movements. Extensive experiments demonstrate that the proposed VCA-GAN outperforms existing state-of-the-art and is able to effectively synthesize the speech from multi-speaker that has been barely handled in the previous works.
翻訳日:2022-04-06 12:59:27 公開日:2022-04-04
# プログラム可能な超伝導量子ビットを用いた量子逆学習

Experimental quantum adversarial learning with programmable superconducting qubits ( http://arxiv.org/abs/2204.01738v1 )

ライセンス: Link先を確認
Wenhui Ren, Weikang Li, Shibo Xu, Ke Wang, Wenjie Jiang, Feitong Jin, Xuhao Zhu, Jiachen Chen, Zixuan Song, Pengfei Zhang, Hang Dong, Xu Zhang, Jinfeng Deng, Yu Gao, Chuanyu Zhang, Yaozu Wu, Bing Zhang, Qiujiang Guo, Hekang Li, Zhen Wang, Jacob Biamonte, Chao Song, Dong-Ling Deng, H. Wang(参考訳) 量子コンピューティングは機械学習と人工知能を強化することを約束する。 さまざまな量子アルゴリズムが、幅広い機械学習タスクを改善するために提案されている。 しかし、最近の理論的研究は、深層古典型ニューラルネットワークに基づく従来の分類器と同様に、量子分類器は脆弱性の問題に苦しんでいることを示している。 これは、安全性とセキュリティクリティカルなシナリオにおける将来の量子機械学習アプリケーションに深刻な問題を引き起こす。 本稿では,プログラム可能な超伝導量子ビットを用いた量子逆学習の最初の実験実験を行う。 我々は、平均寿命150ドルのトランスモン量子ビットと、それぞれ99.94%と99.4%以上の1量子ビットゲートと2量子ビットゲートの平均フィダリティからなる変動量子回路と、実際の画像(例えば、医用磁気共鳴イメージングスキャン)と量子データからなる量子分類器を訓練する。 これらの十分に訓練された分類器(最大99%までの精度)は、小さな逆摂動によって実質的に欺くことができるが、逆行的な訓練プロセスでは、そのような摂動に対する強固さが著しく向上する。 本研究は, 量子学習システムにおいて, 敵のシナリオ下での重要な脆弱性を実験的に明らかにし, 敵の攻撃に対する効果的な防御戦略を示すものである。

Quantum computing promises to enhance machine learning and artificial intelligence. Different quantum algorithms have been proposed to improve a wide spectrum of machine learning tasks. Yet, recent theoretical works show that, similar to traditional classifiers based on deep classical neural networks, quantum classifiers would suffer from the vulnerability problem: adding tiny carefully-crafted perturbations to the legitimate original data samples would facilitate incorrect predictions at a notably high confidence level. This will pose serious problems for future quantum machine learning applications in safety and security-critical scenarios. Here, we report the first experimental demonstration of quantum adversarial learning with programmable superconducting qubits. We train quantum classifiers, which are built upon variational quantum circuits consisting of ten transmon qubits featuring average lifetimes of 150 $\mu$s, and average fidelities of simultaneous single- and two-qubit gates above 99.94% and 99.4% respectively, with both real-life images (e.g., medical magnetic resonance imaging scans) and quantum data. We demonstrate that these well-trained classifiers (with testing accuracy up to 99%) can be practically deceived by small adversarial perturbations, whereas an adversarial training process would significantly enhance their robustness to such perturbations. Our results reveal experimentally a crucial vulnerability aspect of quantum learning systems under adversarial scenarios and demonstrate an effective defense strategy against adversarial attacks, which provide a valuable guide for quantum artificial intelligence applications with both near-term and future quantum devices.
翻訳日:2022-04-06 12:59:03 公開日:2022-04-04
# 次世代組込み型BMIにおけるエッジAIの課題と可能性

Challenges and Opportunities of Edge AI for Next-Generation Implantable BMIs ( http://arxiv.org/abs/2204.02362v1 )

ライセンス: Link先を確認
MohammadAli Shaeri, Arshia Afzal, and Mahsa Shoaran(参考訳) 神経科学とニューロテクノロジーは現在、人工知能(AI)と機械学習によって革新されている。 AIは、神経信号の研究と解釈(分析応用)、障害者支援(補綴応用)、基礎となる神経症状(治療応用)に広く用いられている。 本稿では、最先端の義肢BMIに焦点をあてて、次世代の組込み型脳機械インタフェース(BMI)におけるオンチップAIの新たな可能性について概観する。 AIモデルの有効性に関する主要な技術的課題について論じる。 最後に,新しい世代のAI強化BMIと高チャネル数BMIを実現するために,アルゴリズムおよびIC設計ソリューションを提案する。

Neuroscience and neurotechnology are currently being revolutionized by artificial intelligence (AI) and machine learning. AI is widely used to study and interpret neural signals (analytical applications), assist people with disabilities (prosthetic applications), and treat underlying neurological symptoms (therapeutic applications). In this brief, we will review the emerging opportunities of on-chip AI for the next-generation implantable brain-machine interfaces (BMIs), with a focus on state-of-the-art prosthetic BMIs. Major technological challenges for the effectiveness of AI models will be discussed. Finally, we will present algorithmic and IC design solutions to enable a new generation of AI-enhanced and high-channel-count BMIs.
翻訳日:2022-04-06 12:55:09 公開日:2022-04-04
# 競合エージェントによる政策学習

Policy Learning with Competing Agents ( http://arxiv.org/abs/2204.01884v1 )

ライセンス: Link先を確認
Roshni Sahoo, Stefan Wager(参考訳) 意思決定者は多くの場合、治療できるエージェントの数に対する能力制限の下で、治療割り当てポリシーを学ぶことを目指している。 エージェントがこのようなポリシーに戦略的に対応できる場合、競合が発生し、ポリシーの効果の見積が複雑になる。 本稿では,このような干渉の存在下での容量制限された治療課題について検討する。 我々は,異種エージェントが前回の処理割当方針に最もよく反応する動的モデルについて考察する。 エージェント数が大きいが有限であれば、与えられたポリシーの下で治療を受けるための閾値が、ポリシーの平均場平衡閾値に収束することを示す。 この結果に基づいて,政策効果を一貫した推定器を開発し,戦略行動が存在する場合の最適容量制約政策の学習に有効であることを示す。

Decision makers often aim to learn a treatment assignment policy under a capacity constraint on the number of agents that they can treat. When agents can respond strategically to such policies, competition arises, complicating the estimation of the effect of the policy. In this paper, we study capacity-constrained treatment assignment in the presence of such interference. We consider a dynamic model where heterogeneous agents myopically best respond to the previous treatment assignment policy. When the number of agents is large but finite, we show that the threshold for receiving treatment under a given policy converges to the policy's mean-field equilibrium threshold. Based on this result, we develop a consistent estimator for the policy effect and demonstrate in simulations that it can be used for learning optimal capacity-constrained policies in the presence of strategic behavior.
翻訳日:2022-04-06 12:54:48 公開日:2022-04-04
# 医用画像からの学習特徴に対するデータ不均衡処理の影響のモデルによる分析

Analyzing the Effects of Handling Data Imbalance on Learned Features from Medical Images by Looking Into the Models ( http://arxiv.org/abs/2204.01729v1 )

ライセンス: Link先を確認
Ashkan Khakzar, Yawei Li, Yang Zhang, Mirac Sanisoglu, Seong Tae Kim, Mina Rezaei, Bernd Bischl, Nassir Navab(参考訳) 医学データセットに潜む困難な特性の1つは、異なるクラス間のサンプルの頻度がバランスが取れない不均衡なデータ分布である。 不均衡データセット上でモデルをトレーニングすることは、モデルを非常に頻繁なクラスにバイアスする学習問題にユニークな課題をもたらす可能性がある。 分布差と不均衡問題に対処する多くの手法が提案されている。 しかし、これらのアプローチが学習機能に与える影響は十分に研究されていない。 本稿では、ニューラルネットワークの内部ユニットを深く調べ、データ不均衡の処理が学習した特徴に与える影響を観察する。 本研究では,複数の視点から畳み込みニューラルネットワークの特徴マップを解析し,その特徴と病理のアライメントを解析し,ネットワークで符号化された病理関連概念を分析する。 本研究は、AUROCやAPなどの量的指標に反映されず、レンズを通してモデルを見ることでのみ現れる訓練されたモデルに関する差異と洞察を明らかにする。

One challenging property lurking in medical datasets is the imbalanced data distribution, where the frequency of the samples between the different classes is not balanced. Training a model on an imbalanced dataset can introduce unique challenges to the learning problem where a model is biased towards the highly frequent class. Many methods are proposed to tackle the distributional differences and the imbalanced problem. However, the impact of these approaches on the learned features is not well studied. In this paper, we look deeper into the internal units of neural networks to observe how handling data imbalance affects the learned features. We study several popular cost-sensitive approaches for handling data imbalance and analyze the feature maps of the convolutional neural networks from multiple perspectives: analyzing the alignment of salient features with pathologies and analyzing the pathology-related concepts encoded by the networks. Our study reveals differences and insights regarding the trained models that are not reflected by quantitative metrics such as AUROC and AP and show up only by looking at the models through a lens.
翻訳日:2022-04-06 12:52:57 公開日:2022-04-04
# (参考訳) 連続可変量子MNIST分類器 [全文訳有]

Continuous Variable Quantum MNIST Classifiers ( http://arxiv.org/abs/2204.01194v1 )

ライセンス: CC0 1.0
Sophie Choe(参考訳) 本稿では,MNISTデータセットを用いて,古典的かつ連続的な量子ニューラルネットワークハイブリッドマルチクラス化手法を提案する。 CVモデルにおけるカットオフ次元と確率測定法の組み合わせにより、量子回路は、n がカットオフ次元 m を表す n のパワーに上昇する n に等しい大きさの出力ベクトルを生成することができる。 それらは1-hotエンコードされたラベルとして翻訳され、適切な数のゼロでパディングされる。 連続可変量子ニューラルネットワークで提案されるバイナリ分類器アーキテクチャに基づいて、合計8つの異なる分類器が2,3,...,8 qumodesを用いて構築される。 CVモデルにおける変位ゲートとカーゲートは、古典的ニューラルネットワークの量子へのバイアス加算と非線形活性化成分を可能にする。 分類器は、古典的なフィードフォワードニューラルネットワーク、量子データ符号化回路、cv量子ニューラルネットワーク回路からなる。 600のサンプルからなる切り離されたMNISTデータセットでは、4 qumodeハイブリッド分類器が100%のトレーニング精度を達成する。

In this paper, classical and continuous variable (CV) quantum neural network hybrid multiclassifiers are presented using the MNIST dataset. The combination of cutoff dimension and probability measurement method in the CV model allows a quantum circuit to produce output vectors of size equal to n raised to the power of n where n represents cutoff dimension and m, the number of qumodes. They are then translated as one-hot encoded labels, padded with an appropriate number of zeros. The total of eight different classifiers are built using 2,3,...,8 qumodes, based on the binary classifier architecture proposed in Continuous variable quantum neural networks. The displacement gate and the Kerr gate in the CV model allow for the bias addition and nonlinear activation components of classical neural networks to quantum. The classifiers are composed of a classical feedforward neural network, a quantum data encoding circuit, and a CV quantum neural network circuit. On a truncated MNIST dataset of 600 samples, a 4 qumode hybrid classifier achieves 100% training accuracy.
翻訳日:2022-04-06 04:16:39 公開日:2022-04-04
# (参考訳) 画像再構成損失に基づく教師なし変化検出 [全文訳有]

Unsupervised Change Detection Based on Image Reconstruction Loss ( http://arxiv.org/abs/2204.01200v1 )

ライセンス: CC BY 4.0
Hyeoncheol Noh, Jingi Ju, Minseok Seo, Jongchan Park, Jongchan Park(参考訳) 変化検出器の訓練には、同じ領域で異なるタイミングで撮影されたバイタイム画像を使用する。 しかし、ラベル付きバイテンポラル画像の収集は高価で時間を要する。 この問題を解決するために、様々な教師なしの変更検出方法が提案されているが、ラベルなしのバイタイム画像が必要である。 本稿では,ラベルなしの時間的単一画像のみを用いた画像再構成損失に基づく教師なし変化検出を提案する。 画像再構成モデルは、ソース画像とフォトメトリック変換されたソース画像とをペアとして受信して元のソース画像を再構築するように訓練される。 推論中、モデルは入力として双時間画像を受け取り、入力の1つを再構築しようとする。 両時間画像間の変化領域は高い再構成損失を示す。 変更検出は1つの時間的単一ソース画像のみを使用しても,様々な変更検出ベンチマークデータセットにおいて大きな性能を示した。 コードとトレーニングされたモデルは、再現性のために公開されます。

To train the change detector, bi-temporal images taken at different times in the same area are used. However, collecting labeled bi-temporal images is expensive and time consuming. To solve this problem, various unsupervised change detection methods have been proposed, but they still require unlabeled bi-temporal images. In this paper, we propose unsupervised change detection based on image reconstruction loss using only unlabeled single temporal single image. The image reconstruction model is trained to reconstruct the original source image by receiving the source image and the photometrically transformed source image as a pair. During inference, the model receives bi-temporal images as the input, and tries to reconstruct one of the inputs. The changed region between bi-temporal images shows high reconstruction loss. Our change detector showed significant performance in various change detection benchmark datasets even though only a single temporal single source image was used. The code and trained models will be publicly available for reproducibility.
翻訳日:2022-04-06 04:03:19 公開日:2022-04-04
# (参考訳) モデルパラレルフーリエニューラル演算子を用いたパラメトリックPDEの大規模学習への応用 [全文訳有]

Towards Large-Scale Learned Solvers for Parametric PDEs with Model-Parallel Fourier Neural Operators ( http://arxiv.org/abs/2204.01205v1 )

ライセンス: CC BY 4.0
Thomas J. Grady II, Rishi Khan, Mathias Louboutin, Ziyi Yin, Philipp A. Witte, Ranveer Chandra, Russell J. Hewett, Felix J. Herrmann(参考訳) フーリエニューラル演算子(フーリエニューラル演算子、FNO)は、偏微分方程式(PDE)の解演算子を学習するための、最近導入されたニューラルネットワークアーキテクチャである。 一度訓練すると、FNOは従来の数値PDE解法よりも桁違いの高速化を達成できる。 しかし、入力データとネットワーク重みの高次元性のため、FNOは2次元または小さな3次元問題にのみ適用されている。 この制限された問題サイズの障壁を取り除くため、入力データとネットワーク重みのドメイン分割に基づくFNOのモデル並列バージョンを提案する。 モデル並列FNOは,最大768GPUを使用して,サミットで32億以上の変数の時間変化PDEソリューションを予測可能であることを実証し,地球地下のマルチフェーズCO$2$のダイナミックスをシミュレーションするために,Azureクラウド上で分散FNOをトレーニングする例を示した。

Fourier neural operators (FNOs) are a recently introduced neural network architecture for learning solution operators of partial differential equations (PDEs), which have been shown to perform significantly better than comparable approaches based on convolutional networks. Once trained, FNOs can achieve speed-ups of multiple orders of magnitude over conventional numerical PDE solvers. However, due to the high dimensionality of their input data and network weights, FNOs have so far only been applied to two-dimensional or small three-dimensional problems. To remove this limited problem-size barrier, we propose a model-parallel version of FNOs based on domain-decomposition of both the input data and network weights. We demonstrate that our model-parallel FNO is able to predict time-varying PDE solutions of over 3.2 billions variables on Summit using up to 768 GPUs and show an example of training a distributed FNO on the Azure cloud for simulating multiphase CO$_2$ dynamics in the Earth's subsurface.
翻訳日:2022-04-06 03:51:49 公開日:2022-04-04
# (参考訳) モーメントマッチングを用いたデータの線形対称性の学習 [全文訳有]

Learning Linear Symmetries in Data Using Moment Matching ( http://arxiv.org/abs/2204.01213v1 )

ライセンス: CC BY 4.0
Colin Hagemeyer(参考訳) 機械学習や統計学では、専門家の知識から派生した対称性を使用して問題を単純化したり、データ拡張や罰則といった手法を用いてパフォーマンスを向上させることが一般的である。 本稿では,そのような対称性をモデルフリーな方法でデータから直接学習する非教師なし,半教師なしの問題を考える。 最悪の場合、この問題はグラフ自己同型問題と同じくらい難しいことが分かる。 しかし、共分散行列が一意な固有値を持つ場合に制限すると、固有ベクトルもまた対称性変換の固有ベクトルとなる。 直交対称性の発見をさらに制限すると、固有値は 1 または -1 となり、問題はどの固有ベクトルがどれであるかを決定することである。 我々は、対称性変換において固有ベクトルが固有値 -1 を持つべきものを選択するための異なる方法の有効性を理論的および経験的に比較し、このアプローチをラベルを持つ非正方形ケースに拡張する方法について議論する。

It is common in machine learning and statistics to use symmetries derived from expert knowledge to simplify problems or improve performance, using methods like data augmentation or penalties. In this paper we consider the unsupervised and semi-supervised problems of learning such symmetries in a distribution directly from data in a model-free fashion. We show that in the worst case this problem is as difficult as the graph automorphism problem. However, if we restrict to the case where the covariance matrix has unique eigenvalues, then the eigenvectors will also be eigenvectors of the symmetry transformation. If we further restrict to finding orthogonal symmetries, then the eigenvalues will be either be 1 or -1, and the problem reduces to determining which eigenvectors are which. We develop and compare theoretically and empirically the effectiveness of different methods of selecting which eigenvectors should have eigenvalue -1 in the symmetry transformation, and discuss how to extend this approach to non-orthogonal cases where we have labels
翻訳日:2022-04-06 03:33:38 公開日:2022-04-04
# (参考訳) MLPro:オープンな研究課題のためのクラウドソーシング機械学習チャレンジをホストするシステム [全文訳有]

MLPro: A System for Hosting Crowdsourced Machine Learning Challenges for Open-Ended Research Problems ( http://arxiv.org/abs/2204.01216v1 )

ライセンス: CC BY 4.0
Peter Washington, Aayush Nandkeolyar, Sam Yang(参考訳) 特定の問題に対する機械学習(ML)モデルを開発するタスクは本質的にオープンエンドであり、無制限のソリューションセットが存在する。 ml開発パイプラインのステップには、機能工学、損失関数仕様、データインプテーション、次元の削減などがあり、エンジニアは広範囲でしばしば無限の可能性を考慮しなければならない。 不慣れなデータセットや問題に対するハイパフォーマンスなソリューションをうまく識別するには、新しいMLメソッドの発明と再開発に応用される数学の長所と創造性の混合が必要である。 本稿では,クラウドソーシングによるml課題のホスティングの実現可能性について検討し,オープンエンドな研究課題を広く探求し,一般的なmlチームが実際に調査できる範囲を超えて問題解決の探索領域を拡大する。 オープンエンドのmlコーディング問題の概念と自動オンラインコード判定プラットフォームの概念を組み合わせたシステムであるmlproを開発した。 このパラダイムのパイロット評価を行うため、MLやデータサイエンスの実践者にオープンソースのML課題をクラウドソーシングする。 2つの異なる課題の結果を説明する。 十分に制約のない複雑な問題に対して、多くの専門家が同様の解決策を提出するが、一部の専門家は「典型的」解クラスよりも優れた独自のソリューションを提供している。 MLProのような自動化された専門家のクラウドソーシングシステムは、MLエンジニアリングの創造性を加速する可能性があることを示唆する。

The task of developing a machine learning (ML) model for a particular problem is inherently open-ended, and there is an unbounded set of possible solutions. Steps of the ML development pipeline, such as feature engineering, loss function specification, data imputation, and dimensionality reduction, require the engineer to consider an extensive and often infinite array of possibilities. Successfully identifying high-performing solutions for an unfamiliar dataset or problem requires a mix of mathematical prowess and creativity applied towards inventing and repurposing novel ML methods. Here, we explore the feasibility of hosting crowdsourced ML challenges to facilitate a breadth-first exploration of open-ended research problems, thereby expanding the search space of problem solutions beyond what a typical ML team could viably investigate. We develop MLPro, a system which combines the notion of open-ended ML coding problems with the concept of an automatic online code judging platform. To conduct a pilot evaluation of this paradigm, we crowdsource several open-ended ML challenges to ML and data science practitioners. We describe results from two separate challenges. We find that for sufficiently unconstrained and complex problems, many experts submit similar solutions, but some experts provide unique solutions which outperform the "typical" solution class. We suggest that automated expert crowdsourcing systems such as MLPro have the potential to accelerate ML engineering creativity.
翻訳日:2022-04-06 03:11:07 公開日:2022-04-04
# (参考訳) 単分子RGB-Dからの Animatable Neural Radiance Fields

Animatable Neural Radiance Fields from Monocular RGB-D ( http://arxiv.org/abs/2204.01218v1 )

ライセンス: CC BY 4.0
Tiantian Wang, Nikolaos Sarafianos, Ming-Hsuan Yang, Tony Tung(参考訳) 本稿では,新しい視点とポーズの下で,写真リアルな人間を表現することを目的とする。 最近の研究は、共有の標準的神経放射場を探索することで、動的シーンにおいて著しい進歩を示している。 しかし、新規ポーズのユーザ制御モデルを学ぶことは難しい課題である。 本研究では,人体の形状をモデル化する人間のポーズと,人間の部分を覆う点雲を入力として利用することにより,フレーム間の観察を統合し,各フレームの外観をエンコードする新しい手法を提案する。 具体的には、フレーム間で人間のポーズに固定された潜在符号の共有集合を同時に学習し、各フレームで単眼RGB-Dにより生成される不完全点雲に固定された外見依存符号を学習する。 人間のポーズベースのコードはパフォーマーの形状をモデル化するが、ポイントクラウドベースのコードは、見知らぬポーズで欠けている構造の詳細と理由を予測する。 問合せフレームにおける非可視領域を更に回復するために、時間変換器を用いて、問合せフレームにおける点の特徴と追跡された体点を自動選択されたキーフレームから統合する。 運動中のヒトの様々な配列を実験した結果,本手法は単眼rgb-d映像を入力として,未知覚のポーズや新たな視点で既存の作品を大きく上回ることがわかった。

This paper aims at representing animatable photo-realistic humans under novel views and poses. Recent work has shown significant progress with dynamic scenes by exploring shared canonical neural radiance fields. However learning a user-controlled model for novel poses remains a challenging task. To tackle this problem, we introduce a novel method to integrate observations across frames and encode the appearance at each individual frame by utilizing the human pose that models the body shape and point clouds which cover partial part of the human as the input. Specifically, our method simultaneously learns a shared set of latent codes anchored to the human pose among frames, and learns an appearance-dependent code anchored to incomplete point clouds generated by monocular RGB-D at each frame. A human pose-based code models the shape of the performer whereas a point cloud based code predicts details and reasons about missing structures at the unseen poses. To further recover non-visible regions in query frames, we utilize a temporal transformer to integrate features of points in query frames and tracked body points from automatically-select ed key frames. Experiments on various sequences of humans in motion show that our method significantly outperforms existing works under unseen poses and novel views given monocular RGB-D videos as input.
翻訳日:2022-04-06 03:00:51 公開日:2022-04-04
# (参考訳) 意味セグメンテーションのための動的フォーカスアウェアな位置問合せ [全文訳有]

Dynamic Focus-aware Positional Queries for Semantic Segmentation ( http://arxiv.org/abs/2204.01244v1 )

ライセンス: CC BY 4.0
Haoyu He, Jianfei Cai, Zizheng Pan, Jing Liu, Jing Zhang, Dacheng Tao, Bohan Zhuang(参考訳) 最新のトップセマンティックセグメンテーションアプローチのほとんどは、ビジョントランスフォーマー、特にトランスフォーマーデコーダの一連のクエリを使用するDETRのようなフレームワークに基づいている。 各クエリは、セマンティック情報を保存するコンテンツクエリと、クエリ固有のコンテキストを集約するための位置ガイダンスを提供する位置クエリで構成される。 しかし、Transformerデコーダ層における位置クエリは通常、固定学習可能な重みとして表現され、セグメントのデータセット統計をエンコードすることが多く、個々のサンプルに対して不正確である。 そこで本稿では,先行層のクロスアテンションスコアと局在情報に基づいて動的に条件づけられた位置問合せを生成する。 これにより、各クエリは以前のフォーカスを認識し、より正確な位置ガイダンスを提供し、デコーダ層間の相互アテンション一貫性を奨励する。 また,低分解能クロスアテンションマップに基づいてコンテキストトークンを動的に決定し,局所的な関係集約を行うことで,高分解能クロスアテンションに対処する効率的な手法を提案する。 faseg(focus-aware semantic segmentation)というフレームワークは、セマンティックセグメンテーションのためのシンプルで効果的なソリューションを提供します。 ADE20KとCityscapesの大規模な実験により、当社のFASegは、例えば、ResNet-50とSwin-Tのバックボーンを用いたADE20K検証セットにおいて、48.3%と49.6% mIoUをそれぞれ単一スケールの推論で取得し、Mask2formerの計算消費をわずかに増加させることが示されている。 ソースコードはhttps://github.com/z ip-group/FASegで公開されます。

Most of the latest top semantic segmentation approaches are based on vision Transformers, particularly DETR-like frameworks, which employ a set of queries in the Transformer decoder. Each query is composed of a content query that preserves semantic information and a positional query that provides positional guidance for aggregating the query-specific context. However, the positional queries in the Transformer decoder layers are typically represented as fixed learnable weights, which often encode dataset statistics for segments and can be inaccurate for individual samples. Therefore, in this paper, we propose to generate positional queries dynamically conditioned on the cross-attention scores and the localization information of the preceding layer. By doing so, each query is aware of its previous focus, thus providing more accurate positional guidance and encouraging the cross-attention consistency across the decoder layers. In addition, we also propose an efficient way to deal with high-resolution cross-attention by dynamically determining the contextual tokens based on the low-resolution cross-attention maps to perform local relation aggregation. Our overall framework termed FASeg (Focus-Aware semantic Segmentation) provides a simple yet effective solution for semantic segmentation. Extensive experiments on ADE20K and Cityscapes show that our FASeg achieves state-of-the-art performance, e.g., obtaining 48.3% and 49.6% mIoU respectively for single-scale inference on ADE20K validation set with ResNet-50 and Swin-T backbones, and barely increases the computation consumption from Mask2former. Source code will be made publicly available at https://github.com/z ip-group/FASeg.
翻訳日:2022-04-06 02:59:19 公開日:2022-04-04
# (参考訳) 直密姿勢推定 [全文訳有]

Direct Dense Pose Estimation ( http://arxiv.org/abs/2204.01263v1 )

ライセンス: CC BY 4.0
Liqian Ma, Lingjie Liu, Christian Theobalt, Luc Van Gool(参考訳) 密度の高い人間のポーズ推定は、rgb画像と人体表面との密接な対応を学習する問題であり、人体の再構築、人間のポーズの伝達、人間の行動認識といった様々な応用を見出す。 事前の濃厚なポーズ推定手法はすべてマスクr-cnnフレームワークに基づいており、まずは各人の境界ボックスを特定し、各境界ボックス内の密接な対応を一致させようとするトップダウン方式で動作します。 その結果,Mask R-CNN検出に重大な依存があるため,これらの手法ではロバスト性が欠如しており,画像中の人物数が増加するにつれて,実行時間が大幅に増加する。 そこで本研究では,ddp (direct dense pose) と呼ばれる高密度ポーズ推定問題の解法を提案する。 DDPはまずインスタンスマスクとグローバルIUV表現を別々に予測し、それらを結合する。 また,映像データを扱う際の時間的ジッタを緩和する簡易かつ効果的な2次元時間移動スキームを提案する。 実験により、DDPは従来のトップダウンベースライン手法の限界を克服し、競争精度を向上することを示した。 さらに、DDPは従来の高密度ポーズ推定法よりも計算効率が良く、従来の手法を論じる問題であるビデオシーケンスに適用した場合のジッタを低減する。

Dense human pose estimation is the problem of learning dense correspondences between RGB images and the surfaces of human bodies, which finds various applications, such as human body reconstruction, human pose transfer, and human action recognition. Prior dense pose estimation methods are all based on Mask R-CNN framework and operate in a top-down manner of first attempting to identify a bounding box for each person and matching dense correspondences in each bounding box. Consequently, these methods lack robustness due to their critical dependence on the Mask R-CNN detection, and the runtime increases drastically as the number of persons in the image increases. We therefore propose a novel alternative method for solving the dense pose estimation problem, called Direct Dense Pose (DDP). DDP first predicts the instance mask and global IUV representation separately and then combines them together. We also propose a simple yet effective 2D temporal-smoothing scheme to alleviate the temporal jitters when dealing with video data. Experiments demonstrate that DDP overcomes the limitations of previous top-down baseline methods and achieves competitive accuracy. In addition, DDP is computationally more efficient than previous dense pose estimation methods, and it reduces jitters when applied to a video sequence, which is a problem plaguing the previous methods.
翻訳日:2022-04-06 02:42:28 公開日:2022-04-04
# (参考訳) 確率的暗黙的シーン完了

Probabilistic Implicit Scene Completion ( http://arxiv.org/abs/2204.01264v1 )

ライセンス: CC BY 4.0
Dongsu Zhang, Changwoon Choi, Inbum Park, Young Min Kim(参考訳) 大規模3次元シーンの連続幾何学に拡張した確率的形状補完法を提案する。 3dシーンの現実世界のスキャンは、セグメンテーションされていないオブジェクトで散らばった大量のデータに苦しむ。 形状完了の問題は本質的に不適切であり、高品質な結果には複数の可能な結果を考えるスケーラブルなソリューションが必要である。 我々は,マルチモーダル分布を学習し,定式化を大規模連続幾何処理に変換する生成セルオートマトンを用いる。 局所連続形状は、占有された各セルの潜在コードを含むスパースボクセル埋め込みとして徐々に生成される。 我々はスパルスボキセル埋め込みの訓練目標が完全な形状分布の変動下限を最大化すること,従って進行生成が有効な生成モデルを構成することを正式に導出した。 実験の結果,本モデルは入力に忠実な多彩なシーン,特に大量のデータ不足に苦しむ場合のシーンを良好に生成できることがわかった。 また,本手法は,データ不足が少ない場合においても決定論的モデルを上回ることを証明し,任意のレベルの完全性を示す入力スキャンにおいて,高品質な幾何学的完備化に,確率的定式化が不可欠であることを示す。

We propose a probabilistic shape completion method extended to the continuous geometry of large-scale 3D scenes. Real-world scans of 3D scenes suffer from a considerable amount of missing data cluttered with unsegmented objects. The problem of shape completion is inherently ill-posed, and high-quality result requires scalable solutions that consider multiple possible outcomes. We employ the Generative Cellular Automata that learns the multi-modal distribution and transform the formulation to process large-scale continuous geometry. The local continuous shape is incrementally generated as a sparse voxel embedding, which contains the latent code for each occupied cell. We formally derive that our training objective for the sparse voxel embedding maximizes the variational lower bound of the complete shape distribution and therefore our progressive generation constitutes a valid generative model. Experiments show that our model successfully generates diverse plausible scenes faithful to the input, especially when the input suffers from a significant amount of missing data. We also demonstrate that our approach outperforms deterministic models even in less ambiguous cases with a small amount of missing data, which infers that probabilistic formulation is crucial for high-quality geometry completion on input scans exhibiting any levels of completeness.
翻訳日:2022-04-06 02:28:18 公開日:2022-04-04
# (参考訳) FoV-Net:自己注意と不確実性を用いた視野外挿 [全文訳有]

FoV-Net: Field-of-View Extrapolation Using Self-Attention and Uncertainty ( http://arxiv.org/abs/2204.01267v1 )

ライセンス: CC BY 4.0
Liqian Ma, Stamatios Georgoulis, Xu Jia, Luc Van Gool(参考訳) 環境に関する教育的な予測を行い、それをある程度の信頼と結びつける能力は、自動運転車やロボットのようなインテリジェントシステムにとって重要である。 早期に計画し、それに応じて決定することができる。 本稿では,この観察に動機づけられ,視野の狭い映像列からの情報を活用し,より広い視野でシーンを推定する。 そこで本研究では,(1)3次元情報を利用して過去のフレームから観測されたシーンを伝搬し,(2)注意に基づく特徴集約モジュールとゲート型自己照準モジュールを用いて伝播するマルチフレーム情報を集約し,同時に観測されていないシーン部分の幻視化を行い,(3)各ピクセルに解釈可能な不確実性値を割り当てる,という時間的一貫性のあるフィールドオブビュー推定フレームワークを提案する。 広範な実験により、fov-netは、既存の代替品よりも時間的に一貫性のある視野幅の広いシーンを外挿するだけでなく、下流アプリケーションの重要な意思決定に有利な関連する不確実性を提供することが示された。 プロジェクトページはhttp://charlie memory.github.io/RAL 21_FoV。

The ability to make educated predictions about their surroundings, and associate them with certain confidence, is important for intelligent systems, like autonomous vehicles and robots. It allows them to plan early and decide accordingly. Motivated by this observation, in this paper we utilize information from a video sequence with a narrow field-of-view to infer the scene at a wider field-of-view. To this end, we propose a temporally consistent field-of-view extrapolation framework, namely FoV-Net, that: (1) leverages 3D information to propagate the observed scene parts from past frames; (2) aggregates the propagated multi-frame information using an attention-based feature aggregation module and a gated self-attention module, simultaneously hallucinating any unobserved scene parts; and (3) assigns an interpretable uncertainty value at each pixel. Extensive experiments show that FoV-Net does not only extrapolate the temporally consistent wide field-of-view scene better than existing alternatives, but also provides the associated uncertainty which may benefit critical decision-making downstream applications. Project page is at http://charliememory .github.io/RAL21_FoV .
翻訳日:2022-04-06 02:26:52 公開日:2022-04-04
# (参考訳) FedSynth: フェデレートラーニングにおける合成データによるグラディエント圧縮 [全文訳有]

FedSynth: Gradient Compression via Synthetic Data in Federated Learning ( http://arxiv.org/abs/2204.01273v1 )

ライセンス: CC BY 4.0
Shengyuan Hu, Jack Goetz, Kshitiz Malik, Hongyuan Zhan, Zhe Liu, Yue Liu(参考訳) モデル圧縮は、通信コストを削減するために大きなモデルを持つ連合学習(fl)において重要である。 これまでの研究は、大域的なモデルの精度に大きく影響する可能性のあるスペーシフィケーションベースの圧縮に焦点を当てていた。 本研究では,モデル更新を伝達する代わりに,学習データとして使用するような軽量合成データセットを各クライアントが学習し,送信する上流通信の新しい方式を提案する。 サーバは合成データを介してローカルモデルのアップデートをリカバリし、標準集約を適用する。 次に,合成データをローカルに学習するための新しいアルゴリズムfeedsynthを提案する。 実験により,本手法は,3つの共通学習ベンチマークデータセットにおいて,ランダムマスキングベースラインに比較・比較できることがわかった。

Model compression is important in federated learning (FL) with large models to reduce communication cost. Prior works have been focusing on sparsification based compression that could desparately affect the global model accuracy. In this work, we propose a new scheme for upstream communication where instead of transmitting the model update, each client learns and transmits a light-weight synthetic dataset such that using it as the training data, the model performs similarly well on the real training data. The server will recover the local model update via the synthetic data and apply standard aggregation. We then provide a new algorithm FedSynth to learn the synthetic data locally. Empirically, we find our method is comparable/better than random masking baselines in all three common federated learning benchmark datasets.
翻訳日:2022-04-06 02:07:21 公開日:2022-04-04
# (参考訳) spfnet:意味セグメンテーションのためのサブスペースピラミッド融合ネットワーク [全文訳有]

SPFNet:Subspace Pyramid Fusion Network for Semantic Segmentation ( http://arxiv.org/abs/2204.01278v1 )

ライセンス: CC BY 4.0
Mohammed A. M. Elhassan, Chenhui Yang, Chenxi Huang and Tewodros Legesse Munea(参考訳) エンコーダ・デコーダ構造は低レベル・高レベルの特徴写像を融合することにより多くの視覚タスクの性能を著しく向上させた。 しかし,この手法ではピクセルワイドセグメンテーションに十分なコンテキスト情報を抽出できない。 さらに、同様の低レベルの機能を複数スケールで抽出することは、冗長な情報につながる可能性がある。 この問題に対処するため,我々はサブスペースピラミッド融合ネットワーク (spfnet) を提案する。 具体的には、ピラミッドモジュールとコンテキストアグリゲーションモジュールを組み合わせて、マルチスケール/グローバルコンテキスト情報の影響を利用する。 まず,Reduceed Pyramid Pooling(RPP)に基づくサブスペースピラミッド融合モジュール(SPFM)を構築する。 そこで我々は,多段階のグローバルコンテキスト特徴を融合させて識別的特徴を捕捉するEGCA(Efficient Global Context Aggregation)モジュールを提案する。 最後に、デコーダベースのサブピクセル畳み込みを加えて高解像度の特徴マップを検索し、カテゴリローカライゼーションの詳細を選択するのに役立つ。 SPFMは、各特徴部分空間毎に別個のRCPを学習し、意味的セグメンテーションに有用なマルチスケール特徴表現をキャプチャする。 EGCAはシャッフルアテンション機構を採用し、異なるサブ機能間のコミュニケーションを強化する。 CamvidとCityscapesを含む2つのよく知られたセマンティックセマンティックセマンティクスデータセットの実験結果から,提案手法は他の最先端手法と競合することを示す。

The encoder-decoder structure has significantly improved performance in many vision tasks by fusing low-level and high-level feature maps. However, this approach can hardly extract sufficient context information for pixel-wise segmentation. In addition, extracting similar low-level features at multiple scales could lead to redundant information. To tackle these issues, we propose Subspace Pyramid Fusion Network (SPFNet). Specifically, we combine pyramidal module and context aggregation module to exploit the impact of multi-scale/global context information. At first, we construct a Subspace Pyramid Fusion Module (SPFM) based on Reduced Pyramid Pooling (RPP). Then, we propose the Efficient Global Context Aggregation (EGCA) module to capture discriminative features by fusing multi-level global context features. Finally, we add decoder-based subpixel convolution to retrieve the high-resolution feature maps, which can help select category localization details. SPFM learns separate RPP for each feature subspace to capture multi-scale feature representations, which is more useful for semantic segmentation. EGCA adopts shuffle attention mechanism to enhance communication across different sub-features. Experimental results on two well-known semantic segmentation datasets, including Camvid and Cityscapes, show that our proposed method is competitive with other state-of-the-art methods.
翻訳日:2022-04-06 02:01:11 公開日:2022-04-04
# (参考訳) 慢性疾患分類のための最適特徴選択に基づく非教師なしロジスティック回帰(OFS-ULR)を用いたライフログデータの解析 [全文訳有]

Analysis of lifelog data using optimal feature selection based unsupervised logistic regression (OFS-ULR) for chronic disease classification ( http://arxiv.org/abs/2204.01281v1 )

ライセンス: CC BY 4.0
Sadhana Tiwari, Sonali Agarwal(参考訳) 広範医療監視システムの分野における最近の進歩は、大量のライフログデータをリアルタイムで生成する原因となっている。 慢性疾患は発展途上国で最も深刻な健康問題の一つである。 whoによると、これは全死者の73%、世界的な疾病の負担の60%を占めている。 慢性疾患分類モデルは現在、より良い医療実践を探求するためにライフログデータの可能性を活用している。 本稿では,慢性疾患の分類に最適な特徴選択に基づく非教師なしロジスティック回帰モデル(OFS-ULR)を構築する。 ライフログデータ解析は感度の高い性質から重要であるため,従来の分類モデルでは性能が制限されている。 したがって、ライフログデータを用いた慢性疾患分類のための新しい分類器の設計は年齢のニーズである。 よいモデルを構築する上で不可欠な部分は、データセットの事前処理、重要な特徴の特定、パフォーマンス向上のための適切なハイパーパラメータによる学習アルゴリズムのトレーニングなどに依存する。 提案手法は,一連のステップを用いて既存手法の性能を向上させる。 i) 冗長または無効なインスタンスを削除すること (ii) データをクラスタ化してクラスに分割することでラベル付けする。 (iii)あるドメイン知識又は選択アルゴリズムを適用して、その特徴の適切な部分集合を特定すること。 (iv) モデルが最良の結果を得るためのハイパーパラメータチューニング (v)sparkストリーミング環境を用いた性能評価。 この目的で、2回の時系列データセットを使用して、精度、リコール、精度、およびf1-scoreを計算する。 実験解析により,従来の分類器と比較して,提案手法の適合性が証明され,新たに構築したモデルが最も精度が高く,訓練の複雑さも低減した。

Recent advancement in the field of pervasive healthcare monitoring systems causes the generation of a huge amount of lifelog data in real-time. Chronic diseases are one of the most serious health challenges in developing and developed countries. According to WHO, this accounts for 73% of all deaths and 60% of the global burden of diseases. Chronic disease classification models are now harnessing the potential of lifelog data to explore better healthcare practices. This paper is to construct an optimal feature selection-based unsupervised logistic regression model (OFS-ULR) to classify chronic diseases. Since lifelog data analysis is crucial due to its sensitive nature; thus the conventional classification models show limited performance. Therefore, designing new classifiers for the classification of chronic diseases using lifelog data is the need of the age. The vital part of building a good model depends on pre-processing of the dataset, identifying important features, and then training a learning algorithm with suitable hyper parameters for better performance. The proposed approach improves the performance of existing methods using a series of steps such as (i) removing redundant or invalid instances, (ii) making the data labelled using clustering and partitioning the data into classes, (iii) identifying the suitable subset of features by applying either some domain knowledge or selection algorithm, (iv) hyper parameter tuning for models to get best results, and (v) performance evaluation using Spark streaming environment. For this purpose, two-time series datasets are used in the experiment to compute the accuracy, recall, precision, and f1-score. The experimental analysis proves the suitability of the proposed approach as compared to the conventional classifiers and our newly constructed model achieved highest accuracy and reduced training complexity among all among all.
翻訳日:2022-04-06 01:35:11 公開日:2022-04-04
# (参考訳) 層正規化LSTMと層ワイド関連伝搬を有するディジタル双晶上の説明可能なオンラインレーン変化予測 [全文訳有]

Explainable Online Lane Change Predictions on a Digital Twin with a Layer Normalized LSTM and Layer-wise Relevance Propagation ( http://arxiv.org/abs/2204.01292v1 )

ライセンス: CC BY 4.0
Christoph Wehner and Francis Powlesland and Bashar Altakrouri and Ute Schmid(参考訳) 人工知能とデジタル双子は、インテリジェント運転の領域におけるイノベーションを推進する上で不可欠な役割を果たす。 長期記憶(Long Short-term memory, LSTM)は、車線変化予測の先駆者である。 しかし、そのようなモデルの意思決定プロセスは複雑で不透明であるため、スマートソリューションの信頼性が低下する。 本研究は,LRP(Layer-wise Relevance Propagation)を用いて,レイヤ正規化LSTMのレーン変化予測を説明するための革新的な手法と技術的実装を提案する。 コア実装には、ドイツの高速道路でデジタルツインからライブデータを消費すること、LSPを正規化されたLSTM層に拡張することによりレーン変更のライブ予測と説明、予測を人間に伝達し説明するためのインターフェースが含まれる。 我々は、人間を含むAIシステムの採用と信頼性を高めるために、車線変更予測の忠実で理解しやすく適応可能な説明を実証することを目指している。 本研究は, 予測精度に悪影響を及ぼすことなく, 操作予測のためのMLモデルの説明可能性と最先端性能を両立させる。

Artificial Intelligence and Digital Twins play an integral role in driving innovation in the domain of intelligent driving. Long short-term memory (LSTM) is a leading driver in the field of lane change prediction for manoeuvre anticipation. However, the decision-making process of such models is complex and non-transparent, hence reducing the trustworthiness of the smart solution. This work presents an innovative approach and a technical implementation for explaining lane change predictions of layer normalized LSTMs using Layer-wise Relevance Propagation (LRP). The core implementation includes consuming live data from a digital twin on a German highway, live predictions and explanations of lane changes by extending LRP to layer normalized LSTMs, and an interface for communicating and explaining the predictions to a human user. We aim to demonstrate faithful, understandable, and adaptable explanations of lane change prediction to increase the adoption and trustworthiness of AI systems that involve humans. Our research also emphases that explainability and state-of-the-art performance of ML models for manoeuvre anticipation go hand in hand without negatively affecting predictive effectiveness.
翻訳日:2022-04-06 01:22:26 公開日:2022-04-04
# (参考訳) REM: カプセルネットワークのためのルーティングエントロピー最小化 [全文訳有]

REM: Routing Entropy Minimization for Capsule Networks ( http://arxiv.org/abs/2204.01298v1 )

ライセンス: CC BY 4.0
Riccardo Renzulli, Enzo Tartaglione, Marco Grangetto(参考訳) Capsule Networkの目標は、説明可能で生物学的にインスパイアされたニューラルネットワークモデルを構築することだ。 彼らの主なイノベーションの1つは、パースツリーを抽出するルーティングメカニズムに依存している: その主な目的は、カプセル間の関係を明示的に構築することである。 しかし、それらの説明可能性の真の可能性はまだ表面化されておらず、これらの関係は非常に異質で理解が難しい。 本稿では,構文樹状構造のエントロピーを最小化し,その説明可能性を向上させる手法であるREMを提案する。 本研究では,モデルパラメータ分布を低エントロピー構成へと誘導し,プルーニング機構をプロキシとして用いる。 また、性能損失のない静的解析木を生成し、REMではカプセル間のより強い関係を構築する。

Capsule Networks ambition is to build an explainable and biologically-inspire d neural network model. One of their main innovations relies on the routing mechanism which extracts a parse tree: its main purpose is to explicitly build relationships between capsules. However, their true potential in terms of explainability has not surfaced yet: these relationships are extremely heterogeneous and difficult to understand. This paper proposes REM, a technique which minimizes the entropy of the parse tree-like structure, improving its explainability. We accomplish this by driving the model parameters distribution towards low entropy configurations, using a pruning mechanism as a proxy. We also generate static parse trees with no performance loss, showing that, with REM, Capsule Networks build stronger relationships between capsules.
翻訳日:2022-04-06 01:12:46 公開日:2022-04-04
# (参考訳) RayMVSNet: 正確なマルチビューステレオのためのレイベース1Dインプリシトフィールド学習 [全文訳有]

RayMVSNet: Learning Ray-based 1D Implicit Fields for Accurate Multi-View Stereo ( http://arxiv.org/abs/2204.01320v1 )

ライセンス: CC BY 4.0
Junhua Xi, Yifei Shi, Yijie Wang, Yulan Guo, Kai Xu(参考訳) 学習ベースのマルチビューステレオ(MVS)は、コストボリュームの3D畳み込みを中心にしている。 3D CNNの高計算とメモリ消費のため、出力深さの解像度は大幅に制限されることが多い。 コストボリュームを適応的に改善するための既存の作業とは異なり、我々はレーザースキャナーの範囲(深度)を模倣して、各カメラ線に沿った深さ値を直接最適化する。 これによりmvsの問題は、フルコストのボリューム最適化よりもはるかに軽量なレイベースの深さ最適化に抑えられる。 特に,シーン深度を示すゼロクロスポイントを用いて,各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習するRayMVSNetを提案する。 この逐次モデリングは変圧器の特徴に基づいて行われ、従来のマルチビューステレオのエピポーラ線探索を本質的に学習する。 また,最適化収束と深度精度向上のためのマルチタスク学習も考案した。 我々の手法は、DTUとタンク&テンプルのデータセットの上位にランクされ、DTUでは0.33mm、タンク&テンプルでは59.48%となっている。

Learning-based multi-view stereo (MVS) has by far centered around 3D convolution on cost volumes. Due to the high computation and memory consumption of 3D CNN, the resolution of output depth is often considerably limited. Different from most existing works dedicated to adaptive refinement of cost volumes, we opt to directly optimize the depth value along each camera ray, mimicking the range (depth) finding of a laser scanner. This reduces the MVS problem to ray-based depth optimization which is much more light-weight than full cost volume optimization. In particular, we propose RayMVSNet which learns sequential prediction of a 1D implicit field along each camera ray with the zero-crossing point indicating scene depth. This sequential modeling, conducted based on transformer features, essentially learns the epipolar line search in traditional multi-view stereo. We also devise a multi-task learning for better optimization convergence and depth accuracy. Our method ranks top on both the DTU and the Tanks \& Temples datasets over all previous learning-based methods, achieving overall reconstruction score of 0.33mm on DTU and f-score of 59.48% on Tanks & Temples.
翻訳日:2022-04-06 00:59:48 公開日:2022-04-04
# (参考訳) IMOT:外乱を考慮した空間知覚問題に対する汎用的,高速,ロバストな評価 [全文訳有]

IMOT: General-Purpose, Fast and Robust Estimation for Spatial Perception Problems with Outliers ( http://arxiv.org/abs/2204.01324v1 )

ライセンス: CC0 1.0
Lei Sun(参考訳) 空間知覚問題はロボット工学とコンピュータビジョンの基本的な構成要素である。 しかし、現実世界の多くの状況において、彼らは必然的に外れ値の問題に苦しんでいるため、従来の解法者が正しい見積もりをするのを妨げる。 本稿では,標準的な非最小解法を用いて,空間知覚問題に対する外れ値の高速拒否を行う,汎用頑健性推定器IMOT(Iterative Multi-layered Otsu's Thresholding)を提案する。 まず, 残差誤差に応じてすべての測定データを2つのグループに分割し, 残差誤差の低いグループのみを次のイテレーションで推定するために保存する, 新たなアウトリー・ロバスト反復最適化フレームワークを提案する。 次に,よく知られた大津法(画像処理から)を導入し,残差誤差のしきい値化を行い,クラス間分散を最大化する最適分離(グループ化)を統計的に獲得する。 第三に、ロバスト性を高めるために、我々のフレームワークと組み合わせて多層式大津しきい値測定手法を設計し、測定の大部分を占める可能性のある外れ値から真のインレーヤを抽出する。 我々は, 回転平均化, 回転探索, 点雲登録, カテゴリーレベル登録, SLAMの5つの空間認識問題に対して, 頑健な推定器IMOTを検証した。 実験の結果、IMOTは外れ値の70%--90%に対して堅牢であり、通常は3~10回しか収束せず、既存の頑健な推定値であるGNCとADAPTの3~125倍の速度であることがわかった。 さらに、IMOTはノイズ境界情報なしで頑健な結果を返すことができる。

Spatial perception problems are the fundamental building blocks of robotics and computer vision. However, in many real-world situations, they inevitably suffer from the issue of outliers, which hinders traditional solvers from making correct estimates. In this paper, we present a novel, general-purpose robust estimator IMOT (Iterative Multi-layered Otsu's Thresholding) using standard non-minimal solvers to rapidly reject outliers for spatial perception problems. First, we propose a new outlier-robust iterative optimizing framework where in each iteration all the measurement data are separated into two groups according to the residual errors and only the group with lower residual errors can be preserved for estimation in the next iteration. Second, we introduce and employ the well-known Otsu's method (from image processing) to conduct thresholding on the residual errors so as to obtain the best separation (grouping) statistically which maximizes the between-class variance. Third, to enhance robustness, we design a multi-layered Otsu's thresholding approach in combination with our framework to sift out the true inliers from outliers that might even occupy the majority of measurements. We test our robust estimator IMOT on 5 different spatial perception problems including: rotation averaging, rotation search, point cloud registration, category-level registration, and SLAM. Experiments show that IMOT is robust against 70%--90% of outliers and can typically converge in only 3--10 iterations, being 3--125 times faster than existing robust estimators: GNC and ADAPT. Moreover, IMOT is able to return robust results even without noise bound information.
翻訳日:2022-04-06 00:44:51 公開日:2022-04-04
# (参考訳) 複雑な多状態系のベイズネットワークモデリングと信頼性推定のためのアルゴリズム: part ii-dependent systems [全文訳有]

Algorithms for Bayesian network modeling and reliability inference of complex multistate systems: Part II-Dependent systems ( http://arxiv.org/abs/2204.01327v1 )

ライセンス: CC0 1.0
Xiaohu Zheng, Wen Yao, Xiaoqian Chen(参考訳) ベイジアンネットワーク(BN)を用いて複雑なマルチステートシステムの信頼性モデルを構築する場合、NPT(ノード確率テーブル)のメモリ記憶要求は、コンピュータのランダムアクセスメモリ(RAM)を超える。 しかし、パートIの推論アルゴリズムは依存システムには適していない。 第2部は,複雑な多状態依存系に圧縮アイデアを適用するための,bn信頼性モデリングと解析の新しい手法を提案する。 この部分iiでは、依存ノードとその親ノードはブロックと同値であり、そのブロックのすべてのノードの合同確率分布を計算するために多状態合同確率推論アルゴリズムが提案されている。 そして,提案する多状態圧縮アルゴリズムに基づいて,複雑な多状態依存システムに対して従属多状態推定アルゴリズムを提案する。 提案アルゴリズムの使用と精度をケース1で示す。 最後に,衛星姿勢制御システムの信頼性モデリングと解析に提案手法を適用した。 その結果、パートiとパートiiのアルゴリズムは、複雑な多状態システムの信頼性モデリングと解析を可能としている。

In using the Bayesian network (BN) to construct the complex multistate system's reliability model as described in Part I, the memory storage requirements of the node probability table (NPT) will exceed the random access memory (RAM) of the computer. However, the proposed inference algorithm of Part I is not suitable for the dependent system. This Part II proposes a novel method for BN reliability modeling and analysis to apply the compression idea to the complex multistate dependent system. In this Part II, the dependent nodes and their parent nodes are equivalent to a block, based on which the multistate joint probability inference algorithm is proposed to calculate the joint probability distribution of a block's all nodes. Then, based on the proposed multistate compression algorithm of Part I, the dependent multistate inference algorithm is proposed for the complex multistate dependent system. The use and accuracy of the proposed algorithms are demonstrated in case 1. Finally, the proposed algorithms are applied to the reliability modeling and analysis of the satellite attitude control system. The results show that both Part I and Part II's proposed algorithms make the reliability modeling and analysis of the complex multistate system feasible.
翻訳日:2022-04-06 00:27:59 公開日:2022-04-04
# (参考訳) ニューラルネットワークテキスト分類器の効率的不確実性に基づくモデレーション [全文訳有]

Efficient, Uncertainty-based Moderation of Neural Networks Text Classifiers ( http://arxiv.org/abs/2204.01334v1 )

ライセンス: CC BY 4.0
Jakob Smedegaard Andersen, Walid Maalej(参考訳) 精度を最大化し,テキスト分類器の全体的な受入を増加させるため,分類器の出力の効率的かつ操作内モデレーションのためのフレームワークを提案する。 我々のフレームワークは、現代のニューラルネットワーク分類器(ca.~90%)のF1スコアが実際には適用できないユースケースに焦点を当てている。 予測の不確実性を人間のモデレータに不正確な分類を渡すための半自動的なアプローチを提案する。 作業負荷を最小限に抑えるため、人間の適度なデータは、精度が飽和し、さらなる人的努力が大幅な改善には至らない点に制限する。 3つの異なるデータセットと3つの最先端分類器に基づく一連のベンチマーク実験により、我々のフレームワークは、ランダムなモデレーションに比べてモデレーション負荷を最大73.3%削減しつつ、F1スコアを5.1から11.2%改善できることがわかった。

To maximize the accuracy and increase the overall acceptance of text classifiers, we propose a framework for the efficient, in-operation moderation of classifiers' output. Our framework focuses on use cases in which F1-scores of modern Neural Networks classifiers (ca.~90%) are still inapplicable in practice. We suggest a semi-automated approach that uses prediction uncertainties to pass unconfident, probably incorrect classifications to human moderators. To minimize the workload, we limit the human moderated data to the point where the accuracy gains saturate and further human effort does not lead to substantial improvements. A series of benchmarking experiments based on three different datasets and three state-of-the-art classifiers show that our framework can improve the classification F1-scores by 5.1 to 11.2% (up to approx.~98 to 99%), while reducing the moderation load up to 73.3% compared to a random moderation.
翻訳日:2022-04-05 23:27:09 公開日:2022-04-04
# (参考訳) ピクセル間隔ダウンサンプリング(pid)の環境微生物画像への高密度微小微生物計数への応用 [全文訳有]

An application of Pixel Interval Down-sampling (PID) for dense tiny microorganism counting on environmental microorganism images ( http://arxiv.org/abs/2204.01341v1 )

ライセンス: CC0 1.0
Jiawei Zhang, Ning Xu, Chen Li, Md Mamunur Rahaman, Yu-Dong Yao, Yu-Hao Lin, Jinghua Zhang, Tao Jiang, Wenjun Qin, Marcin Grzegorzek(参考訳) 本稿では,高精細度オブジェクト(酵母細胞)を高精度にカウントするための新しい画素間隔ダウンサンプリングネットワーク(PID-Net)を提案する。 PID-Netはエンコーダとデコーダアーキテクチャを備えたエンドツーエンドCNNモデルである。 画素間隔のダウンサンプリング操作は、スパースと濃密な特徴を組み合わせた最大プール演算と連結される。 これは、数えながら高密度物体の輪郭凝縮の制限に対処する。 評価は古典的なセグメンテーションのメトリクス(Dice, Jaccard, Hausdorff 距離)とカウントのメトリクスを使用して行われた。 実験の結果,提案するpid-netは密度の高い小型物体を数えるのに最適な性能とポテンシャルを示し,2448個の酵母細胞画像を用いたデータセット上で96.97%の精度が得られることがわかった。 Attention U-Net、Swin U-Net、Trans U-Netといった最先端のアプローチと比較することにより、提案したPID-Netは、細密なオブジェクトを、より明確な境界と少ない誤ったデブリで分割することができる。

This paper proposes a novel pixel interval down-sampling network (PID-Net) for dense tiny objects (yeast cells) counting tasks with higher accuracy. The PID-Net is an end-to-end CNN model with encoder to decoder architecture. The pixel interval down-sampling operations are concatenated with max-pooling operations to combine the sparse and dense features. It addresses the limitation of contour conglutination of dense objects while counting. Evaluation was done using classical segmentation metrics (Dice, Jaccard, Hausdorff distance) as well as counting metrics. Experimental result shows that the proposed PID-Net has the best performance and potential for dense tiny objects counting tasks, which achieves 96.97% counting accuracy on the dataset with 2448 yeast cell images. By comparing with the state-of-the-art approaches like Attention U-Net, Swin U-Net and Trans U-Net, the proposed PID-Net can segment the dense tiny objects with clearer boundaries and fewer incorrect debris, which shows the great potential of PID-Net in the task of accurate counting tasks.
翻訳日:2022-04-05 23:14:15 公開日:2022-04-04
# (参考訳) mosra:joint mean opinion scoreとroom acoustics speech quality assessment [全文訳有]

MOSRA: Joint Mean Opinion Score and Room Acoustics Speech Quality Assessment ( http://arxiv.org/abs/2204.01345v1 )

ライセンス: CC BY 4.0
Karl El Hajal, Milos Cernak, Pablo Mainar(参考訳) 音声環境は、コミュニケーション中の音声品質(ビデオ通話、リモートプレゼンテーション、音声録音など)を劣化させ、その影響はよく分かっていない。 音声品質に影響を与える因子の多次元性とラベル付きデータ収集の困難さを考えると,音声品質の客観的指標の開発は困難であることが証明されている。 本論文は、音響が音声品質に与える影響を仮定し、室内音響パラメータ(SNR, STI, T60, DRR, C50)を音声品質の総合評価スコア(MOS)とともに予測できる非侵入性多次元音声品質指標であるMOSRAを提案する。 これらの室内音響パラメータを学習するためにモデルを明示的に最適化することにより、より情報的な特徴を抽出し、トレーニングデータに制限がある場合のMOSタスクの一般化を改善することができる。 さらに,この共同学習手法により,室内音響のブラインド推定が向上し,現在の最先端モデルの性能が向上することを示す。 この共同予測のさらなる副作用は、多くのアプリケーションにとって価値のある機能である予測の説明可能性の改善である。

The acoustic environment can degrade speech quality during communication (e.g., video call, remote presentation, outside voice recording), and its impact is often unknown. Objective metrics for speech quality have proven challenging to develop given the multi-dimensionality of factors that affect speech quality and the difficulty of collecting labeled data. Hypothesizing the impact of acoustics on speech quality, this paper presents MOSRA: a non-intrusive multi-dimensional speech quality metric that can predict room acoustics parameters (SNR, STI, T60, DRR, and C50) alongside the overall mean opinion score (MOS) for speech quality. By explicitly optimizing the model to learn these room acoustics parameters, we can extract more informative features and improve the generalization for the MOS task when the training data is limited. Furthermore, we also show that this joint training method enhances the blind estimation of room acoustics, improving the performance of current state-of-the-art models. An additional side-effect of this joint prediction is the improvement in the explainability of the predictions, which is a valuable feature for many applications.
翻訳日:2022-04-05 23:02:22 公開日:2022-04-04
# (参考訳) ソーシャルメディア上での危険事象の検出 : 展望レビュー [全文訳有]

Detection of Dangerous Events on Social Media: A Perspective Review ( http://arxiv.org/abs/2204.01351v1 )

ライセンス: CC BY 4.0
M. Luqman Jamil, Sebasti\~ao Pais, Jo\~ao Cordeiro(参考訳) ソーシャルメディアは、世界中の人々にとって情報とコミュニケーションの重要な入り口である。 ソーシャルメディア上での人々の時間と信頼は、実生活で起きている出来事を検出するための重要なリソースとなる。 毎日何千もの重要なイベントが、マルチメディア形式でユーザーによって投稿される。 一部の個人やグループは、これらのユーザ間のアジェンダを促進するために、聴衆をターゲットにしています。 その原因は、同じ見解を共有しない、あるいは特定の違いを持つ他のグループや個人を脅かす可能性がある。 決定的な原因を持つグループは、彼らのアジェンダの触媒として働く支持なしでは生き残れない。 人々が自分の代理として行動し、アジェンダを実行するモチベーションとなる情報を供給される現象が起こる。 一つは、生活、資産、身体的および感情的な健康を危険にさらすことで、他人を失うことによる利益である。 本稿では,この問題にアプローチするための危険事象の概念と,その特徴に基づく3つの主要なタイプ,行動,シナリオ,感情に基づく危険事象について紹介する。

Social media is an essential gateway of information and communication for people worldwide. The amount of time spent and reliance of people on social media makes it a vital resource for detecting events happening in real life. Thousands of significant events are posted by users every hour in the form of multimedia. Some individuals and groups target the audience to promote their agenda among these users. Their cause can threaten other groups and individuals who do not share the same views or have specific differences. Any group with a definitive cause cannot survive without the support which acts as a catalyst for their agenda. A phenomenon occurs where people are fed information that motivates them to act on their behalf and carry out their agenda. One is benefit results in the loss of the others by putting their lives, assets, physical and emotional health in danger. This paper introduces a concept of dangerous events to approach this problem and their three main types based on their characteristics: action, scenarios, and sentiment-based dangerous events.
翻訳日:2022-04-05 22:52:18 公開日:2022-04-04
# (参考訳) 離散インデックス付き流れ

Discretely Indexed Flows ( http://arxiv.org/abs/2204.01361v1 )

ライセンス: CC BY 4.0
Elouan Argouarc'h, Fran\c{c}ois Desbouvries, Eric Barat, Eiji Kawasaki, Thomas Dautremer(参考訳) 本稿では,変分推定問題の解法として離散インデックスフロー(DIF)を提案する。 概して、DIFは正規化フロー(NF)の拡張として構築され、決定論的輸送が確率的になり、より正確に離散的にインデックス付けされる。 基礎となる追加の潜在変数の離散的性質から、difはnfのよい計算挙動を継承している:それらは扱いやすい密度と単純なサンプリングスキームの両方の恩恵を受け、従って変分推論 (vi) と変分密度推定 (vde) の二重問題に使うことができる。 一方、difは、一定の混合重みを柔軟な関数に置き換える混合密度モデルの延長としても理解することができる。 その結果、difは不連続、鋭いエッジ、細かいディテールを持つ分布を捉えるのに適しており、この構成の主な利点となっている。 最後に、実際に構成g dif の手法を提案し、dif を逐次カスケードし、nf でカスケードできることを示す。

In this paper we propose Discretely Indexed flows (DIF) as a new tool for solving variational estimation problems. Roughly speaking, DIF are built as an extension of Normalizing Flows (NF), in which the deterministic transport becomes stochastic, and more precisely discretely indexed. Due to the discrete nature of the underlying additional latent variable, DIF inherit the good computational behavior of NF: they benefit from both a tractable density as well as a straightforward sampling scheme, and can thus be used for the dual problems of Variational Inference (VI) and of Variational density estimation (VDE). On the other hand, DIF can also be understood as an extension of mixture density models, in which the constant mixture weights are replaced by flexible functions. As a consequence, DIF are better suited for capturing distributions with discontinuities, sharp edges and fine details, which is a main advantage of this construction. Finally we propose a methodology for constructiong DIF in practice, and see that DIF can be sequentially cascaded, and cascaded with NF.
翻訳日:2022-04-05 22:34:21 公開日:2022-04-04
# (参考訳) ベンチマークグラフ学習のための合成グラフ生成 [全文訳有]

Synthetic Graph Generation to Benchmark Graph Learning ( http://arxiv.org/abs/2204.01376v1 )

ライセンス: CC BY 4.0
Anton Tsitsulin, Benedek Rozemberczki, John Palowitch, Bryan Perozzi(参考訳) グラフ学習アルゴリズムは,ノード分類やリンク予測,クラスタリングなど,多くのグラフ解析タスクにおいて,最先端のパフォーマンスを達成した。 しかし、フィールドの急激な進歩を追跡することは困難になっている。 1つの理由は、グラフ学習アルゴリズムのパフォーマンスをベンチマークするために実際に使用されるデータセットが極めて少ないためである。 この衝撃的なほど小さなサンプルサイズ (~10) は、この問題に関する科学的知見に限られる。 この研究では、この不足に対処することを目指している。 本稿では,合成グラフの生成と,制御シナリオにおけるグラフ学習アルゴリズムの挙動について検討する。 異なるモデルの深い検査を可能にする全機能合成グラフ生成器を開発した。 合成グラフ生成は、アルゴリズムの徹底的な調査を可能にし、3つの引用データセットの過度な適合よりも多くの洞察を提供する。 ケーススタディでは、我々のフレームワークがどのように教師なしおよび教師なしグラフニューラルネットワークモデルに対する洞察を提供するかを示す。

Graph learning algorithms have attained state-of-the-art performance on many graph analysis tasks such as node classification, link prediction, and clustering. It has, however, become hard to track the field's burgeoning progress. One reason is due to the very small number of datasets used in practice to benchmark the performance of graph learning algorithms. This shockingly small sample size (~10) allows for only limited scientific insight into the problem. In this work, we aim to address this deficiency. We propose to generate synthetic graphs, and study the behaviour of graph learning algorithms in a controlled scenario. We develop a fully-featured synthetic graph generator that allows deep inspection of different models. We argue that synthetic graph generations allows for thorough investigation of algorithms and provides more insights than overfitting on three citation datasets. In the case study, we show how our framework provides insight into unsupervised and supervised graph neural network models.
翻訳日:2022-04-05 22:33:16 公開日:2022-04-04
# (参考訳) ROCKETを有効利用する:光波を用いた多変量時系列分類 [全文訳有]

Taking ROCKET on an efficiency mission: Multivariate time series classification with LightWaves ( http://arxiv.org/abs/2204.01379v1 )

ライセンス: CC BY 4.0
Leonardos Pantiskas, Kees Verstoep, Mark Hoogendoorn, Henri Bal(参考訳) 近年、医療や産業などの分野におけるセンサの増加に伴い、多変量時系列分類(MTSC)の問題がますます重要になってきており、機械学習やディープラーニングのアプローチの主要なターゲットとなっている。 現実の環境での採用の拡大は、複雑なモデルによるより高い予測精度の追求から、精度と予測速度などのパラメータのバランスをとる実用的なデプロイ可能なソリューションへの移行を招いている。 近年注目されているMTSCモデルは、非常に高速なトレーニングプロセスと最先端の精度の両方のため、ランダムな畳み込みカーネルに基づくROCKETである。 しかし、それが利用する多くの機能は推論時間に有害である可能性がある。 理論的背景と限界を理解することで潜在的な欠点に対処し、トレーニングと推論の両方で高速な正確なMTSCのためのフレームワークLightWaveSを提示する。 具体的には、ウェーブレット散乱変換と分散特徴選択を利用して、最近のディープラーニングモデルに匹敵する精度を保ちながら、ROCKET機能のわずか2.5%を利用するソリューションを作成する。 LightWaveSはまた、複数の計算ノードにまたがって、トレーニング中に入力チャネルの数でうまくスケールする。 さらに、最も有用なチャネルのみを保持することで、入力サイズを大幅に削減し、MTSC問題に対する洞察を与えることができる。 このアルゴリズムの3つのバージョンと,分散トレーニング時間とスケーラビリティ,精度,推論の高速化に関する結果を示す。 エッジデバイス上での推論において, ROCKETと比較して9倍から65倍の高速化を実現していることを示す。

Nowadays, with the rising number of sensors in sectors such as healthcare and industry, the problem of multivariate time series classification (MTSC) is getting increasingly relevant and is a prime target for machine and deep learning approaches. Their expanding adoption in real-world environments is causing a shift in focus from the pursuit of ever higher prediction accuracy with complex models towards practical, deployable solutions that balance accuracy and parameters such as prediction speed. An MTSC model that has attracted attention recently is ROCKET, based on random convolutional kernels, both because of its very fast training process and its state-of-the-art accuracy. However, the large number of features it utilizes may be detrimental to inference time. Examining its theoretical background and limitations enables us to address potential drawbacks and present LightWaveS: a framework for accurate MTSC, which is fast both during training and inference. Specifically, utilizing wavelet scattering transformation and distributed feature selection, we manage to create a solution which employs just 2.5% of the ROCKET features, while achieving accuracy comparable to recent deep learning models. LightWaveS also scales well across multiple compute nodes and with the number of input channels during training. In addition, it can significantly reduce the input size and provide insight to an MTSC problem by keeping only the most useful channels. We present three versions of our algorithm and their results on distributed training time and scalability, accuracy and inference speedup. We show that we achieve speedup ranging from 9x to 65x compared to ROCKET during inference on an edge device, on datasets with comparable accuracy.
翻訳日:2022-04-05 22:26:09 公開日:2022-04-04
# (参考訳) プリトレーニングニューラルネットワークのためのアライメント重み調整器 [全文訳有]

Aligned Weight Regularizers for Pruning Pretrained Neural Networks ( http://arxiv.org/abs/2204.01385v1 )

ライセンス: CC BY 4.0
James O' Neill and Sourav Dutta and Haytham Assem(参考訳) 反復的刈り取りのための様々な研究方法が検討されているが、刈り取りがゼロショットテスト性能にどのような影響を及ぼすか、そして刈り取り基準の選択にどのような影響があるかはほとんど知られていない。 このプルーニング設定は、プリトレーニング中に言語表現間のアライメントを暗黙的に学習するクロスリンガルモデルにとって特に重要であり、プルーニングによって歪んだ場合、再トレーニングに使用される言語データのパフォーマンスが低下するだけでなく、評価されるゼロショット言語も低下する。 本研究では,標準教師付き学習とゼロショット設定との比較において,等級ベースプルーニングにおける性能差が明らかであることを示す。 そこで本研究では,prunedクロスリンガルモデルのアライメント歪みを軽減するため,prunedネットワークとunprunedネットワークのアライメントを最大化することを目的とした2つの重み調整器を提案する。 我々はXLM-RoBERTa$_{\mathrm{Base}}$を用いてゼロショット設定のための言語間タスクの実験結果を提供する。 これは言語間モデル圧縮に焦点を当てた最初の研究でもある。

While various avenues of research have been explored for iterative pruning, little is known what effect pruning has on zero-shot test performance and its potential implications on the choice of pruning criteria. This pruning setup is particularly important for cross-lingual models that implicitly learn alignment between language representations during pretraining, which if distorted via pruning, not only leads to poorer performance on language data used for retraining but also on zero-shot languages that are evaluated. In this work, we show that there is a clear performance discrepancy in magnitude-based pruning when comparing standard supervised learning to the zero-shot setting. From this finding, we propose two weight regularizers that aim to maximize the alignment between units of pruned and unpruned networks to mitigate alignment distortion in pruned cross-lingual models and perform well for both non zero-shot and zero-shot settings. We provide experimental results on cross-lingual tasks for the zero-shot setting using XLM-RoBERTa$_{\mathrm{Base}}$, where we also find that pruning has varying degrees of representational degradation depending on the language corresponding to the zero-shot test set. This is also the first study that focuses on cross-lingual language model compression.
翻訳日:2022-04-05 22:09:45 公開日:2022-04-04
# (参考訳) 連続物体検出のための再検討蒸留

Re-examining Distillation For Continual Object Detection ( http://arxiv.org/abs/2204.01407v1 )

ライセンス: CC BY 4.0
Eli Verwimp, Kuo Yang, Sarah Parisot, Hong Lanqing, Steven McDonagh, Eduardo P\'erez-Pellitero, Matthias De Lange and Tinne Tuytelaars(参考訳) 新しいクラスや新しいドメインからオブジェクトを検出し、分類するためのトレーニングモデルは、依然としてオープンな問題である。 本研究では,物体検出モデルが破滅的に忘れられる理由と方法の徹底的な分析を行う。 我々は,2段階ネットワークにおける蒸留に基づくアプローチ,現代連続物体検出作業で採用される最も一般的な戦略に着目し,新しい課題を学習しながら,従来の課題(教師)で訓練されたモデルの知識を新しいモデル(生徒)に伝達することを目的とする。 提案手法が地域提案ネットワークに有効であることは明らかだが,教師の予測に過度に自信を持てば,学生モデルによる分類ヘッドの効果的な学習が妨げられる。 本分析は,現在の接地ラベルに基づく不正確な教師予測の検出と,分類ヘッドの蒸留損失の平均二乗誤差とは対照的に適応的なフーバ損失を用いることにより,既存の手法の改善を提案する基礎を提供する。 私たちは、この戦略がクラスインクリメンタルな設定だけでなく、現実的なコンテキストを構成するドメインインクリメンタルな設定でも機能することを示しています。

Training models continually to detect and classify objects, from new classes and new domains, remains an open problem. In this work, we conduct a thorough analysis of why and how object detection models forget catastrophically. We focus on distillation-based approaches in two-stage networks; the most-common strategy employed in contemporary continual object detection work.Distillation aims to transfer the knowledge of a model trained on previous tasks -- the teacher -- to a new model -- the student -- while it learns the new task. We show that this works well for the region proposal network, but that wrong, yet overly confident teacher predictions prevent student models from effective learning of the classification head. Our analysis provides a foundation that allows us to propose improvements for existing techniques by detecting incorrect teacher predictions, based on current ground-truth labels, and by employing an adaptive Huber loss as opposed to the mean squared error for the distillation loss in the classification heads. We evidence that our strategy works not only in a class incremental setting, but also in domain incremental settings, which constitute a realistic context, likely to be the setting of representative real-world problems.
翻訳日:2022-04-05 21:54:33 公開日:2022-04-04
# (参考訳) 脳小血管疾患のMRIマーカーのコンピュータ支援による抽出 : 全身的検討

Computer-Aided Extraction of Select MRI Markers of Cerebral Small Vessel Disease: A Systematic Review ( http://arxiv.org/abs/2204.01411v1 )

ライセンス: CC BY 4.0
Jiyang Jiang, Dadong Wang, Yang Song, Perminder S. Sachdev, Wei Wen(参考訳) 脳小血管疾患(CSVD)は認知障害の原因となる認知機能障害である。 イメージングはCSVDの生体内研究において最も有望な方法である。 主観的かつ精力的な視覚評価のアプローチを置き換えるために、最新の人工知能を用いてMRIスキャンからCSVDの画像バイオマーカーを抽出している。 脳微小血腫 (CMB) , 拡張血管周囲腔 (PVS) , 血管起源と推定されるラキューンの3つの画像バイオマーカーについて, コンピュータ支援による検討を行った。 71%の古典的画像処理,古典的機械学習,深層学習研究が同定された。 cmb と pvs は lacunes と比較して研究が進んでいる。 局所的なテストデータセットでは優れたパフォーマンス指標が達成されているが、異なる研究や臨床コホートで検証可能なパイプラインは存在しない。 トランスファーラーニングと弱い監督技術は、トレーニングデータの制限を満たすために応用されている。 今後の研究は、複数のソースからのデータをプールして多様性を高めることを検討し、画像処理メトリクスと臨床指標との関連性の両方を用いて手法の性能を検証する。

Cerebral small vessel disease (CSVD) is a major vascular contributor to cognitive impairment in ageing, including dementias. Imaging remains the most promising method for in vivo studies of CSVD. To replace the subjective and laborious visual rating approaches, emerging studies have applied state-of-the-art artificial intelligence to extract imaging biomarkers of CSVD from MRI scans. We aimed to summarise published computer-aided methods to examine three imaging biomarkers of CSVD, namely cerebral microbleeds (CMB), dilated perivascular spaces (PVS), and lacunes of presumed vascular origin. Seventy-one classical image processing, classical machine learning, and deep learning studies were identified. CMB and PVS have been better studied, compared to lacunes. While good performance metrics have been achieved in local test datasets, there have not been generalisable pipelines validated in different research or clinical cohorts. Transfer learning and weak supervision techniques have been applied to accommodate the limitations in training data. Future studies could consider pooling data from multiple sources to increase diversity, and validating the performance of the methods using both image processing metrics and associations with clinical measures.
翻訳日:2022-04-05 21:53:39 公開日:2022-04-04
# (参考訳) 配水ネットワークにおけるオンライン学習のためのSAM-kNNレグレクタ [全文訳有]

SAM-kNN Regressor for Online Learning in Water Distribution Networks ( http://arxiv.org/abs/2204.01436v1 )

ライセンス: CC BY 4.0
Jonathan Jakob, Andr\'e Artelt, Martina Hasenj\"ager, Barbara Hammer(参考訳) 水道網は住宅や産業の近代的なインフラの重要な構成要素である。 彼らは水源から消費者に広く分岐したネットワークを通じて水を輸送し、流通する。 常に稼働するネットワークを保証するため、水道会社はネットワークを継続的に監視し、必要な場合、例えば、漏れ、センサーの故障、水質の低下に反応する。 現実世界のネットワークは、人間が監視するには大きすぎるため、アルゴリズムによる監視システムが開発されている。 一般的なタイプのシステムは残差に基づく異常検出システムであり、リークやセンサ障害などのイベントを検出できる。 継続的に高品質なモニタリングを行うためには,要求の変化と様々な異常の存在に適応する必要がある。 本研究では,任意の変化に対応可能な配水網の残差に基づく異常検出システムを構築するために,レグレッションのためのインクリメンタルSAM-kNN分類器の適応を提案する。

Water distribution networks are a key component of modern infrastructure for housing and industry. They transport and distribute water via widely branched networks from sources to consumers. In order to guarantee a working network at all times, the water supply company continuously monitors the network and takes actions when necessary -- e.g. reacting to leakages, sensor faults and drops in water quality. Since real world networks are too large and complex to be monitored by a human, algorithmic monitoring systems have been developed. A popular type of such systems are residual based anomaly detection systems that can detect events such as leakages and sensor faults. For a continuous high quality monitoring, it is necessary for these systems to adapt to changed demands and presence of various anomalies. In this work, we propose an adaption of the incremental SAM-kNN classifier for regression to build a residual based anomaly detection system for water distribution networks that is able to adapt to any kind of change.
翻訳日:2022-04-05 21:52:29 公開日:2022-04-04
# (参考訳) 人間と機械学習における統計的パターンマッチングからの抽象化

Disentangling Abstraction from Statistical Pattern Matching in Human and Machine Learning ( http://arxiv.org/abs/2204.01437v1 )

ライセンス: CC BY 4.0
Sreejan Kumar, Ishita Dasgupta, Raja Marjieh, Nathaniel D. Daw, Jonathan D. Cohen, Thomas L. Griffiths(参考訳) 抽象的な知識を得る能力は人間の知能の目印であり、多くの人が人間とニューラルネットワークモデルの主な違いの1つだと信じている。 エージェントにはメタラーニングを通じて抽象化に対する帰納的バイアスが与えられ、学習と適用が可能な抽象構造を共有するタスクの分散についてトレーニングされる。 しかし、ニューラルネットワークは解釈が難しいため、エージェントが基盤となる抽象化を学んだかどうか、あるいはその抽象化の特徴である統計的パターンを判断することは困難である。 本研究では,タスクが抽象的なルールから生成されるメタ強化学習パラダイムにおいて,人間とエージェントのパフォーマンスを比較する。 抽象タスクの統計と密接に一致するが、異なる生成プロセスを用いる「タスクメタマー」を構築するための新しい方法論を定義し、抽象タスクとメタマータスクの両方のパフォーマンスを評価する。 最初の実験では,ヒトはメタメアのタスクよりも抽象的なタスクが優れているのに対して,広く使われているメタ強化学習エージェントは一致したメタメアよりも抽象的なタスクが優れていることがわかった。 第2の実験では、経験的に特定された人間の優先順位から直接導かれた抽象概念に基づいてタスクをベースとする。 我々は、同じ手順を用いて、対応するメタマータスクを生成し、人間とエージェントの二重解離を見る。 この研究は、人間と機械学習の違いを特徴付ける基礎を提供し、人間のような振る舞いを持つ機械の開発に将来の研究に使用できる。

The ability to acquire abstract knowledge is a hallmark of human intelligence and is believed by many to be one of the core differences between humans and neural network models. Agents can be endowed with an inductive bias towards abstraction through meta-learning, where they are trained on a distribution of tasks that share some abstract structure that can be learned and applied. However, because neural networks are hard to interpret, it can be difficult to tell whether agents have learned the underlying abstraction, or alternatively statistical patterns that are characteristic of that abstraction. In this work, we compare the performance of humans and agents in a meta-reinforcement learning paradigm in which tasks are generated from abstract rules. We define a novel methodology for building "task metamers" that closely match the statistics of the abstract tasks but use a different underlying generative process, and evaluate performance on both abstract and metamer tasks. In our first set of experiments, we found that humans perform better at abstract tasks than metamer tasks whereas a widely-used meta-reinforcement learning agent performs worse on the abstract tasks than the matched metamers. In a second set of experiments, we base the tasks on abstractions derived directly from empirically identified human priors. We utilize the same procedure to generate corresponding metamer tasks, and see the same double dissociation between humans and agents. This work provides a foundation for characterizing differences between humans and machine learning that can be used in future work towards developing machines with human-like behavior.
翻訳日:2022-04-05 21:44:14 公開日:2022-04-04
# (参考訳) 重み付きモデルに基づく強化学習 [全文訳有]

Value Gradient weighted Model-Based Reinforcement Learning ( http://arxiv.org/abs/2204.01464v1 )

ライセンス: CC BY 4.0
Claas Voelcker and Victor Liao and Animesh Garg and Amir-massoud Farahmand(参考訳) モデルベース強化学習(mbrl: model-based reinforcement learning)は、制御ポリシーを取得するためのサンプル効率的な手法であるが、避けられないモデリングエラーによってパフォーマンスが低下することが多い。 MBRLのモデルはしばしば力学、特に状態観察の再構成にのみ適合するが、モデルエラーが政策に与える影響は訓練目的によって捉えられていない。 このことは、MBRLの意図した目標と、優れたポリシーと価値学習を可能にすることと、現実に採用される損失関数のターゲットである将来の状態予測とをミスマッチさせる。 ナイーブ直観は、価値を意識したモデル学習がこの問題を修正することを示唆し、実際、この客観的なミスマッチ問題に対するいくつかの解決策が理論的解析に基づいて提案されている。 しかしながら、一般的にmle(maximum likelihood)ベースのアプローチでは、実際には劣る傾向がある。 本稿では,少人数モデルキャパシティや気を散らす状態次元など,挑戦的な設定においてmbrlの性能を向上させる,価値認識型モデル学習のための新しい手法であるバリューグレード重み付きモデル学習(vagram)を提案する。 我々は,mle と value-aware の両方のアプローチを分析し,価値認識モデルを学ぶ際の探索と関数近似の振る舞いについて説明できないことを示し,深層学習環境における最適化の安定化に必要な追加目標を強調する。 我々は、ロス関数が最大確率に基づくアプローチよりも頑健でありながら、mujocoベンチマークスイートで高いリターンを達成できることを示すことによって、分析を検証する。

Model-based reinforcement learning (MBRL) is a sample efficient technique to obtain control policies, yet unavoidable modeling errors often lead performance deterioration. The model in MBRL is often solely fitted to reconstruct dynamics, state observations in particular, while the impact of model error on the policy is not captured by the training objective. This leads to a mismatch between the intended goal of MBRL, enabling good policy and value learning, and the target of the loss function employed in practice, future state prediction. Naive intuition would suggest that value-aware model learning would fix this problem and, indeed, several solutions to this objective mismatch problem have been proposed based on theoretical analysis. However, they tend to be inferior in practice to commonly used maximum likelihood (MLE) based approaches. In this paper we propose the Value-gradient weighted Model Learning (VaGraM), a novel method for value-aware model learning which improves the performance of MBRL in challenging settings, such as small model capacity and the presence of distracting state dimensions. We analyze both MLE and value-aware approaches and demonstrate how they fail to account for exploration and the behavior of function approximation when learning value-aware models and highlight the additional goals that must be met to stabilize optimization in the deep learning setting. We verify our analysis by showing that our loss function is able to achieve high returns on the Mujoco benchmark suite while being more robust than maximum likelihood based approaches.
翻訳日:2022-04-05 21:43:09 公開日:2022-04-04
# (参考訳) 言語分布のエントロピーの推定 [全文訳有]

Estimating the Entropy of Linguistic Distributions ( http://arxiv.org/abs/2204.01469v1 )

ライセンス: CC BY 4.0
Aryaman Arora, Clara Meister, Ryan Cotterell(参考訳) シャノンのエントロピーはしばしば、人間の言語のコミュニケーション能力を研究する言語学者の関心の量である。 しかし、エントロピーは観測データから推定されなければならない。なぜなら研究者はこれらのデータを生み出す基礎となる確率分布にアクセスできないからだ。 エントロピー推定は、他の分野ではよく研究されている問題であるが、言語データに使用するエントロピー推定器の有効性に関する包括的な調査はまだない。 本研究では,言語分布に対する異なるエントロピー推定器の実証的有効性について検討する。 近年の2つの情報理論言語研究の再現において,エントロピー推定器の不足が原因で報告された効果の大きさが過大評価されていることが判明した。 最後に, 分布型とデータ可用性によるエントロピー推定について, 具体的な推奨事項を述べる。

Shannon entropy is often a quantity of interest to linguists studying the communicative capacity of human language. However, entropy must typically be estimated from observed data because researchers do not have access to the underlying probability distribution that gives rise to these data. While entropy estimation is a well-studied problem in other fields, there is not yet a comprehensive exploration of the efficacy of entropy estimators for use with linguistic data. In this work, we fill this void, studying the empirical effectiveness of different entropy estimators for linguistic distributions. In a replication of two recent information-theoreti c linguistic studies, we find evidence that the reported effect size is over-estimated due to over-reliance on poor entropy estimators. Finally, we end our paper with concrete recommendations for entropy estimation depending on distribution type and data availability.
翻訳日:2022-04-05 21:20:08 公開日:2022-04-04
# (参考訳) 正確なシャム追跡の教師なし学習 [全文訳有]

Unsupervised Learning of Accurate Siamese Tracking ( http://arxiv.org/abs/2204.01475v1 )

ライセンス: CC BY-SA 4.0
Qiuhong Shen, Lei Qiao, Jinyang Guo, Peixia Li, Xin Li, Bo Li, Weitao Feng, Weihao Gan, Wei Wu, Wanli Ouyang(参考訳) 教師なし学習は、視覚オブジェクト追跡を含む様々なコンピュータビジョンタスクで人気がある。 しかし、事前の教師なし追跡アプローチはテンプレート検索ペアからの空間的監視に大きく依存しており、長い時間にわたって強い変動を持つ物体を追跡できない。 サイクルに沿ってビデオを追跡することで、無制限の自己超越信号を得ることができるので、ビデオの前後の動きを追跡することで、シームズトラッカーの進化について検討する。 本稿では,分類枝と回帰枝の両方で時間対応を学習できる新しい教師なし追跡フレームワークを提案する。 具体的には,フォワードプロパゲーションプロセスにおいて信頼性の高いテンプレート機能を伝達し,トラッカをそのサイクルでトレーニングするために,まず一貫性伝播変換を提案する。 次に, 後進伝播過程における従来のサイクルトレーニングにおいて, 不適切なペナルティ問題を特定する。 そこで,中間フレームにおける追跡誤差を暗黙的にペナルティすると同時に,特徴の選択を行うための領域マスクを提案する。 さらに,ノイズラベルはトレーニングを劣化させる可能性があるため,擬似ラベルの品質に基づいた動的重み付けを行うマスク誘導損失重み付け手法を提案する。 広範な実験では,trackingnet や lasot などの大規模データセットにおける教師なしメソッドと同等の精度で,教師なしメソッドよりも有意な差をみせている。 コードはhttps://github.com/F lorinShum/ULASTで公開されている。

Unsupervised learning has been popular in various computer vision tasks, including visual object tracking. However, prior unsupervised tracking approaches rely heavily on spatial supervision from template-search pairs and are still unable to track objects with strong variation over a long time span. As unlimited self-supervision signals can be obtained by tracking a video along a cycle in time, we investigate evolving a Siamese tracker by tracking videos forward-backward. We present a novel unsupervised tracking framework, in which we can learn temporal correspondence both on the classification branch and regression branch. Specifically, to propagate reliable template feature in the forward propagation process so that the tracker can be trained in the cycle, we first propose a consistency propagation transformation. We then identify an ill-posed penalty problem in conventional cycle training in backward propagation process. Thus, a differentiable region mask is proposed to select features as well as to implicitly penalize tracking errors on intermediate frames. Moreover, since noisy labels may degrade training, we propose a mask-guided loss reweighting strategy to assign dynamic weights based on the quality of pseudo labels. In extensive experiments, our tracker outperforms preceding unsupervised methods by a substantial margin, performing on par with supervised methods on large-scale datasets such as TrackingNet and LaSOT. Code is available at https://github.com/F lorinShum/ULAST.
翻訳日:2022-04-05 20:37:21 公開日:2022-04-04
# (参考訳) 人工知能による科学的理解について [全文訳有]

On scientific understanding with artificial intelligence ( http://arxiv.org/abs/2204.01467v1 )

ライセンス: CC BY 4.0
Mario Krenn, Robert Pollice, Si Yue Guo, Matteo Aldeghi, Alba Cervera-Lierta, Pascal Friederich, Gabriel dos Passos Gomes, Florian H\"ase, Adrian Jinich, AkshatKumar Nigam, Zhenpeng Yao, Al\'an Aspuru-Guzik(参考訳) あらゆる粒子物理学実験の結果、あらゆる化学反応の産物、そして全てのタンパク質の機能を正確に予測するオラクルを想像してください。 このような神託は、私たちが知っている科学や技術に革命をもたらすだろう。 しかし、科学者として、私たちはオラクル自体に満足しないでしょう。 もっと欲しい。 私たちは、神託がこれらの予測をどのように考え出したかを理解したい。 この偉業は科学的理解と呼ばれ、しばしば科学の本質的目的として認識されてきた。 先進的な人工知能は、科学的な理解や自律的な達成にどのように貢献するのか? これは単なる技術的な問題ではなく、科学の核心にあると確信しています。 それゆえ、ここは私たちがどこにいて、どこから行くことができるかという問いに答えようとしました。 まず科学哲学から科学的理解を理解するためのアドバイスを求める。 次に、文献から、また科学者からコンピュータの助けを借りてどのようにして新たな概念理解を得たかについて、何十もの逸話を収集することで、現在の芸術の現状を考察する。 i) 計算顕微鏡としてのandroid, ii) インスピレーションのリソースと究極のリソース,iii) 理解のエージェント。 それぞれの次元について、現状を超えて、人工知能の科学の中心的な目的への貢献の完全な力を解き放つための新しい道を説明します。 私たちの視点は、新たな科学的理解を得て、最終的には真の人工科学者に近づくアンドロイドに刺激を与え、研究に焦点を当てることを願っています。

Imagine an oracle that correctly predicts the outcome of every particle physics experiment, the products of every chemical reaction, or the function of every protein. Such an oracle would revolutionize science and technology as we know them. However, as scientists, we would not be satisfied with the oracle itself. We want more. We want to comprehend how the oracle conceived these predictions. This feat, denoted as scientific understanding, has frequently been recognized as the essential aim of science. Now, the ever-growing power of computers and artificial intelligence poses one ultimate question: How can advanced artificial systems contribute to scientific understanding or achieve it autonomously? We are convinced that this is not a mere technical question but lies at the core of science. Therefore, here we set out to answer where we are and where we can go from here. We first seek advice from the philosophy of science to understand scientific understanding. Then we review the current state of the art, both from literature and by collecting dozens of anecdotes from scientists about how they acquired new conceptual understanding with the help of computers. Those combined insights help us to define three dimensions of android-assisted scientific understanding: The android as a I) computational microscope, II) resource of inspiration and the ultimate, not yet existent III) agent of understanding. For each dimension, we explain new avenues to push beyond the status quo and unleash the full power of artificial intelligence's contribution to the central aim of science. We hope our perspective inspires and focuses research towards androids that get new scientific understanding and ultimately bring us closer to true artificial scientists.
翻訳日:2022-04-05 20:19:31 公開日:2022-04-04
# (参考訳) グループ損失++: ディープメトリック学習のためのグループ損失のより深い考察 [全文訳有]

The Group Loss++: A deeper look into group loss for deep metric learning ( http://arxiv.org/abs/2204.01509v1 )

ライセンス: CC BY 4.0
Ismail Elezi, Jenny Seidenschwarz, Laurin Wagner, Sebastiano Vascon, Alessandro Torcinovich, Marcello Pelillo, Laura Leal-Taixe(参考訳) ディープメトリック学習は、ニューラルネットワークを活用して、異なるクラスにサンプルをグループ化するために使用できる、高度に識別的な特徴埋め込みを得ることによって、クラスタリングや画像検索といったタスクにおいて印象的な結果をもたらしました。 このようなネットワークを訓練するためのスマート損失関数やデータマイニング戦略の設計に多くの研究が費やされている。 ほとんどの方法は、損失関数を計算するためにミニバッチ内のサンプルのペアまたはトリプレットのみを考慮するが、これは一般に埋め込み間の距離に基づいている。 本稿では,異なるグループに属するデータポイント間の低密度領域を促進しながら,グループの全サンプルの埋め込み類似性を強制する,識別可能なラベルプロパゲーション法に基づく損失関数であるグループ損失を提案する。 類似したオブジェクトは同じグループに属するべきだ"という平滑さの仮定に導かれ、提案された損失は分類タスクのためにニューラルネットワークを訓練し、クラス内のサンプル間で一貫したラベルを強制する。 我々は、モデルの結果をさらに改善するアルゴリズム、Group Loss++に合わせた一連の推論戦略を設計する。 4つの検索データセット上でのクラスタリングと画像検索の最先端結果と、2人の再識別データセットの競合結果を示し、検索と再識別のための統一的なフレームワークを提供する。

Deep metric learning has yielded impressive results in tasks such as clustering and image retrieval by leveraging neural networks to obtain highly discriminative feature embeddings, which can be used to group samples into different classes. Much research has been devoted to the design of smart loss functions or data mining strategies for training such networks. Most methods consider only pairs or triplets of samples within a mini-batch to compute the loss function, which is commonly based on the distance between embeddings. We propose Group Loss, a loss function based on a differentiable label-propagation method that enforces embedding similarity across all samples of a group while promoting, at the same time, low-density regions amongst data points belonging to different groups. Guided by the smoothness assumption that "similar objects should belong to the same group", the proposed loss trains the neural network for a classification task, enforcing a consistent labelling amongst samples within a class. We design a set of inference strategies tailored towards our algorithm, named Group Loss++ that further improve the results of our model. We show state-of-the-art results on clustering and image retrieval on four retrieval datasets, and present competitive results on two person re-identification datasets, providing a unified framework for retrieval and re-identification.
翻訳日:2022-04-05 19:52:49 公開日:2022-04-04
# (参考訳) LPAttack: 引数中の攻撃の論理パターンをキャプチャ可能なアノテーションスキーム [全文訳有]

LPAttack: A Feasible Annotation Scheme for Capturing Logic Pattern of Attacks in Arguments ( http://arxiv.org/abs/2204.01512v1 )

ライセンス: CC BY 4.0
Farjana Sultana Mim, Naoya Inoue, Shoichi Naito, Keshav Singh and Kentaro Inui(参考訳) 議論的な言論では、説得は他人の議論に反論したり攻撃したりすることでしばしば達成される。 攻撃は常に単純ではなく、しばしば複雑な修辞的な動きから成り、議論者は別の論理を攻撃しながら議論の論理に同意する。 さらに、議論者は議論の論理を否定も同意もせず、代わりにそれを無視し、新しい論理を提供し、攻撃された議論に存在する論理よりも新しい論理に価値があるか重要性があることを前提として、議論の主要なスタンスを攻撃する。 しかし、計算的議論における既存の研究は、攻撃におけるそのような複雑な修辞的動きやそれらの前置詞や価値判断を捉えていない。 このギャップに対処するために,我々は,共通モードと攻撃における複雑な修辞的動きをキャプチャする新しいアノテーションスキームであるlpattackを紹介する。 アノテーション研究は中程度のアノテーション間合意を示し,提案手法の人的アノテーションが実現可能であることを示す。 アノテーション付きコーパスとアノテーションガイドラインを公開しています。

In argumentative discourse, persuasion is often achieved by refuting or attacking others arguments. Attacking is not always straightforward and often comprise complex rhetorical moves such that arguers might agree with a logic of an argument while attacking another logic. Moreover, arguer might neither deny nor agree with any logics of an argument, instead ignore them and attack the main stance of the argument by providing new logics and presupposing that the new logics have more value or importance than the logics present in the attacked argument. However, no existing studies in the computational argumentation capture such complex rhetorical moves in attacks or the presuppositions or value judgements in them. In order to address this gap, we introduce LPAttack, a novel annotation scheme that captures the common modes and complex rhetorical moves in attacks along with the implicit presuppositions and value judgements in them. Our annotation study shows moderate inter-annotator agreement, indicating that human annotation for the proposed scheme is feasible. We publicly release our annotated corpus and the annotation guidelines.
翻訳日:2022-04-05 19:15:25 公開日:2022-04-04
# (参考訳) 共同メタ更新によるコンテキスト認識型視覚トラッキング [全文訳有]

Context-aware Visual Tracking with Joint Meta-updating ( http://arxiv.org/abs/2204.01513v1 )

ライセンス: CC BY 4.0
Qiuhong Shen, Xin Li, Fanyang Meng, Yongsheng Liang(参考訳) ビジュアルオブジェクト追跡は、様々な新興ビデオアプリケーションにおいて重要なコンポーネントとして機能する。 ビジュアルトラッキングの多くの進歩にもかかわらず、既存のディープトラッカーは、劇的な変化でオブジェクトを追跡する際に失敗する可能性が高い。 これらのディープトラッカーは通常、オンラインアップデートやトラッキングモデルの単一のサブブランチを更新せず、オブジェクトの外観変化に対応できない。 したがって、効率的な更新は追跡に不可欠であり、以前のmeta-updaterはパラメータ空間上で直接トラッカーを最適化する。 これらの問題に対処するために,我々は,表示空間上のトラッカを最適化するコンテキストアウェアトラッキングモデルを提案する。 まず,ターゲットの局所的情報と大域的情報に着目した局所的分枝とボックス推定分枝の組込み特徴が,相互に効果的な補足関係にあることに留意する。 この知見に基づき、歴史的フレームに情報を融合するためのコンテキスト集約モジュールを考案し、続いてコンテキスト認識モジュールを用いてトラッカーの両枝の親和性ベクトルを学習する。 さらに,限定的なトレーニングサンプルによる高速かつ安定的な更新を考慮し,専用のメタ学習スキームを開発した。 提案手法は,vot2018において,40fpsの速度で0.514のeaoスコアを達成し,速度低下の少ないトラッカの精度とロバスト性を向上させる能力を示す。

Visual object tracking acts as a pivotal component in various emerging video applications. Despite the numerous developments in visual tracking, existing deep trackers are still likely to fail when tracking against objects with dramatic variation. These deep trackers usually do not perform online update or update single sub-branch of the tracking model, for which they cannot adapt to the appearance variation of objects. Efficient updating methods are therefore crucial for tracking while previous meta-updater optimizes trackers directly over parameter space, which is prone to over-fit even collapse on longer sequences. To address these issues, we propose a context-aware tracking model to optimize the tracker over the representation space, which jointly meta-update both branches by exploiting information along the whole sequence, such that it can avoid the over-fitting problem. First, we note that the embedded features of the localization branch and the box-estimation branch, focusing on the local and global information of the target, are effective complements to each other. Based on this insight, we devise a context-aggregation module to fuse information in historical frames, followed by a context-aware module to learn affinity vectors for both branches of the tracker. Besides, we develop a dedicated meta-learning scheme, on account of fast and stable updating with limited training samples. The proposed tracking method achieves an EAO score of 0.514 on VOT2018 with the speed of 40FPS, demonstrating its capability of improving the accuracy and robustness of the underlying tracker with little speed drop.
翻訳日:2022-04-05 18:53:28 公開日:2022-04-04
# (参考訳) CDKT-FL:フェデレーション学習におけるプロキシデータセットを用いたデバイス間知識伝達 [全文訳有]

CDKT-FL: Cross-Device Knowledge Transfer using Proxy Dataset in Federated Learning ( http://arxiv.org/abs/2204.01542v1 )

ライセンス: CC BY 4.0
Minh N. H. Nguyen, Huy Q. Le, Shashi Raj Pandey, Choong Seon Hong(参考訳) 堅牢なパーソナライズされたフェデレーション学習(FL)システムを実現するためのクライアントモデルの一般化能力向上に向けて、効率的なモデルアグリゲーション手法が重要な研究目的として検討されている。 クライアントのデータの非i.i.d.特性が、様々なデータ分布から統計的な異質性と小さなローカルデータサンプルとしてしばしば参照されるため、これは困難な問題である。 したがって,グローバルモデルやパーソナライズドモデルを開発するためには,従来のFL手法では,ゆがんだクライアントデータによる学習パラメータの大きなばらつきを考慮しつつ,バイアス付きローカルモデルから知識集約を再設計する必要がある。 本研究では,これらの目的を達成するためのデファクト手法である知識伝達機構を実証し,グローバルモデルと局所モデル間の知識伝達の程度を調べるための新しい知識蒸留ベースの手法を開発する。 そこで本手法は,異種FLの小さなプロキシデータセットを用いて,デバイス間知識転送時にトレーニングされたモデルから結果分布の転送と(あるいは)表現の埋め込みベクタを適当に検討する。 代わりに、一般的な定式化に従ってデバイス間知識伝達を行う。 1)グローバルな知識移転 2)デバイス上の知識伝達。 4つのフェデレーションデータセットのシミュレーションにより,提案手法は局所モデルの大幅な高速化と高いパーソナライズ性能を実現する。 さらに、提案手法は、トレーニング中のFedAvgよりも安定したアルゴリズムを提供し、訓練されたモデルの結果と表現を交換する際の通信データの負荷を最小限に抑える。

In a practical setting towards better generalization abilities of client models for realizing robust personalized Federated Learning (FL) systems, efficient model aggregation methods have been considered as a critical research objective. It is a challenging issue due to the consequences of non-i.i.d. properties of client's data, often referred to as statistical heterogeneity and small local data samples from the various data distributions. Therefore, to develop robust generalized global and personalized models, conventional FL methods need redesigning the knowledge aggregation from biased local models while considering huge divergence of learning parameters due to skewed client data. In this work, we demonstrate that the knowledge transfer mechanism is a de facto technique to achieve these objectives and develop a novel knowledge distillation-based approach to study the extent of knowledge transfer between the global model and local models. Henceforth, our method considers the suitability of transferring the outcome distribution and (or) the embedding vector of representation from trained models during cross-device knowledge transfer using a small proxy dataset in heterogeneous FL. In doing so, we alternatively perform cross-device knowledge transfer following general formulations as 1) global knowledge transfer and 2) on-device knowledge transfer. Through simulations on four federated datasets, we show the proposed method achieves significant speedups and high personalized performance of local models. Furthermore, the proposed approach offers a more stable algorithm than FedAvg during the training, with minimal communication data load when exchanging the trained model's outcomes and representation.
翻訳日:2022-04-05 18:33:55 公開日:2022-04-04
# (参考訳) con$^{2}$da:一貫性と対比的特徴表現の学習による半教師付きドメイン適応の簡略化 [全文訳有]

Con$^{2}$DA: Simplifying Semi-supervised Domain Adaptation by Learning Consistent and Contrastive Feature Representations ( http://arxiv.org/abs/2204.01558v1 )

ライセンス: CC BY 4.0
Manuel P\'erez-Carrasco and Pavlos Protopapas and Guillermo Cabrera-Vives(参考訳) 本稿では,半教師付きドメイン適応(SSDA)問題への半教師付き学習の最近の進歩を拡張した,シンプルなフレームワークであるCon$^{2}$DAを紹介する。 我々のフレームワークは、与えられた入力に対して確率的データ変換を行うことにより、関連するサンプルのペアを生成する。 関連データペアを特徴抽出器を用いて特徴表現空間にマッピングする。 異なる損失関数を使用して、サンプルのデータペアの特徴表現間の一貫性を強制します。 これらの学習表現は、ドメイン適応問題におけるデータ分布の違いを扱うのに有用であることを示す。 我々はモデルの主要な構成要素を研究する実験を行い、それを実証した。 (i)異なる領域にまたがる良質な識別的特徴を抽出するためには、一貫性のある、対照的な特徴表現の学習が不可欠である。 二 当社のモデルは、強化政策の強化による恩恵を受ける。 これらの結果から,本手法はSSDAの3つのベンチマークデータセットの最先端性能を実現する。

In this work, we present Con$^{2}$DA, a simple framework that extends recent advances in semi-supervised learning to the semi-supervised domain adaptation (SSDA) problem. Our framework generates pairs of associated samples by performing stochastic data transformations to a given input. Associated data pairs are mapped to a feature representation space using a feature extractor. We use different loss functions to enforce consistency between the feature representations of associated data pairs of samples. We show that these learned representations are useful to deal with differences in data distributions in the domain adaptation problem. We performed experiments to study the main components of our model and we show that (i) learning of the consistent and contrastive feature representations is crucial to extract good discriminative features across different domains, and ii) our model benefits from the use of strong augmentation policies. With these findings, our method achieves state-of-the-art performances in three benchmark datasets for SSDA.
翻訳日:2022-04-05 18:12:34 公開日:2022-04-04
# (参考訳) 精密精神医学のための機械学習の現代的展望

Modern Views of Machine Learning for Precision Psychiatry ( http://arxiv.org/abs/2204.01607v1 )

ライセンス: CC BY 4.0
Zhe Sage Chen, Prathamesh (Param) Kulkarni, Isaac R. Galatzer-Levy, Benedetta Bigio, Carla Nasca, Yu Zhang(参考訳) NIMHのResearch Domain Criteria (RDoC) に照らして、機能的ニューロイメージングの出現、新しい技術と手法は、正確でパーソナライズされた予後と精神疾患の診断を開発する新しい機会を提供する。 機械学習(ML)と人工知能(AI)技術は、新しい精度精神医学の時代においてますます重要な役割を担っている。 ML/AIと神経調節技術を組み合わせることで、臨床および効果的な治療における説明可能な解決策を提供することができる。 先進的なウェアラブルとモバイル技術は、モバイルのメンタルヘルスにおけるデジタル表現のためのML/AIの役割も求めている。 本稿では,神経画像化,ニューロモジュレーション,高度移動技術を組み合わせた精神医学実践におけるml方法論と応用について概観する。 さらに, 精密精神医学における分子表現型および種間バイオマーカー同定におけるmlの役割について概説する。 我々はさらに、クローズド・ヒューマン・イン・ザ・ループ方式でAI(XAI)と因果性テストについて論じ、マルチメディア情報抽出とマルチモーダルデータ融合におけるMLの可能性を強調した。 最後に,精密精神医学における概念的,実践的な課題について議論し,今後の研究におけるMLの機会を強調する。

In light of the NIMH's Research Domain Criteria (RDoC), the advent of functional neuroimaging, novel technologies and methods provide new opportunities to develop precise and personalized prognosis and diagnosis of mental disorders. Machine learning (ML) and artificial intelligence (AI) technologies are playing an increasingly critical role in the new era of precision psychiatry. Combining ML/AI with neuromodulation technologies can potentially provide explainable solutions in clinical practice and effective therapeutic treatment. Advanced wearable and mobile technologies also call for the new role of ML/AI for digital phenotyping in mobile mental health. In this review, we provide a comprehensive review of the ML methodologies and applications by combining neuroimaging, neuromodulation, and advanced mobile technologies in psychiatry practice. Additionally, we review the role of ML in molecular phenotyping and cross-species biomarker identification in precision psychiatry. We further discuss explainable AI (XAI) and causality testing in a closed-human-in-the- loop manner, and highlight the ML potential in multimedia information extraction and multimodal data fusion. Finally, we discuss conceptual and practical challenges in precision psychiatry and highlight ML opportunities in future research.
翻訳日:2022-04-05 17:59:08 公開日:2022-04-04
# (参考訳) 人間のような記憶システムを持つ機械 [全文訳有]

A Machine With Human-Like Memory Systems ( http://arxiv.org/abs/2204.01611v1 )

ライセンス: CC BY 4.0
Taewoon Kim, Michael Cochez, Vincent Francois-Lavet, Mark Neerincx, and Piek Vossen(参考訳) 認知科学理論に触発されて,意味記憶システムとエピソード記憶システムの両方でエージェントを明示的にモデル化し,これら2つのメモリシステムのうちの1つよりも優れていることを示す。 これを示すために、我々はOpenAI Gymと互換性のある「The Room」という挑戦的な環境を設計、リリースしました。 Room環境は、マシンと人間が協力できるハイブリッドインテリジェンス設定を可能にする。 2つのエージェントが互いにコラボレーションすることで,1つのエージェントが単独で行動するよりもパフォーマンスが向上することを示す。 コードとモデルをhttps://github.com/t ae898/explicit-memor yでオープンソースにしました。

Inspired by the cognitive science theory, we explicitly model an agent with both semantic and episodic memory systems, and show that it is better than having just one of the two memory systems. In order to show this, we have designed and released our own challenging environment, "the Room", compatible with OpenAI Gym, where an agent has to properly learn how to encode, store, and retrieve memories to maximize its rewards. The Room environment allows for a hybrid intelligence setup where machines and humans can collaborate. We show that two agents collaborating with each other results in better performance than one agent acting alone. We have open-sourced our code and models at https://github.com/t ae898/explicit-memor y.
翻訳日:2022-04-05 17:57:36 公開日:2022-04-04
# (参考訳) MetaAID:AI技術と人間の編集によるメタバースアプリケーション開発のための柔軟なフレームワーク [全文訳有]

MetaAID: A Flexible Framework for Developing Metaverse Applications via AI Technology and Human Editing ( http://arxiv.org/abs/2204.01614v1 )

ライセンス: CC BY 4.0
Hongyin Zhu(参考訳) 国内需要の拡大と経済内部の循環を達成するには、経済発展の維持に欠かせない消費、教育、エンターテイメント、エンジニアリングインフラなどの複数の産業(ドメイン)からのバランスと協調の支援が必要である。 メタバースアプリケーションは、このタスクに役立ち、多くの業界をより興味深く、より効率的にし、より良いユーザーエクスペリエンスを提供することができます。 最初の課題は、メタバースアプリケーション開発が必然的に自然言語処理(NLP)、知識グラフ(KG)、コンピュータビジョン(CV)、機械学習(ML)など、さまざまな人工知能(AI)技術のサポートを必要とすることである。 しかし、既存のメタバースアプリケーション開発には軽量なAI技術フレームワークがない。 本稿では,デジタル双生児と仮想人間の開発における言語と意味技術のサポートを目的とした,フレキシブルなメタバースAI技術フレームワークMetaAIDを提案する。 第2の課題は、メタバースアプリケーションの開発プロセスは、技術開発タスクと手作業による編集作業の両方を伴い、複数の産業におけるメタバースアプリケーションの開発だけでなく、しばしば重厚なマルチチームコラボレーションプロジェクトになることです。 当社のフレームワークは、共通のai技術とアプリケーション開発テンプレートを、共通の機能モジュールとインターフェースで要約します。 この枠組みに基づき,国内需要の拡大と経済内部循環に関する3産業への5つの応用をデザインした。 実験の結果,異なる産業におけるメタバースアプリケーションの開発において,我々のフレームワークがAI技術をサポートできることが示唆された。

Achieving the expansion of domestic demand and the economic internal circulation requires balanced and coordinated support from multiple industries (domains) such as consumption, education, entertainment, engineering infrastructure, etc., which is indispensable for maintaining economic development. Metaverse applications may help with this task and can make many industries more interesting, more efficient, and provide a better user experience. The first challenge is that metaverse application development inevitably requires the support of various artificial intelligence (AI) technologies such as natural language processing (NLP), knowledge graph (KG), computer vision (CV), and machine learning (ML), etc. However, existing metaverse application development lacks a lightweight AI technology framework. This paper proposes a flexible metaverse AI technology framework metaAID that aims to support language and semantic technologies in the development of digital twins and virtual humans. The second challenge is that the development process of metaverse applications involves both technical development tasks and manual editing work, and often becomes a heavyweight multi-team collaboration project, not to mention the development of metaverse applications in multiple industries. Our framework summarizes common AI technologies and application development templates with common functional modules and interfaces. Based on this framework, we have designed 5 applications for 3 industries around the expansion of domestic demand and economic internal circulation. Experimental results show that our framework can support AI technologies when developing metaverse applications in different industries.
翻訳日:2022-04-05 17:51:38 公開日:2022-04-04
# (参考訳) 非識別性低減によるodeモデルのより効率的な識別可能性検証 [全文訳有]

More Efficient Identifiability Verification in ODE Models by Reducing Non-Identifiability ( http://arxiv.org/abs/2204.01623v1 )

ライセンス: CC BY-SA 4.0
Ilia Ilmer, Alexey Ovchinnikov, Gleb Pogudin, Pedro Soto(参考訳) 構造的大域的パラメータ識別性は、与えられた入力と出力からノイズがない場合にパラメータの値を決定できるかどうかを示す。 与えられたモデルが無限に多くの値を持つパラメータを持つ場合、そのようなパラメータは非識別可能と呼ばれる。 本稿では,代数的独立な非識別パラメータを除去し,グローバルidentifiabilityクエリを高速化する手法を提案する。 提案手法は異なる計算機代数フレームワークの性能を大幅に向上させる。

Structural global parameter identifiability indicates whether one can determine a parameter's value from given inputs and outputs in the absence of noise. If a given model has parameters for which there may be infinitely many values, such parameters are called non-identifiable. We present a procedure for accelerating a global identifiability query by eliminating algebraically independent non-identifiable parameters. Our proposed approach significantly improves performance across different computer algebra frameworks.
翻訳日:2022-04-05 17:41:04 公開日:2022-04-04
# Into-TTS : イントネーションテンプレートに基づく韻律制御システム

Into-TTS : Intonation Template based Prosody Control System ( http://arxiv.org/abs/2204.01271v1 )

ライセンス: Link先を確認
Jihwan Lee, Joun Yeop Lee, Heejin Choi, Seongkyu Mun, Sangjun Park, Chanwoo Kim(参考訳) イントネーションは話者の意図を伝える上で重要な役割を果たす。 しかし、現在のエンドツーエンドTSシステムは適切なイントネーションをモデル化できないことが多い。 そこで本研究では,予め定義されたイントネーションテンプレートを用いて,異なるイントネーションで音声を合成する新しい直感的手法を提案する。 音響モデルトレーニングの前に、音声データは、文末F0パターンに従って、k平均クラスタリングにより、自動的にイントネーションテンプレートにグループ化される。 エンドツーエンドttsフレームワークに提案された2つのモジュール:イントネーション分類器とイントネーションエンコーダ。 インネーション分類器は、与えられたテキストに適切なインネーションテンプレートを推奨する。 テキストエンコーダ出力に取り付けられたインネーションエンコーダは、要求されたインネーションテンプレートを補助する音声を合成する。 私たちの論文の主な貢献は (a)広範囲のユーザをカバーする使い易いイントネーション制御システム (b)ピッチ距離とMOSを改善した要求イントネーションにおける音声の包み込み性能の向上 c)ttsとnlpの今後の統合の実現可能性について、ttsは文脈情報を利用することができる。 オーディオサンプルはhttps://srtts.github .io/IntoTTSで入手できる。

Intonations take an important role in delivering the intention of the speaker. However, current end-to-end TTS systems often fail to model proper intonations. To alleviate this problem, we propose a novel, intuitive method to synthesize speech in different intonations using predefined intonation templates. Prior to the acoustic model training, speech data are automatically grouped into intonation templates by k-means clustering, according to their sentence-final F0 contour. Two proposed modules are added to the end-to-end TTS framework: intonation classifier and intonation encoder. The intonation classifier recommends a suitable intonation template to the given text. The intonation encoder, attached to the text encoder output, synthesizes speech abiding the requested intonation template. Main contributions of our paper are: (a) an easy-to-use intonation control system covering a wide range of users; (b) better performance in wrapping speech in a requested intonation with improved pitch distance and MOS; and (c) feasibility to future integration between TTS and NLP, TTS being able to utilize contextual information. Audio samples are available at https://srtts.github .io/IntoTTS.
翻訳日:2022-04-05 17:28:17 公開日:2022-04-04
# フル接続ニューラルネットワークのトレーニングは$\exists\mathbb{R}$-Complete

Training Fully Connected Neural Networks is $\exists\mathbb{R}$-Complete ( http://arxiv.org/abs/2204.01368v1 )

ライセンス: Link先を確認
Daniel Bertschinger, Christoph Hertrich, Paul Jungeblut, Tillmann Miltzow, Simon Weber(参考訳) 与えられたデータ点の集合に適合する2層完全連結ニューラルネットワークの最適重みとバイアスを求めるアルゴリズム問題を考える。 この問題は、機械学習コミュニティにおける経験的リスク最小化として知られている。 問題は$\exists\mathbb{R}$-completeである。 この複雑性クラスは、整数係数を持つ多項式の実根を見つけることと同値な多項式時間問題の集合として定義することができる。 以下の制約が同時に加えられても結果が得られます。 $\bullet$ ちょうど2つの出力ニューロンがあります。 $\bullet$ちょうど2つの入力ニューロンがあります。 $\bullet$ データには13のラベルしかありません。 $\bullet$ 隠れたニューロンの数は、データポイントの数の一定割合である。 $\bullet$ ターゲットのトレーニングエラーはゼロです。 $\bullet$ ReLUアクティベーション関数が使用される。 これは非常に単純なネットワークでさえ訓練が難しいことを示している。 その結果、なぜ勾配降下だけが実際にニューラルネットワークのトレーニングに広く成功したのか(完全には理解できないが)が説明できる。 我々は、Abrahamsen, Kleist and Miltzow [NeurIPS 2021] による最近の結果を一般化する。 この結果は、コンピュータ科学と数学の幅広い分野における一連の中央的アルゴリズム問題は、$\exists\mathbb{r}$-completeであることを示す最近の研究に当てはまる: アートギャラリー問題[jacm/stoc 2018]、幾何学的パッキング[focs 2020]、凸多角形による多角形被覆問題[focs 2021]、連続的制約満足問題[focs 2021]を含む。

We consider the algorithmic problem of finding the optimal weights and biases for a two-layer fully connected neural network to fit a given set of data points. This problem is known as empirical risk minimization in the machine learning community. We show that the problem is $\exists\mathbb{R}$-complete. This complexity class can be defined as the set of algorithmic problems that are polynomial-time equivalent to finding real roots of a polynomial with integer coefficients. Our results hold even if the following restrictions are all added simultaneously. $\bullet$ There are exactly two output neurons. $\bullet$ There are exactly two input neurons. $\bullet$ The data has only 13 different labels. $\bullet$ The number of hidden neurons is a constant fraction of the number of data points. $\bullet$ The target training error is zero. $\bullet$ The ReLU activation function is used. This shows that even very simple networks are difficult to train. The result offers an explanation (though far from a complete understanding) on why only gradient descent is widely successful in training neural networks in practice. We generalize a recent result by Abrahamsen, Kleist and Miltzow [NeurIPS 2021]. This result falls into a recent line of research that tries to unveil that a series of central algorithmic problems from widely different areas of computer science and mathematics are $\exists\mathbb{R}$-complete: This includes the art gallery problem [JACM/STOC 2018], geometric packing [FOCS 2020], covering polygons with convex polygons [FOCS 2021], and continuous constraint satisfaction problems [FOCS 2021].
翻訳日:2022-04-05 17:28:00 公開日:2022-04-04
# 変分情報付き伝達学習を用いたアンチスプーフィング

Anti-Spoofing Using Transfer Learning with Variational Information Bottleneck ( http://arxiv.org/abs/2204.01387v1 )

ライセンス: Link先を確認
Youngsik Eom, Yeonghyeon Lee, Ji Sub Um, Hoirin Kim(参考訳) テキスト音声合成(TTS)や音声変換(VC)システムから発生する高度な合成音声の最近の進歩は、既存の自動話者検証(ASV)システムに脅威をもたらす。 このような合成音声は多様なアルゴリズムから生成されるため、堅牢なアンチスプーフィングシステムには、限られた訓練データを用いた一般化能力が不可欠である。 本稿では,音声のアンチ・スプーフィングタスクのための変動情報ボトルネック(VIB)を用いたwav2vec 2.0事前学習モデルに基づく伝達学習手法を提案する。 ASVspoof 2019 論理アクセス (LA) データベースの評価から,本手法は未確認のスプーフと真の音声の識別性能を向上し,現在最先端のアンチスプーフシステムよりも優れていた。 さらに,本システムでは,データサイズやデータ分散の面でもロバストであることを示すとともに,低リソースおよびクロスデータセットのアンチスプーフィングタスクの性能を著しく向上することを示す。

Recent advances in sophisticated synthetic speech generated from text-to-speech (TTS) or voice conversion (VC) systems cause threats to the existing automatic speaker verification (ASV) systems. Since such synthetic speech is generated from diverse algorithms, generalization ability with using limited training data is indispensable for a robust anti-spoofing system. In this work, we propose a transfer learning scheme based on the wav2vec 2.0 pretrained model with variational information bottleneck (VIB) for speech anti-spoofing task. Evaluation on the ASVspoof 2019 logical access (LA) database shows that our method improves the performance of distinguishing unseen spoofed and genuine speech, outperforming current state-of-the-art anti-spoofing systems. Furthermore, we show that the proposed system improves performance in low-resource and cross-dataset settings of anti-spoofing task significantly, demonstrating that our system is also robust in terms of data size and data distribution.
翻訳日:2022-04-05 17:27:34 公開日:2022-04-04
# ECAPA-TDNNとWav2Vec2.0のスタッタ検出への埋め込みの導入

Introducing ECAPA-TDNN and Wav2Vec2.0 Embeddings to Stuttering Detection ( http://arxiv.org/abs/2204.01564v1 )

ライセンス: Link先を確認
Shakeel Ahmad Sheikh, Md Sahidullah, Fabrice Hirsch, Slim Ouni(参考訳) スタッタリング検出(SD)タスクにおける高度なディープラーニング(DL)アーキテクチャの採用は、利用可能なデータセットのサイズが限られているため、難しい。 そこで本研究では,大量の音声データセットで学習した学習済み深層モデルを用いて抽出した音声埋め込みの応用について紹介する。 特に,voxceleb と librispeech データセットで学習した音声表現を,強調されたチャネル注意,伝播,集約時間遅延ニューラルネットワーク (ecapa-tdnn) と wav2vec2.0 モデルを用いて検討した。 埋め込みを抽出した後,k-nearest近傍,gaussian naive bayes,ニューラルネットワークなどの従来の分類器でベンチマークを行った。 制限されたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインの全体的な精度に関して、相対的な改善は16.74%である。 最後に、2つの埋め込みと複数のwav2vec2.0の結合を組み合わせることで、それぞれ1%と2.64%のsdパフォーマンスがさらに向上することを示した。

The adoption of advanced deep learning (DL) architecture in stuttering detection (SD) tasks is challenging due to the limited size of the available datasets. To this end, this work introduces the application of speech embeddings extracted with pre-trained deep models trained on massive audio datasets for different tasks. In particular, we explore audio representations obtained using emphasized channel attention, propagation, and aggregation-time-del ay neural network (ECAPA-TDNN) and Wav2Vec2.0 model trained on VoxCeleb and LibriSpeech datasets respectively. After extracting the embeddings, we benchmark with several traditional classifiers, such as a k-nearest neighbor, Gaussian naive Bayes, and neural network, for the stuttering detection tasks. In comparison to the standard SD system trained only on the limited SEP-28k dataset, we obtain a relative improvement of 16.74% in terms of overall accuracy over baseline. Finally, we have shown that combining two embeddings and concatenating multiple layers of Wav2Vec2.0 can further improve SD performance up to 1% and 2.64% respectively.
翻訳日:2022-04-05 17:25:58 公開日:2022-04-04
# langevin diffusion: プライベートユークリッド(凸)最適化のためのほぼ普遍的なアルゴリズム

Langevin Diffusion: An Almost Universal Algorithm for Private Euclidean (Convex) Optimization ( http://arxiv.org/abs/2204.01585v1 )

ライセンス: Link先を確認
Arun Ganesh, Abhradeep Thakurta, Jalaj Upadhyay(参考訳) 本稿では,微分プライベートな経験的リスク最小化(dp-erm)と微分プライベート確率凸最適化(dp-sco)の問題を再検討する。 統計物理学でよく研究されているランジュバン拡散(ld)と呼ばれる連続時間アルゴリズムは、dp-ermとdp-scoの両方に対して、$\epsilon$-dpと$(\epsilon,\delta)$- dpの下で最適なプライバシー/有効性トレードオフを提供する。 LDの均一安定性特性を用いて、[BST14]以降の未解決問題である$\epsilon$-DPの下での$\ell_2$-Lipschitz凸損失に対する最適余剰集団リスクを保証する。 その過程で、私たちは様々な技術ツールを提供しています。 一 隣り合う2つのデータセット上の損失関数を走らせるとき、LDに縛られる新しいR\enyi分散 二 耐雑音性確率勾配降下(SGD)に対するシャミールと張の法則に類似した、終点LDに対する経験的リスク境界の過剰 三 拡散が定常分布に何らかの合理的な意味で収束していないとき及び拡散がギブス分布の変種に収束しているときの二相超過リスク分析 我々の普遍性はLDの力学に大きく依存している。 定常分布に収束すると、$\epsilon$-DP の下で最適境界を得る。 非常に短時間の$\propto 1/p$ でのみ実行されると、$(\epsilon,\delta)$- dp 以下の最適境界が得られる。 ここで、$p$ はモデル空間の次元である。 本研究はDP連続時間最適化の体系的研究を開始する。 これは、離散時間DP最適化アルゴリズムの設計において、連続時間動的視点が新しいアルゴリズムの設計に役立っている非プライベートな設定と類似したものであると信じている。

In this paper we revisit the problem of differentially private empirical risk minimization (DP-ERM) and differentially private stochastic convex optimization (DP-SCO). We show that a well-studied continuous time algorithm from statistical physics, called Langevin diffusion (LD), simultaneously provides optimal privacy/utility trade-offs for both DP-ERM and DP-SCO, under $\epsilon$-DP, and $(\epsilon,\delta)$- DP. Using the uniform stability properties of LD, we provide the optimal excess population risk guarantee for $\ell_2$-Lipschitz convex losses under $\epsilon$-DP, which was an open problem since [BST14]. Along the way, we provide various technical tools, which can be of independent interest: i) A new R\'enyi divergence bound for LD, when run on loss functions over two neighboring data sets, ii) Excess empirical risk bounds for last-iterate LD, analogous to that of Shamir and Zhang for noisy stochastic gradient descent (SGD), and iii) A two phase excess risk analysis of LD, where the first phase is when the diffusion has not converged in any reasonable sense to a stationary distribution, and in the second phase when the diffusion has converged to a variant of Gibbs distribution. Our universality results crucially rely on the dynamics of LD. When it has converged to a stationary distribution, we obtain the optimal bounds under $\epsilon$-DP. When it is run only for a very short time $\propto 1/p$, we obtain the optimal bounds under $(\epsilon,\delta)$- DP. Here, $p$ is the dimensionality of the model space. Our work initiates a systematic study of DP continuous time optimization. We believe this may have ramifications in the design of discrete time DP optimization algorithms analogous to that in the non-private setting, where continuous time dynamical viewpoints have helped in designing new algorithms, including the celebrated mirror-descent and Polyak's momentum method.
翻訳日:2022-04-05 17:25:38 公開日:2022-04-04
# 深部強化学習を用いたUAV支援ネットワークにおけるエネルギー効率の最適化

Optimising Energy Efficiency in UAV-Assisted Networks using Deep Reinforcement Learning ( http://arxiv.org/abs/2204.01597v1 )

ライセンス: Link先を確認
Babatunji Omoniwa, Boris Galkin, Ivana Dusparic(参考訳) 本稿では,無人航空機(UAV)のエネルギー効率 (EE) の最適化について検討する。 最近のマルチエージェント強化学習アプローチは、2次元軌道設計を用いてシステムのEEを最適化し、近くのUAV細胞からの干渉を無視している。 我々は,各UAVの3次元軌道,接続ユーザ数,消費エネルギーを協調的に最適化し,干渉を考慮したシステムEEの最大化を目指す。 そこで本稿では,MAD-DDQN(Multi-Agen t Decentralized Double Deep Q-Network)アプローチを提案する。 私たちのアプローチは、EEの点で既存のベースラインを最大55-80%上回ります。

In this letter, we study the energy efficiency (EE) optimisation of unmanned aerial vehicles (UAVs) providing wireless coverage to static and mobile ground users. Recent multi-agent reinforcement learning approaches optimise the system's EE using a 2D trajectory design, neglecting interference from nearby UAV cells. We aim to maximise the system's EE by jointly optimising each UAV's 3D trajectory, number of connected users, and the energy consumed, while accounting for interference. Thus, we propose a cooperative Multi-Agent Decentralised Double Deep Q-Network (MAD-DDQN) approach. Our approach outperforms existing baselines in terms of EE by as much as 55 -- 80%.
翻訳日:2022-04-05 17:24:59 公開日:2022-04-04
# (参考訳) トラフィック予測のための時空間グラフニューラルネットワークにおけるディープエンサンブルに基づく不確かさの定量化 [全文訳有]

Deep-Ensemble-Based Uncertainty Quantification in Spatiotemporal Graph Neural Networks for Traffic Forecasting ( http://arxiv.org/abs/2204.01618v1 )

ライセンス: CC BY 4.0
Tanwi Mallick, Prasanna Balaprakash, Jane Macfarlane(参考訳) 深層学習に基づくデータ駆動予測手法は,交通予測に顕著な結果をもたらした。 しかし、これらの手法の大きな制限は、リアルタイムデプロイメントに不可欠な不確実性を見積もることなく予測を提供することである。 本稿では,短期交通予測のための最先端手法である拡散畳み込みリカレントニューラルネットワーク(DCRNN)に注目した。 我々はDCRNNの不確実性を定量化するスケーラブルなディープアンサンブル手法を開発した。 提案手法は,超パラメータ最適化を行うためにスケーラブルベイズ最適化手法を使用し,高パフォーマンスな構成の集合を選択し,超パラメータ構成のジョイント分布をキャプチャする生成モデルに適合し,生成モデルから新しいハイパーパラメータ構成集合をサンプリングしてモデルのアンサンブルを訓練する。 提案手法を他の不確実性推定手法と比較することにより,提案手法の有効性を示す。 当社の汎用的でスケーラブルなアプローチは,現在の最先端のベイジアンや,その他の一般的な頻繁なテクニックよりも優れています。

Deep-learning-based data-driven forecasting methods have produced impressive results for traffic forecasting. A major limitation of these methods, however, is that they provide forecasts without estimates of uncertainty, which are critical for real-time deployments. We focus on a diffusion convolutional recurrent neural network (DCRNN), a state-of-the-art method for short-term traffic forecasting. We develop a scalable deep ensemble approach to quantify uncertainties for DCRNN. Our approach uses a scalable Bayesian optimization method to perform hyperparameter optimization, selects a set of high-performing configurations, fits a generative model to capture the joint distributions of the hyperparameter configurations, and trains an ensemble of models by sampling a new set of hyperparameter configurations from the generative model. We demonstrate the efficacy of the proposed methods by comparing them with other uncertainty estimation techniques. We show that our generic and scalable approach outperforms the current state-of-the-art Bayesian and a number of other commonly used frequentist techniques.
翻訳日:2022-04-05 17:23:55 公開日:2022-04-04
# 再帰ロジットモデル推定における正の効用の獲得-プリズムに基づくアプローチ

Capturing positive utilities during the estimation of recursive logit models: A prism-based approach ( http://arxiv.org/abs/2204.01215v1 )

ライセンス: Link先を確認
Yuki Oyama(参考訳) 近年,Recursive logit (RL) モデルが普及し,多くの応用や拡張がなされているが,値関数の評価に関する重要な数値問題は未解決のままである。 この問題はモデル推定において特に重要であり、パラメータはイテレーション毎に更新され、モデル実現可能な条件に違反する可能性がある。 本稿では,状態拡張ネットワーク表現に基づいて定義されたプリズム制約によって設定された経路を暗黙的に制限するプリズム制約付きRL(Prism-RL)モデルを提案する。 数値実験の結果,Prism-RLモデルは初期パラメータ値と真パラメータ値によらず安定な推定に成功し,正の効用を捉えることができることがわかった。 歩行者ネットワークへの実際の応用において,街路緑の存在が歩行者に与える影響を見出した。 さらに、Prism-RLモデルはRLモデルよりも適合性が高く、Prism-RLモデルはより現実的な経路選択挙動を記述できることを示している。

Although the recursive logit (RL) model has been recently popular and has led to many applications and extensions, an important numerical issue with respect to the evaluation of value functions remains unsolved. This issue is particularly significant for model estimation, during which the parameters are updated every iteration and may violate the model feasible condition. To solve this numerical issue, this paper proposes a prism-constrained RL (Prism-RL) model that implicitly restricts the path set by the prism constraint defined based upon a state-extended network representation. Providing a set of numerical experiments, we show that the Prism-RL model succeeds in the stable estimation regardless of the initial and true parameter values and is able to capture positive utilities. In the real application to a pedestrian network, we found the positive effect of street green presence on pedestrians. Moreover, the Prism-RL model achieved higher goodness of fit than the RL model, implying that the Prism-RL model can also describe more realistic route choice behavior.
翻訳日:2022-04-05 16:59:57 公開日:2022-04-04
# SHiFT: 伝達学習のための効率的で柔軟な検索エンジン

SHiFT: An Efficient, Flexible Search Engine for Transfer Learning ( http://arxiv.org/abs/2204.01457v1 )

ライセンス: Link先を確認
Cedric Renggli, Xiaozhe Yao, Luka Kolar, Luka Rimanic, Ana Klimovic, Ce Zhang(参考訳) トランスファーラーニングは、スクラッチからトレーニングモデルのデータと計算効率の代替品と見なすことができる。 TensorFlow Hubのようなリッチなモデルリポジトリの出現により、実践者や研究者は、これらのモデルのポテンシャルを広範囲の下流タスクに解放することができる。 これらのリポジトリは指数関数的に成長しているので、手前のタスクに適したモデルを効率的に選択することが最重要である。 様々な選択戦略と検索戦略を慎重に比較することにより,1つの手法が他の手法を上回ることはなく,ハイブリッド戦略や混合戦略が有益であることに気付く。 そこで我々は,転送学習のための第1のダウンストリームタスク認識,フレキシブル,効率的なモデル検索エンジンであるSHiFTを提案する。 これらのプロパティは、カスタムクエリ言語SHiFT-QLとコストベースの意思決定ツールによって実現されます。 機械学習開発の反復的な性質に動機づけられた私たちは、クエリの効率的なインクリメンタルな実行をさらにサポートします。

Transfer learning can be seen as a data- and compute-efficient alternative to training models from scratch. The emergence of rich model repositories, such as TensorFlow Hub, enables practitioners and researchers to unleash the potential of these models across a wide range of downstream tasks. As these repositories keep growing exponentially, efficiently selecting a good model for the task at hand becomes paramount. By carefully comparing various selection and search strategies, we realize that no single method outperforms the others, and hybrid or mixed strategies can be beneficial. Therefore, we propose SHiFT, the first downstream task-aware, flexible, and efficient model search engine for transfer learning. These properties are enabled by a custom query language SHiFT-QL together with a cost-based decision maker, which we empirically validate. Motivated by the iterative nature of machine learning development, we further support efficient incremental executions of our queries, which requires a careful implementation when jointly used with our optimizations.
翻訳日:2022-04-05 16:57:38 公開日:2022-04-04
# 構造工学における因果性、因果発見、因果推論

Causality, Causal Discovery, and Causal Inference in Structural Engineering ( http://arxiv.org/abs/2204.01543v1 )

ライセンス: Link先を確認
M.Z. Naser(参考訳) 私たちの実験の多くは、私たちが興味を持っているデータ生成メカニズム(すなわち現象)の背後にある原因と効果を明らかにするように設計されています。 このような関係を明らかにすることで、現象の真の動作を特定し、最も重要なのは、手元にある現象をさらに探究し、正確に予測できるようにするモデルを明確にすることである。 基本的には、そのようなモデルは(観測的または経験的平均とは対照的に)因果的アプローチによって導出される可能性が高い。 このアプローチにおいて因果発見は因果モデルを作成するために必要であり、それは介入の影響を推測するために適用され、仮定的な質問(つまり、我々が持つであろうもの(What ifs? Etc.))に答えることができる。 本稿では、因果発見と因果推論のケースを構築し、これらを従来の機械学習アプローチと対比する。 より具体的には、因果関係の重要な原則と因果関係の発見と因果推論の最も一般的なアルゴリズムとパッケージを概説する。 最後に、本論文では、我々のドメインに因果概念をどのように適用できるかの一連の事例とケーススタディを示す。

Much of our experiments are designed to uncover the cause(s) and effect(s) behind a data generating mechanism (i.e., phenomenon) we happen to be interested in. Uncovering such relationships allows us to identify the true working of a phenomenon and, most importantly, articulate a model that may enable us to further explore the phenomenon on hand and/or allow us to predict it accurately. Fundamentally, such models are likely to be derived via a causal approach (as opposed to an observational or empirical mean). In this approach, causal discovery is required to create a causal model, which can then be applied to infer the influence of interventions, and answer any hypothetical questions (i.e., in the form of What ifs? Etc.) that we might have. This paper builds a case for causal discovery and causal inference and contrasts that against traditional machine learning approaches; all from a civil and structural engineering perspective. More specifically, this paper outlines the key principles of causality and the most commonly used algorithms and packages for causal discovery and causal inference. Finally, this paper also presents a series of examples and case studies of how causal concepts can be adopted for our domain.
翻訳日:2022-04-05 16:56:53 公開日:2022-04-04
# Deep Image:IoT環境におけるオンラインマルウェア検出のための貴重な画像ベースディープラーニング手法

Deep Image: A precious image based deep learning method for online malware detection in IoT Environment ( http://arxiv.org/abs/2204.01690v1 )

ライセンス: Link先を確認
Meysam Ghahramani, Rahim Taheri, Mohammad Shojafar, Reza Javidan, Shaohua Wan(参考訳) マルウェアの量とIoTデバイスの攻撃数は毎日増加しており、セキュリティの専門家がマルウェア分析ツールを継続的に強化することを奨励している。 サイバーセキュリティ分野の研究者は、高度な分析の利用とマルウェア検出の効率を広く研究してきた。 新しいマルウェアの種類と攻撃経路の導入により、セキュリティの専門家は効率的なマルウェア検出と分析ソリューションを開発する上で大きな課題に直面している。 本稿では,マルウェア解析の異なる視点を考察し,各サンプル特徴のリスクレベルを算出し,そのリスクレベルを算出した。 このようにして、IoT環境でのマルウェア分析の精度とFPR基準とともに使用される基準が導入された。 本稿では,クラスタリングアプローチ,確率的アプローチ,ディープラーニングアプローチと呼ばれる可視化手法に基づく3つのマルウェア検出手法を提案する。 そして, 従来の機械学習基準である精度とfprに加えて, サンプルのリスクに基づく提案手法と, マルウェア検出に深層学習アプローチが有効であることを示す結果との比較を行った。

The volume of malware and the number of attacks in IoT devices are rising everyday, which encourages security professionals to continually enhance their malware analysis tools. Researchers in the field of cyber security have extensively explored the usage of sophisticated analytics and the efficiency of malware detection. With the introduction of new malware kinds and attack routes, security experts confront considerable challenges in developing efficient malware detection and analysis solutions. In this paper, a different view of malware analysis is considered and the risk level of each sample feature is computed, and based on that the risk level of that sample is calculated. In this way, a criterion is introduced that is used together with accuracy and FPR criteria for malware analysis in IoT environment. In this paper, three malware detection methods based on visualization techniques called the clustering approach, the probabilistic approach, and the deep learning approach are proposed. Then, in addition to the usual machine learning criteria namely accuracy and FPR, a proposed criterion based on the risk of samples has also been used for comparison, with the results showing that the deep learning approach performed better in detecting malware
翻訳日:2022-04-05 16:56:32 公開日:2022-04-04
# (参考訳) TALLFormer: 長期記憶変換器を用いた時間的アクションローカライゼーション [全文訳有]

TALLFormer: Temporal Action Localization with Long-memory Transformer ( http://arxiv.org/abs/2204.01680v1 )

ライセンス: CC BY 4.0
Feng Cheng, Gedas Bertasius(参考訳) 時間的行動ローカライゼーションにおける現代のほとんどのアプローチは、この問題を2つに分けている。 (i)短期的特徴抽出及び (ii) 長距離時間境界の定位。 長い未トリミングビデオの処理による高GPUメモリコストのため、バックボーンを凍結するか、非常に小さな空間ビデオ解像度を使用することで、短期的特徴抽出器の表現力を犠牲にする手法が多い。 この問題は、最近のビデオトランスフォーマーモデルでさらに悪化する。 そこで本研究では,メモリ効率が高く,エンドツーエンドにトレーニング可能な時間的動作定位トランスフォーマである tallformer を提案する。 我々の長期記憶機構は、トレーニングイテレーション毎に数百の冗長なビデオフレームを処理する必要をなくし、GPUメモリの消費とトレーニング時間を著しく削減する。 これらの効率の節約によって (i)バックボーンを凍結したり空間解像度を低下させることなく、強力なビデオトランスフォーマベースの特徴抽出器を使用する。 (ii) 長距離時間境界定位能力も維持する。 RGBフレームのみを入力とし、外部のアクション認識分類器がないため、TALLFormerは従来の最先端の手法を大きなマージンで上回り、THUMOS14では平均59.1%、ActivityNet-1.3では35.6%を達成した。 コードはhttps://github.com/k lauscc/tallformerで入手できる。

Most modern approaches in temporal action localization divide this problem into two parts: (i) short-term feature extraction and (ii) long-range temporal boundary localization. Due to the high GPU memory cost caused by processing long untrimmed videos, many methods sacrifice the representational power of the short-term feature extractor by either freezing the backbone or using a very small spatial video resolution. This issue becomes even worse with the recent video transformer models, many of which have quadratic memory complexity. To address these issues, we propose TALLFormer, a memory-efficient and end-to-end trainable Temporal Action Localization transformer with Long-term memory. Our long-term memory mechanism eliminates the need for processing hundreds of redundant video frames during each training iteration, thus, significantly reducing the GPU memory consumption and training time. These efficiency savings allow us (i) to use a powerful video transformer-based feature extractor without freezing the backbone or reducing the spatial video resolution, while (ii) also maintaining long-range temporal boundary localization capability. With only RGB frames as input and no external action recognition classifier, TALLFormer outperforms previous state-of-the-art methods by a large margin, achieving an average mAP of 59.1% on THUMOS14 and 35.6% on ActivityNet-1.3. The code will be available in https://github.com/k lauscc/TALLFormer.
翻訳日:2022-04-05 16:54:57 公開日:2022-04-04
# 音声からテキストへの自己教師付きモデルにおける性影響に関する研究

A Study of Gender Impact in Self-supervised Models for Speech-to-Text Systems ( http://arxiv.org/abs/2204.01397v1 )

ライセンス: Link先を確認
Marcely Zanon Boito, Laurent Besacier, Natalia Tomashenko, Yannick Est\`eve(参考訳) 近年,音声処理パイプラインの基盤ブロックとして,自己教師型音声処理モデルが登場している。 これらのモデルはラベルなしの音声データに基づいて事前訓練され、自動音声認識(ASR)や音声翻訳(ST)などの下流処理に使用される。 これらのモデルは現在、研究や産業システムでも使われているため、事前学習データにおける性別分布などの特徴がもたらす影響を理解する必要がある。 調査言語としてフランス語を用いて、事前学習データに男女バランスの異なるモデルに対して、性別固有のwav2vec 2.0モデルを訓練し比較する。 ASR と ST の2つのダウンストリームタスクにこれらのモデルを適用して比較を行った結果,ダウンストリーム統合のタイプが重要であることが示された。 エンドツーエンドのASRシステムを微調整する前に、性別別事前学習を用いて、全体的なパフォーマンスを低く観察する。 しかし、自己教師付きモデルを特徴抽出器として使用する場合、ASRとSTの結果はより複雑なパターンに従っており、バランスの取れた事前訓練モデルが必ずしも最良の選択肢ではない。 最後に,男女間の相対的なパフォーマンス差である「公平性」尺度は,バランスの取れた状態から男女差の異なるwav2vec 2.0モデルへの強い差異は示さない。

Self-supervised models for speech processing emerged recently as popular foundation blocks in speech processing pipelines. These models are pre-trained on unlabeled audio data and then used in speech processing downstream tasks such as automatic speech recognition (ASR) or speech translation (ST). Since these models are now used in research and industrial systems alike, it becomes necessary to understand the impact caused by some features such as gender distribution within pre-training data. Using French as our investigation language, we train and compare gender-specific wav2vec 2.0 models against models containing different degrees of gender balance in their pre-training data. The comparison is performed by applying these models to two speech-to-text downstream tasks: ASR and ST. Our results show that the type of downstream integration matters. We observe lower overall performance using gender-specific pre-training before fine-tuning an end-to-end ASR system. However, when self-supervised models are used as feature extractors, the overall ASR and ST results follow more complex patterns, in which the balanced pre-trained model is not necessarily the best option. Lastly, our crude 'fairness' metric, the relative performance difference measured between female and male test sets, does not display a strong variation from balanced to gender-specific pre-trained wav2vec 2.0 models.
翻訳日:2022-04-05 16:34:54 公開日:2022-04-04
# 言語間自己教師付き音声表現による構音障害音声認識

Cross-lingual Self-Supervised Speech Representations for Improved Dysarthric Speech Recognition ( http://arxiv.org/abs/2204.01670v1 )

ライセンス: Link先を確認
Abner Hernandez, Paula Andrea P\'erez-Toro, Elmar N\"oth, Juan Rafael Orozco-Arroyave, Andreas Maier, Seung Hee Yang(参考訳) 最先端自動音声認識(ASR)システムは、健全な音声に対して良好に機能する。 しかし、障害のあるスピーチのパフォーマンスは依然として問題である。 本研究は,wav2vec自己教師付き音声表現を用いた構音障害児のasr訓練の有用性について検討する。 調音、韻律、発声などの音声のいくつかの側面が損なわれるため、構音性音声認識は特に困難である。 具体的には、Wav2Vec、Hubert、および言語間XLSRモデルから抽出した特徴を持つ音響モデルを訓練する。 結果から,大容量データに事前学習した音声表現は,単語誤り率(WER)を向上させることが示唆された。 特に、多言語モデルの特徴は、単一言語で訓練されたフィルタバンク(fbank)やモデルよりもwerを低くした。 英語話者の脳性麻痺(UASpeech corpus),スペイン語話者のParkinsonian dysarthria(PC-GITA corpus),イタリア語話者のParalysis-based dysarthria(EasyCall corpus)に改善が認められた。 Fbankの機能と比較して、XLSRベースの機能は、それぞれUASpeech、PC-GITA、EasyCallコーパスのWERを6.8%、22.0%、および7.0%削減した。

State-of-the-art automatic speech recognition (ASR) systems perform well on healthy speech. However, the performance on impaired speech still remains an issue. The current study explores the usefulness of using Wav2Vec self-supervised speech representations as features for training an ASR system for dysarthric speech. Dysarthric speech recognition is particularly difficult as several aspects of speech such as articulation, prosody and phonation can be impaired. Specifically, we train an acoustic model with features extracted from Wav2Vec, Hubert, and the cross-lingual XLSR model. Results suggest that speech representations pretrained on large unlabelled data can improve word error rate (WER) performance. In particular, features from the multilingual model led to lower WERs than filterbanks (Fbank) or models trained on a single language. Improvements were observed in English speakers with cerebral palsy caused dysarthria (UASpeech corpus), Spanish speakers with Parkinsonian dysarthria (PC-GITA corpus) and Italian speakers with paralysis-based dysarthria (EasyCall corpus). Compared to using Fbank features, XLSR-based features reduced WERs by 6.8%, 22.0%, and 7.0% for the UASpeech, PC-GITA, and EasyCall corpus, respectively.
翻訳日:2022-04-05 16:34:31 公開日:2022-04-04
# 画像サブトラクションを用いた新しいマスクR-CNNモデルによる異種脳腫瘍の分離

A Novel Mask R-CNN Model to Segment Heterogeneous Brain Tumors through Image Subtraction ( http://arxiv.org/abs/2204.01201v1 )

ライセンス: Link先を確認
Sanskriti Singh(参考訳) 病気のセグメンテーションは、機械学習の分野で研究者が探求する一般的なトピックである。 脳腫瘍は非常に危険で、手術を成功させるためには最も精密なセグメントを必要とする。 腫瘍の患者は通常、T1、T1gd、T2、FLAIRの4つのMRIスキャンを受け取り、その後放射線科医に送信され、将来の手術をセグメント化し分析する。 第2のセグメンテーションを作成するには、放射線科医と患者の両方が結論に自信を持つことが有益である。 画像セグメンテーションと呼ばれる放射線学者による手法を用いて機械学習モデルに適用し,より優れたセグメンテーションを証明する。 Mask R-CNNは、RSNA肺炎検出チャレンジデータセットで事前トレーニングされたResNetバックボーンであり、Brats2020脳腫瘍データセットでモデルをトレーニングすることができる。 center for biomedical image computing & analyticsは、脳腫瘍とそれに対応する分節を有する患者のmriデータを提供する。 DICE係数(F1スコア)、リコール、未タッチテストセットの精度による画像サブトラクションのないモデルと比較することにより、画像サブトラクションの手法がいかにうまく機能するかを確認できる。 DICE係数は0.75であり,画像の減算は0.69であった。 画像サブトラクションの有用性をさらに強調するため、我々は最終モデルを現在の最先端モデルと比較し、MRIスキャンから腫瘍を分離する。

The segmentation of diseases is a popular topic explored by researchers in the field of machine learning. Brain tumors are extremely dangerous and require the utmost precision to segment for a successful surgery. Patients with tumors usually take 4 MRI scans, T1, T1gd, T2, and FLAIR, which are then sent to radiologists to segment and analyze for possible future surgery. To create a second segmentation, it would be beneficial to both radiologists and patients in being more confident in their conclusions. We propose using a method performed by radiologists called image segmentation and applying it to machine learning models to prove a better segmentation. Using Mask R-CNN, its ResNet backbone being pre-trained on the RSNA pneumonia detection challenge dataset, we can train a model on the Brats2020 Brain Tumor dataset. Center for Biomedical Image Computing & Analytics provides MRI data on patients with and without brain tumors and the corresponding segmentations. We can see how well the method of image subtraction works by comparing it to models without image subtraction through DICE coefficient (F1 score), recall, and precision on the untouched test set. Our model performed with a DICE coefficient of 0.75 in comparison to 0.69 without image subtraction. To further emphasize the usefulness of image subtraction, we compare our final model to current state-of-the-art models to segment tumors from MRI scans.
翻訳日:2022-04-05 16:31:09 公開日:2022-04-04
# 精神疾患における不安・抑うつ治療のための拡張現実感-システムレビュー

Extended Reality for Anxiety and Depression Therapy amidst Mental Disorders -- A Systematic Review ( http://arxiv.org/abs/2204.01348v1 )

ライセンス: Link先を確認
Omisore Olatunji, Ifeanyi Odenigbo, Joseph Orji, Amelia Beltran, Rita Orji, Nilufar Baghaei, Meier Sandra(参考訳) この体系的な研究は、精神疾患のケアにおける異なる拡張現実(XR)技術の実装レベルを調査することを目的としている。 精神疾患のケアに使用されるXR技術について指摘し、他の精神疾患の中で不安や抑うつにXRシステムを使用することの有効性を評価する。 2017年5月から2021年8月にかけての検索期間は、メンタルヘルスにおける仮想現実(VR)、拡張現実(AR)、複合現実(AR)の使用に関する記事のフィルタリングとして定義された。 Google Scholar、PubMED、Association for Computing Machinery Digital Libraryという3つのデータベースで検索され、689の論文が得られた。 また10条が推奨された。 適性フィルタリングでは,72項目のみ関連性が確認され,本研究に利用された。 その結果、72の研究は世界中の23カ国で行われ、ほとんどの研究は米国(20.64%)やドイツ(11.11%)といった先進国で報告されている。 これにより、XRによる精神疾患の介入を迅速に支援できる。 一方、観察された研究はアフリカからのものではなかった。 論文の大多数は、XR技術が不安やうつ病の症状を著しく減少させたと報告している。 研究の大多数(23, 36.51%)は2021年に発表された。 ある意味、このデータは新型コロナウイルスのパンデミックによるものかもしれない。 ほとんどの研究 (30, 47.62%) は18歳から65歳までの人口に焦点を合わせたが、青年(10~19歳)と高齢者(64歳以上)に焦点を絞った研究は少ない (4, 6.35%) 。 また、他のXR研究領域で見られる分析的およびモデリング的アプローチ(5, 7.94%)よりも実験的に(52, 82.54%)多くの研究が行われた。 本研究は,精神障害の効果的な認知行動および暴露療法のためのxrシステムの開発を支援する。

This systematic study is aimed to investigate the implementation level of different extended reality (XR) techniques in the care of mental disorder. We point out some XR technologies used to deliver care for mental disorders, and to evaluate the effectiveness of using XR systems for anxiety and depression amidst other mental disorders. A search period of May 2017 and August 2021 was defined to filter out articles related to the usage of virtual reality (VR), augmented reality (AR) and mixed reality (AR) in a mental health context. Search done on three databases namely Google Scholar, PubMED, and Association for Computing Machinery Digital Library yielded 689 articles. Also, 10 articles were recommended. Upon eligibility filtering, only 72 articles were found relevant and were utilized for the study. Results show that the 72 studies were done in only 23 countries across the globe, with the majority of studies being reported for developed countries such as USA (20.64%) and Germany (11.11%). Thus this could rapidly aid intervention of mental health disorder with XR. Meanwhile, none of the studies observed was from an African country. The majority of the articles reported that XR techniques led to significant reduction in symptoms of anxiety or depression. The majority of studies (23, 36.51%) were published in the year 2021 of the total studies included. In a sense, this data might be attributed to COVID-19 pandemic. Most studies (30, 47.62%) focused a population with age range of 18 to 65 years, while fewer studies (4, 6.35%) focused on each of adolescents (10 - 19 years) and seniors (over 64 years). Also, more studies were done experimentally (52, 82.54%) rather than by analytical and modeling approach (5, 7.94%) as found in other XR studies domain. This review study could aid the development of XR systems for effective cognitive behavioral and exposure therapies of mental disorders.
翻訳日:2022-04-05 16:30:42 公開日:2022-04-04
# Dressi: リアクティブシェーダパッケージとソフトラスタライゼーションを備えたハードウェア非依存の差別化レンダリング

Dressi: A Hardware-Agnostic Differentiable Renderer with Reactive Shader Packing and Soft Rasterization ( http://arxiv.org/abs/2204.01386v1 )

ライセンス: Link先を確認
Yusuke Takimoto, Hiroyuki Sato, Hikari Takehara, Keishiro Uragaki, Takehiro Tawara, Xiao Liang, Kentaro Oku, Wataru Kishimoto, Bo Zheng(参考訳) 微分可能レンダリング(DR)は、勾配に基づく最適化を通じて様々なコンピュータグラフィックスやコンピュータビジョンの応用を可能にする。 ラスタライズに基づくほとんどのアプローチは、汎用自動微分(AD)ライブラリとCUDAを使って手作りのDR固有のモジュールに基づいている。 このようなシステム設計はDRアルゴリズムの実装とアルゴリズム構築ブロックを混合し、ハードウェア依存と性能の制限をもたらす。 本稿では,新しいフル広告デザインを基盤とした,ハードウェア非依存な微分可能レンダラである dressi を提案する。 DressiのDRアルゴリズムは、我々のVulkanベースのAD for DR、Dressi-ADで完全に書かれており、DRのすべてのプリミティブ操作をサポートしている。 ランタイム最適化技術であるステージパッキングは,ハードウェア制約に適応し,Vulkanのレンダリングパス階層を考慮したリアクティブキャッシュでDRの複雑な計算グラフを効率的に実行することができる。 私たちの新しいレンダリングプロセスであるHardSoftRasは、グラフィックパイプラインによる逆レンダリングのために設計されています。 グラフィックパイプラインの限られた機能の下では、ハードソフトラスは画面空間から遠方三角形属性へのピクセルの勾配を伝達することができる。 実験と応用により, dressiはハードウェアの独立性, 高速で高品質で堅牢な最適化, フォトリアリスティックなレンダリングを実現していることが示された。

Differentiable rendering (DR) enables various computer graphics and computer vision applications through gradient-based optimization with derivatives of the rendering equation. Most rasterization-based approaches are built on general-purpose automatic differentiation (AD) libraries and DR-specific modules handcrafted using CUDA. Such a system design mixes DR algorithm implementation and algorithm building blocks, resulting in hardware dependency and limited performance. In this paper, we present a practical hardware-agnostic differentiable renderer called Dressi, which is based on a new full AD design. The DR algorithms of Dressi are fully written in our Vulkan-based AD for DR, Dressi-AD, which supports all primitive operations for DR. Dressi-AD and our inverse UV technique inside it bring hardware independence and acceleration by graphics hardware. Stage packing, our runtime optimization technique, can adapt hardware constraints and efficiently execute complex computational graphs of DR with reactive cache considering the render pass hierarchy of Vulkan. HardSoftRas, our novel rendering process, is designed for inverse rendering with a graphics pipeline. Under the limited functionalities of the graphics pipeline, HardSoftRas can propagate the gradients of pixels from the screen space to far-range triangle attributes. Our experiments and applications demonstrate that Dressi establishes hardware independence, high-quality and robust optimization with fast speed, and photorealistic rendering.
翻訳日:2022-04-05 16:30:09 公開日:2022-04-04
# 活動正規化によるスパイクニューラルネットワークの消費最適化

Optimizing the Consumption of Spiking Neural Networks with Activity Regularization ( http://arxiv.org/abs/2204.01460v1 )

ライセンス: Link先を確認
Simon Narduzzi, Siavash A. Bigdeli, Shih-Chii Liu, L. Andrea Dunbar(参考訳) エッジデバイス上で動作するニューラルネットワークモデルにとって、エネルギー消費の削減は重要なポイントである。 この点において、エッジハードウェアアクセラレーター上で動作するディープニューラルネットワーク(DNN)の乗算累積(MAC)演算数の削減は、推論時のエネルギー消費を減少させる。 スパイクニューラルネットワーク(snn)は、二元活性化を利用してさらにエネルギーを節約し、スパイクしないときにエネルギーを消費しないバイオインスパイア技術の例である。 ネットワークは、DNN-to-SNN変換フレームワークを介してタスク上で等価な精度で設定できるが、変換はレート符号化に基づくため、シナプス演算は高い。 本研究では,ニューラルネットワークのアクティベーションマップにスパーシティを強制する様々な手法を検討し,最適化されたdnnとsnsの効率性に対する異なるトレーニングレギュレータの効果を比較した。

Reducing energy consumption is a critical point for neural network models running on edge devices. In this regard, reducing the number of multiply-accumulate (MAC) operations of Deep Neural Networks (DNNs) running on edge hardware accelerators will reduce the energy consumption during inference. Spiking Neural Networks (SNNs) are an example of bio-inspired techniques that can further save energy by using binary activations, and avoid consuming energy when not spiking. The networks can be configured for equivalent accuracy on a task through DNN-to-SNN conversion frameworks but their conversion is based on rate coding therefore the synaptic operations can be high. In this work, we look into different techniques to enforce sparsity on the neural network activation maps and compare the effect of different training regularizers on the efficiency of the optimized DNNs and SNNs.
翻訳日:2022-04-05 16:29:46 公開日:2022-04-04
# セメントペーストの2次元後方散乱電子画像からの3次元微細構造画像合成

Three-dimensional Microstructural Image Synthesis from 2D Backscattered Electron Image of Cement Paste ( http://arxiv.org/abs/2204.01645v1 )

ライセンス: Link先を確認
Xin Zhao, Xu Wu, Lin Wang, Pengkun Hou, Qinfei Li, Yuxuan Zhang, Bo Yang(参考訳) この微細構造は硬質セメントペーストの物性を調べる上で重要である。 一般に、硬化したセメントペーストの微細構造は顕微鏡で得られる。 走査型電子顕微鏡 (sem) は高品質な2次元画像を得ることができるが, 3次元微細構造は得られないが, マイクロトモグラフィ (micro-ct) や集束イオンビーム走査型電子顕微鏡 (fib-sem) などいくつかの手法は3次元微細構造を取得できるが, 高品質な3d画像を得ることができない。 これらの問題に対処するために, 硬質セメントペーストの高品質3次元組織像を合成する固相組織合成法を提案する。 2次元後方散乱電子(BSE)画像取得と3次元微細構造合成相を含む。 合成モデルは, 固体集合組織合成を基盤とし, 得られた2次元bse画像の微細構造情報を取り込み, 高品質な3次元微細構造を生成する。 実験では、実際の3d micro-ct画像と2d bse画像で検証する。 最後に, 定性的実験によって得られた3次元微細構造が, 与えられた2次元の例と類似した視覚特性を持つことを示した。 さらに, 粒子径分布, グレースケール共起行列の観点から, 合成3次元結果は実例と一致していることが定量的に証明された。

The microstructure is significant for exploring the physical properties of hardened cement paste. In general, the microstructures of hardened cement paste are obtained by microscopy. As a popular method, scanning electron microscopy (SEM) can acquire high-quality 2D images but fails to obtain 3D microstructures.Alth ough several methods, such as microtomography (Micro-CT) and Focused Ion Beam Scanning Electron Microscopy (FIB-SEM), can acquire 3D microstructures, these fail to obtain high-quality 3D images or consume considerable cost. To address these issues, a method based on solid texture synthesis is proposed, synthesizing high-quality 3D microstructural image of hardened cement paste. This method includes 2D backscattered electron (BSE) image acquisition and 3D microstructure synthesis phases. In the approach, the synthesis model is based on solid texture synthesis, capturing microstructure information of the acquired 2D BSE image and generating high-quality 3D microstructures. In experiments, the method is verified on actual 3D Micro-CT images and 2D BSE images. Finally, qualitative experiments demonstrate that the 3D microstructures generated by our method have similar visual characteristics to the given 2D example. Furthermore, quantitative experiments prove that the synthetic 3D results are consistent with the actual instance in terms of porosity, particle size distribution, and grey scale co-occurrence matrix.
翻訳日:2022-04-05 16:29:10 公開日:2022-04-04
# 適応正規化による神経選択の進化

Evolving Neural Selection with Adaptive Regularization ( http://arxiv.org/abs/2204.01662v1 )

ライセンス: Link先を確認
Li Ding and Lee Spector(参考訳) オーバーパラメータ化は現代のディープニューラルネットワークの特徴のひとつであり、Dropoutのような正規化手法を活用することで克服されることが多い。 通常、これらの手法は世界中で適用され、全ての入力ケースは等しく扱われる。 しかし、画像認識や自然言語理解などの実世界のタスクにおける入力空間の自然な変化を考えると、固定正規化パターンが全ての入力ケースに対して同じ効果を持つ可能性は低い。 本研究では,深部ニューラルネットワークにおけるニューロンの選択が進化し,予測の難しさに適応する手法を実証する。 本稿では,レイヤ内のニューロンを重み付けて,異なる入力ケースを扱うのに適したネットワークバリアントを形成する適応的ニューラルネットワーク選択(adaptive neural selection, an)フレームワークを提案する。 実験の結果,本手法は標準画像認識ベンチマークを用いたニューラルネットワークアーキテクチャの性能を大幅に向上できることがわかった。 アブレーション研究はまた、提案フレームワークにおける各コンポーネントの有効性と貢献を検証する。

Over-parameterizatio n is one of the inherent characteristics of modern deep neural networks, which can often be overcome by leveraging regularization methods, such as Dropout. Usually, these methods are applied globally and all the input cases are treated equally. However, given the natural variation of the input space for real-world tasks such as image recognition and natural language understanding, it is unlikely that a fixed regularization pattern will have the same effectiveness for all the input cases. In this work, we demonstrate a method in which the selection of neurons in deep neural networks evolves, adapting to the difficulty of prediction. We propose the Adaptive Neural Selection (ANS) framework, which evolves to weigh neurons in a layer to form network variants that are suitable to handle different input cases. Experimental results show that the proposed method can significantly improve the performance of commonly-used neural network architectures on standard image recognition benchmarks. Ablation studies also validate the effectiveness and contribution of each component in the proposed framework.
翻訳日:2022-04-05 16:27:44 公開日:2022-04-04
# monte carlo physarum machine: 連続確率輸送ネットワークにおけるパターン形成の特徴

Monte Carlo Physarum Machine: Characteristics of Pattern Formation in Continuous Stochastic Transport Networks ( http://arxiv.org/abs/2204.01256v1 )

ライセンス: Link先を確認
Oskar Elek and Joseph N. Burchett and J. Xavier Prochaska and Angus G. Forbes(参考訳) 本稿では,2次元データと3次元データから連続輸送ネットワークを再構築するのに適した計算モデルモンテカルロ・フィザラム・マシンを提案する。 MCPMは、Physarum polycephalum slime moldの成長をシミュレートする、Jonesの2010年のエージェントベースモデルの確率的一般化である。 我々はmcpmとジョーンズの理論的根拠の比較を行い、宇宙におけるガスとダークマターの大規模な分布を再構成するために設計されたタスク固有の変種を記述した。 新しいモデルを分析するために、我々はまずmcpmの自己パターン化挙動を探求し、このモデルが幾何学的に直感的なパラメータから生成する、幅広い連続ネットワーク様形態論("polyphorm"と呼ばれる)を示す。 MCPMをシミュレーションと観測の両方に応用し、宇宙Webの一貫性のある3次元密度マップを作成する能力を評価する。 最後に、MCPMが有用である可能性のある他のタスクと、概念実証としてドメイン固有データに適合するいくつかの例について検討する。

We present Monte Carlo Physarum Machine: a computational model suitable for reconstructing continuous transport networks from sparse 2D and 3D data. MCPM is a probabilistic generalization of Jones's 2010 agent-based model for simulating the growth of Physarum polycephalum slime mold. We compare MCPM to Jones's work on theoretical grounds, and describe a task-specific variant designed for reconstructing the large-scale distribution of gas and dark matter in the Universe known as the Cosmic web. To analyze the new model, we first explore MCPM's self-patterning behavior, showing a wide range of continuous network-like morphologies -- called "polyphorms" -- that the model produces from geometrically intuitive parameters. Applying MCPM to both simulated and observational cosmological datasets, we then evaluate its ability to produce consistent 3D density maps of the Cosmic web. Finally, we examine other possible tasks where MCPM could be useful, along with several examples of fitting to domain-specific data as proofs of concept.
翻訳日:2022-04-05 16:27:28 公開日:2022-04-04
# RobustSense: セキュアデバイスフリーなヒューマンアクティビティ認識のための敵攻撃を防御する

RobustSense: Defending Adversarial Attack for Secure Device-Free Human Activity Recognition ( http://arxiv.org/abs/2204.01560v1 )

ライセンス: Link先を確認
Jianfei Yang, Han Zou, Lihua Xie(参考訳) ディープニューラルネットワークは、デバイスフリーな人間のアクティビティ認識の精度を高める。 ディープモデルは様々なセンサーから堅牢な特徴を抽出し、データ不足のような困難な状況でもうまく一般化することができる。 しかし、これらのシステムは入力の摂動、すなわち敵攻撃に弱い可能性がある。 我々は,ブラックボックスガウシアン攻撃と現代の敵対的ホワイトボックス攻撃の両方が,彼らの不正確さを損なう可能性があることを実証的に示す。 本稿では,この現象がデバイスレスセンシングシステムに深刻な危険をもたらすことを最初に指摘し,その上で,共通攻撃を防御する新たな学習フレームワークであるRobustSenseを提案する。 robustsenseは、入力に対する攻撃が存在するかどうかに関わらず、一貫した予測を達成し、敵の攻撃による分散摂動の悪影響を緩和することを目指している。 大規模な実験により,提案手法は既存の深層モデルのモデルロバスト性を著しく向上し,攻撃を克服できることを示した。 提案手法は,無線アクティビティ認識と人物識別システムにおいて有効であることを確認した。 我々の知る限り、これは敵の攻撃を調査し、モバイルコンピューティング研究における無線ヒューマンアクティビティ認識のための新しい防御フレームワークをさらに発展させる最初の試みである。

Deep neural networks have empowered accurate device-free human activity recognition, which has wide applications. Deep models can extract robust features from various sensors and generalize well even in challenging situations such as data-insufficient cases. However, these systems could be vulnerable to input perturbations, i.e. adversarial attacks. We empirically demonstrate that both black-box Gaussian attacks and modern adversarial white-box attacks can render their accuracies to plummet. In this paper, we firstly point out that such phenomenon can bring severe safety hazards to device-free sensing systems, and then propose a novel learning framework, RobustSense, to defend common attacks. RobustSense aims to achieve consistent predictions regardless of whether there exists an attack on its input or not, alleviating the negative effect of distribution perturbation caused by adversarial attacks. Extensive experiments demonstrate that our proposed method can significantly enhance the model robustness of existing deep models, overcoming possible attacks. The results validate that our method works well on wireless human activity recognition and person identification systems. To the best of our knowledge, this is the first work to investigate adversarial attacks and further develop a novel defense framework for wireless human activity recognition in mobile computing research.
翻訳日:2022-04-05 16:27:09 公開日:2022-04-04
# (参考訳) 状態空間映像モデルを用いたロングムービークリップ分類 [全文訳有]

Long Movie Clip Classification with State-Space Video Models ( http://arxiv.org/abs/2204.01692v1 )

ライセンス: CC BY 4.0
Md Mohaiminul Islam, Gedas Bertasius(参考訳) ほとんどの現代のビデオ認識モデルは短いビデオクリップ(例えば5-10秒)で動作するように設計されている。 このため、通常、高度な長距離時間的推論能力を必要とする長い映画理解タスクに、そのようなモデルを適用することは困難である。 最近導入されたビデオトランスは、長距離時間自己注意を用いてこの問題に部分的に対処している。 しかし、自己着脱の二次的なコストのため、そのようなモデルはしばしば費用がかかり、実用的でない。 代わりに、自己注意の強みと最近導入された構造化状態空間シーケンス(S4)層を組み合わせた、効率的な長距離ビデオモデルViS4merを提案する。 本モデルでは、短距離時空間特徴抽出のための標準トランスコーダと、後続の長距離時間推論のためのマルチスケール時空s4デコーダを用いる。 各デコーダ層における時空間的特徴分解能とチャネル次元を段階的に減少させることで、ViS4merはビデオ内の複雑な長距離時空間依存性を学習する。 さらに、ViS4merは2.63\times$高速で、対応する純粋な自己注意モデルよりも8\times$低いGPUメモリを必要とする。 さらにvis4merは、lvuベンチマークで9ドルのロングフォーム映画ビデオ分類タスクから7ドル(約7,700円)で最新結果を達成している。 さらに,本手法が他のドメインへの一般化に成功し,朝食とコインプロシージャアクティビティデータセットの競合結果が得られることを示した。 コードは公開される予定だ。

Most modern video recognition models are designed to operate on short video clips (e.g., 5-10s in length). Because of this, it is challenging to apply such models to long movie understanding tasks, which typically require sophisticated long-range temporal reasoning capabilities. The recently introduced video transformers partially address this issue by using long-range temporal self-attention. However, due to the quadratic cost of self-attention, such models are often costly and impractical to use. Instead, we propose ViS4mer, an efficient long-range video model that combines the strengths of self-attention and the recently introduced structured state-space sequence (S4) layer. Our model uses a standard Transformer encoder for short-range spatiotemporal feature extraction, and a multi-scale temporal S4 decoder for subsequent long-range temporal reasoning. By progressively reducing the spatiotemporal feature resolution and channel dimension at each decoder layer, ViS4mer learns complex long-range spatiotemporal dependencies in a video. Furthermore, ViS4mer is $2.63\times$ faster and requires $8\times$ less GPU memory than the corresponding pure self-attention-based model. Additionally, ViS4mer achieves state-of-the-art results in $7$ out of $9$ long-form movie video classification tasks on the LVU benchmark. Furthermore, we also show that our approach successfully generalizes to other domains, achieving competitive results on the Breakfast and the COIN procedural activity datasets. The code will be made publicly available.
翻訳日:2022-04-05 16:25:00 公開日:2022-04-04
# ランク付けを学ぶ上で重要なのはどのトリックか?

Which Tricks are Important for Learning to Rank? ( http://arxiv.org/abs/2204.01500v1 )

ライセンス: Link先を確認
Ivan Lyzhin, Aleksei Ustimenko, Andrey Gulin, Liudmila Prokhorenkova(参考訳) 現在、最先端のLTR(Learning-to-rank )手法は、勾配型決定木(GBDT)に基づいている。 最もよく知られているアルゴリズムは10年以上前に提案されたLambdaMARTである。 近年,GBDTに基づくランキングアルゴリズムが提案されている。 本稿では,これらの手法を統一的な構成で徹底的に解析する。 特に、以下の質問を取り上げます。 滑らかなランキング損失の直接最適化は凸サーロゲートの最適化よりも望ましいか? サーロゲートランキングの損失を適切に構築し円滑にする方法 これらの問題に対処するため、LambdaMARTと yetiRank と StochasticRank のメソッドとその修正を比較します。 また、OttiRankアプローチを改善して、特定のランキング損失関数を最適化する。 その結果,学習からランクへのアプローチに関する洞察を得て,新たな最先端アルゴリズムを得ることができた。

Nowadays, state-of-the-art learning-to-rank (LTR) methods are based on gradient-boosted decision trees (GBDT). The most well-known algorithm is LambdaMART that was proposed more than a decade ago. Recently, several other GBDT-based ranking algorithms were proposed. In this paper, we conduct a thorough analysis of these methods in a unified setup. In particular, we address the following questions. Is direct optimization of a smoothed ranking loss preferable over optimizing a convex surrogate? How to properly construct and smooth surrogate ranking losses? To address these questions, we compare LambdaMART with YetiRank and StochasticRank methods and their modifications. We also improve the YetiRank approach to allow for optimizing specific ranking loss functions. As a result, we gain insights into learning-to-rank approaches and obtain a new state-of-the-art algorithm.
翻訳日:2022-04-05 16:03:58 公開日:2022-04-04
# Stuttgart Open Relay Degradation Dataset (SOReDD)

Stuttgart Open Relay Degradation Dataset (SOReDD) ( http://arxiv.org/abs/2204.01626v1 )

ライセンス: Link先を確認
Benjamin Maschler, Angel Iliev, Thi Thu Huong Pham, Michael Weyrich(参考訳) 機械学習の現実的な産業ユースケースは、しばしば異質でダイナミックな資産、プロセス、データを含むため、学習アルゴリズムを継続的に適応する必要がある。 産業移転学習は、以前獲得した知識を新しい(様々な)タスクの解決に活用することで、そのような適応の努力を減らしたいと考えている。 データ駆動方式であるため、産業転校学習アルゴリズムの開発には当然、適切なデータセットが必要となる。 しかし、トランスファーラーニングトレーニングに適したオープンソースデータセット、すなわち異なる資産、プロセス、データ(変数)にまたがるデータセットは稀である。 Stuttgart Open Relay Degradation Dataset (SOReDD)では、このようなデータセットを提供したいと思っています。 異なる動作条件下での異なる電気機械リレーの劣化に関するデータを提供し、多数の異なる転送シナリオを実現する。 このようなリレー自体は通常安価な標準部品であるが、その故障は機械の中央電源スイッチング要素としての役割が原因で、機械全体の故障に繋がることが多い。 リレー欠陥が発生した場合の主なコスト要因は、リレー自体ではなく、マシンの可用性の低下である。 したがって、適切なタイミングでリレーを置き換えることができ、計画外のマシンダウンタイムを避けるために、特定のアプリケーションで可能な限り正確なリレー劣化を予測することが望ましい。 それにもかかわらず、電気機械リレーのデータ駆動故障予測は、リレー劣化挙動が動作条件に大きく依存しているという課題に直面しており、リレー劣化挙動に関する高分解能の測定データは稀にのみ収集され、そのようなデータは動作環境のごく一部をカバーすることができる。 したがって、リレーは自動化技術における他の多くの標準コンポーネントの代表である。

Real-life industrial use cases for machine learning oftentimes involve heterogeneous and dynamic assets, processes and data, resulting in a need to continuously adapt the learning algorithm accordingly. Industrial transfer learning offers to lower the effort of such adaptation by allowing the utilization of previously acquired knowledge in solving new (variants of) tasks. Being data-driven methods, the development of industrial transfer learning algorithms naturally requires appropriate datasets for training. However, open-source datasets suitable for transfer learning training, i.e. spanning different assets, processes and data (variants), are rare. With the Stuttgart Open Relay Degradation Dataset (SOReDD) we want to offer such a dataset. It provides data on the degradation of different electromechanical relays under different operating conditions, allowing for a large number of different transfer scenarios. Although such relays themselves are usually inexpensive standard components, their failure often leads to the failure of a machine as a whole due to their role as the central power switching element of a machine. The main cost factor in the event of a relay defect is therefore not the relay itself, but the reduced machine availability. It is therefore desirable to predict relay degradation as accurately as possible for specific applications in order to be able to replace relays in good time and avoid unplanned machine downtimes. Nevertheless, data-driven failure prediction for electromechanical relays faces the challenge that relay degradation behavior is highly dependent on the operating conditions, high-resolution measurement data on relay degradation behavior is only collected in rare cases, and such data can then only cover a fraction of the possible operating environments. Relays are thus representative of many other central standard components in automation technology.
翻訳日:2022-04-05 16:03:46 公開日:2022-04-04
# 深部ニューラルネットワークは多変量時系列異常検出に寄与するか?

Do Deep Neural Networks Contribute to Multivariate Time Series Anomaly Detection? ( http://arxiv.org/abs/2204.01637v1 )

ライセンス: Link先を確認
Julien Audibert and Pietro Michiardi and Fr\'ed\'eric Guyard and S\'ebastien Marti and Maria A. Zuluaga(参考訳) 時系列における異常検出は、広く研究されている複雑なタスクである。 近年,教師なし異常検出アルゴリズムが注目されている。 この傾向により、研究者は論文の中で学習に基づく方法のみを比較し、より伝統的なアプローチを放棄した。 その結果、この分野のコミュニティは、深層ニューラルネットワークを中心に、より複雑な学習ベースのモデルを提案するよう奨励されている。 我々の知識では、多変量時系列における異常検出のための従来の機械学習法とディープニューラルネットワーク法の比較研究は行われていない。 本研究では,5つの実世界のオープンデータセットにおける16種類の従来型機械学習およびディープニューラルネットワークの異常検出性能について検討する。 16の手法のそれぞれの性能を分析し比較することにより,他の手法よりも優れた手法群が存在しないことを示す。 そこで我々は,多変量時系列ベンチマークにおける異常検出手法の3つのカテゴリをコミュニティに再編成することを推奨する。

Anomaly detection in time series is a complex task that has been widely studied. In recent years, the ability of unsupervised anomaly detection algorithms has received much attention. This trend has led researchers to compare only learning-based methods in their articles, abandoning some more conventional approaches. As a result, the community in this field has been encouraged to propose increasingly complex learning-based models mainly based on deep neural networks. To our knowledge, there are no comparative studies between conventional, machine learning-based and, deep neural network methods for the detection of anomalies in multivariate time series. In this work, we study the anomaly detection performance of sixteen conventional, machine learning-based and, deep neural network approaches on five real-world open datasets. By analyzing and comparing the performance of each of the sixteen methods, we show that no family of methods outperforms the others. Therefore, we encourage the community to reincorporate the three categories of methods in the anomaly detection in multivariate time series benchmarks.
翻訳日:2022-04-05 16:03:19 公開日:2022-04-04
# エコロジーモーメントアセスメントデータにおける説明可能なブースティングマシンを用いたイディオグラフィーとノモテティックアプローチの比較

Using Explainable Boosting Machine to Compare Idiographic and Nomothetic Approaches for Ecological Momentary Assessment Data ( http://arxiv.org/abs/2204.01689v1 )

ライセンス: Link先を確認
Mandani Ntekouli, Gerasimos Spanakis, Lourens Waldorp, Anne Roefs(参考訳) 精神障害のEMAデータに関するこれまでの研究は、主に多変量回帰に基づくアプローチを個別にモデル化することに焦点を当てていた。 本稿では,非線形解釈可能な機械学習モデル(ML)の分類問題への応用について検討する。 mlモデルは、データ内の変数間の複雑なパターンを認識して、異なる振る舞いの発生を正確に予測する能力を高めることができる。 これを評価するために,不均衡合成データと実世界のデータを用いた線形モデルと比較した。 すべての場合においてAUCスコアの分布を調べると、非線形モデルはベースライン線形モデルよりも優れているように見える。 さらに、パーソナライズされたアプローチとは別に、グループレベルの予測モデルもパフォーマンスを向上する可能性がある。 これによると、複数の個人のデータを統合するための2つの異なるノーモテティックなアプローチが検討され、1つはトレーニング中に直接すべてのデータを使用しており、もう1つは知識蒸留に基づいている。 興味深いことに、2つの実世界のデータセットのうちの1つでは、知識蒸留法が改善されたAUCスコア(パーソナライズされた+17\%の相対的な変化)を達成し、それがEMAデータの分類と性能にどう役立つかを示す。

Previous research on EMA data of mental disorders was mainly focused on multivariate regression-based approaches modeling each individual separately. This paper goes a step further towards exploring the use of non-linear interpretable machine learning (ML) models in classification problems. ML models can enhance the ability to accurately predict the occurrence of different behaviors by recognizing complicated patterns between variables in data. To evaluate this, the performance of various ensembles of trees are compared to linear models using imbalanced synthetic and real-world datasets. After examining the distributions of AUC scores in all cases, non-linear models appear to be superior to baseline linear models. Moreover, apart from personalized approaches, group-level prediction models are also likely to offer an enhanced performance. According to this, two different nomothetic approaches to integrate data of more than one individuals are examined, one using directly all data during training and one based on knowledge distillation. Interestingly, it is observed that in one of the two real-world datasets, knowledge distillation method achieves improved AUC scores (mean relative change of +17\% compared to personalized) showing how it can benefit EMA data classification and performance.
翻訳日:2022-04-05 16:03:04 公開日:2022-04-04
# ディープレコメンダシステムのための自動機械学習:サーベイ

Automated Machine Learning for Deep Recommender Systems: A Survey ( http://arxiv.org/abs/2204.01390v1 )

ライセンス: Link先を確認
Bo Chen, Xiangyu Zhao, Yejing Wang, Wenqi Fan, Huifeng Guo, Ruiming Tang(参考訳) ディープ・レコメンダ・システム(DRS)は、ユーザの興味や好みに合わせてカスタマイズされたアイテムを推奨することで、情報過負荷の問題に対処する、現在の商用オンラインサービスプロバイダにとって重要である。 それらは、前例のない特徴表現の有効性と、ユーザとアイテム間の非線形関係をモデル化する能力を持っている。 その進歩にもかかわらず、他のディープラーニングモデルと同様に、drsモデルは高度なニューラルネットワークアーキテクチャと、人間の専門家が設計・調整するその他の重要なコンポーネントを使用している。 本稿では、DRSモデルを開発するための自動機械学習(AutoML)について概説する。 まず、DRSモデルと関連する技術に関するAutoMLの概要を紹介する。 次に,機能選択,機能埋め込み,機能インタラクション,システム設計を自動化する,最先端のAutoMLアプローチについて議論する。 最後に, アピール研究の方向性を議論し, 調査結果をまとめる。

Deep recommender systems (DRS) are critical for current commercial online service providers, which address the issue of information overload by recommending items that are tailored to the user's interests and preferences. They have unprecedented feature representations effectiveness and the capacity of modeling the non-linear relationships between users and items. Despite their advancements, DRS models, like other deep learning models, employ sophisticated neural network architectures and other vital components that are typically designed and tuned by human experts. This article will give a comprehensive summary of automated machine learning (AutoML) for developing DRS models. We first provide an overview of AutoML for DRS models and the related techniques. Then we discuss the state-of-the-art AutoML approaches that automate the feature selection, feature embeddings, feature interactions, and system design in DRS. Finally, we discuss appealing research directions and summarize the survey.
翻訳日:2022-04-05 16:00:31 公開日:2022-04-04
# t*$\varepsilon$ --最小時間平面曲率制約系の有界-最適効率的な運動計画

T*$\varepsilon$ -- Bounded-Suboptimal Efficient Motion Planning for Minimum-Time Planar Curvature-Constraine d Systems ( http://arxiv.org/abs/2204.01673v1 )

ライセンス: Link先を確認
Doron Pinsky and Petr V\'a\v{n}a and Jan Faigl and Oren Salzman(参考訳) 本研究では, 障害物の存在下での曲率制約系に対する衝突のない経路の探索について検討する。 具体的には、平面系が一定の速度で非拘束加速度で走行できるような設定に注目する。 この設定は固定翼ドローンなど多くのシステムをモデル化することができる。 残念なことに、このようなシステムの計画には、2つのクローズバイ構成を接続する多くの(ローカルな)時間最適遷移を評価する必要がある。 既存の手法は、前処理の段階で全ての遷移をプリコンプリートするか、あるいはヒューリスティックを使って検索を高速化する。 私たちの重要な洞察は、時間-最適遷移のコンピューティングが両方であることです。 (i)~計算コストが高くて~ (ii)-多くの問題例では不要。 任意のユーザ提供の$\varepsilon$ に対する最適解のコストを 1+\varepsilon$ で割った)有界な最適解を見つけることにより、時間最適化解ではなく、使用中の時間最適化遷移の数を劇的に削減できることを示した。 我々は、我々の計画フレームワークが、ソリューションの品質の保証を提供しながら、最先端と比較してランタイムを数桁削減できるという実証的評価を用いて実証する。

We consider the problem of finding collision-free paths for curvature-constraine d systems in the presence of obstacles while minimizing execution time. Specifically, we focus on the setting where a planar system can travel at some range of speeds with unbounded acceleration. This setting can model many systems, such as fixed-wing drones. Unfortunately, planning for such systems might require evaluating many (local) time-optimal transitions connecting two close-by configurations, which is computationally expensive. Existing methods either pre-compute all such transitions in a preprocessing stage or use heuristics to speed up the search, thus foregoing any guarantees on solution quality. Our key insight is that computing all the time-optimal transitions is both~(i)~computation ally expensive and~(ii)~unnecessary for many problem instances. We show that by finding bounded-suboptimal solutions (solutions whose cost is bounded by $1+\varepsilon$ times the cost of the optimal solution for any user-provided $\varepsilon$) and not time-optimal solutions, one can dramatically reduce the number of time-optimal transitions used. We demonstrate using empirical evaluation that our planning framework can reduce the runtime by several orders of magnitude compared to the state-of-the-art while still providing guarantees on the quality of the solution.
翻訳日:2022-04-05 16:00:17 公開日:2022-04-04
# (参考訳) LISA:手の形と外観を学習する [全文訳有]

LISA: Learning Implicit Shape and Appearance of Hands ( http://arxiv.org/abs/2204.01695v1 )

ライセンス: CC BY 4.0
Enric Corona, Tomas Hodan, Minh Vo, Francesc Moreno-Noguer, Chris Sweeney, Richard Newcombe, Lingni Ma(参考訳) 本稿では,人間の手におけるdo-it-allニューラルモデルであるlisaを提案する。 モデルは、正確な手の形と外観をキャプチャし、任意の手対象に一般化し、密度の高い表面対応を提供し、野生の画像から再構成でき、簡単にアニメーションすることができる。 手の骨格の粗い3Dポーズを付加した多視点RGB画像列の形状と外観損失を最小化してLISAを訓練する。 手指の局所座標における3次元点について,本モデルは各手指骨に対する色と符号付き距離を独立に予測し,予測したスキンウェイトを用いて骨ごとの予測と組み合わせる。 形状、色、ポーズの表現はデザインによって切り離され、選択されたパラメータのみを推定またはアニメーションすることができる。 LISAは単眼または多視野の配列から動的ハンドを正確に再構成できることを実験的に証明し、ベースラインのアプローチに比べて明らかに高い品質の復元手形を実現する。 プロジェクトページ: https://www.iri.upc. edu/people/ecorona/l isa/

This paper proposes a do-it-all neural model of human hands, named LISA. The model can capture accurate hand shape and appearance, generalize to arbitrary hand subjects, provide dense surface correspondences, be reconstructed from images in the wild and easily animated. We train LISA by minimizing the shape and appearance losses on a large set of multi-view RGB image sequences annotated with coarse 3D poses of the hand skeleton. For a 3D point in the hand local coordinate, our model predicts the color and the signed distance with respect to each hand bone independently, and then combines the per-bone predictions using predicted skinning weights. The shape, color and pose representations are disentangled by design, allowing to estimate or animate only selected parameters. We experimentally demonstrate that LISA can accurately reconstruct a dynamic hand from monocular or multi-view sequences, achieving a noticeably higher quality of reconstructed hand shapes compared to baseline approaches. Project page: https://www.iri.upc. edu/people/ecorona/l isa/.
翻訳日:2022-04-05 15:58:48 公開日:2022-04-04
# MGRR-Net:顔行動単位検出のためのマルチレベルグラフ関係推論ネットワーク

MGRR-Net: Multi-level Graph Relational Reasoning Network for Facial Action Units Detection ( http://arxiv.org/abs/2204.01349v1 )

ライセンス: Link先を確認
Xuri Ge, Joemon M. Jose, Songpei Xu, Xiao Liu, Hu Han(参考訳) 顔画像のアクションユニット(AU)を符号化するFACS(Facial Action Coding System)は,顔の表情分析に広く用いられているため,広く研究されている。 自動顔動作ユニット(AU)検出においてよく機能する多くの方法は、主に、対応する局所筋領域間の様々な種類のAU関係をモデル化すること、あるいは、単にグローバルな注意を意識した顔の特徴をマイニングすることに焦点を当てている。 我々は、AU特徴の符号化は、地域的特徴とグローバルな特徴の間のリッチな文脈情報や、表現の多様性や個人的特徴から、AU間の詳細なばらつきを捉えないかもしれないと論じている。 本稿では,顔AU検出のためのマルチレベルグラフ関係推論ネットワーク(MGRR-Net)を提案する。 MGRR-Netの各層は複数レベル(領域レベル、画素レベル、チャネルレベル)の機能学習を行う。 グラフニューラルネットワークによる局所的な顔パッチ機能からの地域レベルの特徴学習は、異なるAU間の相関を符号化することができるが、グラフアテンションネットワークによる画素ワイドおよびチャネルワイドの特徴学習は、グローバルな顔特徴からのAU機能の識別能力を高めることができる。 3つのレベルから融合した特徴により、AU識別能力は向上した。 DISFA と BP4D AU データセットの大規模な実験により,提案手法は最先端手法よりも優れた性能を示した。

The Facial Action Coding System (FACS) encodes the action units (AUs) in facial images, which has attracted extensive research attention due to its wide use in facial expression analysis. Many methods that perform well on automatic facial action unit (AU) detection primarily focus on modeling various types of AU relations between corresponding local muscle areas, or simply mining global attention-aware facial features, however, neglect the dynamic interactions among local-global features. We argue that encoding AU features just from one perspective may not capture the rich contextual information between regional and global face features, as well as the detailed variability across AUs, because of the diversity in expression and individual characteristics. In this paper, we propose a novel Multi-level Graph Relational Reasoning Network (termed MGRR-Net) for facial AU detection. Each layer of MGRR-Net performs a multi-level (i.e., region-level, pixel-wise and channel-wise level) feature learning. While the region-level feature learning from local face patches features via graph neural network can encode the correlation across different AUs, the pixel-wise and channel-wise feature learning via graph attention network can enhance the discrimination ability of AU features from global face features. The fused features from the three levels lead to improved AU discriminative ability. Extensive experiments on DISFA and BP4D AU datasets show that the proposed approach achieves superior performance than the state-of-the-art methods.
翻訳日:2022-04-05 15:42:05 公開日:2022-04-04
# Transferability Metricsの評価はどの程度安定しているか?

How stable are Transferability Metrics evaluations? ( http://arxiv.org/abs/2204.01403v1 )

ライセンス: Link先を確認
Andrea Agostinelli and Michal P\'andy and Jasper Uijlings and Thomas Mensink and Vittorio Ferrari(参考訳) トランスファービリティメトリクスは関心が高まる成熟した分野であり、これら全てを微調整することなく、与えられたターゲットデータセットに転送する最も適切なソースモデルを選択するためのヒューリスティックを提供することを目的としている。 しかし、既存の作品は論文ごとに異なる独自の実験的な設定に依存しており、どの移行可能性メトリクスが最適かという矛盾した結論をもたらしている。 本稿では,広範囲な715k実験装置を体系的に構築し,大規模研究を行う。 実験的な構成の小さな変化であっても、トランスファー可能性計量が他よりも優れているという結論は異なることが判明した。 そこで我々は,多くの実験を集約し,より安定した結論に達するためのより良い評価を提案する。 その結果、セマンティックセグメンテーションシナリオで転送するよいソースデータセットを選択する場合のlogmeの優位性、画像分類シナリオで優れたソースアーキテクチャを選択する場合のnleep、与えられたソースモデルから最も有利なターゲットタスクを決定する場合のgbcが明らかにされる。 しかし、すべてのシナリオで最もうまく機能する単一の転送可能性計量は存在しない。

Transferability metrics is a maturing field with increasing interest, which aims at providing heuristics for selecting the most suitable source models to transfer to a given target dataset, without fine-tuning them all. However, existing works rely on custom experimental setups which differ across papers, leading to inconsistent conclusions about which transferability metrics work best. In this paper we conduct a large-scale study by systematically constructing a broad range of 715k experimental setup variations. We discover that even small variations to an experimental setup lead to different conclusions about the superiority of a transferability metric over another. Then we propose better evaluations by aggregating across many experiments, enabling to reach more stable conclusions. As a result, we reveal the superiority of LogME at selecting good source datasets to transfer from in a semantic segmentation scenario, NLEEP at selecting good source architectures in an image classification scenario, and GBC at determining which target task benefits most from a given source model. Yet, no single transferability metric works best in all scenarios.
翻訳日:2022-04-05 15:41:36 公開日:2022-04-04
# 解像度非対称ステレオからの劣化非依存対応

Degradation-agnostic Correspondence from Resolution-asymmetri c Stereo ( http://arxiv.org/abs/2204.01429v1 )

ライセンス: Link先を確認
Xihao Chen, Zhiwei Xiong, Zhen Cheng, Jiayong Peng, Yueyi Zhang, Zheng-Jun Zha(参考訳) 本稿では、テレワイドカメラシステムで取得した画像など、解像度の異なる2つの画像のステレオマッチングの問題について検討する。 現実世界の多様なシステムにおいて、地道不均質ラベルを得るのが困難であるため、教師なし学習の観点から始める。 しかし、2つのビュー間の未知の劣化に起因する分解非対称性は、一般的に仮定される光度一貫性の有効性を妨げている。 この課題を克服するために,特徴空間の代わりに特徴空間に2つのビュー間の一貫性を課すことを提案する。 興味深いことに、フォトメトリックロスでトレーニングされたステレオマッチングネットワークは最適ではないが、その特徴抽出器は分解非依存でマッチング特有の特徴を生み出すことができる。 これらの特徴を利用して特徴量損失を定式化し、光度不整合を回避する。 さらに,特徴抽出器を段階的に最適化するセルフブート戦略を導入し,特徴量整合性をさらに強化する。 様々な劣化を伴うシミュレーションデータセットと自己収集実世界のデータセットの両方の実験は、既存のソリューションよりも優れた性能を検証している。

In this paper, we study the problem of stereo matching from a pair of images with different resolutions, e.g., those acquired with a tele-wide camera system. Due to the difficulty of obtaining ground-truth disparity labels in diverse real-world systems, we start from an unsupervised learning perspective. However, resolution asymmetry caused by unknown degradations between two views hinders the effectiveness of the generally assumed photometric consistency. To overcome this challenge, we propose to impose the consistency between two views in a feature space instead of the image space, named feature-metric consistency. Interestingly, we find that, although a stereo matching network trained with the photometric loss is not optimal, its feature extractor can produce degradation-agnostic and matching-specific features. These features can then be utilized to formulate a feature-metric loss to avoid the photometric inconsistency. Moreover, we introduce a self-boosting strategy to optimize the feature extractor progressively, which further strengthens the feature-metric consistency. Experiments on both simulated datasets with various degradations and a self-collected real-world dataset validate the superior performance of the proposed method over existing solutions.
翻訳日:2022-04-05 15:41:18 公開日:2022-04-04
# wildnet: 学習領域の一般化した意味セグメンテーション

WildNet: Learning Domain Generalized Semantic Segmentation from the Wild ( http://arxiv.org/abs/2204.01446v1 )

ライセンス: Link先を確認
Suhyeon Lee, Hongje Seong, Seongwon Lee, Euntai Kim(参考訳) 本稿では,wildnetという新たなドメイン一般化意味セグメンテーションネットワークを提案する。 ドメイン一般化において、未確認対象ドメインの低一般化能力は、明らかにソースドメインに過度に適合するためである。 この問題に対処するため、以前の研究は、ソースドメインのスタイルを削除または多様化することで、ドメインの一般化に重点を置いてきた。 これらはソーススタイルへのオーバーフィットを緩和したが、ソースコンテンツへのオーバーフィットを見逃していた。 本稿では,ソースドメインの内容とスタイルを野生生物の助けを借りて多様化することを提案する。 ネットワークは自然界からドメインに一般化されたセマンティック情報を学習する。 この目的のために、ソース機能を拡張してワイルドスタイルに類似させ、ネットワークを様々なスタイルに適応させることで、スタイルを多様化する。 さらに,特徴空間のソースコンテンツからワイルドから借用されたセマンティックなバリエーションを提供することで,クラス識別特徴の学習を促す。 最後に、ソースドメインの内容とスタイルの両方がワイルドに拡張された場合でも、一貫性のあるセマンティック情報をキャプチャするためにネットワークを規則化する。 5つの異なるデータセットに対する大規模な実験により、WildNetの有効性が検証され、最先端の手法よりも大幅に優れています。 ソースコードとモデルはオンラインで入手できる。 https://github.com/s uhyeonlee/WildNet。

We present a new domain generalized semantic segmentation network named WildNet, which learns domain-generalized features by leveraging a variety of contents and styles from the wild. In domain generalization, the low generalization ability for unseen target domains is clearly due to overfitting to the source domain. To address this problem, previous works have focused on generalizing the domain by removing or diversifying the styles of the source domain. These alleviated overfitting to the source-style but overlooked overfitting to the source-content. In this paper, we propose to diversify both the content and style of the source domain with the help of the wild. Our main idea is for networks to naturally learn domain-generalized semantic information from the wild. To this end, we diversify styles by augmenting source features to resemble wild styles and enable networks to adapt to a variety of styles. Furthermore, we encourage networks to learn class-discriminant features by providing semantic variations borrowed from the wild to source contents in the feature space. Finally, we regularize networks to capture consistent semantic information even when both the content and style of the source domain are extended to the wild. Extensive experiments on five different datasets validate the effectiveness of our WildNet, and we significantly outperform state-of-the-art methods. The source code and model are available online: https://github.com/s uhyeonlee/WildNet.
翻訳日:2022-04-05 15:41:00 公開日:2022-04-04
# 画像検索における相関検証

Correlation Verification for Image Retrieval ( http://arxiv.org/abs/2204.01458v1 )

ライセンス: Link先を確認
Seongwon Lee, Hongje Seong, Suhyeon Lee, Euntai Kim(参考訳) 幾何的検証は、画像検索における再ランクタスクのデファクトソリューションと考えられる。 本研究では,相関検証ネットワーク(cvnet)と呼ばれる画像検索再ランキングネットワークを提案する。 提案する4次元畳み込み層からなるネットワークは,様々な画像ペアから多様な幾何学的マッチングパターンを学習しながら,密度の高い特徴相関を画像類似性に徐々に圧縮する。 クロススケールマッチングを可能にするために、機能ピラミッドを構築し、単一の推論内でクロススケールな特徴相関を構築し、高価なマルチスケール推論を置き換える。 さらに,硬い負のマイニングによるカリキュラム学習と,暗黙の戦略を用いて,一般性を損なうことなく硬いサンプルを扱う。 提案する再ランキングネットワークは,いくつかの検索ベンチマークにおいて,最先端の手法に対して有意なマージン(ロックスフォード・ハード+1m集合のマップの12.6%以上)で最先端の性能を示す。 ソースコードとモデルはオンラインで入手できる。 https://github.com/s ungonce/CVNet。

Geometric verification is considered a de facto solution for the re-ranking task in image retrieval. In this study, we propose a novel image retrieval re-ranking network named Correlation Verification Networks (CVNet). Our proposed network, comprising deeply stacked 4D convolutional layers, gradually compresses dense feature correlation into image similarity while learning diverse geometric matching patterns from various image pairs. To enable cross-scale matching, it builds feature pyramids and constructs cross-scale feature correlations within a single inference, replacing costly multi-scale inferences. In addition, we use curriculum learning with the hard negative mining and Hide-and-Seek strategy to handle hard samples without losing generality. Our proposed re-ranking network shows state-of-the-art performance on several retrieval benchmarks with a significant margin (+12.6% in mAP on ROxford-Hard+1M set) over state-of-the-art methods. The source code and models are available online: https://github.com/s ungonce/CVNet.
翻訳日:2022-04-05 15:40:38 公開日:2022-04-04
# 単像反射除去のための適応ネットワーク結合:領域一般化の観点から

Adaptive Network Combination for Single-Image Reflection Removal: A Domain Generalization Perspective ( http://arxiv.org/abs/2204.01505v1 )

ライセンス: Link先を確認
Ming Liu, Jianan Pan, Zifei Yan, Wangmeng Zuo, Lei Zhang(参考訳) 近年,single image reflection removal (sirr)モデルのトレーニングを容易にするために,複数の合成データと実世界のデータセットが構築されている。 一方、多様なテストセットには様々な種類のリフレクションとシーンが提供されている。 しかし、トレーニングセットとテストセットの間の無視できないドメインギャップは、テスト画像によく一般化した深層モデルの学習を困難にしている。 反射とシーンの多様性により、単一のモデルをすべてのテストセットや実世界の反射に対して効果的に学習することは不可能になる。 本稿では,ドメイン一般化の観点からSIRRモデルを学習することで,これらの課題に対処する。 特に、ソースセットごとに特定のSIRRモデルをトレーニングし、関連するリフレクションタイプのドメインエキスパートとして機能させる。 与えられた反射汚染画像に対して、専門家の体重を予測する反射型認識重み付け(RTAW)モジュールを提案する。 RTAWは、異なるリフレクションタイプやシーン、すなわち未知のドメインへの一般化を扱うための適応ネットワーク結合(AdaNEC)に組み込むことができる。 2つの代表的なAdaNEC法、すなわち出力融合(OF)とネットワーク補間(NI)は、適応レベルと効率の両方を考慮して提供される。 あるソースセットからのイメージに対して、RTAWは、他のドメインエキスパートの専門的な重みだけを予測して、一般化能力を改善するようにトレーニングします。 RTAWのトレーニングには、ドメイン内のエキスパート(IDE)損失が提示される。 広範囲な実験により、異なる最先端SIRRネットワーク上でのAdaNECの性能向上が示された。 ソースコードと事前訓練されたモデルはhttps://github.com/c smliu/AdaNEC.comで入手できる。

Recently, multiple synthetic and real-world datasets have been built to facilitate the training of deep single image reflection removal (SIRR) models. Meanwhile, diverse testing sets are also provided with different types of reflection and scenes. However, the non-negligible domain gaps between training and testing sets make it difficult to learn deep models generalizing well to testing images. The diversity of reflections and scenes further makes it a mission impossible to learn a single model being effective to all testing sets and real-world reflections. In this paper, we tackle these issues by learning SIRR models from a domain generalization perspective. Particularly, for each source set, a specific SIRR model is trained to serve as a domain expert of relevant reflection types. For a given reflection-contamina ted image, we present a reflection type-aware weighting (RTAW) module to predict expert-wise weights. RTAW can then be incorporated with adaptive network combination (AdaNEC) for handling different reflection types and scenes, i.e., generalizing to unknown domains. Two representative AdaNEC methods, i.e., output fusion (OF) and network interpolation (NI), are provided by considering both adaptation levels and efficiency. For images from one source set, we train RTAW to only predict expert-wise weights of other domain experts for improving generalization ability, while the weights of all experts are predicted and employed during testing. An in-domain expert (IDE) loss is presented for training RTAW. Extensive experiments show the appealing performance gain of our AdaNEC on different state-of-the-art SIRR networks. Source code and pre-trained models will available at https://github.com/c smliu/AdaNEC.
翻訳日:2022-04-05 15:40:21 公開日:2022-04-04
# HiT-DVAE:階層型トランスフォーマーダイナミックVAEによる人体運動生成

HiT-DVAE: Human Motion Generation via Hierarchical Transformer Dynamical VAE ( http://arxiv.org/abs/2204.01565v1 )

ライセンス: Link先を確認
Xiaoyu Bie, Wen Guo, Simon Leglaive, Lauren Girin, Francesc Moreno-Noguer, Xavier Alameda-Pineda(参考訳) 近年、3次元ポーズデータの自動処理に関する研究が盛んになっている。 本稿では,観察された3次元ポーズシーケンスに従って,多種多様な未来の人間のポーズを生成することに関心がある。 現在の手法では、1つの潜在空間から確率変数を決定論的動き予測フレームワークに注入することでこの問題に対処している。 さらに、前回の作品では、どのフレームを使って、私たちの知識まで生成プロセスに知らせるべきかの選択に注意を向けることもほとんどない。 これらの制限を克服するために, 自動回帰生成を実装した階層型トランスフォーマー動的変分自動エンコーダHiT-DVAEを提案する。 hit-dvaeはデータの進化と時間の相関した確率依存性を同時に学習し、生成モデルによりより複雑で時間のかかる潜在空間や、多様で現実的な人間の動きを学ぶことができる。 さらに、自己回帰生成は観察と予測に柔軟性をもたらし、任意の観察期間を持ち、事前訓練されたモデルで任意の大きなポーズ列を予測することができる。 提案手法は, 様々な評価手法を用いてヒューマネバ-i と human3.6m について評価し, 測定値のほとんどにおいて最先端手法を上回っている。

Studies on the automatic processing of 3D human pose data have flourished in the recent past. In this paper, we are interested in the generation of plausible and diverse future human poses following an observed 3D pose sequence. Current methods address this problem by injecting random variables from a single latent space into a deterministic motion prediction framework, which precludes the inherent multi-modality in human motion generation. In addition, previous works rarely explore the use of attention to select which frames are to be used to inform the generation process up to our knowledge. To overcome these limitations, we propose Hierarchical Transformer Dynamical Variational Autoencoder, HiT-DVAE, which implements auto-regressive generation with transformer-like attention mechanisms. HiT-DVAE simultaneously learns the evolution of data and latent space distribution with time correlated probabilistic dependencies, thus enabling the generative model to learn a more complex and time-varying latent space as well as diverse and realistic human motions. Furthermore, the auto-regressive generation brings more flexibility on observation and prediction, i.e. one can have any length of observation and predict arbitrary large sequences of poses with a single pre-trained model. We evaluate the proposed method on HumanEva-I and Human3.6M with various evaluation methods, and outperform the state-of-the-art methods on most of the metrics.
翻訳日:2022-04-05 15:39:56 公開日:2022-04-04
# 単眼RGB画像からのカテゴリーレベル6次元オブジェクト位置推定のための物体深度再構成

Object Level Depth Reconstruction for Category Level 6D Object Pose Estimation From Monocular RGB Image ( http://arxiv.org/abs/2204.01586v1 )

ライセンス: Link先を確認
Zhaoxin Fan, Zhenbo Song, Jian Xu, Zhicheng Wang, Kejian Wu, Hongyan Liu and Jun He(参考訳) 近年,RGBDをベースとしたカテゴリレベルの6Dオブジェクトポーズ推定では,性能向上が期待できるが,深度情報の要求はより広範な応用を妨げている。 そこで本研究では,RGB画像のみをカテゴリレベルの6Dオブジェクトポーズ推定の入力として用いたオブジェクトレベル深さ再構成ネットワーク(OLD-Net)を提案する。 本稿では,一眼レフ画像からオブジェクトレベルの深度と標準NOCS表現に先立ってカテゴリレベルの形状を変形させることにより,オブジェクトレベルの深度を直接予測する。 高忠実度オブジェクトレベルの深さと微妙な形状表現を学習するために、正規化グローバル位置ヒント(NGPH)と形状認識デカップリング深度再構成(SDDR)モジュールと呼ばれる2つの新しいモジュールを導入した。 最終的に、6Dオブジェクトのポーズは、予測された標準表現と後方投影されたオブジェクトレベルの深さを一致させることで解決される。 挑戦的なCAMERA25とREAL275データセットに関する大規模な実験は、我々のモデルは単純ではあるが最先端のパフォーマンスを達成することを示している。

Recently, RGBD-based category-level 6D object pose estimation has achieved promising improvement in performance, however, the requirement of depth information prohibits broader applications. In order to relieve this problem, this paper proposes a novel approach named Object Level Depth reconstruction Network (OLD-Net) taking only RGB images as input for category-level 6D object pose estimation. We propose to directly predict object-level depth from a monocular RGB image by deforming the category-level shape prior into object-level depth and the canonical NOCS representation. Two novel modules named Normalized Global Position Hints (NGPH) and Shape-aware Decoupled Depth Reconstruction (SDDR) module are introduced to learn high fidelity object-level depth and delicate shape representations. At last, the 6D object pose is solved by aligning the predicted canonical representation with the back-projected object-level depth. Extensive experiments on the challenging CAMERA25 and REAL275 datasets indicate that our model, though simple, achieves state-of-the-art performance.
翻訳日:2022-04-05 15:39:32 公開日:2022-04-04
# fifo:フォギーシーンセグメンテーションのためのフォグ不変特徴の学習

FIFO: Learning Fog-invariant Features for Foggy Scene Segmentation ( http://arxiv.org/abs/2204.01587v1 )

ライセンス: Link先を確認
Sohyun Lee, Taeyoung Son, Suha Kwak(参考訳) 悪天候下でのロバストな視覚認識は,実世界のアプリケーションにおいて非常に重要である。 本研究では,霧に対して頑健なセマンティックセグメンテーションモデルを学習するための新しい手法を提案する。 その鍵となる考え方は、画像の霧条件をそのスタイルとして考慮し、セグメンテーションモデルのニューラルスタイル空間において異なる霧条件を持つ画像間のギャップを閉じることである。 特に、画像のニューラルスタイルは、一般的に他の要因や霧の影響を受けているため、フォグパスフィルタモジュールを導入して、そのスタイルからフォグ関連因子を抽出する。 フォグパスフィルタとセグメンテーションモデルの最適化は、異なるフォグ条件の間のスタイルギャップを徐々に閉鎖し、結果としてフォグ不変な特徴を学ぶことができる。 本手法は, 3つの実画像データセットにおける従来の作業を大幅に上回っている。 さらに、霧や晴れた天気画像のパフォーマンスも向上し、既存の手法ではクリアな場面での性能が劣化することが多い。

Robust visual recognition under adverse weather conditions is of great importance in real-world applications. In this context, we propose a new method for learning semantic segmentation models robust against fog. Its key idea is to consider the fog condition of an image as its style and close the gap between images with different fog conditions in neural style spaces of a segmentation model. In particular, since the neural style of an image is in general affected by other factors as well as fog, we introduce a fog-pass filter module that learns to extract a fog-relevant factor from the style. Optimizing the fog-pass filter and the segmentation model alternately gradually closes the style gap between different fog conditions and allows to learn fog-invariant features in consequence. Our method substantially outperforms previous work on three real foggy image datasets. Moreover, it improves performance on both foggy and clear weather images, while existing methods often degrade performance on clear scenes.
翻訳日:2022-04-05 15:39:06 公開日:2022-04-04
# 脳電図信号を用いた新しいカプセル型ニューラルネットワークによる眠気検出モデル

A Novel Capsule Neural Network Based Model for Drowsiness Detection Using Electroencephalograp hy Signals ( http://arxiv.org/abs/2204.01666v1 )

ライセンス: Link先を確認
Luis Guarda, Juan Tapia, Enrique Lopez Droguett, Marcelo Ramos(参考訳) drrowsinessの早期発見は、いくつかの業界のタスクの正確かつ安全な開発を確保するために不可欠である。 覚醒と眠気の間の過渡的な精神状態のため、自動的な眠気検出は、対処すべき複雑な問題である。 脳波信号は、個人の脳の電気電位の変化を記録し、それぞれが被験者の精神状態に関する特定の情報を与える。 しかし、この種の信号の性質から、その取得は一般に複雑であるため、処理や分類にDeep Learningの技法を最適に適用する大量のデータを持つことは困難である。 それでも、Capsule Neural Networksは、データ量を減らすために提案された新しいDeep Learningアルゴリズムである。 データの階層的関係を扱うためのロバストなアルゴリズムであり、生物医学的信号を扱う上で不可欠な特性である。 そこで本研究では,脳波信号チャネルの分光画像の結合を用いて,CapsNetを用いた深層学習による眠気検出手法を提案する。 提案したCapsNetモデルは,CNNの平均精度75,86%,79,47%に対して平均精度86,44%,感度87,57%を得る畳み込みニューラルネットワークと比較して,CapsNetがこの種のデータセットやタスクに適していることを示す。

The early detection of drowsiness has become vital to ensure the correct and safe development of several industries' tasks. Due to the transient mental state of a human subject between alertness and drowsiness, automated drowsiness detection is a complex problem to tackle. The electroencephalograp hy signals allow us to record variations in an individual's brain's electrical potential, where each of them gives specific information about a subject's mental state. However, due to this type of signal's nature, its acquisition, in general, is complex, so it is hard to have a large volume of data to apply techniques of Deep Learning for processing and classification optimally. Nevertheless, Capsule Neural Networks are a brand-new Deep Learning algorithm proposed for work with reduced amounts of data. It is a robust algorithm to handle the data's hierarchical relationships, which is an essential characteristic for work with biomedical signals. Therefore, this paper presents a Deep Learning-based method for drowsiness detection with CapsNet by using a concatenation of spectrogram images of the electroencephalograp hy signals channels. The proposed CapsNet model is compared with a Convolutional Neural Network, which is outperformed by the proposed model, which obtains an average accuracy of 86,44% and 87,57% of sensitivity against an average accuracy of 75,86% and 79,47% sensitivity for the CNN, showing that CapsNet is more suitable for this kind of datasets and tasks.
翻訳日:2022-04-05 15:38:28 公開日:2022-04-04
# 単一画像深度推定によるソーシャルディスタンシングのモニタリング

Monitoring social distancing with single image depth estimation ( http://arxiv.org/abs/2204.01693v1 )

ライセンス: Link先を確認
Alessio Mingozzi, Andrea Conti, Filippo Aleotti, Matteo Poggi, Stefano Mattoccia(参考訳) 最近の緊急事態宣言は、ウイルスの感染拡大を防ぐための対策に多くの課題を提起し、人間の距離を最小に抑えることが、最も効果的な戦略の一つとなった。 これにより、いわゆる社会距離を監視できる自律システムの実現が大きな関心事となった。 本稿では,深度センサを付加せずに単一のRGBフレームを活用することを目的とした。 地上局地化が不可能な場合、既存の単一画像代替画像とは対照的に、観察されたシーンの3次元構造を知覚し、人間距離を推定するために、単一画像深度推定に依存する。 セットアップ段階では、コンシューマー向けスマートフォンでも利用できるスケール対応SLAMアルゴリズムを利用して、単一画像深度推定に影響を及ぼすスケールのあいまいさに対処することができる。 キャリブレーションされたLiDAR+RGBカメラアセットを用いた屋内・屋外画像によるアプローチを検証する。 実験の結果, ソーシャルディスタンシングを効果的にモニタするために, 対人距離の信頼性の高い推定が可能となった。 この事実は、本質的な曖昧さにもかかわらず、もし適切に駆動された単一画像深度推定が他の深度認識手法の代替となるなら、より高価であり、実用的応用で常に実現可能であるとは限らないことを裏付ける。 私たちの評価では、純粋なcpuシステムでも、フレームワークが競合相手に対して合理的に高速かつ互換性のある実行が可能であることも強調しています。 さらに、低消費電力システムへの実践的な展開は、その角を曲がっている。

The recent pandemic emergency raised many challenges regarding the countermeasures aimed at containing the virus spread, and constraining the minimum distance between people resulted in one of the most effective strategies. Thus, the implementation of autonomous systems capable of monitoring the so-called social distance gained much interest. In this paper, we aim to address this task leveraging a single RGB frame without additional depth sensors. In contrast to existing single-image alternatives failing when ground localization is not available, we rely on single image depth estimation to perceive the 3D structure of the observed scene and estimate the distance between people. During the setup phase, a straightforward calibration procedure, leveraging a scale-aware SLAM algorithm available even on consumer smartphones, allows us to address the scale ambiguity affecting single image depth estimation. We validate our approach through indoor and outdoor images employing a calibrated LiDAR + RGB camera asset. Experimental results highlight that our proposal enables sufficiently reliable estimation of the inter-personal distance to monitor social distancing effectively. This fact confirms that despite its intrinsic ambiguity, if appropriately driven single image depth estimation can be a viable alternative to other depth perception techniques, more expensive and not always feasible in practical applications. Our evaluation also highlights that our framework can run reasonably fast and comparably to competitors, even on pure CPU systems. Moreover, its practical deployment on low-power systems is around the corner.
翻訳日:2022-04-05 15:38:05 公開日:2022-04-04
# 事前学習言語モデルを用いたヘイトスピーチに対する対語生成 : 比較研究

Using Pre-Trained Language Models for Producing Counter Narratives Against Hate Speech: a Comparative Study ( http://arxiv.org/abs/2204.01440v1 )

ライセンス: Link先を確認
Serra Sinem Tekiroglu, Helena Bonaldi, Margherita Fanton, Marco Guerini(参考訳) 本稿では,英語でオンラインヘイトスピーチと戦える自動カウンター・ナラティブ(cn)生成のタスクとして,事前学習された言語モデルの利用に関する広範囲な研究を行う。 まず、CNを生成するのに最適な特定の言語モデル(またはLMのクラス)と特定の復号機構が存在するかどうかを比較検討する。 自動回帰モデルと確率的デコーディングを組み合わせることが、最も有望であることを示している。 次に、憎悪の未確認目標に関して、LMがCNを生成する際にどのように機能するかを検討する。 実験を成功させる鍵となる要素は、トレーニングデータと全体的な類似性ではなく、トレーニングデータの特定のサブセットの存在、すなわち、a-prioriと定義可能なテストターゲットと共通点を共有するターゲットの存在であることがわかった。 最終的に、生成したCNを洗練するための自動後編集ステップの追加に基づくパイプラインのアイデアを紹介します。

In this work, we present an extensive study on the use of pre-trained language models for the task of automatic Counter Narrative (CN) generation to fight online hate speech in English. We first present a comparative study to determine whether there is a particular Language Model (or class of LMs) and a particular decoding mechanism that are the most appropriate to generate CNs. Findings show that autoregressive models combined with stochastic decodings are the most promising. We then investigate how an LM performs in generating a CN with regard to an unseen target of hate. We find out that a key element for successful `out of target' experiments is not an overall similarity with the training data but the presence of a specific subset of training data, i.e. a target that shares some commonalities with the test target that can be defined a-priori. We finally introduce the idea of a pipeline based on the addition of an automatic post-editing step to refine generated CNs.
翻訳日:2022-04-05 15:36:49 公開日:2022-04-04
# (参考訳) APP: いつでもプログレッシブ・プルーニング

APP: Anytime Progressive Pruning ( http://arxiv.org/abs/2204.01640v1 )

ライセンス: CC BY 4.0
Diganta Misra, Bharat Runwal, Tianlong Chen, Zhangyang Wang, Irina Rish(参考訳) ディープラーニングの最近の進歩により、実践的な環境での関連性から、オンライン学習パラダイムに多くの焦点が当てられている。 データストリームが時間とともに連続するシナリオにおいて、最適な学習設定のために多くの方法が研究されているが、そのような環境でのスパースネットワークトレーニングはしばしば見過ごされている。 本稿では,オンライン学習の特定の場合において,ニューラルネットワークをターゲット空間でトレーニングすることの問題点について考察する。 提案手法は,複数のアーキテクチャとデータセットにまたがるベースライン密度と任意の時間ospモデルを,短距離,中等度,長シーケンスのトレーニングで大幅に上回る。 例えば、この手法では、数発制限されたイメージネットトレーニングにおいて、密度ベースラインモデルの大きさの約1/3$ rdでありながら、約7\%$の精度の向上と一般化ギャップの削減を示す。 さらに,メガバッチベースALMAの一般化ギャップにおける興味深い非単調遷移を観察する。 コードと実験ダッシュボードは、それぞれ \url{https://github.com/l andskape-ai/Progress ive-Pruning} と \url{https://wandb.ai/lan dskape/APP} でアクセスできる。

With the latest advances in deep learning, there has been a lot of focus on the online learning paradigm due to its relevance in practical settings. Although many methods have been investigated for optimal learning settings in scenarios where the data stream is continuous over time, sparse networks training in such settings have often been overlooked. In this paper, we explore the problem of training a neural network with a target sparsity in a particular case of online learning: the anytime learning at macroscale paradigm (ALMA). We propose a novel way of progressive pruning, referred to as \textit{Anytime Progressive Pruning} (APP); the proposed approach significantly outperforms the baseline dense and Anytime OSP models across multiple architectures and datasets under short, moderate, and long-sequence training. Our method, for example, shows an improvement in accuracy of $\approx 7\%$ and a reduction in the generalization gap by $\approx 22\%$, while being $\approx 1/3$ rd the size of the dense baseline model in few-shot restricted imagenet training. We further observe interesting nonmonotonic transitions in the generalization gap in the high number of megabatches-based ALMA. The code and experiment dashboards can be accessed at \url{https://github.com/l andskape-ai/Progress ive-Pruning} and \url{https://wandb.ai/lan dskape/APP}, respectively.
翻訳日:2022-04-05 15:34:47 公開日:2022-04-04
# 任意のショット学習のための属性プロトタイプネットワーク

Attribute Prototype Network for Any-Shot Learning ( http://arxiv.org/abs/2204.01208v1 )

ライセンス: Link先を確認
Wenjia Xu, Yongqin Xian, Jiuniu Wang, Bernt Schiele, Zeynep Akata(参考訳) 任意のショット画像分類は、ほんの数またはゼロのサンプルで新しいクラスを認識できる。 ゼロショット学習の課題では、視覚的属性が重要な役割を担っていることが示されているが、少数ショットでは、属性の効果が過小評価されている。 属性に基づく知識を目に見えるクラスから見当たらないクラスに移すため、属性のローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットの画像分類タスクに有益であると主張している。 そこで本研究では,クラスレベルの属性のみを用いて,グローバルな特徴とローカルな特徴を識別的に学習する新しい表現学習フレームワークを提案する。 ビジュアル・セマンティックな埋め込み層はグローバルな特徴を学習するが、局所的な特徴は属性のプロトタイプネットワークを通じて学習される。 さらに,情報領域をローカライズして収穫するズームインモジュールを導入し,情報機能を明確に学習するようネットワークに促す。 CUB、AWA2、SUNといった挑戦的なベンチマークに対して、我々の局所性拡張画像表現が新たな最先端を実現することを示す。 さらに,画像中の属性の視覚的な証拠を示し,画像表現の属性局在化能力の向上を確認した。 属性のローカライゼーションは、基底真理部分アノテーション、可視化と質的に、そしてよく設計されたユーザスタディによって定量的に評価される。

Any-shot image classification allows to recognize novel classes with only a few or even zero samples. For the task of zero-shot learning, visual attributes have been shown to play an important role, while in the few-shot regime, the effect of attributes is under-explored. To better transfer attribute-based knowledge from seen to unseen classes, we argue that an image representation with integrated attribute localization ability would be beneficial for any-shot, i.e. zero-shot and few-shot, image classification tasks. To this end, we propose a novel representation learning framework that jointly learns discriminative global and local features using only class-level attributes. While a visual-semantic embedding layer learns global features, local features are learned through an attribute prototype network that simultaneously regresses and decorrelates attributes from intermediate features. Furthermore, we introduce a zoom-in module that localizes and crops the informative regions to encourage the network to learn informative features explicitly. We show that our locality augmented image representations achieve a new state-of-the-art on challenging benchmarks, i.e. CUB, AWA2, and SUN. As an additional benefit, our model points to the visual evidence of the attributes in an image, confirming the improved attribute localization ability of our image representation. The attribute localization is evaluated quantitatively with ground truth part annotations, qualitatively with visualizations, and through well-designed user studies.
翻訳日:2022-04-05 15:28:20 公開日:2022-04-04
# 軽量顔検出における標準畳み込みの有効性の再検討

Rediscovery of the Effectiveness of Standard Convolution for Lightweight Face Detection ( http://arxiv.org/abs/2204.01209v1 )

ライセンス: Link先を確認
Joonhyun Jeong, Beomyoung Kim, Joonsang Yu, Youngjoon Yoo(参考訳) 本稿では,計算コストと精度の効率を向上する顔検出アーキテクチャの設計選択について分析する。 具体的には、顔検出における軽量なバックボーンアーキテクチャとしての標準畳み込みブロックの有効性を再検討する。 奥行き分離可能な畳み込み層を多用する軽量アーキテクチャ設計の現在の傾向と異なり,類似のパラメータサイズを使用する場合,重層構造を持つ標準畳み込み層により精度と推論速度が向上することを示す。 この観察は、対象データ領域,顔の特性に関する分析によって支持される。 本研究では,モバイルフレンドリーなネットワーク (mobilenet-v1,-v2,-v 3) と比較し,resnet を非常に少ないチャネルで採用することを提案する。 広範な実験から,提案するバックボーンが最先端の顔検出器をより高速な推定速度で置き換えることができることを示す。 また,検出性能を最大化する特徴集約手法を提案する。 提案する検出器EResFDは,CPU上でのVGA画像推測に37.7msしか要しないWIDER FACE Hardサブセット上で80.4%のmAPを得た。 コードはhttps://github.com/c lovaai/eresfdで入手できる。

This paper analyses the design choices of face detection architecture that improve efficiency between computation cost and accuracy. Specifically, we re-examine the effectiveness of the standard convolutional block as a lightweight backbone architecture on face detection. Unlike the current tendency of lightweight architecture design, which heavily utilizes depthwise separable convolution layers, we show that heavily channel-pruned standard convolution layer can achieve better accuracy and inference speed when using a similar parameter size. This observation is supported by the analyses concerning the characteristics of the target data domain, face. Based on our observation, we propose to employ ResNet with a highly reduced channel, which surprisingly allows high efficiency compared to other mobile-friendly networks (e.g., MobileNet-V1,-V2,-V3 ). From the extensive experiments, we show that the proposed backbone can replace that of the state-of-the-art face detector with a faster inference speed. Also, we further propose a new feature aggregation method maximizing the detection performance. Our proposed detector EResFD obtained 80.4% mAP on WIDER FACE Hard subset which only takes 37.7 ms for VGA image inference in on CPU. Code will be available at https://github.com/c lovaai/EResFD.
翻訳日:2022-04-05 15:26:23 公開日:2022-04-04
# 教師なしドメイン適応と拡張のためのコティーチング

Co-Teaching for Unsupervised Domain Adaptation and Expansion ( http://arxiv.org/abs/2204.01210v1 )

ライセンス: Link先を確認
Kaibin Tian, Qijie Wei, Xirong Li(参考訳) 教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、ターゲットドメインのパフォーマンスを改善するために、ソースドメインでモデルのパフォーマンスを交換することが知られている。 この問題を解決するために、UDAが行っているようにターゲットドメインのモデルを適応させるために、Unsupervised Domain Expansion (UDE) が最近提案されている。 UDAとUDEの両方の場合、与えられたドメインに合わせたモデル(ソースまたはターゲットドメイン)は、与えられたドメインからのサンプルをうまく処理すると仮定される。 2つのドメイン間に結晶的に明確な境界がないため、あるドメインからのサンプルは他のドメインに視覚的に近付くことができる。 そこで本研究では, 知識蒸留によるCT(kdCT)とミキサアップによるCT(miCT)を組み合わせたCT(Co-Teaching)を提案する。 具体的には、kdCTは、リーダー-教師ネットワークとアシスタント-教師ネットワークから学生ネットワークに知識を伝達するので、クロスドメインな視覚的曖昧さは学生によってより良く扱われる。 一方、mictは学生の一般化能力をさらに向上させる。 2つの画像分類ベンチマークと2つの運転シーン分割ベンチマークに関する総合的な実験は、提案手法の有効性を正当化する。

Unsupervised Domain Adaptation (UDA) is known to trade a model's performance on a source domain for improving its performance on a target domain. To resolve the issue, Unsupervised Domain Expansion (UDE) has been proposed recently to adapt the model for the target domain as UDA does, and in the meantime maintain its performance on the source domain. For both UDA and UDE, a model tailored to a given domain, let it be the source or the target domain, is assumed to well handle samples from the given domain. We question the assumption by reporting the existence of cross-domain visual ambiguity: Due to the lack of a crystally clear boundary between the two domains, samples from one domain can be visually close to the other domain. We exploit this finding and accordingly propose in this paper Co-Teaching (CT) that consists of knowledge distillation based CT (kdCT) and mixup based CT (miCT). Specifically, kdCT transfers knowledge from a leader-teacher network and an assistant-teacher network to a student network, so the cross-domain visual ambiguity will be better handled by the student. Meanwhile, miCT further enhances the generalization ability of the student. Comprehensive experiments on two image-classification benchmarks and two driving-scene-segmen tation benchmarks justify the viability of the proposed method.
翻訳日:2022-04-05 15:26:02 公開日:2022-04-04
# ソフトしきい値三元ネットワーク

Soft Threshold Ternary Networks ( http://arxiv.org/abs/2204.01234v1 )

ライセンス: Link先を確認
Weixiang Xu, Xiangyu He, Tianli Zhao, Qinghao Hu, Peisong Wang and Jian Cheng(参考訳) 大規模なニューラルネットワークは、集中的な計算とストレージのため、モバイルデバイスへのデプロイが難しい。 そこで本研究では,重みとアクティベーションを3次値に定量化する効率と精度のバランスであるテルナライズについて検討した。 以前の三元化ニューラルネットワークでは、量子化間隔を決定するためにハードしきい値 {\Delta} が導入された。 Delta の選択はトレーニング結果に大きな影響を及ぼすが、以前の研究は近似を用いて {\Delta} を推定し、超パラメータとして扱い、これは準最適である。 本稿では、ハードしきい値に依存するのではなく、自動的に量子化間隔を決定できるソフト閾値3次ネットワーク(STTN)を提案する。 具体的には、トレーニング時に元の三進カーネルを2つの二進カーネルに置き換え、三進値は対応する2つの二進値の組み合わせによって決定される。 推論時には、2つのバイナリカーネルを追加して1つの3次カーネルを得る。 提案手法は, 最先端ネットワークと極低ビットネットワーク間の性能ギャップを小さくし, 現状を劇的に改善する。 ResNet-18(Top-1 66.2%)によるImageNetの実験は、新しい最先端を実現する。 アップデート:本バージョンでは、実験用ハイパーパラメータとトレーニング手順をさらに微調整する。 最新のSTTNによると、ResNet-18は3つの重みと3つのアクティベーションを持ち、ImageNet上で最大68.2%のTop-1精度を実現している。 コードは、github.com/WeixiangX u/STTNで入手できる。

Large neural networks are difficult to deploy on mobile devices because of intensive computation and storage. To alleviate it, we study ternarization, a balance between efficiency and accuracy that quantizes both weights and activations into ternary values. In previous ternarized neural networks, a hard threshold {\Delta} is introduced to determine quantization intervals. Although the selection of {\Delta} greatly affects the training results, previous works estimate {\Delta} via an approximation or treat it as a hyper-parameter, which is suboptimal. In this paper, we present the Soft Threshold Ternary Networks (STTN), which enables the model to automatically determine quantization intervals instead of depending on a hard threshold. Concretely, we replace the original ternary kernel with the addition of two binary kernels at training time, where ternary values are determined by the combination of two corresponding binary values. At inference time, we add up the two binary kernels to obtain a single ternary kernel. Our method dramatically outperforms current state-of-the-arts, lowering the performance gap between full-precision networks and extreme low bit networks. Experiments on ImageNet with ResNet-18 (Top-1 66.2%) achieves new state-of-the-art. Update: In this version, we further fine-tune the experimental hyperparameters and training procedure. The latest STTN shows that ResNet-18 with ternary weights and ternary activations achieves up to 68.2% Top-1 accuracy on ImageNet. Code is available at: github.com/WeixiangX u/STTN.
翻訳日:2022-04-05 15:25:40 公開日:2022-04-04
# 学習深度を用いた単眼視計測の改善

Improving Monocular Visual Odometry Using Learned Depth ( http://arxiv.org/abs/2204.01268v1 )

ライセンス: Link先を確認
Libo Sun, Wei Yin, Enze Xie, Zhengrong Li, Changming Sun, Chunhua Shen(参考訳) 単眼視覚計測(VO)はロボット工学とコンピュータビジョンにおいて重要な課題である。 これまでのところ、様々なシナリオでうまく機能する正確で堅牢なvoシステムを構築する方法は、ほとんど解決されていない。 本稿では,単分子深度推定を利用したVOの改良手法を提案する。 我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。 ローカライゼーションとマッピングを支援する2つの作業モードで構成されている。 単一の単眼画像入力により、深度推定モジュールは相対深度を予測し、位置決めモジュールが精度を向上させるのを助ける。 スパース深度マップとRGB画像入力により、深度推定モジュールは高密度マッピングのための正確なスケール一貫性深度を生成することができる。 現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。 さらに、我々のフレームワークは、既存の幾何ベースのVOメソッドの性能を大きなマージンで向上させることができる。

Monocular visual odometry (VO) is an important task in robotics and computer vision. Thus far, how to build accurate and robust monocular VO systems that can work well in diverse scenarios remains largely unsolved. In this paper, we propose a framework to exploit monocular depth estimation for improving VO. The core of our framework is a monocular depth estimation module with a strong generalization capability for diverse scenes. It consists of two separate working modes to assist the localization and mapping. With a single monocular image input, the depth estimation module predicts a relative depth to help the localization module on improving the accuracy. With a sparse depth map and an RGB image input, the depth estimation module can generate accurate scale-consistent depth for dense mapping. Compared with current learning-based VO methods, our method demonstrates a stronger generalization ability to diverse scenes. More significantly, our framework is able to boost the performances of existing geometry-based VO methods by a large margin.
翻訳日:2022-04-05 15:25:15 公開日:2022-04-04
# 運動予測のための時空間グラフの学習動的相関

Learning Dynamic Correlations in Spatiotemporal Graphs for Motion Prediction ( http://arxiv.org/abs/2204.01297v1 )

ライセンス: Link先を確認
Jiajun Fu, Fuxing Yang, Jianqin Yin(参考訳) 人間の動き予測は、異なる動き列における動的時空間グラフ相関による課題である。 時空間グラフ相関を効率的に表現する方法と、異なる動き列間のモデル動的相関分散は、動き予測における時空間グラフ表現の課題である。 本稿ではDSTD-GC(Dynamic SpatioTemporal Graph Convolution)を提案する。 DSTD-GCは動的時空間グラフ畳み込み(DS-GC)と動的時空間グラフ畳み込み(DT-GC)を組み合わせた動的時空間グラフモデリングを分解する。 人間の動きは, 人体とのつながりや, 異なるサンプルからの動的動きパターンなどの共通制約を受けるため, 空間的・時間的相関関係として空間的・時間的相関を表現し, サンプルごとに時間的・時空間的調整を抽出する機能を示す。 モデリング戦略は時空間グラフを28.6 %のパラメータで表現し、サンプル固有の時空間相関分散を明示的にモデル化する。 さらに、時空間グラフ畳み込みとその分解された変種を統一形式に数学的に再構成し、DSTD-GCは他のグラフ畳み込みの厳密な制約を緩和し、より強力な表現能力をもたらす。 DSTD-GCと事前知識を組み合わせたDSTD-GCNという強力な時空間グラフ畳み込みネットワークを提案する。

Human motion prediction is a challenge task due to the dynamic spatiotemporal graph correlations in different motion sequences. How to efficiently represent spatiotemporal graph correlations and model dynamic correlation variances between different motion sequences is a challenge for spatiotemporal graph representation in motion prediction. In this work, we present Dynamic SpatioTemporal Graph Convolution (DSTD-GC). The proposed DSTD-GC decomposes dynamic spatiotemporal graph modeling into a combination of Dynamic Spatial Graph Convolution (DS-GC) and Dynamic Temporal Graph Convolution (DT-GC). As human motions are subject to common constraints like body connections and present dynamic motion patterns from different samples, we present Constrained Dynamic Correlation Modeling strategy to represent the spatial/temporal graph as a shared spatial/temporal correlation and a function to extract temporal-specific /spatial-specific adjustments for each sample. The modeling strategy represents the spatiotemporal graph with 28.6\% parameters of the state-of-the-art static decomposition representation while also explicitly models sample-specific spatiotemporal correlation variances. Moreover, we also mathematically reformulating spatiotemporal graph convolutions and their decomposed variants into a unified form and find that DSTD-GC relaxes strict constraints of other graph convolutions, leading to a stronger representation capability. Combining DSTD-GC with prior knowledge, we propose a powerful spatiotemporal graph convolution network called DSTD-GCN which outperforms state-of-the-art methods on the Human3.6M and CMU Mocap datasets in prediction accuracy with fewest parameters.
翻訳日:2022-04-05 15:24:54 公開日:2022-04-04
# (参考訳) スケーラブルスパイク&スラブ [全文訳有]

Scalable Spike-and-Slab ( http://arxiv.org/abs/2204.01668v1 )

ライセンス: CC BY 4.0
Niloy Biswas, Lester Mackey, Xiao-Li Meng(参考訳) スパイク・アンド・スラブ前駆体は、解釈可能性と好ましい統計的性質のため、ベイズ変数の選択に一般的に使用される。 しかし、既存のスパイク・アンド・スラブ後部サンプルは、変数の数が大きい場合には計算コストが不当である。 本稿では,George and McCulloch (1993) 以前の連続スパイク・アンド・スラブによる高次元ベイズ回帰のためのスケーラブルギブスサンプリング実装である Scalable Spike-and-Slab (S^3$) を提案する。 n$観測値と$p$共変量を持つデータセットの場合、$S^3$は、反復$t$で$\max\{ n^2 p_t, np \}$計算コストを持ち、$p_t$は、反復$t$と$t-1$の間のスパイクとスラブ状態を切り替える共変量数を超えない。 これは、通常、$p_t$が$p$よりもかなり小さいため、最先端実装の注文当たり$n^2 p$によって改善される。 合成および実世界のデータセットに$S^3$を適用し、既存の正確なサンプリング器よりも桁違いのスピードアップを示し、同等のコストで近似サンプリング器よりも推論品質が大幅に向上した。

Spike-and-slab priors are commonly used for Bayesian variable selection, due to their interpretability and favorable statistical properties. However, existing samplers for spike-and-slab posteriors incur prohibitive computational costs when the number of variables is large. In this article, we propose Scalable Spike-and-Slab ($S^3$), a scalable Gibbs sampling implementation for high-dimensional Bayesian regression with the continuous spike-and-slab prior of George and McCulloch (1993). For a dataset with $n$ observations and $p$ covariates, $S^3$ has order $\max\{ n^2 p_t, np \}$ computational cost at iteration $t$ where $p_t$ never exceeds the number of covariates switching spike-and-slab states between iterations $t$ and $t-1$ of the Markov chain. This improves upon the order $n^2 p$ per-iteration cost of state-of-the-art implementations as, typically, $p_t$ is substantially smaller than $p$. We apply $S^3$ on synthetic and real-world datasets, demonstrating orders of magnitude speed-ups over existing exact samplers and significant gains in inferential quality over approximate samplers with comparable cost.
翻訳日:2022-04-05 15:21:51 公開日:2022-04-04
# ガウス過程を優先した変分エンコーダデコーダモデルによるテキスト生成

Diverse Text Generation via Variational Encoder-Decoder Models with Gaussian Process Priors ( http://arxiv.org/abs/2204.01227v1 )

ライセンス: Link先を確認
Wanyu Du, Jianqiao Zhao, Liwei Wang, Yangfeng Ji(参考訳) 高品質なテキストを高い多様性で生成することは多くのNLGアプリケーションにとって重要であるが、現在の手法は主に高品質なテキストを生成するための決定論的モデルの構築に焦点を当てており、多様性を促進するための選択肢は多くない。 本稿では,エンコーダ・デコーダモデルの文脈表現学習を豊かにすることで高品質なテキストを生成するための,新しい潜在構造変数モデルを提案する。 具体的には、決定論的エンコーダ隠れ状態をランダムな文脈変数にマッピングする確率関数を導入する。 提案する確率関数は,(1)ランダムコンテキスト変数の無限個の結合ガウス分布(多様性プロモーティング)と(2)コンテキスト変数間の明示的なモデル依存性(正確なエンコーディング)を与える前のガウス過程からサンプリングされる。 ガウス過程の学習課題を解決するために,ランダムな文脈変数の後方分布を近似する効率的な変分推論手法を提案する。 提案手法をパラフレーズ生成とテキストスタイル転送という2つの典型的なテキスト生成タスクで評価する。 ベンチマークデータセットによる実験結果から,本手法は他のベースラインに比べて生成品質と多様性が向上することが示された。

Generating high quality texts with high diversity is important for many NLG applications, but current methods mostly focus on building deterministic models to generate higher quality texts and do not provide many options for promoting diversity. In this work, we present a novel latent structured variable model to generate high quality texts by enriching contextual representation learning of encoder-decoder models. Specifically, we introduce a stochastic function to map deterministic encoder hidden states into random context variables. The proposed stochastic function is sampled from a Gaussian process prior to (1) provide infinite number of joint Gaussian distributions of random context variables (diversity-promoting ) and (2) explicitly model dependency between context variables (accurate-encoding). To address the learning challenge of Gaussian processes, we propose an efficient variational inference approach to approximate the posterior distribution of random context variables. We evaluate our method in two typical text generation tasks: paraphrase generation and text style transfer. Experimental results on benchmark datasets demonstrate that our method improves the generation quality and diversity compared with other baselines.
翻訳日:2022-04-05 14:48:27 公開日:2022-04-04
# 音声を匿名化しながら音声特性を保存する自己監督音声表現

Self-Supervised Speech Representations Preserve Speech Characteristics while Anonymizing Voices ( http://arxiv.org/abs/2204.01677v1 )

ライセンス: Link先を確認
Abner Hernandez, Paula Andrea P\'erez-Toro, Juan Camilo V\'asquez-Correa, Juan Rafael Orozco-Arroyave, Andreas Maier, Seung Hee Yang(参考訳) 音声認識データ収集は,音声認識システムやその他の音声認識モデルを学ぶ上で重要なステップである。 しかし、プライバシー保護の問題に対処しなければならない懸念が高まっている。 本研究は,音声の匿名化手法としての音声変換について検討する。 特に,Wav2Vec2.0,Hubert,U niSpeechなどの自己教師型音声表現を用いて音声変換モデルを訓練する。 変換音声は、元の音声の1%以内に低い単語誤り率を保持する。 librispeechテストセットでは、同じエラーレートが1.52%から46.24%に増加し、vctkコーパスの話者では3.75%から45.84%に向上した。 最後に, 調音, 韻律, 音韻, 音韻学に関連する音声の特徴を, 匿名化音声から抽出し, 健常音声と病理音声を識別できることを示すために, 構音データを用いた実験を行った。

Collecting speech data is an important step in training speech recognition systems and other speech-based machine learning models. However, the issue of privacy protection is an increasing concern that must be addressed. The current study investigates the use of voice conversion as a method for anonymizing voices. In particular, we train several voice conversion models using self-supervised speech representations including Wav2Vec2.0, Hubert and UniSpeech. Converted voices retain a low word error rate within 1% of the original voice. Equal error rate increases from 1.52% to 46.24% on the LibriSpeech test set and from 3.75% to 45.84% on speakers from the VCTK corpus which signifies degraded performance on speaker verification. Lastly, we conduct experiments on dysarthric speech data to show that speech features relevant to articulation, prosody, phonation and phonology can be extracted from anonymized voices for discriminating between healthy and pathological speech.
翻訳日:2022-04-05 14:48:04 公開日:2022-04-04
# (参考訳) 学習神経音場 [全文訳有]

Learning Neural Acoustic Fields ( http://arxiv.org/abs/2204.00628v1 )

ライセンス: CC0 1.0
Andrew Luo, Yilun Du, Michael J. Tarr, Joshua B. Tenenbaum, Antonio Torralba, Chuang Gan(参考訳) 私たちの環境は豊かでダイナミックな音響情報でいっぱいです。 大聖堂に入ると、外観だけでなく残響も聖域の広い空間を知らせてくれる。 同様に、物体が私たちの周りを動くと、発せられる音がこの動きを示すことを期待します。 近年の学習的暗黙関数の進歩は視覚世界における高品質な表現の増大に繋がったが、空間的聴覚表現の学習には相応の進歩はなかった。 このギャップに対処するために,音が物理的な場面でどのように伝搬するかを暗黙的に表現するニューラル・アコースティック・フィールズ(NAF)を導入する。 シーン内の音響伝搬を線形時間不変系としてモデル化することにより、NAFは全てのエミッタとリスナーの位置ペアを任意の音に適用可能なニューラルインパルス応答関数に連続的にマッピングすることを学ぶ。 NAFの連続的な性質により、任意の場所でリスナーの空間音響を描画することができ、新しい場所での音の伝搬を予測できることを示す。 さらに,NAFが学習した表現が,疎視による視覚学習の改善に役立つことを示す。 最後に,NAFの学習中にシーン構造を示す表現が出現することを示す。

Our environment is filled with rich and dynamic acoustic information. When we walk into a cathedral, the reverberations as much as appearance inform us of the sanctuary's wide open space. Similarly, as an object moves around us, we expect the sound emitted to also exhibit this movement. While recent advances in learned implicit functions have led to increasingly higher quality representations of the visual world, there have not been commensurate advances in learning spatial auditory representations. To address this gap, we introduce Neural Acoustic Fields (NAFs), an implicit representation that captures how sounds propagate in a physical scene. By modeling acoustic propagation in a scene as a linear time-invariant system, NAFs learn to continuously map all emitter and listener location pairs to a neural impulse response function that can then be applied to arbitrary sounds. We demonstrate that the continuous nature of NAFs enables us to render spatial acoustics for a listener at an arbitrary location, and can predict sound propagation at novel locations. We further show that the representation learned by NAFs can help improve visual learning with sparse views. Finally, we show that a representation informative of scene structure emerges during the learning of NAFs.
翻訳日:2022-04-05 14:38:35 公開日:2022-04-04
# 「これは私のユニコーン、フラフィー」:凍結した視覚言語表現のパーソナライズ

"This is my unicorn, Fluffy": Personalizing frozen vision-language representations ( http://arxiv.org/abs/2204.01694v1 )

ライセンス: Link先を確認
Niv Cohen, Rinon Gal, Eli A. Meirom, Gal Chechik, Yuval Atzmon(参考訳) Webスケールのデータに事前訓練された大規模ビジョン&言語モデルは、多くのV&L問題に対して貴重な表現を提供する。 しかし,非構造化言語におけるユーザ固有の視覚概念の推論にどのように使用できるのかは不明である。 この問題は、パーソナライズされた画像検索からスマートデバイスとのパーソナライズされたインタラクションに至るまで、複数のドメインで発生する。 我々は、パーソナライズドビジョン&ランゲージ(PerVL)と呼ばれる新しい学習設定を導入し、ユーザー固有の「個人化された」概念を"野生"で検索し、セグメンテーションするためのベンチマークデータセットを2つ導入した。 PerVLでは、(1)ダウンストリームタスクから独立してパーソナライズされた概念を学習し、(2)事前訓練されたモデルが自由言語でそれらを推論できるようにし、(3)パーソナライズされたネガティブな例を必要としない。 新しいパーソナライズされた概念に新しい単語を埋め込んだ事前学習されたモデルの入力語彙を拡張して機能するPerVLのアーキテクチャを提案する。 するとモデルは、それらを文で単純に使うことによって、それらを推論できる。 本稿では,いくつかの例からパーソナライズされた視覚概念を学習し,リッチテキストクエリを用いた画像検索とセマンティックセグメンテーションに効果的に適用できることを実証する。

Large Vision & Language models pretrained on web-scale data provide representations that are invaluable for numerous V&L problems. However, it is unclear how they can be used for reasoning about user-specific visual concepts in unstructured language. This problem arises in multiple domains, from personalized image retrieval to personalized interaction with smart devices. We introduce a new learning setup called Personalized Vision & Language (PerVL) with two new benchmark datasets for retrieving and segmenting user-specific "personalized" concepts "in the wild". In PerVL, one should learn personalized concepts (1) independently of the downstream task (2) allowing a pretrained model to reason about them with free language, and (3) does not require personalized negative examples. We propose an architecture for solving PerVL that operates by extending the input vocabulary of a pretrained model with new word embeddings for the new personalized concepts. The model can then reason about them by simply using them in a sentence. We demonstrate that our approach learns personalized visual concepts from a few examples and can effectively apply them in image retrieval and semantic segmentation using rich textual queries.
翻訳日:2022-04-05 14:17:30 公開日:2022-04-04
# エゴセントリックビデオによる手の動きと相互作用ホットスポット予測

Joint Hand Motion and Interaction Hotspots Prediction from Egocentric Videos ( http://arxiv.org/abs/2204.01696v1 )

ライセンス: Link先を確認
Shaowei Liu, Subarna Tripathi, Somdeb Majumdar, Xiaolong Wang(参考訳) エゴセントリックビデオが与える将来的なハンドオブジェクトインタラクションを予測することを提案する。 アクションラベルやピクセルを予測する代わりに、次のアクティブオブジェクト(相互作用ホットスポット)上の手の動き軌跡と将来の接触点を直接予測する。 この比較的低次元の表現は、将来の相互作用の具体的な記述を提供する。 この課題に取り組むために、まず、大規模データ上で軌道やホットスポットのラベルを自動的に収集する方法を提供する。 次に、このデータを使用して、予測のためにObject-Centric Transformer(OCT)モデルをトレーニングします。 我々のモデルはトランスフォーマーの自己認識機構を介して手動と物体の相互作用推論を行う。 OCTはまた、予測の不確実性を扱うために将来の軌道とホットスポットをサンプリングする確率的フレームワークも提供する。 我々は,Epic-Kitchens-55,Ep ic-Kitchens-100,EGTE A Gaze+のデータセットを用いて実験を行い,OCTが最先端のアプローチを大幅に上回ることを示す。 プロジェクトページはhttps://stevenlsw.gi thub.io/hoi-forecast 。

We propose to forecast future hand-object interactions given an egocentric video. Instead of predicting action labels or pixels, we directly predict the hand motion trajectory and the future contact points on the next active object (i.e., interaction hotspots). This relatively low-dimensional representation provides a concrete description of future interactions. To tackle this task, we first provide an automatic way to collect trajectory and hotspots labels on large-scale data. We then use this data to train an Object-Centric Transformer (OCT) model for prediction. Our model performs hand and object interaction reasoning via the self-attention mechanism in Transformers. OCT also provides a probabilistic framework to sample the future trajectory and hotspots to handle uncertainty in prediction. We perform experiments on the Epic-Kitchens-55, Epic-Kitchens-100, and EGTEA Gaze+ datasets, and show that OCT significantly outperforms state-of-the-art approaches by a large margin. Project page is available at https://stevenlsw.gi thub.io/hoi-forecast .
翻訳日:2022-04-05 14:17:09 公開日:2022-04-04
# 記憶による多モード連想ブリッジ:顔映像からの音声の再生

Multi-modality Associative Bridging through Memory: Speech Sound Recollected from Face Video ( http://arxiv.org/abs/2204.01265v1 )

ライセンス: Link先を確認
Minsu Kim, Joanna Hong, Se Jin Park, Yong Man Ro(参考訳) 本稿では,単一モーダル入力でも音声情報と視覚情報の両方を利用することのできる,新しい視聴覚マルチモーダルブリッジフレームワークを提案する。 我々は、ソース(ヴィジュアル)とターゲット(オーディオ)のモーダル表現を格納するメモリネットワークを利用しており、そこではソースのモーダル表現が与えられ、ターゲットのモーダル表現がメモリネットワークから取得したいものとなる。 次に、この2つの記憶の相互関係を考慮した、ソースとターゲットの記憶間の連想ブリッジを構築する。 連想ブリッジを通じて相互関係を学習することにより,提案するブリッジフレームワークは,ソースモーダル入力のみであっても,メモリネットワーク内のターゲットモーダル表現を取得でき,下流タスクに豊富な情報を提供する。 提案手法を,サイレントビデオからの唇読解と音声再構成の2つの課題に適用する。 提案する連想ブリッジとモーダリティー特有のメモリを通じて、各タスクの知識は、リコールされたオーディオコンテキストで強化され、最先端のパフォーマンスを達成する。 また,アソシエイトブリッジがソースとターゲット記憶を適切に関連付けていることも確認した。

In this paper, we introduce a novel audio-visual multi-modal bridging framework that can utilize both audio and visual information, even with uni-modal inputs. We exploit a memory network that stores source (i.e., visual) and target (i.e., audio) modal representations, where source modal representation is what we are given, and target modal representations are what we want to obtain from the memory network. We then construct an associative bridge between source and target memories that considers the interrelationship between the two memories. By learning the interrelationship through the associative bridge, the proposed bridging framework is able to obtain the target modal representations inside the memory network, even with the source modal input only, and it provides rich information for its downstream tasks. We apply the proposed framework to two tasks: lip reading and speech reconstruction from silent video. Through the proposed associative bridge and modality-specific memories, each task knowledge is enriched with the recalled audio context, achieving state-of-the-art performance. We also verify that the associative bridge properly relates the source and target memories.
翻訳日:2022-04-05 14:16:51 公開日:2022-04-04
# 意味マッチングのための統合音声テキスト埋め込みの解析

Analysis of Joint Speech-Text Embeddings for Semantic Matching ( http://arxiv.org/abs/2204.01235v1 )

ライセンス: Link先を確認
Muhammad Huzaifah and Ivan Kukanov(参考訳) 複数のデータモダリティを含む言語処理問題に対する近年のエンドツーエンドソリューションにおいて、埋め込みは重要な役割を果たす。 単一モダリティ埋め込み空間、特にテキストの性質を理解する努力はあったが、それらの交叉モダリティ空間は理解されていない。 本研究では,ペア音声と書き起こし入力の距離を最小化し,意味マッチングのために訓練された共同音声テキスト埋め込み空間について検討する。 これは教師-学生モデル構成のデュアルエンコーダで行われ、教師として事前訓練された言語モデルと、生徒としてトランスフォーマーベースの音声エンコーダによって行われた。 我々は,事前学習とマルチタスクの両方のシナリオを通じて自動音声認識を組み込む手法を拡張し,両者がセマンティックマッチングを改善することを発見した。 複数の手法を用いて埋め込みのクロスモーダルセマンティクスアライメントを解析・評価し、定量的検索精度指標、一般化可能性を調べるゼロショット分類、あるモダリティから別のモダリティへの知識伝達の程度を観測するエンコーダの探索などを行った。

Embeddings play an important role in many recent end-to-end solutions for language processing problems involving more than one data modality. Although there has been some effort to understand the properties of single-modality embedding spaces, particularly that of text, their cross-modal counterparts are less understood. In this work, we study a joint speech-text embedding space trained for semantic matching by minimizing the distance between paired utterance and transcription inputs. This was done through dual encoders in a teacher-student model setup, with a pretrained language model acting as the teacher and a transformer-based speech encoder as the student. We extend our method to incorporate automatic speech recognition through both pretraining and multitask scenarios and found that both approaches improve semantic matching. Multiple techniques were utilized to analyze and evaluate cross-modal semantic alignment of the embeddings: a quantitative retrieval accuracy metric, zero-shot classification to investigate generalizability, and probing of the encoders to observe the extent of knowledge transfer from one modality to another.
翻訳日:2022-04-05 14:16:32 公開日:2022-04-04
# 私の言うとおり、できる限りやれ:ロボットのアプライアンスで言語を接地する

Do As I Can, Not As I Say: Grounding Language in Robotic Affordances ( http://arxiv.org/abs/2204.01691v1 )

ライセンス: Link先を確認
Michael Ahn, Anthony Brohan, Noah Brown, Yevgen Chebotar, Omar Cortes, Byron David, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Daniel Ho, Jasmine Hsu, Julian Ibarz, Brian Ichter, Alex Irpan, Eric Jang, Rosario Jauregui Ruano, Kyle Jeffrey, Sally Jesmonth, Nikhil J Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Kuang-Huei Lee, Sergey Levine, Yao Lu, Linda Luu, Carolina Parada, Peter Pastor, Jornell Quiambao, Kanishka Rao, Jarek Rettinghouse, Diego Reyes, Pierre Sermanet, Nicolas Sievers, Clayton Tan, Alexander Toshev, Vincent Vanhoucke, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Mengyuan Yan(参考訳) 大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。 このような知識は、自然言語で表現された高度で時間的に拡張された指示に行動しようとするロボットにとって非常に有用である。 しかし、言語モデルの重大な弱点は、現実世界の経験が欠けていることである。 例えば、言語モデルにこぼれをきれいにする方法を尋ねると、合理的な物語になるかも知れませんが、特定の環境でこのタスクを実行する必要がある特定のエージェント、例えばロボットには適用できません。 本稿では,事前訓練されたスキルを用いて実世界の基盤を提供することを提案し,そのモデルを用いて,現実的かつ文脈的に適切な自然言語行動を提案する。 ロボットは言語モデルの"手と目"として振る舞うことができ、言語モデルはタスクに関する高度な意味知識を提供する。 低レベルスキルを大規模言語モデルと組み合わせることにより,言語モデルが複雑かつ時間的に拡張された命令を実行する手順に関する高度な知識を提供すると同時に,これらのスキルに関連する価値関数は,その知識を特定の物理環境に接続するために必要な基盤を提供する。 本稿では,実世界のロボットタスクにおいて,実世界の接地の必要性を示し,この手法が移動マニピュレータ上での長大で抽象的な自然言語命令を完遂できることを示す。 プロジェクトのWebサイトとビデオはhttps://say-can.gith ub.io/にある。

Large language models can encode a wealth of semantic knowledge about the world. Such knowledge could be extremely useful to robots aiming to act upon high-level, temporally extended instructions expressed in natural language. However, a significant weakness of language models is that they lack real-world experience, which makes it difficult to leverage them for decision making within a given embodiment. For example, asking a language model to describe how to clean a spill might result in a reasonable narrative, but it may not be applicable to a particular agent, such as a robot, that needs to perform this task in a particular environment. We propose to provide real-world grounding by means of pretrained skills, which are used to constrain the model to propose natural language actions that are both feasible and contextually appropriate. The robot can act as the language model's "hands and eyes," while the language model supplies high-level semantic knowledge about the task. We show how low-level skills can be combined with large language models so that the language model provides high-level knowledge about the procedures for performing complex and temporally-extended instructions, while value functions associated with these skills provide the grounding necessary to connect this knowledge to a particular physical environment. We evaluate our method on a number of real-world robotic tasks, where we show the need for real-world grounding and that this approach is capable of completing long-horizon, abstract, natural language instructions on a mobile manipulator. The project's website and the video can be found at https://say-can.gith ub.io/
翻訳日:2022-04-05 14:16:14 公開日:2022-04-04
# 速度ゆがみ関数のニューラル推定と操作音源符号化への応用

Neural Estimation of the Rate-Distortion Function With Applications to Operational Source Coding ( http://arxiv.org/abs/2204.01612v1 )

ライセンス: Link先を確認
Eric Lei, Hamed Hassani, Shirin Saeedi Bidokhti(参考訳) 損失データ圧縮スキームを設計する基本的な問題は、損失データ圧縮の既知の理論的限界を記述する速度歪み関数と比較して、どの程度うまくできるかである。 実世界の大規模データ上でのディープニューラルネットワーク (DNN) 圧縮機の実証的な成功により, それらのデータ上での速度歪み関数を推定する方法が検討され, DNN圧縮機と最適性の比較が可能となった。 データの経験的分布を利用してブラフト・アリモトアルゴリズムを適用することができるが、現代の画像データセットの場合など、データセットが大規模かつ高次元である場合、この手法はいくつかの計算課題と不正確性を示す。 代わりに、速度歪みの目的を再定式化し、ニューラルネットワークを用いて関数最適化問題を解く。 本稿では, NERD とよばれる速度歪み推定器を画像データセットに適用し, NERD が精度よく速度歪関数を推定できることを示す。 DNN圧縮機で実現可能な速度歪みは実世界のデータセットの速度歪み関数の数ビット以内であることを示す。 さらにNERDは、その出力限界からのサンプルと同様に、レート歪みを達成するチャネルへのアクセスを提供する。 そこで, 逆チャネル符号化における最近の結果を用いて, NERDを用いて, 達成可能な速度と歪みを保証した一発損失圧縮方式を構築する方法について述べる。 実験結果はdnn圧縮機との競合性能を示す。

A fundamental question in designing lossy data compression schemes is how well one can do in comparison with the rate-distortion function, which describes the known theoretical limits of lossy compression. Motivated by the empirical success of deep neural network (DNN) compressors on large, real-world data, we investigate methods to estimate the rate-distortion function on such data, which would allow comparison of DNN compressors with optimality. While one could use the empirical distribution of the data and apply the Blahut-Arimoto algorithm, this approach presents several computational challenges and inaccuracies when the datasets are large and high-dimensional, such as the case of modern image datasets. Instead, we re-formulate the rate-distortion objective, and solve the resulting functional optimization problem using neural networks. We apply the resulting rate-distortion estimator, called NERD, on popular image datasets, and provide evidence that NERD can accurately estimate the rate-distortion function. Using our estimate, we show that the rate-distortion achievable by DNN compressors are within several bits of the rate-distortion function for real-world datasets. Additionally, NERD provides access to the rate-distortion achieving channel, as well as samples from its output marginal. Therefore, using recent results in reverse channel coding, we describe how NERD can be used to construct an operational one-shot lossy compression scheme with guarantees on the achievable rate and distortion. Experimental results demonstrate competitive performance with DNN compressors.
翻訳日:2022-04-05 14:10:51 公開日:2022-04-04
# 合成開口レーダ画像のための微分可能レンダリング

Differentiable Rendering for Synthetic Aperture Radar Imagery ( http://arxiv.org/abs/2204.01248v1 )

ライセンス: Link先を確認
Michael Wilmanski, Jonathan Tamir(参考訳) より多くのドメイン知識を組み込むためのディープラーニングトレーニングに信号と画像処理パイプラインを統合することへの関心が高まっている。 これにより、より堅牢に、限られたデータでトレーニングされるディープニューラルネットワークと、不適切な逆問題を解く能力に繋がる可能性がある。 特に差別化可能なレンダリングへの関心が高まっており、バックプロパゲーションのような一階法を用いて最適化パイプラインの幾何学的事前および制約を明示的にモデル化することができる。 既存の微分可能レンダリングの取り組みは、電子光学センサー、特に従来のRGBイメージの画像に焦点を当ててきた。 本研究では,3次元コンピュータグラフィックスとニューラルレンダリングを組み合わせた合成開口レーダ(SAR)画像の識別可能なレンダリング手法を提案する。 高忠実度シミュレーションSARデータを用いた限られたSAR画像からの3次元オブジェクト再構成の逆画像問題に対するアプローチを示す。

There is rising interest in integrating signal and image processing pipelines into deep learning training to incorporate more domain knowledge. This can lead to deep neural networks that are trained more robustly and with limited data, as well as the capability to solve ill-posed inverse problems. In particular, there is rising interest in differentiable rendering, which allows explicitly modeling geometric priors and constraints in the optimization pipeline using first-order methods such as backpropagation. Existing efforts in differentiable rendering have focused on imagery from electro-optical sensors, particularly conventional RGB-imagery. In this work, we propose an approach for differentiable rendering of Synthetic Aperture Radar (SAR) imagery, which combines methods from 3D computer graphics with neural rendering. We demonstrate the approach on the inverse graphics problem of 3D Object Reconstruction from limited SAR imagery using high-fidelity simulated SAR data.
翻訳日:2022-04-05 14:09:48 公開日:2022-04-04
# DAD: テスト時のデータフリーの敵防衛

DAD: Data-free Adversarial Defense at Test Time ( http://arxiv.org/abs/2204.01568v1 )

ライセンス: Link先を確認
Gaurav Kumar Nayak, Ruchit Rawal, Anirban Chakraborty(参考訳) 深層モデルは攻撃の影響を受けやすい。 このような攻撃は、ネットワークを騙しかねないノイズを慎重に作り上げ、展開時に深刻な結果をもたらす可能性がある。 これに遭遇するためには、敵の訓練や明示的な正規化に基づく技術のためのトレーニングデータが必要である。 しかし、プライバシは重要な関心事となり、トレーニングデータ(バイオメトリックデータなど)ではなく、トレーニングされたモデルへのアクセスを制限する。 また、データキュレーションは高価であり、企業は独自の権利を持つ可能性がある。 このような状況に対処するために,我々は,「訓練データや統計情報がない場合のテスト時間対向防御」という,全く新しい問題を提案する。 2つの段階に分けて解決します a)検出および検出 b) 敵のサンプルの補正。 我々の逆サンプル検出フレームワークは、最初は任意のデータに基づいて訓練され、その後、教師なしのドメイン適応を通じて、不正なテストデータに適応する。 さらに, 検出された対向試料の予測をフーリエ領域で変換し, モデル予測に適した半径で低周波成分を求めることにより補正する。 提案手法の有効性を,いくつかの敵攻撃に対する広範囲な実験と,異なるモデルアーキテクチャとデータセットに対して示す。 CIFAR-10で事前訓練したResnet-18モデルでは,91.42%の敵を正確に検出する。 また, モデルの再訓練を必要とせず, 最先端の「オートアタック」の精度を0.02%低下させることなく, 対向精度を0%から37.37%に向上させた。

Deep models are highly susceptible to adversarial attacks. Such attacks are carefully crafted imperceptible noises that can fool the network and can cause severe consequences when deployed. To encounter them, the model requires training data for adversarial training or explicit regularization-based techniques. However, privacy has become an important concern, restricting access to only trained models but not the training data (e.g. biometric data). Also, data curation is expensive and companies may have proprietary rights over it. To handle such situations, we propose a completely novel problem of 'test-time adversarial defense in absence of training data and even their statistics'. We solve it in two stages: a) detection and b) correction of adversarial samples. Our adversarial sample detection framework is initially trained on arbitrary data and is subsequently adapted to the unlabelled test data through unsupervised domain adaptation. We further correct the predictions on detected adversarial samples by transforming them in Fourier domain and obtaining their low frequency component at our proposed suitable radius for model prediction. We demonstrate the efficacy of our proposed technique via extensive experiments against several adversarial attacks and for different model architectures and datasets. For a non-robust Resnet-18 model pre-trained on CIFAR-10, our detection method correctly identifies 91.42% adversaries. Also, we significantly improve the adversarial accuracy from 0% to 37.37% with a minimal drop of 0.02% in clean accuracy on state-of-the-art 'Auto Attack' without having to retrain the model.
翻訳日:2022-04-05 14:09:35 公開日:2022-04-04
# グラフニューラルネットワークを用いた高占有率撮像熱量計のエンドツーエンド多粒子再構成

End-to-end multi-particle reconstruction in high occupancy imaging calorimeters with graph neural networks ( http://arxiv.org/abs/2204.01681v1 )

ライセンス: Link先を確認
Shah Rukh Qasim, Nadezda Chernyavskaya, Jan Kieseler, Kenneth Long, Oleksandr Viazlo, Maurizio Pierini, and Raheel Nawaz(参考訳) 我々は,CMS検出器の高輝度化にともなう次世代の粒径計において,検出器ヒットから粒子候補を構築するためのエンドツーエンド再構成アルゴリズムを提案する。 このアルゴリズムは距離重み付きグラフニューラルネットワークを利用して、グラフセグメンテーション技術であるオブジェクト凝縮を訓練する。 単発アプローチにより、再構成タスクはエネルギー回帰と組み合わせられる。 本稿では,効率とエネルギー分解能の観点からの再構成性能について述べる。 また,本手法のジェット再構成性能を示し,その計算コストについて考察する。 この研究は、200の知識を積んだ高輝度条件下での${\cal O}(1000)$粒子の単発熱量再構成の最初の例である。

We present an end-to-end reconstruction algorithm to build particle candidates from detector hits in next-generation granular calorimeters similar to that foreseen for the high-luminosity upgrade of the CMS detector. The algorithm exploits a distance-weighted graph neural network, trained with object condensation, a graph segmentation technique. Through a single-shot approach, the reconstruction task is paired with energy regression. We describe the reconstruction performance in terms of efficiency as well as in terms of energy resolution. In addition, we show the jet reconstruction performance of our method and discuss its inference computational cost. This work is the first-ever example of single-shot calorimetric reconstruction of ${\cal O}(1000)$ particles in high-luminosity conditions with 200 pileup to our knowledge.
翻訳日:2022-04-05 14:09:11 公開日:2022-04-04
# 非凸および非滑らか最適化におけるパラメトリックおよび収束安定性の特徴:幾何学的アプローチ

Characterizing Parametric and Convergence Stability in Nonconvex and Nonsmooth Optimizations: A Geometric Approach ( http://arxiv.org/abs/2204.01643v1 )

ライセンス: Link先を確認
Xiaotie Deng, Hanyu Li, Ningyuan Li(参考訳) 連続(パラメータ化、非凸、非滑らか)の実数値関数 $f$ を最小化するときの安定性の問題を考える。 すべての方向微分が非負であれば、点を定常と呼ぶ。 本研究は,パラメータ安定性と収束安定性という,固定点における安定性の2つの概念に焦点をあてる。 パラメトリックな考察は、滑らかな解析、数値安定性、条件数、線形計画の感度解析など様々な分野で広く研究されている。 パラメトリック安定性は、パラメータの小さな摂動が位置の劇的な変化と静止点の$f$値をもたらすかどうかを問う。 最適化アルゴリズムによって反復的に生成される任意の点列は、定常点の近傍から逃れることはできないが、そのような定常点が精度パラメータとアルゴリズムの数値誤差に対して安定であるという意味で、それに近い。 これらの概念は幾何学理論と深い関係を持つことが判明した。 パラメトリック安定性は関数グラフの変形と関連していることを示す。 一方、収束安定性は関数領域の領域分割に関係している。 これらの接続を利用することで、この2つの安定性の概念の極めて厳密な条件を幅広い関数と最適化アルゴリズムに対して証明する。 これらの条件は、わずかに弱い函数要件が原始直観の反対に進み、間違った結論に至るという意味で微妙である。 この理論の応用は3つある。 これらの応用により、nash平衡計算、非凸および非滑らか最適化、およびディープニューラルネットワークの新しい最適化手法に関するいくつかの理解が明らかになった。

We consider stability issues in minimizing a continuous (probably parameterized, nonconvex and nonsmooth) real-valued function $f$. We call a point stationary if all its possible directional derivatives are nonnegative. In this work, we focus on two notions of stability on stationary points of $f$: parametric stability and convergence stability. Parametric considerations are widely studied in various fields, including smoothed analysis, numerical stability, condition numbers and sensitivity analysis for linear programming. Parametric stability asks whether minor perturbations on parameters lead to dramatic changes in the position and $f$ value of a stationary point. Meanwhile, convergence stability indicates a non-escapable solution: Any point sequence iteratively produced by an optimization algorithm cannot escape from a neighborhood of a stationary point but gets close to it in the sense that such stationary points are stable to the precision parameter and algorithmic numerical errors. It turns out that these notions have deep connections to geometry theory. We show that parametric stability is linked to deformations of graphs of functions. On the other hand, convergence stability is concerned with area partitioning of the function domain. Utilizing these connections, we prove quite tight conditions of these two stability notions for a wide range of functions and optimization algorithms with small enough step sizes and precision parameters. These conditions are subtle in the sense that a slightly weaker function requirement goes to the opposite of primitive intuitions and leads to wrong conclusions. We present three applications of this theory. These applications reveal some understanding on Nash equilibrium computation, nonconvex and nonsmooth optimization, as well as the new optimization methodology of deep neural networks.
翻訳日:2022-04-05 14:07:47 公開日:2022-04-04
# (参考訳) 学習経路ランキング付き粗大なQ-Attention [全文訳有]

Coarse-to-Fine Q-attention with Learned Path Ranking ( http://arxiv.org/abs/2204.01571v1 )

ライセンス: CC BY 4.0
Stephen James and Pieter Abbeel(参考訳) 本稿では,エンドエフェクタの目標ポーズを受け入れる手法であるLearned Path Ranking(LPR)を提案し,パス計画,ベジエ曲線サンプリング,学習方針など,一連の経路生成手法から生成される一連の目標到達経路のランク付けを学習する。 コアとなる考え方は、各パス生成モジュールが異なるタスク、またはタスクの異なるステージで有用である、ということです。 LPRがC2F-ARMの拡張として追加されたとき、我々の新しいシステムであるC2F-ARM+LPRは、前者のサンプル効率を維持しつつ、より大きなタスクセットを達成することができる。 16のRLBenchタスクにまたがるアプローチのベンチマークに加えて、実世界のタスク、タブララザも10~15分で3つのデモで学習します。

We propose Learned Path Ranking (LPR), a method that accepts an end-effector goal pose, and learns to rank a set of goal-reaching paths generated from an array of path generating methods, including: path planning, Bezier curve sampling, and a learned policy. The core idea being that each of the path generation modules will be useful in different tasks, or at different stages in a task. When LPR is added as an extension to C2F-ARM, our new system, C2F-ARM+LPR, retains the sample efficiency of its predecessor, while also being able to accomplish a larger set of tasks; in particular, tasks that require very specific motions (e.g. opening toilet seat) that need to be inferred from both demonstrations and exploration data. In addition to benchmarking our approach across 16 RLBench tasks, we also learn real-world tasks, tabula rasa, in 10-15 minutes, with only 3 demonstrations.
翻訳日:2022-04-05 14:03:49 公開日:2022-04-04
# GraFN:非パラメトリック分布割り当てによるラベルの少ないグラフ上の半監督ノード分類

GraFN: Semi-Supervised Node Classification on Graph with Few Labels via Non-Parametric Distribution Assignment ( http://arxiv.org/abs/2204.01303v1 )

ライセンス: Link先を確認
Junseok Lee, Yunhak Oh, Yeonjun In, Namkyeong Lee, Dongmin Hyun, Chanyoung Park(参考訳) GNNは、ラベル付きノードの数の制限や、ラベル付きノードから取得した監視に基づいてのみ訓練されることが期待できる監視信号の量を制限すると、大幅な性能劣化に直面する。 一方、近年の自己教師型学習パラダイムは、ラベル付きノードを必要としないプレテキストタスクを解くことで、GNNを訓練することを目的としている。 しかし,自己指導手法の大きな欠点は,学習中にラベル付き情報が利用されないため,クラス識別ノード表現の学習不足である。 そこで本研究では,同じクラスに属するノードをグループ化するために,ラベル付きノードをほとんど活用しないグラフの半教師付き手法であるgrafnを提案する。 具体的には、グラフ全体からラベル付きノードとアンカーノードからランダムにノードをサンプリングする。 そして、2つの異なる拡張グラフからのアンカー支持類似性によって非パラメトリックに割り当てられる2つの予測クラス分布の差を最小化する。 実世界のグラフ上のノード分類において,GraFNが半教師付き手法と自己教師型手法の両方を上回ることを示す。 GraFNのソースコードはhttps://github.com/L JS-Student/GraFNで入手できる。

GNNs encounter significant performance degradation when the amount of supervision signals, i.e., number of labeled nodes, is limited, which is expected as GNNs are trained solely based on the supervision obtained from the labeled nodes. On the other hand,recent self-supervised learning paradigm aims to train GNNs by solving pretext tasks that do not require any labeled nodes, and it has shown to even outperform GNNs trained with few labeled nodes. However, a major drawback of self-supervised methods is that they fall short of learning class discriminative node representations since no labeled information is utilized during training. To this end, we propose a novel semi-supervised method for graphs, GraFN, that leverages few labeled nodes to ensure nodes that belong to the same class to be grouped together, thereby achieving the best of both worlds of semi-supervised and self-supervised methods. Specifically, GraFN randomly samples support nodes from labeled nodes and anchor nodes from the entire graph. Then, it minimizes the difference between two predicted class distributions that are non-parametrically assigned by anchor-supports similarity from two differently augmented graphs. We experimentally show that GraFN surpasses both the semi-supervised and self-supervised methods in terms of node classification on real-world graphs. The source code for GraFN is available at https://github.com/L JS-Student/GraFN.
翻訳日:2022-04-05 13:35:12 公開日:2022-04-04
# 予測モニタリングのためのイベントログサンプリング

Event Log Sampling for Predictive Monitoring ( http://arxiv.org/abs/2204.01470v1 )

ライセンス: Link先を確認
Mohammadreza Fani Sani, Mozhgan Vazifehdoostirani, Gyunam Park, Marco Pegoraro, Sebastiaan J. van Zelst, Wil M.P. van der Aalst(参考訳) 予測プロセスモニタリングはプロセスマイニングのサブフィールドであり、プロセスインスタンスを実行するケースやイベントの機能を見積もることを目的としている。 このような予測はプロセスステークホルダーにとって重要な関心事である。 しかし、予測監視のための最先端の手法は複雑な機械学習モデルのトレーニングを必要とするが、これはしばしば非効率である。 本稿では,予測モデルのためのサンプリング訓練プロセスインスタンスを可能にするインスタンス選択手順を提案する。 提案手法は,信頼性の高い予測精度を維持しつつ,次の活動予測手法の訓練速度を著しく向上させることができることを示す。

Predictive process monitoring is a subfield of process mining that aims to estimate case or event features for running process instances. Such predictions are of significant interest to the process stakeholders. However, state-of-the-art methods for predictive monitoring require the training of complex machine learning models, which is often inefficient. This paper proposes an instance selection procedure that allows sampling training process instances for prediction models. We show that our sampling method allows for a significant increase of training speed for next activity prediction methods while maintaining reliable levels of prediction accuracy.
翻訳日:2022-04-05 13:34:51 公開日:2022-04-04
# Deep Industrial Transfer Learningに向けて:転送事例選択のためのクラスタリング

Towards Deep Industrial Transfer Learning: Clustering for Transfer Case Selection ( http://arxiv.org/abs/2204.01620v1 )

ライセンス: Link先を確認
Benjamin Maschler, Tim Knodel, Michael Weyrich(参考訳) 産業移行学習は、高度な手作業を伴わない異種および動的産業用ユースケースに対するディープラーニングアルゴリズムの適応性を高める。 転送対象の適切な選択は、転送結果を大幅に改善することができる。 本稿では,クラスタリングに基づく転送ケースの選択について述べる。 クラスタリングアルゴリズムの調査に基づいて設立されたbirchアルゴリズムはこの目的のために選択される。 個別の製造シナリオから,産業時系列データセットを用いて評価する。 その結果, (サブ) データセットのシーケンス, サイズ, 次元性に対する再現性や実践的な差が, 連続的にクラスタ化される。

Industrial transfer learning increases the adaptability of deep learning algorithms towards heterogenous and dynamic industrial use cases without high manual efforts. The appropriate selection of what to transfer can vastly improve a transfer's results. In this paper, a transfer case selection based upon clustering is presented. Founded on a survey of clustering algorithms, the BIRCH algorithm is selected for this purpose. It is evaluated on an industrial time series dataset from a discrete manufacturing scenario. Results underline the approaches' applicability caused by its results' reproducibility and practical indifference to sequence, size and dimensionality of (sub-)datasets to be clustered sequentially.
翻訳日:2022-04-05 13:34:44 公開日:2022-04-04
# 深層学習、確率勾配降下および拡散写像

Deep learning, stochastic gradient descent and diffusion maps ( http://arxiv.org/abs/2204.01365v1 )

ライセンス: Link先を確認
Carmina Fjellstr\"om and Kaj Nystr\"om(参考訳) 確率勾配降下(SGD)は、その計算効率のためにディープラーニングで広く使われているが、なぜSGDがこれほどうまく機能するのかを十分に理解することが大きな課題である。 過パラメータ深層ネットワークの損失景観におけるヘッセンの損失関数の固有値のほとんどがゼロに近いが、少数の固有値しか存在しないことが実証的に観察されている。 ゼロ固有値は対応する方向に沿ってゼロ拡散を示す。 これは、最小選択の過程が主にヘッシアンのトップ固有値に対応する比較的低次元の部分空間で起こることを示している。 パラメータ空間は非常に高次元であるが、これらの結果はsgdダイナミクスが主に低次元多様体上に存在することを示している。 本稿では,高次元パラメータ曲面の潜在的に深い理解を得るための,真にデータ駆動型アプローチを追求する。特にSGDによって追跡されたランドスケープは,最適化ランドスケープの(局所的な)低次元表現を探索するために,SGDや他の最適化器から生成されたデータを解析することによって,SGDによって追跡される。 探索の手段として、R. Coifman と共著者によって導入された拡散写像を用いる。

Stochastic gradient descent (SGD) is widely used in deep learning due to its computational efficiency but a complete understanding of why SGD performs so well remains a major challenge. It has been observed empirically that most eigenvalues of the Hessian of the loss functions on the loss landscape of over-parametrized deep networks are close to zero, while only a small number of eigenvalues are large. Zero eigenvalues indicate zero diffusion along the corresponding directions. This indicates that the process of minima selection mainly happens in the relatively low-dimensional subspace corresponding to top eigenvalues of the Hessian. Although the parameter space is very high-dimensional, these findings seems to indicate that the SGD dynamics may mainly live on a low-dimensional manifold. In this paper we pursue a truly data driven approach to the problem of getting a potentially deeper understanding of the high-dimensional parameter surface, and in particular of the landscape traced out by SGD, by analyzing the data generated through SGD, or any other optimizer for that matter, in order to possibly discovery (local) low-dimensional representations of the optimization landscape. As our vehicle for the exploration we use diffusion maps introduced by R. Coifman and coauthors.
翻訳日:2022-04-05 13:31:36 公開日:2022-04-04
# ディープ・フィーチャー・スクリーニング:ディープ・ニューラルネットワークによる超高次元データの特徴選択

Deep Feature Screening: Feature Selection for Ultra High-Dimensional Data via Deep Neural Networks ( http://arxiv.org/abs/2204.01682v1 )

ライセンス: Link先を確認
Kexuan Li, Fangfang Wang, Lingli Yang(参考訳) 従来の統計特徴選択法の高次元・低サンプルサイズデータへの応用は、しばしば過剰フィッティング、次元の呪い、計算不可能性、強いモデル仮定といった困難な問題に直面する。 本稿では,これらの問題を克服し,超高次元・低サンプルサイズのデータに対して高精度で重要な特徴を識別可能な,深層特徴スクリーニング(deep feature screening, deepfs)と呼ばれる新しい2段階非パラメトリック手法を提案する。 このアプローチはまず入力データの低次元表現を抽出し,Deb と Sen (2021) によって最近開発された多変量階差相関に基づく特徴スクリーニングを適用する。 本手法はディープニューラルネットワークと特徴スクリーニングの長所を併せ持つものであり,(1)モデルフリーで分布自由な,(2)教師なしと教師なしの両方の特徴選択に使用できる,(3)元の入力データを復元できるといった,超高次元データを少数のサンプルで処理する能力に加えて,次のような魅力的な特徴を有する。 DeepFSの優位性は、広範なシミュレーション研究と実データ分析によって実証される。

The applications of traditional statistical feature selection methods to high-dimension, low sample-size data often struggle and encounter challenging problems, such as overfitting, curse of dimensionality, computational infeasibility, and strong model assumption. In this paper, we propose a novel two-step nonparametric approach called Deep Feature Screening (DeepFS) that can overcome these problems and identify significant features with high precision for ultra high-dimensional, low-sample-size data. This approach first extracts a low-dimensional representation of input data and then applies feature screening based on multivariate rank distance correlation recently developed by Deb and Sen (2021). This approach combines the strengths of both deep neural networks and feature screening, and thereby has the following appealing features in addition to its ability of handling ultra high-dimensional data with small number of samples: (1) it is model free and distribution free; (2) it can be used for both supervised and unsupervised feature selection; and (3) it is capable of recovering the original input data. The superiority of DeepFS is demonstrated via extensive simulation studies and real data analyses.
翻訳日:2022-04-05 13:31:15 公開日:2022-04-04
# エッジ重み付きグラフ畳み込みニューラルネットワークを用いた最小コストマルチカットの解法

Learning to solve Minimum Cost Multicuts efficiently using Edge-Weighted Graph Convolutional Neural Networks ( http://arxiv.org/abs/2204.01366v1 )

ライセンス: Link先を確認
Steffen Jung, Margret Keuper(参考訳) 最小コストのマルチカット問題(minimum cost multicut problem)は、np-hard/apx-hard combinatorial optimization problem(np-hard/apx- hard combinatorial optimization problem)である。 グラフ畳み込みニューラルネットワーク(gnn)は組合せ最適化の文脈で有望であることが証明されているが、そのほとんどは正の値のエッジウェイト(つまりマルチカット問題の性質に適合しない)でのみ調整またはテストされている。 そこで我々は,グラフ畳み込みネットワーク,符号付きグラフ畳み込みネットワーク,グラフアイソモーフィックネットワークなど,さまざまなGNNアーキテクチャを適用し,実価値の高いエッジコストの効率的なエンコーディングを容易にする。 さらに,マルチカット型LP制約を多項式プログラムに再構成することで,実現可能なマルチカットソリューションをスケーラブルに学習することができる。 したがって、エンドツーエンドのトレーニング可能なマルチカットへの最初のアプローチを提供する。 gnnのアプローチは,lpソルバや最適化ヒューリスティック,特に大規模インスタンスを考慮すれば,計算時間が少なく,スケーラビリティが大幅に向上すると同時に,実際に優れたソリューションが実現可能であることを裏付ける。

The minimum cost multicut problem is the NP-hard/APX-hard combinatorial optimization problem of partitioning a real-valued edge-weighted graph such as to minimize the total cost of the partition. While graph convolutional neural networks (GNN) have proven to be promising in the context of combinatorial optimization, most of them are only tailored to or tested on positive-valued edge weights, i.e. they do not comply to the nature of the multicut problem. We therefore adapt various GNN architectures including Graph Convolutional Networks, Signed Graph Convolutional Networks and Graph Isomorphic Networks to facilitate the efficient encoding of real-valued edge costs. Moreover, we employ a reformulation of the multicut ILP constraints to a polynomial program as loss function that allows to learn feasible multicut solutions in a scalable way. Thus, we provide the first approach towards end-to-end trainable multicuts. Our findings support that GNN approaches can produce good solutions in practice while providing lower computation times and largely improved scalability compared to LP solvers and optimized heuristics, especially when considering large instances.
翻訳日:2022-04-05 13:29:28 公開日:2022-04-04
# doda: 3次元屋内意味セグメンテーションのためのデータ指向sim-to-realドメイン適応

DODA: Data-oriented Sim-to-Real Domain Adaptation for 3D Indoor Semantic Segmentation ( http://arxiv.org/abs/2204.01599v1 )

ライセンス: Link先を確認
Runyu Ding, Jihan Yang, Li Jiang, Xiaojuan Qi(参考訳) ディープラーニングのアプローチは、3dセマンティックセグメンテーションで顕著な成功を収める。 しかし、高密度に注釈付けされた現実世界の3Dデータセットの収集は非常に時間と費用がかかる。 合成データのトレーニングモデルや実世界のシナリオの一般化は、魅力的な選択肢となるが、残念ながらドメインシフトに悩まされている。 本研究では,データ指向ドメイン適応(DODA)フレームワークを提案する。このフレームワークは,ドメイン間の異なる検知機構とレイアウト配置によって生じるパターンとコンテキストギャップを緩和する。 我々のDODAは,仮想スキャンシミュレーションを用いて,実世界の点雲パターンとテールアウェアキュービド混合を模倣し,内部のコンテキストギャップをキュービドベースの中間ドメインで緩和する。 3D屋内セマンティックセグメンテーションに関する最初の教師なしのsim-to-real適応ベンチマークは、人気のあるUnsupervised Domain Adaptation (UDA)メソッドとともに、3D-FRONT、ScanNet、S3DISにも構築されている。 我々のDODAは3D-FRONT $\rightarrow$ ScanNetと3D-FRONT $\rightarrow$ S3DISの両方で既存のUDAアプローチを13%以上上回る。 コードは利用可能だ。

Deep learning approaches achieve prominent success in 3D semantic segmentation. However, collecting densely annotated real-world 3D datasets is extremely time-consuming and expensive. Training models on synthetic data and generalizing on real-world scenarios becomes an appealing alternative, but unfortunately suffers from notorious domain shifts. In this work, we propose a Data-Oriented Domain Adaptation (DODA) framework to mitigate pattern and context gaps caused by different sensing mechanisms and layout placements across domains. Our DODA encompasses virtual scan simulation to imitate real-world point cloud patterns and tail-aware cuboid mixing to alleviate the interior context gap with a cuboid-based intermediate domain. The first unsupervised sim-to-real adaptation benchmark on 3D indoor semantic segmentation is also built on 3D-FRONT, ScanNet and S3DIS along with 7 popular Unsupervised Domain Adaptation (UDA) methods. Our DODA surpasses existing UDA approaches by over 13% on both 3D-FRONT $\rightarrow$ ScanNet and 3D-FRONT $\rightarrow$ S3DIS. Code will be available.
翻訳日:2022-04-05 13:29:04 公開日:2022-04-04
# MultiMAE:マルチモーダルマルチタスクマスクオートエンコーダ

MultiMAE: Multi-modal Multi-task Masked Autoencoders ( http://arxiv.org/abs/2204.01678v1 )

ライセンス: Link先を確認
Roman Bachmann, David Mizrahi, Andrei Atanov, Amir Zamir(参考訳) マルチモーダルマルチタスクマスケ自動エンコーダ(MultiMAE)と呼ばれる事前学習戦略を提案する。 標準のMasked Autoencodingとは、RGBイメージ("multi-modal")とRGBイメージ("multi-task")の2つの重要な側面で異なり、そのトレーニング目的はRGBイメージ("multi-task")以外の複数の出力を予測することを含む。 マスキング(画像パッチと入力モダリティを横断する)を利用して、トレーニングをマルチメイトリビュート可能にし、ネットワークによって実際にクロスモダリティ予測コーディングが学べるようにします。 我々は、この事前学習戦略が、下流タスクへの転送結果を改善した柔軟でシンプルで効率的なフレームワークにつながることを示す。 特に、RGBイメージ以外の追加情報やRGB以外の情報がない場合には、同じ完全に事前トレーニングされたネットワークを柔軟に使用することができる。 複数のモダリティとタスクを持つデータセットのトレーニングを避けるために、擬似ラベリングを使ってMultiMAEをトレーニングします。 実験は、複数の転送タスク(画像分類、セマンティックセグメンテーション、深さ推定)とデータセット(ImageNet、ADE20K、Taskonomy、Hypersim、NYUv2)で実行される。 その結果、クロスモーダル/タスク予測符号化および転送におけるモデルによる興味深い印象的な能力を示した。

We propose a pre-training strategy called Multi-modal Multi-task Masked Autoencoders (MultiMAE). It differs from standard Masked Autoencoding in two key aspects: I) it can optionally accept additional modalities of information in the input besides the RGB image (hence "multi-modal"), and II) its training objective accordingly includes predicting multiple outputs besides the RGB image (hence "multi-task"). We make use of masking (across image patches and input modalities) to make training MultiMAE tractable as well as to ensure cross-modality predictive coding is indeed learned by the network. We show this pre-training strategy leads to a flexible, simple, and efficient framework with improved transfer results to downstream tasks. In particular, the same exact pre-trained network can be flexibly used when additional information besides RGB images is available or when no information other than RGB is available - in all configurations yielding competitive to or significantly better results than the baselines. To avoid needing training datasets with multiple modalities and tasks, we train MultiMAE entirely using pseudo labeling, which makes the framework widely applicable to any RGB dataset. The experiments are performed on multiple transfer tasks (image classification, semantic segmentation, depth estimation) and datasets (ImageNet, ADE20K, Taskonomy, Hypersim, NYUv2). The results show an intriguingly impressive capability by the model in cross-modal/task predictive coding and transfer.
翻訳日:2022-04-05 13:28:32 公開日:2022-04-04
# (参考訳) 暗黙的周期的場ネットワークを用いたexemplar-bsaedパターン合成 [全文訳有]

Exemplar-bsaed Pattern Synthesis with Implicit Periodic Field Network ( http://arxiv.org/abs/2204.01671v1 )

ライセンス: CC BY 4.0
Haiwei Chen, Jiayi Liu, Weikai Chen, Shichen Liu, Yajie Zhao(参考訳) エルゴディックな静止視覚パターンの合成は、テクスチャ、形状モデリング、デジタルコンテンツ作成に広く応用されている。 したがって、この技術の幅広い適用性は、パターン合成アプローチがスケーラブルで多様で、本物である必要がある。 本稿では,視覚パターンの内部統計をモデル化し,前述の要件を満たす新たな多用途パターンを生成することを目的とした,例題ベースのビジュアルパターン合成フレームワークを提案する。 そこで我々は,GAN(Generative Adversarial Network)と周期符号化に基づく暗黙のネットワークを提案し,このネットワークをIPFN(Implicit Periodic Field Network)と呼ぶ。 IPFNの設計はスケーラビリティを保証する:暗黙の定式化は入力座標を直接特徴にマッピングし、任意の大きさの合成を可能にし、3次元形状合成に計算効率が良い。 ネットワークは、周期的な分野における空間潜在符号に基づいて、模範者の内部統計をモデル化することを制約される。 連続的に設計されたGANトレーニング手順と組み合わせて、IPFNはスムーズな遷移と局所的な変動でタイル状パターンを合成する。 最後に、敵対的トレーニング技術と符号化されたフーリエ機能のおかげで、IPFNは真に高品質な結果を生み出す高周波関数を学習する。 本研究では,2次元テクスチャ合成と3次元形状合成の様々な応用に関する新しい実験結果を示す。

Synthesis of ergodic, stationary visual patterns is widely applicable in texturing, shape modeling, and digital content creation. The wide applicability of this technique thus requires the pattern synthesis approaches to be scalable, diverse, and authentic. In this paper, we propose an exemplar-based visual pattern synthesis framework that aims to model the inner statistics of visual patterns and generate new, versatile patterns that meet the aforementioned requirements. To this end, we propose an implicit network based on generative adversarial network (GAN) and periodic encoding, thus calling our network the Implicit Periodic Field Network (IPFN). The design of IPFN ensures scalability: the implicit formulation directly maps the input coordinates to features, which enables synthesis of arbitrary size and is computationally efficient for 3D shape synthesis. Learning with a periodic encoding scheme encourages diversity: the network is constrained to model the inner statistics of the exemplar based on spatial latent codes in a periodic field. Coupled with continuously designed GAN training procedures, IPFN is shown to synthesize tileable patterns with smooth transitions and local variations. Last but not least, thanks to both the adversarial training technique and the encoded Fourier features, IPFN learns high-frequency functions that produce authentic, high-quality results. To validate our approach, we present novel experimental results on various applications in 2D texture synthesis and 3D shape synthesis.
翻訳日:2022-04-05 13:26:48 公開日:2022-04-04
# BatchFormerV2:Dense Representation Learningのためのサンプル関係を探る

BatchFormerV2: Exploring Sample Relationships for Dense Representation Learning ( http://arxiv.org/abs/2204.01254v1 )

ライセンス: Link先を確認
Zhi Hou, Baosheng Yu, Chaoyue Wang, Yibing Zhan, Dacheng Tao(参考訳) 深いニューラルネットワークでは注意機構が非常に人気があり、Transformerアーキテクチャは自然言語処理だけでなく視覚認識アプリケーションでも大きな成功を収めている。 近年,空間・チャネル次元ではなくバッチ次元に適用する新しいトランスフォーマモジュールである batchformer [18] が,データの不足を克服するためのサンプル関係を探求するために導入された。 しかし、分類のための画像レベルの表現のみで動作する。 本稿では,より一般的なバッチ変換モジュールである batchformerv2 を考案する。 具体的には、提案されたモジュールを適用する際には、トレーニング中に2ストリームパイプライン、すなわちBatchFormerV2モジュールで、テストのためにバッチフォーマーストリームを削除することができる。 そこで,提案手法はプラグアンドプレイモジュールであり,余分な推論コストを伴わずに異なる視覚変換器に容易に統合できる。 ベルとホイッスルがなければ,画像分類や2つの重要な密集予測タスクである物体検出と汎視的セグメンテーションを含む,様々な視覚的タスクに対する提案手法の有効性を示す。 特に、BatchFormerV2は、現在のDETRベースの検出方法(DeTR、Deformable-DETR、Conditional DETR、SMCA)を1.3%以上改善している。 コードは公開される予定だ。

Attention mechanisms have been very popular in deep neural networks, where the Transformer architecture has achieved great success in not only natural language processing but also visual recognition applications. Recently, a new Transformer module, applying on batch dimension rather than spatial/channel dimension, i.e., BatchFormer [18], has been introduced to explore sample relationships for overcoming data scarcity challenges. However, it only works with image-level representations for classification. In this paper, we devise a more general batch Transformer module, BatchFormerV2, which further enables exploring sample relationships for dense representation learning. Specifically, when applying the proposed module, it employs a two-stream pipeline during training, i.e., either with or without a BatchFormerV2 module, where the batchformer stream can be removed for testing. Therefore, the proposed method is a plug-and-play module and can be easily integrated into different vision Transformers without any extra inference cost. Without bells and whistles, we show the effectiveness of the proposed method for a variety of popular visual recognition tasks, including image classification and two important dense prediction tasks: object detection and panoptic segmentation. Particularly, BatchFormerV2 consistently improves current DETR-based detection methods (e.g., DETR, Deformable-DETR, Conditional DETR, and SMCA) by over 1.3%. Code will be made publicly available.
翻訳日:2022-04-05 13:09:30 公開日:2022-04-04
# 自己適応型3次元姿勢復元のためのシルエットトポロジーの調整

Aligning Silhouette Topology for Self-Adaptive 3D Human Pose Recovery ( http://arxiv.org/abs/2204.01276v1 )

ライセンス: Link先を確認
Mugalodi Rakesh, Jogendra Nath Kundu, Varun Jampani, R. Venkatesh Babu(参考訳) アーティキュレーション中心の2D/3Dポーズ監視は、既存の多くの人間のポーズ推定技術においてコアトレーニング目標を形成する。 合成ソース環境を除くと、デプロイ時に実際のターゲットドメインごとにそのようなリッチな監督を取得することは、非常に不便である。 しかし,地上の標準シルエット推定技術(静止カメラフィード)はドメインシフトの影響を受けないままである。 そこで本研究では,ソース学習モデルベース回帰器を適応させるために,シルエット監視のみに依存する新たなターゲット適応フレームワークを提案する。 しかしながら、補助的なキュー(マルチビュー、ディープ、または2Dポーズ)がなければ、孤立したシルエットの損失は、信頼できるポーズ特異的な勾配を与えず、トポロジー中心の損失を伴うタンデムで使用される必要がある。 この目的のために, トポロジカルスケルトン表現を生シルエットから切り離すために, 一連の畳み込み型空間変換を開発する。 このような設計は、空間-点間マッピングを妨げる勾配を効果的に回避しつつ、チャムファーにインスパイアされた距離場計算による空間的配向損失を考案する道を開く。 実験結果から,自己適応型ソーストレーニングモデルにおける先行技術に対する優位性を示す。 a) the-the-wild データセット b)低解像度画像領域、及び c) (UAPを介して)逆向きに摂動した画像領域

Articulation-centric 2D/3D pose supervision forms the core training objective in most existing 3D human pose estimation techniques. Except for synthetic source environments, acquiring such rich supervision for each real target domain at deployment is highly inconvenient. However, we realize that standard foreground silhouette estimation techniques (on static camera feeds) remain unaffected by domain-shifts. Motivated by this, we propose a novel target adaptation framework that relies only on silhouette supervision to adapt a source-trained model-based regressor. However, in the absence of any auxiliary cue (multi-view, depth, or 2D pose), an isolated silhouette loss fails to provide a reliable pose-specific gradient and requires to be employed in tandem with a topology-centric loss. To this end, we develop a series of convolution-friendly spatial transformations in order to disentangle a topological-skeleton representation from the raw silhouette. Such a design paves the way to devise a Chamfer-inspired spatial topological-alignmen t loss via distance field computation, while effectively avoiding any gradient hindering spatial-to-pointset mapping. Experimental results demonstrate our superiority against prior-arts in self-adapting a source trained model to diverse unlabeled target domains, such as a) in-the-wild datasets, b) low-resolution image domains, and c) adversarially perturbed image domains (via UAP).
翻訳日:2022-04-05 13:07:20 公開日:2022-04-04
# 細粒度制御によるフレキシブルポートレート画像編集

Flexible Portrait Image Editing with Fine-Grained Control ( http://arxiv.org/abs/2204.01318v1 )

ライセンス: Link先を確認
Linlin Liu, Qian Fu, Fei Hou, Ying He(参考訳) 我々は,1つのニューラルネットワークモデルを用いたジオメトリ,色,光,影のきめ細かい編集を支援する肖像画編集法を開発した。 エッジマップ、カラーパレット、スライダ、マスクなどの変換された条件付き入力をユーザが直接編集できる、ジェネレータが制御可能な画像生成をより効果的に導くように条件付き入力を取る、という、新しい非対称条件付きganアーキテクチャを採用する。 例えば、色編集を例として、色パレット(簡単に編集できる)をジェネレータに、色マップ(色の位置情報を含む)を識別器に供給します。 また、目や皮膚などのより重要な領域により高い重量を割り当てるように、地域重み付き判別器を設計する。 カラーパレットを使用して、ユーザーは髪、肌、目、唇、背景の所望の色を直接指定することができる。 カラースライダーは、ユーザが直感的に色を混ぜることを可能にする。 ユーザーは対応するマスクを変更してライトやシャドーを編集することもできる。 本手法の有効性をCelebAMask-HQデータセット上で評価し,色/色/影/光の編集,手描きスケッチから画像への変換,色変換など,幅広いタスクで検証した。 設計を正当化するためのアブレーション研究も提示する。

We develop a new method for portrait image editing, which supports fine-grained editing of geometries, colors, lights and shadows using a single neural network model. We adopt a novel asymmetric conditional GAN architecture: the generators take the transformed conditional inputs, such as edge maps, color palette, sliders and masks, that can be directly edited by the user; the discriminators take the conditional inputs in the way that can guide controllable image generation more effectively. Taking color editing as an example, we feed color palettes (which can be edited easily) into the generator, and color maps (which contain positional information of colors) into the discriminator. We also design a region-weighted discriminator so that higher weights are assigned to more important regions, like eyes and skin. Using a color palette, the user can directly specify the desired colors of hair, skin, eyes, lip and background. Color sliders allow the user to blend colors in an intuitive manner. The user can also edit lights and shadows by modifying the corresponding masks. We demonstrate the effectiveness of our method by evaluating it on the CelebAMask-HQ dataset with a wide range of tasks, including geometry/color/shado w/light editing, hand-drawn sketch to image translation, and color transfer. We also present ablation studies to justify our design.
翻訳日:2022-04-05 13:06:55 公開日:2022-04-04
# (参考訳) spectre : スペクトル条件付けはワンショットグラフ生成器の表現限界を克服するのに役立つ [全文訳有]

SPECTRE : Spectral Conditioning Helps to Overcome the Expressivity Limits of One-shot Graph Generators ( http://arxiv.org/abs/2204.01613v1 )

ライセンス: CC BY 4.0
Karolis Martinkus, Andreas Loukas, Nathana\"el Perraudin, Roger Wattenhofer(参考訳) まずグラフラプラシアスペクトルの優位部分を生成し,これらの固有値と固有ベクトルに一致するグラフを構築することで,スペクトルの観点からグラフ生成問題にアプローチする。 スペクトル条件付けは、大域および局所グラフ構造の直接モデリングを可能にし、ワンショットグラフ生成器の表現性とモード崩壊問題を克服するのに役立つ。 我々の新しいGANはSPECTREと呼ばれ、従来よりもずっと大きなグラフのワンショット生成を可能にする。 SPECTREは、高コストなシーケンシャルな生成とノード順序への依存を回避しつつ、モデリング忠実度の観点から最先端の自己回帰ジェネレータよりも優れている。 ある点において、SPECTREは、過度に適合せず、自己回帰生成器の23倍から30倍の速さで、最高の競合相手よりも4倍から170倍の改善を達成している。

We approach the graph generation problem from a spectral perspective by first generating the dominant parts of the graph Laplacian spectrum and then building a graph matching these eigenvalues and eigenvectors. Spectral conditioning allows for direct modeling of the global and local graph structure and helps to overcome the expressivity and mode collapse issues of one-shot graph generators. Our novel GAN, called SPECTRE, enables the one-shot generation of much larger graphs than previously possible with one-shot models. SPECTRE outperforms state-of-the-art deep autoregressive generators in terms of modeling fidelity, while also avoiding expensive sequential generation and dependence on node ordering. A case in point, in sizable synthetic and real-world graphs SPECTRE achieves a 4-to-170 fold improvement over the best competitor that does not overfit and is 23-to-30 times faster than autoregressive generators.
翻訳日:2022-04-05 13:03:29 公開日:2022-04-04
# テンポラルグラウンドでの学習コモンセンス認識モーメントテキストアライメント

Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal Grounding ( http://arxiv.org/abs/2204.01450v1 )

ライセンス: Link先を確認
Ziyue Wu, Junyu Gao, Shucheng Huang, Changsheng Xu(参考訳) 自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンドすることは、視覚・言語分野において必須の能力である。 本稿では,高速ビデオ時間グラウンド(FVTG)タスクに対処し,高速かつ良好な精度で目標セグメントをローカライズすることを目的とした。 既存のアプローチの多くは、テスト時のボトルネックに苦しむ接地性能を改善するために、精巧に設計されたクロスモーダルインタラクションモジュールを採用している。 いくつかの一般的な空間ベースの手法は推論中に高速の利点を享受するが、視覚とテキストのモダリティの間の包括的かつ明示的な関係を捉えることはほとんどできない。 本稿では,速度-精度トレードオフのジレンマに対処するために,広義の視覚とテキストの表現を相補的な共通空間に組み込んだ,広義のクロスモーダルアライメント(CCA)フレームワークを提案する。 具体的には、言語コーパスから構造意味情報を抽出することで、コモンセンスの概念を探求し、活用する。 次に、学習したコモンセンス概念を利用して、コモンセンス・アウェアインタラクションモジュールを橋渡し視覚とテキストの特徴を得るように設計する。 最後に、テキストクエリの本来の意味情報を維持するために、クロスモーダル補完共通空間を最適化して、fvtgを実行するためのマッチングスコアを得る。 2つの挑戦的ベンチマークの結果から,CCA法は高速走行時の最先端技術に対して良好に動作することが示された。 私たちのコードはhttps://github.com/z iyuewu59/ccaで利用可能です。

Grounding temporal video segments described in natural language queries effectively and efficiently is a crucial capability needed in vision-and-language fields. In this paper, we deal with the fast video temporal grounding (FVTG) task, aiming at localizing the target segment with high speed and favorable accuracy. Most existing approaches adopt elaborately designed cross-modal interaction modules to improve the grounding performance, which suffer from the test-time bottleneck. Although several common space-based methods enjoy the high-speed merit during inference, they can hardly capture the comprehensive and explicit relations between visual and textual modalities. In this paper, to tackle the dilemma of speed-accuracy tradeoff, we propose a commonsense-aware cross-modal alignment (CCA) framework, which incorporates commonsense-guided visual and text representations into a complementary common space for fast video temporal grounding. Specifically, the commonsense concepts are explored and exploited by extracting the structural semantic information from a language corpus. Then, a commonsense-aware interaction module is designed to obtain bridged visual and text features by utilizing the learned commonsense concepts. Finally, to maintain the original semantic information of textual queries, a cross-modal complementary common space is optimized to obtain matching scores for performing FVTG. Extensive results on two challenging benchmarks show that our CCA method performs favorably against state-of-the-arts while running at high speed. Our code is available at https://github.com/Z iyueWu59/CCA.
翻訳日:2022-04-05 12:36:46 公開日:2022-04-04
# MaxViT:マルチ軸ビジョントランス

MaxViT: Multi-Axis Vision Transformer ( http://arxiv.org/abs/2204.01697v1 )

ライセンス: Link先を確認
Zhengzhong Tu, Hossein Talebi, Han Zhang, Feng Yang, Peyman Milanfar, Alan Bovik, Yinxiao Li(参考訳) トランスフォーマーは最近、コンピュータビジョンコミュニティで大きな注目を集めている。 しかし、画像サイズに関する自己着脱機構のスケーラビリティの欠如は、最先端のビジョンバックボーンにおける広範な採用を制限している。 本稿では,マルチ軸アテンション(multi-axis attention)という,局所的および拡張的アテンションという2つの側面からなる,効率的かつスケーラブルなアテンションモデルを提案する。 これらの設計選択は、線形複雑度のみを持つ任意の入力解像度に対するグローバルな空間的相互作用を可能にする。 また,提案したアテンションモデルと畳み込みを効果的に組み合わせた新しいアーキテクチャ要素を提案するとともに,複数のステージにまたがる基本的なビルディングブロックを繰り返すことで,MaxViTと呼ばれる単純な階層型視覚バックボーンを提案する。 特にMaxViTは、初期の高解像度の段階でも、ネットワーク全体を通して"見る"ことができる。 我々は,幅広い視覚課題におけるモデルの有効性を実証する。 画像分類では、MaxViTは、余分なデータなしで86.5倍のImageNet-1Kトップ-1精度を実現し、ImageNet-21K事前トレーニングでは、88.7倍のTop-1精度を達成する。 下流タスクでは、MaxViTをバックボーンとして、オブジェクト検出と視覚的美的評価に好適なパフォーマンスを提供する。 また,提案モデルでは,イメージネット上での強力な生成モデリング能力を示し,ユニバーサルビジョンモジュールとしてのMaxViTブロックの優れた可能性を示す。 コードとモデルを公開します。

Transformers have recently gained significant attention in the computer vision community. However, the lack of scalability of self-attention mechanisms with respect to image size has limited their wide adoption in state-of-the-art vision backbones. In this paper we introduce an efficient and scalable attention model we call multi-axis attention, which consists of two aspects: blocked local and dilated global attention. These design choices allow global-local spatial interactions on arbitrary input resolutions with only linear complexity. We also present a new architectural element by effectively blending our proposed attention model with convolutions, and accordingly propose a simple hierarchical vision backbone, dubbed MaxViT, by simply repeating the basic building block over multiple stages. Notably, MaxViT is able to "see" globally throughout the entire network, even in earlier, high-resolution stages. We demonstrate the effectiveness of our model on a broad spectrum of vision tasks. On image classification, MaxViT achieves state-of-the-art performance under various settings: without extra data, MaxViT attains 86.5\% ImageNet-1K top-1 accuracy; with ImageNet-21K pre-training, our model achieves 88.7\% top-1 accuracy. For downstream tasks, MaxViT as a backbone delivers favorable performance on object detection as well as visual aesthetic assessment. We also show that our proposed model expresses strong generative modeling capability on ImageNet, demonstrating the superior potential of MaxViT blocks as a universal vision module. We will make the code and models publicly available.
翻訳日:2022-04-05 12:35:46 公開日:2022-04-04
# スライスされたワッサースタインのイメージ再考: ベクトル化から畳み込みへ

Revisiting Sliced Wasserstein on Images: From Vectorization to Convolution ( http://arxiv.org/abs/2204.01188v1 )

ライセンス: Link先を確認
Khai Nguyen and Nhat Ho(参考訳) 従来のスライスされたワッサーシュタインはベクトルとして実現される2つの確率測度の間で定義される。 画像上の2つの確率測度を比較する際、まず画像のベクトル化を行い、サンプル行列と投影行列の行列乗算を用いて1次元空間に投影する。 その後、対応する2つの1次元射影確率測度を平均することにより、スライスされたワッサースタインを評価する。 しかし、このアプローチには2つの制限がある。 第1の制限は、画像の空間構造がベクトル化ステップによって効率的に捕捉されないことである。 第2の制限は、各スライシング方向が画像と同じ次元のベクトルであるため、メモリ非効率である。 これらの制約に対処するために,畳み込み演算子に基づく画像上の確率測度間のスライスワッサースタインの新しいスライシング法を提案する。 畳み込み演算子にストライド,拡張,非線形活性化機能を組み込んだ畳み込みスライスドワッサースタイン(csw)とその変種を導出する。 cswの計量性とそのサンプル複雑性,計算複雑性,従来のスライスワッサースタイン距離との関係について検討した。 最後に,従来のスライスされたwassersteinに対するcswの有用性を,画像上の確率測度の比較や,画像の深部生成モデリングの訓練において示している。

The conventional sliced Wasserstein is defined between two probability measures that have realizations as vectors. When comparing two probability measures over images, practitioners first need to vectorize images and then project them to one-dimensional space by using matrix multiplication between the sample matrix and the projection matrix. After that, the sliced Wasserstein is evaluated by averaging the two corresponding one-dimensional projected probability measures. However, this approach has two limitations. The first limitation is that the spatial structure of images is not captured efficiently by the vectorization step; therefore, the later slicing process becomes harder to gather the discrepancy information. The second limitation is memory inefficiency since each slicing direction is a vector that has the same dimension as the images. To address these limitations, we propose novel slicing methods for sliced Wasserstein between probability measures over images that are based on the convolution operators. We derive convolution sliced Wasserstein (CSW) and its variants via incorporating stride, dilation, and non-linear activation function into the convolution operators. We investigate the metricity of CSW as well as its sample complexity, its computational complexity, and its connection to conventional sliced Wasserstein distances. Finally, we demonstrate the favorable performance of CSW over the conventional sliced Wasserstein in comparing probability measures over images and in training deep generative modeling on images.
翻訳日:2022-04-05 12:35:21 公開日:2022-04-04
# (参考訳) 自己教師付き事前学習表現の有用性に影響を及ぼす要因の分析 [全文訳有]

Analyzing the factors affecting usefulness of Self-Supervised Pre-trained Representations for Speech Recognition ( http://arxiv.org/abs/2203.16973v2 )

ライセンス: CC BY 4.0
Lodagala V S V Durga Prasad and Ashish Seth and Sreyan Ghosh and S. Umesh(参考訳) 高レベルの音声表現を学習するための自己教師付き学習(SSL)は、低リソース環境で自動音声認識(ASR)システムを構築するための一般的なアプローチである。 しかし、文献では、SSL事前トレーニングに活用できる同一のドメインや言語に対して、かなりの量のラベルのないデータが利用できるという仮定が一般的であり、現実の環境では実現不可能であることを認めている。 本稿では,この間欠的なgram vaani asrチャレンジの一環として,openstream pre-training sslデータのドメイン,言語,データセットサイズ,その他の側面が,最終パフォーマンスの低リソースダウンストリームasrタスクに与える影響について検討する。 また、SSLを用いてトレーニングされたモデルが持つ事前知識の効果を研究するために、継続した事前学習パラダイムを構築した。 大規模な実験と研究により、ASRシステムの性能はSSL事前トレーニングに使用されるデータに影響を受けやすいことが明らかとなった。 彼らのパフォーマンスは、事前トレーニングデータの類似性とボリュームの増加によって向上する。 我々の研究は、低リソース環境でのより良いASRシステムの構築と、SSLベースの音声システムのための事前学習の一般化に向けたステアリサーチにおいて、音声コミュニティに役立ちます。

Self-supervised learning (SSL) to learn high-level speech representations has been a popular approach to building Automatic Speech Recognition (ASR) systems in low-resource settings. However, the common assumption made in literature is that a considerable amount of unlabeled data is available for the same domain or language that can be leveraged for SSL pre-training, which we acknowledge is not feasible in a real-world setting. In this paper, as part of the Interspeech Gram Vaani ASR challenge, we try to study the effect of domain, language, dataset size, and other aspects of our upstream pre-training SSL data on the final performance low-resource downstream ASR task. We also build on the continued pre-training paradigm to study the effect of prior knowledge possessed by models trained using SSL. Extensive experiments and studies reveal that the performance of ASR systems is susceptible to the data used for SSL pre-training. Their performance improves with an increase in similarity and volume of pre-training data. We believe our work will be helpful to the speech community in building better ASR systems in low-resource settings and steer research towards improving generalization in SSL-based pre-training for speech systems.
翻訳日:2022-04-05 11:12:04 公開日:2022-04-04
# CAT-Det:マルチモーダル3Dオブジェクト検出のためのコントラスト拡張変換器

CAT-Det: Contrastively Augmented Transformer for Multi-modal 3D Object Detection ( http://arxiv.org/abs/2204.00325v2 )

ライセンス: Link先を確認
Yanan Zhang, Jiaxin Chen, Di Huang(参考訳) 自律運転では、LiDARポイントクラウドとRGBイメージが2つの主要なデータモダリティであり、3Dオブジェクト検出のための補完的なキューである。 しかし,モード間差異が大きいため,十分に使用するのは非常に困難である。 この問題に対処するため,マルチモーダル3Dオブジェクト検出(CAT-Det)のためのContrastively Augmented Transformerを提案する。 具体的には、CAT-DetはPointformer (PT) ブランチと Imageformer (IT) ブランチとCMT (Cross-Modal Transformer) モジュールで構成される2ストリーム構造を採用している。 PT、IT、CMTは、オブジェクトを表現するためのモダル内およびモダル間長距離コンテキストを共同で符号化し、検出のためのマルチモーダル情報を完全に探索する。 さらに,一方向マルチモーダルデータ拡張 (OMDA) 手法を,点レベルと対象レベルでの階層的コントラスト学習により効果的に提案する。 KITTIベンチマークの大規模な実験は、CAT-Detが新たな最先端を実現し、その有効性を強調していることを示している。

In autonomous driving, LiDAR point-clouds and RGB images are two major data modalities with complementary cues for 3D object detection. However, it is quite difficult to sufficiently use them, due to large inter-modal discrepancies. To address this issue, we propose a novel framework, namely Contrastively Augmented Transformer for multi-modal 3D object Detection (CAT-Det). Specifically, CAT-Det adopts a two-stream structure consisting of a Pointformer (PT) branch, an Imageformer (IT) branch along with a Cross-Modal Transformer (CMT) module. PT, IT and CMT jointly encode intra-modal and inter-modal long-range contexts for representing an object, thus fully exploring multi-modal information for detection. Furthermore, we propose an effective One-way Multi-modal Data Augmentation (OMDA) approach via hierarchical contrastive learning at both the point and object levels, significantly improving the accuracy only by augmenting point-clouds, which is free from complex generation of paired samples of the two modalities. Extensive experiments on the KITTI benchmark show that CAT-Det achieves a new state-of-the-art, highlighting its effectiveness.
翻訳日:2022-04-05 10:57:10 公開日:2022-04-04
# dfnet: 機能マッチングによる絶対ポーズ回帰の強化

DFNet: Enhance Absolute Pose Regression with Direct Feature Matching ( http://arxiv.org/abs/2204.00559v2 )

ライセンス: Link先を確認
Shuai Chen, Xinghui Li, Zirui Wang, Victor Adrian Prisacariu(参考訳) 絶対ポーズ回帰(APR)と直接特徴マッチングを組み合わせたカメラ再局在パイプラインを導入する。 既存の測光手法は、例えば屋外環境のような大きな測光歪みのある場面で問題となる。 露光適応型新規ビュー合成を取り入れることで,本手法は課題に対処できる。 さらに,領域不変特徴マッチングを導入することで,ラベルなしデータで半教師付き学習をしながらポーズ回帰精度を向上させることができる。 特にパイプラインは、Novell View SynthesizerとFeatureNet(DFNet)の2つのコンポーネントで構成されている。 前者は露出の変化を補う新しいビューを合成し、後者はカメラのポーズを取り、実際の画像と合成画像の間の領域ギャップを埋める堅牢な特徴を抽出する。 ドメイン不変特徴マッチングは,室内と屋外の両方において,カメラのポーズ推定を効果的に向上させる。 そこで本手法は,既存の単一画像apr法を最大56%上回り,3次元構造ベース法に匹敵する精度を実現している。

We introduce a camera relocalization pipeline that combines absolute pose regression (APR) and direct feature matching. Existing photometric-based methods have trouble on scenes with large photometric distortions, e.g. outdoor environments. By incorporating an exposure-adaptive novel view synthesis, our methods can successfully address the challenges. Moreover, by introducing domain-invariant feature matching, our solution can improve pose regression accuracy while using semi-supervised learning on unlabeled data. In particular, the pipeline consists of two components, Novel View Synthesizer and FeatureNet (DFNet). The former synthesizes novel views compensating for changes in exposure and the latter regresses camera poses and extracts robust features that bridge the domain gap between real images and synthetic ones. We show that domain invariant feature matching effectively enhances camera pose estimation both in indoor and outdoor scenes. Hence, our method achieves a state-of-the-art accuracy by outperforming existing single-image APR methods by as much as 56%, comparable to 3D structure-based methods.
翻訳日:2022-04-05 10:56:47 公開日:2022-04-04